このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200502となっている論文です。

PDF登録状況(公開日: 20200502)

TitleAuthorsAbstract論文公表日・翻訳日
# 弱「破れた」リー代数表現の埋め込みとしての量子傷

Quantum scars as embeddings of weakly "broken" Lie algebra representations ( http://arxiv.org/abs/2001.08232v2 )

ライセンス: Link先を確認
Kieran Bull, Jean-Yves Desaules, Zlatko Papic(参考訳) 本稿では,多体量子系の固有状態のサブセットにまたがるリー代数の弱い「ブローケン」表現として,スカー状態と量子復調の解釈を提案する。 強く相互作用するリドバーグ原子を記述するpxpモデルは、スカーレッド固有状態の異なる族に対応する複数の$\mathrm{su(2)}$リー代数の「ロース」埋め込みをサポートする。 さらに、これらの埋め込みは、任意の電荷密度波の積状態からリバイバルを安定化する最適な摂動を、非摂動型pxpモデルでリバイバルを示さないものを含む、任意の電荷密度波状態のリバイバルを安定化する反復過程を通じて、漸進的に正確になることを実証する。 pxpモデルに存在するリー代数のゆるい埋め込みと、関連するモデルにおける最近のスカーレッド状態の正確な構成との関係について論じる。

We present an interpretation of scar states and quantum revivals as weakly "broken" representations of Lie algebras spanned by a subset of eigenstates of a many-body quantum system. We show that the PXP model, describing strongly-interacting Rydberg atoms, supports a "loose" embedding of multiple $\mathrm{su(2)}$ Lie algebras corresponding to distinct families of scarred eigenstates. Moreover, we demonstrate that these embeddings can be made progressively more accurate via an iterative process which results in optimal perturbations that stabilize revivals from arbitrary charge density wave product states, $|\mathbb{Z}_n\rangle$, including ones that show no revivals in the unperturbed PXP model. We discuss the relation between the loose embeddings of Lie algebras present in the PXP model and recent exact constructions of scarred states in related models.
翻訳日:2023-06-06 06:58:37 公開日:2020-05-02
# 量子スクランブルと相互情報の成長

Quantum scrambling and the growth of mutual information ( http://arxiv.org/abs/2002.02867v2 )

ライセンス: Link先を確認
Akram Touil and Sebastian Deffner(参考訳) 量子情報スクランブル (quantum information scrambling) は、高エネルギー物理学から量子コンピューティングへ広く注目されている量子情報の局所的回復性の喪失を指す。 本稿では,スクランブルの熱力学の包括的枠組みの開発に向けた出発点を提案する。 この目的のために、相互情報によって定量化される絡み合いの増大は、時間依存のOut-Of-Time-Ordered Correlatorの変化により低く抑えられていることを示す。 さらに,局所的なエントロピー生成の総和と,量子系の別々の分割間の情報の流れから生じる交換エントロピーによって,相互情報の増大率を上限にすることができることを示す。 実験において情報スクランブルの検証に最近用いられたイオントラップシステムと,sachdev-ye-kitaevモデルを用いて実験を行った。

Quantum information scrambling refers to the loss of local recoverability of quantum information, which has found widespread attention from high energy physics to quantum computing. In the present analysis we propose a possible starting point for the development of a comprehensive framework for the thermodynamics of scrambling. To this end, we prove that the growth of entanglement as quantified by the mutual information is lower bounded by the time-dependent change of Out-Of-Time-Ordered Correlator. We further show that the rate of increase of the mutual information can be upper bounded by the sum of local entropy productions, and the exchange entropy arising from the flow of information between separate partitions of a quantum system. Our results are illustrated for the ion trap system, that was recently used to verify information scrambling in an experiment, and for the Sachdev-Ye-Kitaev model.
翻訳日:2023-06-04 07:35:34 公開日:2020-05-02
# ワイルの問題:計算的アプローチ

Weyl's problem: A computational approach ( http://arxiv.org/abs/2005.06985v1 )

ライセンス: Link先を確認
Isaac Bowser, Ken Kiers, Erica Mitchell, and Joshua Kiers(参考訳) 有界領域における波動方程式の固有値の分布はワイル問題として知られている。 本稿では,波数を最大値まで持つ状態の数として定義される累積状態数に関連するいくつかの計算プロジェクトについて述べる。 この量とその誘導体(状態密度)は核物理学、フェルミガスの縮退、黒体放射、ボース=アインシュタイン凝縮、カシミール効果に重要な応用を持つ。 ワイルの定理は、大きな波数の極限において、累積状態数は境界領域の体積にのみ依存し、その形状には依存しないと述べている。 この挙動の補正はよく知られており、境界領域の表面積、曲率、その他の特徴に依存する。 本稿では,3つの境界領域 – 長方形箱,球面,円柱 – に対して,この依存性を読者が調査できるプロジェクトについて述べる。 準1次元および2次元の系は、様々な限界を考慮して解析することができる。 プロジェクトは統計力学に応用できるが、量子力学、原子核物理学、計算物理学のコースに統合することもできる。

The distribution of eigenvalues of the wave equation in a bounded domain is known as Weyl's problem. We describe several computational projects related to the cumulative state number, defined as the number of states having wavenumber up to a maximum value. This quantity and its derivative, the density of states, have important applications in nuclear physics, degenerate Fermi gases, blackbody radiation, Bose-Einstein condensation and the Casimir effect. Weyl's theorem states that, in the limit of large wavenumbers, the cumulative state number depends only on the volume of the bounding domain and not on its shape. Corrections to this behavior are well known and depend on the surface area of the bounding domain, its curvature and other features. We describe several projects that allow readers to investigate this dependence for three bounding domains - a rectangular box, a sphere, and a circular cylinder. Quasi-one- and two-dimensional systems can be analyzed by considering various limits. The projects have applications in statistical mechanics, but can also be integrated into quantum mechanics, nuclear physics, or computational physics courses.
翻訳日:2023-05-21 13:04:08 公開日:2020-05-02
# 分数統計の代数-フェルミオンからボソンへの補間

Algebra for Fractional Statistics -- interpolating from fermions to bosons ( http://arxiv.org/abs/2005.02172v1 )

ライセンス: Link先を確認
Satish Ramakrishna(参考訳) 本稿では、クリフォード代数とハイゼンベルク代数の間の連続補間を提供する代数 $\alpha \betae^{i \theta} \beta \alpha = 1 $ のヒルベルト空間を構成する。 この形式は、任意の電子の性質にインスパイアされる。 一般化された数演算子 ({\cal n} = \beta \alpha$) の固有値を研究し、複素座標 (\lambda_0$) の値によって分類されたヒルベルト空間を構成する。 2 の非合理倍である $\theta$ に対し、無限次元表現を得るが、2 の有理倍 (\frac{M}{N}$) に対して、それは有限次元であり、複素座標 $\lambda_0$ によってパラメタ化される。 n = 2 \: ; \: \theta=\pi$ のケースはフェルミオンの通常のクリフォード代数であり、一方 $n=\infty \: ; \: \theta=0$ のケースはボソンのハイゼンベルク代数である。 フェルミオンからボソン状態への滑らかな遷移は、$N=2$から$N \rightarrow \infty$となる。 代数からヒルベルト空間を構築した後、$N=2,3$ のケースは $SU(2)$ に写像できる。 そして、より一般的に、コヒーレント状態の研究を動機付ける。 コヒーレント状態は、消滅演算子である$\alpha$の固有状態であり、非零の$\lambda_0$の複素数でラベル付けされる。

This article constructs the Hilbert space for the algebra $\alpha \beta - e^{i \theta} \beta \alpha = 1 $ that provides a continuous interpolation between the Clifford and Heisenberg algebras. This particular form is inspired by the properties of anyons. We study the eigenvalues of a generalized number operator (${\cal N} = \beta \alpha$) and construct the Hilbert space, classified by values of a complex coordinate ($\lambda_0$): the eigenvalues lie on a circle. For $\theta$ being an irrational multiple of $2 \pi$, we get an infinite-dimensional representation, however for a rational multiple ($\frac{M}{N}$) of $2 \pi$, it is finite-dimensional, parametrized by the complex coordinate $\lambda_0$. The case for $N=2 \: ; \: \theta=\pi$ is the usual Clifford algebra for fermions, while the case for $N=\infty \: ; \: \theta=0$ is the Heisenberg algebra of bosons, albeit with two copies for positive and negative eigenvalues. We find a smooth transition from the fermion to the boson situation as $N \rightarrow \infty$ from $N=2$. After constructing the Hilbert space from the algebra, the cases for $N=2,3$ can be mapped to $SU(2)$. Then, we motivate the study of coherent states, rather generally. The coherent states are eigenstates of $\alpha$, the annihilation operator and are labeled by complex numbers for non-zero $\lambda_0$.
翻訳日:2023-05-21 13:03:50 公開日:2020-05-02
# サファイアトランスデューサにおける三共振ニオブ酸リチウムを用いた極低温マイクロ波-光変換

Cryogenic microwave-to-optical conversion using a triply-resonant lithium niobate on sapphire transducer ( http://arxiv.org/abs/2005.00897v1 )

ライセンス: Link先を確認
Timothy P. McKenna, Jeremy D. Witmer, Rishi N. Patel, Wentao Jiang, Rapha\"el Van Laer, Patricio Arrangoiz-Arriola, E. Alex Wollack, Jason F. Herrmann, Amir H. Safavi-Naeini(参考訳) 量子ネットワークは、将来、計算と通信の方法に大きな影響を与える可能性が高い。 超伝導量子プロセッサをキロメートル単位の距離で結ぶためには,マイクロ波領域と光領域との絡み合いを高密度で生成できるトランスデューサが必要である。 サファイア基板上に低損失のニオブ酸リチウムフォトニックと超伝導マイクロ波共振器を組み合わせた集積型電気光学変換器を提案する。 この三重共振装置は希釈冷凍機で動作し、マイクロ波光子をオンチップ効率6.6\times 10^{-6}$、変換帯域幅20MHzの光子に変換する。 本稿では,この装置の設計上のトレードオフについて論じ,音響損失管理の戦略や将来的な変換効率向上の方法について概説する。

Quantum networks are likely to have a profound impact on the way we compute and communicate in the future. In order to wire together superconducting quantum processors over kilometer-scale distances, we need transducers that can generate entanglement between the microwave and optical domains with high fidelity. We present an integrated electro-optic transducer that combines low-loss lithium niobate photonics with superconducting microwave resonators on a sapphire substrate. Our triply-resonant device operates in a dilution refrigerator and converts microwave photons to optical photons with an on-chip efficiency of $6.6\times 10^{-6}$ and a conversion bandwidth of 20 MHz. We discuss design trade-offs in this device, including strategies to manage acoustic loss, and outline ways to increase the conversion efficiency in the future.
翻訳日:2023-05-21 13:02:22 公開日:2020-05-02
# 炭化ケイ素の室温における異方性スピン音響共鳴

Anisotropic Spin-Acoustic Resonance in Silicon Carbide at Room Temperature ( http://arxiv.org/abs/2005.00787v1 )

ライセンス: Link先を確認
A. Hern\'andez-M\'inguez, A. V. Poshakinskiy, M. Hollenbach, P. V. Santos and G. V. Astakhov(参考訳) 室温における炭化ケイ素の原子スケール中心における音響駆動スピン共鳴について報告する。 具体的には、表面弾性波キャビティを用いて、外部マイクロ波電磁界がない場合の磁気量子数差$\pm$1 と$\pm$2 のスピン遷移を選択的に扱う。 これらのスピン音響共鳴は、静磁場配向に非自明な依存を示すが、これは音場の内在対称性と半整数スピン系の特異な性質が組み合わさったものである。 スピン音響相互作用の微視的モデルを構築し,パラメータを合わせずに実験データを記述した。 さらに, 進行する表面波がカイラルスピン音響共鳴につながり, 磁場反転によって変化することを予測した。 これらの結果から, シリコン炭化ケイ素をオンチップスピン-オプトメカニカル量子制御のための高生産性ハイブリッドプラットフォームとして確立し, 室温での工学的相互作用を可能にした。

We report on acoustically driven spin resonances in atomic-scale centers in silicon carbide at room temperature. Specifically, we use a surface acoustic wave cavity to selectively address spin transitions with magnetic quantum number differences of $\pm$1 and $\pm$2 in the absence of external microwave electromagnetic fields. These spin-acoustic resonances reveal a non-trivial dependence on the static magnetic field orientation, which is attributed to the intrinsic symmetry of the acoustic fields combined with the peculiar properties of a half-integer spin system. We develop a microscopic model of the spin-acoustic interaction, which describes our experimental data without fitting parameters. Furthermore, we predict that traveling surface waves lead to a chiral spin-acoustic resonance, which changes upon magnetic field inversion. These results establish silicon carbide as a highly-promising hybrid platform for on-chip spin-optomechanical quantum control enabling engineered interactions at room temperature.
翻訳日:2023-05-21 13:02:00 公開日:2020-05-02
# 制約量子ダイナミクスのための普遍誤差境界

Universal Error Bound for Constrained Quantum Dynamics ( http://arxiv.org/abs/2001.03419v4 )

ライセンス: Link先を確認
Zongping Gong, Nobuyuki Yoshioka, Naoyuki Shibata, Ryusuke Hamazaki(参考訳) 量子力学において、特定の興味を持つヒルベルト部分空間とスペクトルの残りの部分の間の大きなエネルギーギャップは、これらの状態が混合する追加のカップリングにより、部分空間内の量子状態から外部への遷移を抑制することができ、したがって、部分空間内の拘束されたダイナミクスにほぼつながることが知られている。 この主張は様々な文脈における量子力学の近似に広く用いられてきたが、一般的な量的正当性が欠如している。 ここでは、一般ギャップ量子系におけるそのような制約付き力学近似に対する可観測誤差を確立する。 この普遍的境界は、エネルギーギャップと結合強度のみを含む時間の線型関数であり、後者が前者よりもはるかに小さいことを仮定する。 我々は,インターセプタあるいは境界の斜面が,単純モデルによって漸近的に飽和可能であることを実証する。 この結果は局所的な相互作用を持つ量子多体系に一般化され、結合強度は熱力学の極限内で分岐し、誤差は$t^{d+1}$$$d$次元の電力法則よりも速く成長する。 我々の研究は、非平衡量子力学に関する普遍的で厳密な結果を確立する。

It is well known in quantum mechanics that a large energy gap between a Hilbert subspace of specific interest and the remainder of the spectrum can suppress transitions from the quantum states inside the subspace to those outside due to additional couplings that mix these states, and thus approximately lead to a constrained dynamics within the subspace. While this statement has widely been used to approximate quantum dynamics in various contexts, a general and quantitative justification stays lacking. Here we establish an observable-based error bound for such a constrained-dynamics approximation in generic gapped quantum systems. This universal bound is a linear function of time that only involves the energy gap and coupling strength, provided that the latter is much smaller than the former. We demonstrate that either the intercept or the slope in the bound is asymptotically saturable by simple models. We generalize the result to quantum many-body systems with local interactions, for which the coupling strength diverges in the thermodynamic limit while the error is found to grow no faster than a power law $t^{d+1}$ in $d$ dimensions. Our work establishes a universal and rigorous result concerning nonequilibrium quantum dynamics.
翻訳日:2023-01-14 18:12:29 公開日:2020-05-02
# ギャップ量子系における制約力学の誤差境界:厳密な結果と一般化

Error bounds for constrained dynamics in gapped quantum systems: Rigorous results and generalizations ( http://arxiv.org/abs/2001.03421v4 )

ライセンス: Link先を確認
Zongping Gong, Nobuyuki Yoshioka, Naoyuki Shibata, Ryusuke Hamazaki(参考訳) arXiv:2001.03419では、孤立量子系のエネルギーバンド内での制約付きユニタリ力学の普遍的誤差を導入する。 ここでは、境界の導出に関する詳細を述べる。 さらに、局所シュリーファー・ウルフ変換を用いて孤立量子多体系に結果を一般化し、多項式的に増大する誤差境界を得る。 また、結果はマルコフ開量子系に一般化し、量子ゼノ効果を定量的に説明する。

In arXiv:2001.03419 we introduce a universal error bound for constrained unitary dynamics within a well-gapped energy band of an isolated quantum system. Here, we provide the full details on the derivation of the bound. In addition, we generalize the result to isolated quantum many-body systems by employing the local Schrieffer-Wolff transformation, obtaining an error bound that grows polynomially in time. We also generalize the result to Markovian open quantum systems and quantitatively explain the quantum Zeno effect.
翻訳日:2023-01-14 18:12:08 公開日:2020-05-02
# インテリジェントIoTアプリケーションのためのパーソナライズされたフェデレーション学習:クラウドエッジベースのフレームワーク

Personalized Federated Learning for Intelligent IoT Applications: A Cloud-Edge based Framework ( http://arxiv.org/abs/2002.10671v3 )

ライセンス: Link先を確認
Qiong Wu and Kaiwen He and Xu Chen(参考訳) IoT(Internet of Things)は、現代的な生活のさまざまな側面に広く浸透し、多くのインテリジェントなIoTサービスやアプリケーションが登場しています。 近年,IoTデバイス上で大量のユーザ生成データサンプルを活用することで,データの漏洩を防止し,グローバルな共有モデルをトレーニングするためのフェデレーション学習が提案されている。 しかし、複雑なIoT環境に固有のデバイス、統計的およびモデルの不均一性は、従来のフェデレーション学習に大きな課題をもたらし、直接デプロイするのは適さない。 この記事では、インテリジェントIoTアプリケーションのためのクラウドエッジアーキテクチャにおいて、パーソナライズされたフェデレーション学習フレームワークを推奨します。 IoT環境における異種性問題に対処するために,異種性に起因するネガティブな影響を軽減できる,個人化されたフェデレーション学習手法を提案する。 エッジコンピューティングのパワーにより、インテリジェントなIoTアプリケーションの高速処理能力と低レイテンシの要件も達成できる。 最後に、知的IoTアプリケーションに対するパーソナライズされたフェデレーション学習の有効性を示すために、IoTベースのヒューマンアクティビティ認識のケーススタディを提供する。

Internet of Things (IoT) have widely penetrated in different aspects of modern life and many intelligent IoT services and applications are emerging. Recently, federated learning is proposed to train a globally shared model by exploiting a massive amount of user-generated data samples on IoT devices while preventing data leakage. However, the device, statistical and model heterogeneities inherent in the complex IoT environments pose great challenges to traditional federated learning, making it unsuitable to be directly deployed. In this article we advocate a personalized federated learning framework in a cloud-edge architecture for intelligent IoT applications. To cope with the heterogeneity issues in IoT environments, we investigate emerging personalized federated learning methods which are able to mitigate the negative effects caused by heterogeneity in different aspects. With the power of edge computing, the requirements for fast-processing capacity and low latency in intelligent IoT applications can also be achieved. We finally provide a case study of IoT based human activity recognition to demonstrate the effectiveness of personalized federated learning for intelligent IoT applications.
翻訳日:2022-12-28 22:21:03 公開日:2020-05-02
# 大規模センサネットワークにおける時間外降水データの欠落の予測--機械学習によるアプローチ

Imputation of missing sub-hourly precipitation data in a large sensor network: a machine learning approach ( http://arxiv.org/abs/2004.11123v2 )

ライセンス: Link先を確認
Benedict Delahaye Chivers, John Wallbank, Steven J. Cole, Ondrej Sebek, Simon Stanley, Matthew Fry and Georgios Leontidis(参考訳) 降雨データは, 降雨時間と降雨時間のバランスが良く, 自然界では確率的であり, 降雨時間と降雨時間のバランスがとれていないことから, データ回復の困難さを浮き彫りにしている。 本稿では,30分間隔でサンプリングした降水データに対して,現在の機械学習技術を用いた2段階解析を行う。 a) 雨又は非雨のサンプルの分類及び (b)予測雨試料の絶対値を後退させる。 英国の37の気象観測所を調査したこの機械学習プロセスは、隣り合う雨量計を利用した表面フィッティング技術よりも、降水データを復元するための正確な予測を生成する。 機械学習アルゴリズムのトレーニングのための利用可能な機能の増加は、ターゲットサイトの気象データと、最も高いパフォーマンスを提供する外部ソース雨量計の統合によるパフォーマンスの向上をもたらす。 本手法は、同時収集された環境データに情報を活用して機械学習モデルに通知し、雨量の正確な予測を行う。 弱い相関変数から複雑な非線形関係を捉えることは、時間以下の分解能でデータ回復に不可欠である。 このようなデータリカバリ用のパイプラインは、高度に自動化され、ほぼ瞬時に、高いテンポラリゾルションで進行中のデータセットの値の欠落を予測できる。

Precipitation data collected at sub-hourly resolution represents specific challenges for missing data recovery by being largely stochastic in nature and highly unbalanced in the duration of rain vs non-rain. Here we present a two-step analysis utilising current machine learning techniques for imputing precipitation data sampled at 30-minute intervals by devolving the task into (a) the classification of rain or non-rain samples, and (b) regressing the absolute values of predicted rain samples. Investigating 37 weather stations in the UK, this machine learning process produces more accurate predictions for recovering precipitation data than an established surface fitting technique utilising neighbouring rain gauges. Increasing available features for the training of machine learning algorithms increases performance with the integration of weather data at the target site with externally sourced rain gauges providing the highest performance. This method informs machine learning models by utilising information in concurrently collected environmental data to make accurate predictions of missing rain data. Capturing complex non-linear relationships from weakly correlated variables is critical for data recovery at sub-hourly resolutions. Such pipelines for data recovery can be developed and deployed for highly automated and near instantaneous imputation of missing values in ongoing datasets at high temporal resolutions.
翻訳日:2022-12-18 07:17:02 公開日:2020-05-02
# 強化学習による二足歩行ロボットの入力出力線形化制御系の改良

Improving Input-Output Linearizing Controllers for Bipedal Robots via Reinforcement Learning ( http://arxiv.org/abs/2004.07276v2 )

ライセンス: Link先を確認
Fernando Casta\~neda, Mathias Wulfman, Ayush Agrawal, Tyler Westenbroek, Claire J. Tomlin, S. Shankar Sastry, Koushil Sreenath(参考訳) 入出力線形化コントローラの主な欠点は、正確なダイナミクスモデルの必要性であり、入力制約を考慮できないことである。 モデルの不確実性は、ほとんどすべてのロボットアプリケーションで一般的であり、入力飽和度は、あらゆる現実世界システムに存在する。 本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。 標準入力出力線形化制御器の構造を考慮し,モデルの不確かさを補う付加学習項を用いる。 さらに,学習問題に制約を加えることで,入力限界が存在する場合に最終制御器の性能を高めることができる。 本研究では,5リンク平面歩行ロボットRABBITにおける不確実性レベルに対する設計フレームワークの有効性を示す。

The main drawbacks of input-output linearizing controllers are the need for precise dynamics models and not being able to account for input constraints. Model uncertainty is common in almost every robotic application and input saturation is present in every real world system. In this paper, we address both challenges for the specific case of bipedal robot control by the use of reinforcement learning techniques. Taking the structure of a standard input-output linearizing controller, we use an additive learned term that compensates for model uncertainty. Moreover, by adding constraints to the learning problem we manage to boost the performance of the final controller when input limits are present. We demonstrate the effectiveness of the designed framework for different levels of uncertainty on the five-link planar walking robot RABBIT.
翻訳日:2022-12-13 04:23:35 公開日:2020-05-02
# 分析手法の分析:音声言語のニューラルモデルにおける音韻学の事例

Analyzing analytical methods: The case of phonology in neural models of spoken language ( http://arxiv.org/abs/2004.07070v2 )

ライセンス: Link先を確認
Grzegorz Chrupa{\l}a, Bertrand Higy, Afra Alishahi(参考訳) NLPと音声処理システムの解析技術の急速な発展を踏まえ、各手法の強みと弱みを比較するための体系的な研究はほとんど行われていない。 この方向のステップとして,音声言語のニューラルネットワークモデルにおける音韻学表現の事例について検討する。 神経アクティベーションパターンが音素と音素列をエンコードする程度を定量化するために,診断的分類器と表現的類似性解析という2つの手法を応用した。 分析の結果に影響を与える2つの要因を操作する。 まず,訓練モデルとランダム初期化モデルから抽出した神経アクティベーションを比較し,学習の役割について検討する。 第2に,音声信号数ミリ秒に対応する局所的アクティベーションと,発話全体にわたってプールされた大域的アクティベーションの両方を探索することにより,アクティベーションの時間的スコープを検討する。 我々は,ランダム初期化モデルによる解析結果の報告が重要であり,グローバルスコープ法はより一貫性のある結果をもたらす傾向にあり,局所顕微鏡診断法を補完するものとしての利用を推奨する。

Given the fast development of analysis techniques for NLP and speech processing systems, few systematic studies have been conducted to compare the strengths and weaknesses of each method. As a step in this direction we study the case of representations of phonology in neural network models of spoken language. We use two commonly applied analytical techniques, diagnostic classifiers and representational similarity analysis, to quantify to what extent neural activation patterns encode phonemes and phoneme sequences. We manipulate two factors that can affect the outcome of analysis. First, we investigate the role of learning by comparing neural activations extracted from trained versus randomly-initialized models. Second, we examine the temporal scope of the activations by probing both local activations corresponding to a few milliseconds of the speech signal, and global activations pooled over the whole utterance. We conclude that reporting analysis results with randomly initialized models is crucial, and that global-scope methods tend to yield more consistent results and we recommend their use as a complement to local-scope diagnostic methods.
翻訳日:2022-12-13 03:05:36 公開日:2020-05-02
# paraphrase拡張タスク指向ダイアログ生成

Paraphrase Augmented Task-Oriented Dialog Generation ( http://arxiv.org/abs/2004.07462v2 )

ライセンス: Link先を確認
Silin Gao, Yichi Zhang, Zhijian Ou and Zhou Yu(参考訳) ニューラル生成モデルは、巨大なデータセットが与えられた場合、ダイアログ生成タスクで有望なパフォーマンスを達成した。 しかし、高品質なダイアログデータの欠如と高価なデータアノテーションプロセスは、実際の設定でアプリケーションを大幅に制限している。 本稿では,対話生成性能を向上させるために,パラフレーズモデルと応答生成モデルを共同で訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。 また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。 PARGはTSCP(Lei et al., 2018)やDAMD(Zhang et al., 2019)といった様々なダイアログ生成モデルに適用できる。 実験結果から,CamRest676およびMultiWOZ上でのこれらの最先端対話モデルの改善が示されている。 PARGは、特にリソース設定の低いダイアログ生成タスクにおいて、他のデータ拡張メソッドよりも大幅に優れています。

Neural generative models have achieved promising performance on dialog generation tasks if given a huge data set. However, the lack of high-quality dialog data and the expensive data annotation process greatly limit their application in real-world settings. We propose a paraphrase augmented response generation (PARG) framework that jointly trains a paraphrase model and a response generation model to improve the dialog generation performance. We also design a method to automatically construct paraphrase training data set based on dialog state and dialog act labels. PARG is applicable to various dialog generation models, such as TSCP (Lei et al., 2018) and DAMD (Zhang et al., 2019). Experimental results show that the proposed framework improves these state-of-the-art dialog models further on CamRest676 and MultiWOZ. PARG also significantly outperforms other data augmentation methods in dialog generation tasks, especially under low resource settings.
翻訳日:2022-12-12 20:51:56 公開日:2020-05-02
# CHiME-6 チャレンジ:非分割録音のためのマルチスピーカ音声認識

CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings ( http://arxiv.org/abs/2004.09249v2 )

ライセンス: Link先を確認
Shinji Watanabe, Michael Mandel, Jon Barker, Emmanuel Vincent, Ashish Arora, Xuankai Chang, Sanjeev Khudanpur, Vimal Manohar, Daniel Povey, Desh Raj, David Snyder, Aswin Shanmugam Subramanian, Jan Trmal, Bar Ben Yair, Christoph Boeddeker, Zhaoheng Ni, Yusuke Fujita, Shota Horiguchi, Naoyuki Kanda, Takuya Yoshioka, Neville Ryant(参考訳) 第1回,第2回,第3回,第4回,第5回,第6回CiME音声分離認識チャレンジ(CHiME-6)を実施。 新しい課題は、従来のCHiME-5課題を再考し、日常生活環境における遠隔マルチマイクロホン音声ダイアリゼーションと認識の問題をさらに検討する。 音声素材は、正確な配列同期を除いて、以前のCHiME-5記録と同じである。 この資料はディナーパーティーのシナリオを用いて,自然な会話を表現したデータを収集する試みを行った。 本稿では、セグメント化マルチスピーカ音声認識(トラック1)と非セグメント化マルチスピーカー音声認識(トラック2)の両方におけるchime-6チャレンジのベースライン記述について述べる。 なお、Track 2は、音声強調、話者ダイアリゼーション、音声認識モジュールを提供する、再現性のあるオープンソースベースラインの完全なセットで、未解決のマルチ話者音声認識シナリオに取り組む、コミュニティ初の課題である。

Following the success of the 1st, 2nd, 3rd, 4th and 5th CHiME challenges we organize the 6th CHiME Speech Separation and Recognition Challenge (CHiME-6). The new challenge revisits the previous CHiME-5 challenge and further considers the problem of distant multi-microphone conversational speech diarization and recognition in everyday home environments. Speech material is the same as the previous CHiME-5 recordings except for accurate array synchronization. The material was elicited using a dinner party scenario with efforts taken to capture data that is representative of natural conversational speech. This paper provides a baseline description of the CHiME-6 challenge for both segmented multispeaker speech recognition (Track 1) and unsegmented multispeaker speech recognition (Track 2). Of note, Track 2 is the first challenge activity in the community to tackle an unsegmented multispeaker speech recognition scenario with a complete set of reproducible open source baselines providing speech enhancement, speaker diarization, and speech recognition modules.
翻訳日:2022-12-11 19:04:27 公開日:2020-05-02
# オートフォーカスを学ぶ

Learning to Autofocus ( http://arxiv.org/abs/2004.12260v3 )

ライセンス: Link先を確認
Charles Herrmann, Richard Strong Bowen, Neal Wadhwa, Rahul Garg, Qiurui He, Jonathan T. Barron, Ramin Zabih(参考訳) オートフォーカスはデジタルカメラにとって重要なタスクだが、現在のアプローチは性能が悪いことが多い。 本稿では,この問題に対する学習に基づくアプローチを提案し,効果的な学習に十分な大きさの現実的なデータセットを提供する。 マルチビューステレオから得られた画素毎の深度をラベル付けし,「デュアルピクセルを用いた単一カメラ深度推定」を行った。 このデータセットを用いて,現代的深層分類モデルと順序回帰損失を適用し,効率的な学習に基づくオートフォーカス手法を得る。 提案手法は,従来の学習法と学習法とを比較し,平均絶対誤差を最良となるベースラインアルゴリズムに比べて3.6倍に削減する。 データセットとコードは公開されています。

Autofocus is an important task for digital cameras, yet current approaches often exhibit poor performance. We propose a learning-based approach to this problem, and provide a realistic dataset of sufficient size for effective learning. Our dataset is labeled with per-pixel depths obtained from multi-view stereo, following "Learning single camera depth estimation using dual-pixels". Using this dataset, we apply modern deep classification models and an ordinal regression loss to obtain an efficient learning-based autofocus technique. We demonstrate that our approach provides a significant improvement compared with previous learned and non-learned methods: our model reduces the mean absolute error by a factor of 3.6 over the best comparable baseline algorithm. Our dataset and code are publicly available.
翻訳日:2022-12-09 13:36:49 公開日:2020-05-02
# 同時翻訳政策:固定から適応へ

Simultaneous Translation Policies: From Fixed to Adaptive ( http://arxiv.org/abs/2004.13169v2 )

ライセンス: Link先を確認
Baigong Zheng, Kaibo Liu, Renjie Zheng, Mingbo Ma, Hairong Liu, Liang Huang(参考訳) 現在の状況情報に基づいて、翻訳品質とレイテンシのトレードオフを柔軟にバランスできるため、適応ポリシーは同時翻訳のための固定ポリシーよりも優れている。 しかし、適応ポリシーを得る以前の方法は、複雑なトレーニングプロセスに依存するか、単純な固定ポリシーを過小評価する。 我々は,固定ポリシーの集合の単純なヒューリスティック構成により適応ポリシーを実現するアルゴリズムを設計する。 中国語 ->英語とドイツ語 ->英語による実験では、我々の適応ポリシーは、同じレイテンシで最大4つのBLEUポイントを上回り、さらに驚くべきことに、greedyモード(およびビームモードに非常に近い)におけるBLEUの完全文翻訳スコアよりもはるかに低いレイテンシで、固定されたポリシーを上回ります。

Adaptive policies are better than fixed policies for simultaneous translation, since they can flexibly balance the tradeoff between translation quality and latency based on the current context information. But previous methods on obtaining adaptive policies either rely on complicated training process, or underperform simple fixed policies. We design an algorithm to achieve adaptive policies via a simple heuristic composition of a set of fixed policies. Experiments on Chinese -> English and German -> English show that our adaptive policies can outperform fixed ones by up to 4 BLEU points for the same latency, and more surprisingly, it even surpasses the BLEU score of full-sentence translation in the greedy mode (and very close to beam mode), but with much lower latency.
翻訳日:2022-12-09 05:20:00 公開日:2020-05-02
# 大規模飛行船ペア最適化を支援するための組合せパターンの学習について

On Learning Combinatorial Patterns to Assist Large-Scale Airline Crew Pairing Optimization ( http://arxiv.org/abs/2004.13714v3 )

ライセンス: Link先を確認
Divyam Aggarwal, Yash Kumar Singh, Dhish Kumar Saxena(参考訳) Airline Crew Pairing Optimization (CPO) は、航空会社の飛行スケジュールを最小限のコストでカバーする一連の法的なフライトシーケンス(大きなペアリング)を作成することを目的としている。 通常は、誘導探索空間探索のための数学的プログラミング手法であるカラム生成(cg)を用いて行われる。 CGは、最適化探索中に新しい変数(ペアリング)を生成するために、電流と前回のCGイテレーションの相互依存性を利用する。 しかし,前例のない規模と創発的な飛行ネットワークの複雑さにより,飛行-接続グラフ間の高次相互依存性を学習し,それを利用してcpoの有効性を高めることが求められている。 本論文は,その種類と最新技術からの著しい逸脱を示唆するものであるが,本稿では,航空会社の乗員ペア・オプティマイザであるaircrop(研究者によって開発され,研究コンソーシアムの産業スポンサーであるge aviationによって検証された)による探索空間探索により得られた飛行接続データのうち,妥当な組合せパターンを学習するための変分グラフ自動エンコーダの新規な適応を提案する。 結果として生じる飛行接続予測は、新しいヒューリスティックを使ってオンザフライで組み合わせられ、オプティマイザのための新しいペアリングを生成する。 提案手法の実用性は、複数のハブ・アンド・スポークのサブネットワークと複数の乗組員基地を特徴とする、大規模(4200回以上)、実世界の複雑な航空ネットワークで実証されている。

Airline Crew Pairing Optimization (CPO) aims at generating a set of legal flight sequences (crew pairings), to cover an airline's flight schedule, at minimum cost. It is usually performed using Column Generation (CG), a mathematical programming technique for guided search-space exploration. CG exploits the interdependencies between the current and the preceding CG-iteration for generating new variables (pairings) during the optimization-search. However, with the unprecedented scale and complexity of the emergent flight networks, it has become imperative to learn higher-order interdependencies among the flight-connection graphs, and utilize those to enhance the efficacy of the CPO. In first of its kind and what marks a significant departure from the state-of-the-art, this paper proposes a novel adaptation of the Variational Graph Auto-Encoder for learning plausible combinatorial patterns among the flight-connection data obtained through the search-space exploration by an Airline Crew Pairing Optimizer, AirCROP (developed by the authors and validated by the research consortium's industrial sponsor, GE Aviation). The resulting flight-connection predictions are combined on-the-fly using a novel heuristic to generate new pairings for the optimizer. The utility of the proposed approach is demonstrated on large-scale (over 4200 flights), real-world, complex flight-networks of US-based airlines, characterized by multiple hub-and-spoke subnetworks and several crew bases.
翻訳日:2022-12-08 22:42:48 公開日:2020-05-02
# ニューラルモデルは自然言語における単調性推論の体系性を学ぶか?

Do Neural Models Learn Systematicity of Monotonicity Inference in Natural Language? ( http://arxiv.org/abs/2004.14839v2 )

ライセンス: Link先を確認
Hitomi Yanaka, Koji Mineshima, Daisuke Bekki, and Kentaro Inui(参考訳) ニューラルネットワークを用いた言語モデルの成功にもかかわらず、どの程度ニューラルネットワークが推論を一般化できるかは、まだ不明である。 本稿では,ニューラルネットワークが自然言語における単調推論の体系性,すなわち任意の推論を行うための規則性を学ぶことができるかどうかを評価する手法を提案する。 単調性推論の4つの側面を検討し,モデルが異なる訓練/テスト分割において語彙現象と論理現象を体系的に解釈できるかどうかを検証する。 一連の実験により、3つのニューラルモデルが、文章の構文構造がトレーニングセットとテストセットに類似している場合、語彙的および論理的現象の見当たらない組み合わせを体系的に推論することを示した。 しかし, モデルの性能は, トレーニングセットにすでに存在するすべての語彙や構成成分を保持しつつ, 試験セット内で構造がわずかに変化した場合に著しく低下する。 これは、神経モデルの一般化能力は、訓練セットの構文構造とほとんど同じである場合に限られていることを示している。

Despite the success of language models using neural networks, it remains unclear to what extent neural models have the generalization ability to perform inferences. In this paper, we introduce a method for evaluating whether neural models can learn systematicity of monotonicity inference in natural language, namely, the regularity for performing arbitrary inferences with generalization on composition. We consider four aspects of monotonicity inferences and test whether the models can systematically interpret lexical and logical phenomena on different training/test splits. A series of experiments show that three neural models systematically draw inferences on unseen combinations of lexical and logical phenomena when the syntactic structures of the sentences are similar between the training and test sets. However, the performance of the models significantly decreases when the structures are slightly changed in the test set while retaining all vocabularies and constituents already appearing in the training set. This indicates that the generalization ability of neural models is limited to cases where the syntactic structures are nearly the same as those in the training set.
翻訳日:2022-12-08 05:17:42 公開日:2020-05-02
# simpropnet: 少数ショット画像セグメンテーションのための類似性伝播の改善

SimPropNet: Improved Similarity Propagation for Few-shot Image Segmentation ( http://arxiv.org/abs/2004.15014v2 )

ライセンス: Link先を確認
Siddhartha Gairola, Mayur Hemani, Ayush Chopra and Balaji Krishnamurthy(参考訳) Few-shot segmentation (FSS)メソッドは、ターゲット(クエリ)イメージ内の特定のオブジェクトクラスに対して、少数の(サポート)イメージマスクペアを使用して、イメージセグメンテーションを実行する。 最近のディープニューラルネットワークに基づくFSS法は,サポート画像の前景特徴とクエリ画像特徴との高次元的特徴類似性を利用する。 本研究では,既存の手法における類似性情報の利用におけるギャップを実証し,それらのギャップを埋めるフレームワークであるSimPropNetを提案する。 我々は,サポート機能とクエリ機能との共有を強制するために,サポートとクエリマスクを共同で予測することを提案する。 また,クエリの背景領域における類似性を生かし,新しい前景・背景係留融合機構を用いて画像を支援することを提案する。 本手法はpascal-5iデータセット上での1ショットおよび5ショットのセグメンテーションにおいて最先端の結果を得る。 本論文は,提案手法の改良および定量的比較のための詳細な分析およびアブレーション研究を含む。

Few-shot segmentation (FSS) methods perform image segmentation for a particular object class in a target (query) image, using a small set of (support) image-mask pairs. Recent deep neural network based FSS methods leverage high-dimensional feature similarity between the foreground features of the support images and the query image features. In this work, we demonstrate gaps in the utilization of this similarity information in existing methods, and present a framework - SimPropNet, to bridge those gaps. We propose to jointly predict the support and query masks to force the support features to share characteristics with the query features. We also propose to utilize similarities in the background regions of the query and support images using a novel foreground-background attentive fusion mechanism. Our method achieves state-of-the-art results for one-shot and five-shot segmentation on the PASCAL-5i dataset. The paper includes detailed analysis and ablation studies for the proposed improvements and quantitative comparisons with contemporary methods.
翻訳日:2022-12-08 05:08:52 公開日:2020-05-02
# SS3D:シングルショット3Dオブジェクト検出器

SS3D: Single Shot 3D Object Detector ( http://arxiv.org/abs/2004.14674v2 )

ライセンス: Link先を確認
Aniket Limaye, Manu Mathew, Soyeb Nagori, Pramod Kumar Swami, Debapriya Maji, Kumar Desappan(参考訳) 2Dオブジェクト検出のためのシングルステージディープラーニングアルゴリズムは、Single Shot MultiBox Detector (SSD)によって普及し、いくつかの組み込みアプリケーションで広く採用された。 PointPillarsは、3Dオブジェクト検出に適応したシングルショット検出器を使用する、最先端の3Dオブジェクト検出アルゴリズムである。 ポイントピラーの主な欠点は、完全連結層に基づく学習入力表現と3d検出のためのシングルショット検出器を備えた2段階のアプローチである。 本稿では,Single Shot 3D Object Detection (SS3D) - 直接前方,統計的に計算された入力表現と(PointPillarsをベースとした)Single Shot Detectorを組み合わせた1段3Dオブジェクト検出アルゴリズムを提案する。 入力表現の計算は直接フォワードであり、学習を伴わず、計算コストもそれほど多くない。 また,本手法をステレオ入力に拡張し,さらにセマンティクスセグメンテーション入力を付加することで,アートステレオベース検出器の状態と同等の精度が得られることを示す。 単一ステージアプローチは組込みリアルタイムアプリケーションで実装が簡単であるため, 単一ステージアプローチによる2段階検出の精度向上が重要である。 LiDARとステレオ入力は、PointPillarsよりも優れています。 LiDAR入力を使用する場合、入力表現は中等級のカーズオブジェクトのAP3Dを74.99から76.84に改善することができる。 ステレオ入力を使用する場合、入力表現は中程度のカテゴリーの自動車オブジェクトのap3dを38.13から45.13に改善することができる。 AVODやF-PointNetのような一般的な3Dオブジェクト検出器よりも優れた結果が得られる。

Single stage deep learning algorithm for 2D object detection was made popular by Single Shot MultiBox Detector (SSD) and it was heavily adopted in several embedded applications. PointPillars is a state of the art 3D object detection algorithm that uses a Single Shot Detector adapted for 3D object detection. The main downside of PointPillars is that it has a two stage approach with learned input representation based on fully connected layers followed by the Single Shot Detector for 3D detection. In this paper we present Single Shot 3D Object Detection (SS3D) - a single stage 3D object detection algorithm which combines straight forward, statistically computed input representation and a Single Shot Detector (based on PointPillars). Computing the input representation is straight forward, does not involve learning and does not have much computational cost. We also extend our method to stereo input and show that, aided by additional semantic segmentation input; our method produces similar accuracy as state of the art stereo based detectors. Achieving the accuracy of two stage detectors using a single stage approach is important as single stage approaches are simpler to implement in embedded, real-time applications. With LiDAR as well as stereo input, our method outperforms PointPillars. When using LiDAR input, our input representation is able to improve the AP3D of Cars objects in the moderate category from 74.99 to 76.84. When using stereo input, our input representation is able to improve the AP3D of Cars objects in the moderate category from 38.13 to 45.13. Our results are also better than other popular 3D object detectors such as AVOD and F-PointNet.
翻訳日:2022-12-08 03:50:01 公開日:2020-05-02
# コンピュータ画像の品質評価のための深層学習法

Towards Deep Learning Methods for Quality Assessment of Computer-Generated Imagery ( http://arxiv.org/abs/2005.00836v1 )

ライセンス: Link先を確認
Markus Utke, Saman Zadtootaghaj, Steven Schmidt, Sebastian M\"oller(参考訳) ビデオゲームストリーミングサービスは、Twitch.tvのような受動的ビデオストリーミングや、Nvidia Geforce Nowのようなクラウドゲームといった新しいサービスによって急速に成長している。 従来のビデオコンテンツとは対照的に、ゲームコンテンツには、ゲームにおける非常に高い動き、特殊なモーションパターン、合成コンテンツ、繰り返しコンテンツといった特別な特性があり、この特殊なコンピュータ生成コンテンツに対して、最先端のビデオや画質指標がより弱い。 本稿では,ゲーム品質評価のための深層学習ベースの品質指標を構築する計画について概説する。 さらに,vmaf値に基づくネットワークを基礎的真実としてトレーニングし,将来的なメトリクス構築方法に関する洞察を与えることにより,最初の結果を提示する。 本稿では,適切な畳み込みニューラルネットワークアーキテクチャを選択するための手法について述べる。 さらに,十分な性能を実現するために必要な主観的品質データセットのサイズを推定する。 その結果,Xceptionの最後の6つのモジュールをトレーニングするために,約5kの画像を撮影することで,変形したビデオゲームの品質を評価するための比較的高い評価基準が得られることがわかった。

Video gaming streaming services are growing rapidly due to new services such as passive video streaming, e.g. Twitch.tv, and cloud gaming, e.g. Nvidia Geforce Now. In contrast to traditional video content, gaming content has special characteristics such as extremely high motion for some games, special motion patterns, synthetic content and repetitive content, which makes the state-of-the-art video and image quality metrics perform weaker for this special computer generated content. In this paper, we outline our plan to build a deep learningbased quality metric for video gaming quality assessment. In addition, we present initial results by training the network based on VMAF values as a ground truth to give some insights on how to build a metric in future. The paper describes the method that is used to choose an appropriate Convolutional Neural Network architecture. Furthermore, we estimate the size of the required subjective quality dataset which achieves a sufficiently high performance. The results show that by taking around 5k images for training of the last six modules of Xception, we can obtain a relatively high performance metric to assess the quality of distorted video games.
翻訳日:2022-12-07 13:11:24 公開日:2020-05-02
# 閉塞型多焦点ディスプレイに向けて

Towards Occlusion-Aware Multifocal Displays ( http://arxiv.org/abs/2005.00946v1 )

ライセンス: Link先を確認
Jen-Hao Rick Chang, Anat Levin, B. V. K. Vijaya Kumar, Aswin C. Sankaranarayanan(参考訳) ヒトの視覚システムは、視差、調節、運動視差、咬合など、深度知覚に多くの手がかりを用いる。 没入型ユーザエクスペリエンスを提供するために、これらのヒントを満たすために、仮想現実のディスプレイ上に存在する。 調節キューを満たす古典的なアプローチの一つであるマルチ焦点ディスプレイは、仮想コンテンツを複数の焦点平面に配置し、それぞれをディ・エレント深さに配置する。 しかし、眼球近傍の焦点面の含有量はこれらを遠ざけることなく、閉塞キューを悪化させ、デフォーカスのぼかしの漏れによる深部不連続性のコントラストを減少させる。 本稿では,表示パネルの各画素に放出される光円錐を傾けることで,新たな円錐体演算子を用いた咬合対応多焦点ディスプレイを実現する。 比較的単純なオクルージョン・コングレーションのシーンでは、光円錐を傾けると物理的オクルージョンと同じエクトが得られる。 位相のみの空間光変調器で容易に実装可能であることを示す。 実験用プロトタイプを用いて咬合手がかりの存在と奥行きエッジにおけるディスプレイのコントラストの増大を示す結果を示す。

The human visual system uses numerous cues for depth perception, including disparity, accommodation, motion parallax and occlusion. It is incumbent upon virtual-reality displays to satisfy these cues to provide an immersive user experience. Multifocal displays, one of the classic approaches to satisfy the accommodation cue, place virtual content at multiple focal planes, each at a di erent depth. However, the content on focal planes close to the eye do not occlude those farther away; this deteriorates the occlusion cue as well as reduces contrast at depth discontinuities due to leakage of the defocus blur. This paper enables occlusion-aware multifocal displays using a novel ConeTilt operator that provides an additional degree of freedom -- tilting the light cone emitted at each pixel of the display panel. We show that, for scenes with relatively simple occlusion con gurations, tilting the light cones provides the same e ect as physical occlusion. We demonstrate that ConeTilt can be easily implemented by a phase-only spatial light modulator. Using a lab prototype, we show results that demonstrate the presence of occlusion cues and the increased contrast of the display at depth edges.
翻訳日:2022-12-07 13:11:05 公開日:2020-05-02
# MmWave都市間通信における機械学習手法を用いた無線チャネルモデルの経路損失予測

Predicting the Path Loss of Wireless Channel Models Using Machine Learning Techniques in MmWave Urban Communications ( http://arxiv.org/abs/2005.00745v1 )

ライセンス: Link先を確認
Saud Aldossari, Kwang-Cheng Chen(参考訳) 従来の無線通信チャネルモデリングは、決定論的および確率的チャネル手法を用いて行われる。 機械学習(ML)は、5G以降のシステム設計に革命をもたらす。 傾きを監督する手法のようなML手法は、特定のデータセットに基づいて環境変動の無線チャネルパス損失を予測するために使用される。 通信システムの伝搬信号の基本は、特にmm波などの新しい周波数帯域のチャネルモデリングに焦点を当てている。 機械学習は、部分的に関連するチャネル計測データとモデルが利用できるため、5g以上の無線通信システムの高速チャネルモデリングを促進することができる。 無線チャネルの不規則性が正確なモデルを達成するための複雑な方法論につながる場合、適切な機械学習手法は複雑さを減らし、精度を高める。 本稿では,従来のチャネルモデリング以外の方法で,機械学習技術を用いて経路損失モデルを強化し,チャネルの複雑さのジレンマを緩和し,測定に要する時間を短縮する手法について述べる。 この実証された回帰は、あるシナリオの測定データを使用して、異なる動作環境の経路損失モデルの予測をうまく支援する。

The classic wireless communication channel modeling is performed using Deterministic and Stochastic channel methodologies. Machine learning (ML) emerges to revolutionize system design for 5G and beyond. ML techniques such as supervise leaning methods will be used to predict the wireless channel path loss of a variate of environments base on a certain dataset. The propagation signal of communication systems fundamentals is focusing on channel modeling particularly for new frequency bands such as MmWave. Machine learning can facilitate rapid channel modeling for 5G and beyond wireless communication systems due to the availability of partially relevant channel measurement data and model. When irregularity of the wireless channels lead to a complex methodology to achieve accurate models, appropriate machine learning methodology explores to reduce the complexity and increase the accuracy. In this paper, we demonstrate alternative procedures beyond traditional channel modeling to enhance the path loss models using machine learning techniques, to alleviate the dilemma of channel complexity and time-consuming process that the measurements were taken. This demonstrated regression uses the measurement data of a certain scenario to successfully assist the prediction of path loss model of a different operating environment.
翻訳日:2022-12-07 13:10:05 公開日:2020-05-02
# アドオン割引による収益管理問題のオンライン学習と最適化

Online Learning and Optimization for Revenue Management Problems with Add-on Discounts ( http://arxiv.org/abs/2005.00947v1 )

ライセンス: Link先を確認
David Simchi-Levi, Rui Sun, Huanan Zhang(参考訳) 本稿では,アドオン割引による収益管理問題について考察する。 この問題は、ビデオゲーム業界において、小売業者が選択した支援製品(ビデオゲームなど)を、コア製品(ビデオゲームコンソールなど)を購入した顧客に割引するプラクティスに動機づけられている。 この問題を最適化問題として定式化し,様々な製品の価格とアドオン割引による製品の選択を決定する。 この最適化問題の計算課題を克服するために,任意の精度で解くことができる効率的なFPTASアルゴリズムを提案する。 また、小売業者が異なる商品の需要機能について事前知識を持っていない状況において、収益管理の問題を考える。 この問題を解決するために,FPTAS最適化アルゴリズムをサブルーチンとして用いた UCB ベースの学習アルゴリズムを提案する。 学習アルゴリズムは,真の需要関数にアクセス可能な最適アルゴリズムに収束できることを示し,その収束率が特定の対数項に密着していることを証明する。 また、Tmall.com上の人気ゲームブランドのオンラインストアから収集した実世界の取引データを用いて数値実験を行った。 実験結果は,学習アルゴリズムのロバストな性能と様々なシナリオでの高速収束を示す。 また,このアルゴリズムを,アドオン割引を一切使用しない最適ポリシーと比較した結果,実際にアドオン割引戦略を用いることの利点が示された。

We study in this paper a revenue management problem with add-on discounts. The problem is motivated by the practice in the video game industry, where a retailer offers discounts on selected supportive products (e.g. video games) to customers who have also purchased the core products (e.g. video game consoles). We formulate this problem as an optimization problem to determine the prices of different products and the selection of products with add-on discounts. To overcome the computational challenge of this optimization problem, we propose an efficient FPTAS algorithm that can solve the problem approximately to any desired accuracy. Moreover, we consider the revenue management problem in the setting where the retailer has no prior knowledge of the demand functions of different products. To resolve this problem, we propose a UCB-based learning algorithm that uses the FPTAS optimization algorithm as a subroutine. We show that our learning algorithm can converge to the optimal algorithm that has access to the true demand functions, and we prove that the convergence rate is tight up to a certain logarithmic term. In addition, we conduct numerical experiments with the real-world transaction data we collect from a popular video gaming brand's online store on Tmall.com. The experiment results illustrate our learning algorithm's robust performance and fast convergence in various scenarios. We also compare our algorithm with the optimal policy that does not use any add-on discount, and the results show the advantages of using the add-on discount strategy in practice.
翻訳日:2022-12-07 13:09:35 公開日:2020-05-02
# 電動車椅子制御のための知的・低コストアイトラッキングシステム

An Intelligent and Low-cost Eye-tracking System for Motorized Wheelchair Control ( http://arxiv.org/abs/2005.02118v1 )

ライセンス: Link先を確認
Mahmoud Dahmani, Muhammad E. H. Chowdhury, Amith Khandakar, Tawsifur Rahman, Khaled Al-Jayyousi, Abdalla Hefny, and Serkan Kiranyaz(参考訳) 開発途上国34か国と156か国で、世界人口の1.86%を占める車椅子を必要とする障害者は約1億3200万人いる。 また、運動障害に関連する疾患に苦しむ人が数百万人いるため、手足や頭の動きを制御できないことがあり、アイコントロール型電動車椅子を他人に頼らずに、効果的かつ無力に運動できる能力を回復し、運動障害のある人を支援するシステムを提案する。 システム入力は、視線方向を推定するために処理されたユーザの目の画像であり、車椅子はそれに応じて移動された。 この偉業を達成するために、4つのユーザ固有の手法が開発、実装、テストされ、いずれも著者が作成したベンチマークデータベースに基づいており、最初の3つのテクニックは自動で相関を採用し、テンプレートマッチングの変種であり、最後の1つは畳み込みニューラルネットワーク(CNN)を使用している。 精度とレイテンシの観点から各アルゴリズムの性能を定量的に評価する指標を算出し,全体の比較を行った。 cnnは最高性能(99.3%の分類精度)を示し、車椅子の動きを指示する視線推定器の選択モデルとなった。 室内と屋外の照明条件を99%の精度で変化させた8名の被験者に対して注意深く評価した。 これにより、視線推定アルゴリズムによって出力される予測に適応するために電動車椅子を改造する必要が生じた。 車椅子制御は、計測された距離が適切に定義された安全マージン以下であれば、視線推定器によって決定された任意の決定を回避でき、近接センサーのアレイの助けを借りて即座に動きを停止することができる。

In the 34 developed and 156 developing countries, there are about 132 million disabled people who need a wheelchair constituting 1.86% of the world population. Moreover, there are millions of people suffering from diseases related to motor disabilities, which cause inability to produce controlled movement in any of the limbs or even head.The paper proposes a system to aid people with motor disabilities by restoring their ability to move effectively and effortlessly without having to rely on others utilizing an eye-controlled electric wheelchair. The system input was images of the users eye that were processed to estimate the gaze direction and the wheelchair was moved accordingly. To accomplish such a feat, four user-specific methods were developed, implemented and tested; all of which were based on a benchmark database created by the authors.The first three techniques were automatic, employ correlation and were variants of template matching, while the last one uses convolutional neural networks (CNNs). Different metrics to quantitatively evaluate the performance of each algorithm in terms of accuracy and latency were computed and overall comparison is presented. CNN exhibited the best performance (i.e. 99.3% classification accuracy), and thus it was the model of choice for the gaze estimator, which commands the wheelchair motion. The system was evaluated carefully on 8 subjects achieving 99% accuracy in changing illumination conditions outdoor and indoor. This required modifying a motorized wheelchair to adapt it to the predictions output by the gaze estimation algorithm. The wheelchair control can bypass any decision made by the gaze estimator and immediately halt its motion with the help of an array of proximity sensors, if the measured distance goes below a well-defined safety margin.
翻訳日:2022-12-07 13:02:26 公開日:2020-05-02
# 畳み込みニューラルネットワークのための情報理論ビジュアル分析フレームワーク

An Information-theoretic Visual Analysis Framework for Convolutional Neural Networks ( http://arxiv.org/abs/2005.02186v1 )

ライセンス: Link先を確認
Jingyi Shen, Han-Wei Shen(参考訳) コンピュータビジョンと自然言語処理における畳み込みニューラルネットワーク(CNN)の大成功にもかかわらず、CNNの背後にある作業メカニズムはまだ広く議論と研究が続けられている。 ニューラルネットワークの理論的説明に対する強い要求によって、情報理論を利用してブラックボックスモデルに関する洞察を提供する研究者もいる。 しかし、我々の知る限りでは、ニューラルネットワークを定量的に分析し、定性的に視覚化するための情報理論は、可視化コミュニティでは広く研究されていない。 本稿では,情報エントロピーと可視化技術を組み合わせることで,cnnの動作を解明する。 具体的には,まずcnnモデルから抽出可能なデータを整理するためのデータモデルを提案する。 次に,異なる状況下でのエントロピーを計算する2つの方法を提案する。 情報理論の観点から,CNNの基本構造ブロック(畳み込み層,プール層,正規化層など)の基本的な理解を行うため,視覚解析システムCNNSlicerを開発した。 CNNSlicerを使えば、モデル内の情報変更量をインタラクティブに探索することができる。 広く使われているベンチマークデータセット(MNISTとCIFAR-10)のケーススタディでは、CNNのブラックボックスを開く際のシステムの有効性を実証する。

Despite the great success of Convolutional Neural Networks (CNNs) in Computer Vision and Natural Language Processing, the working mechanism behind CNNs is still under extensive discussions and research. Driven by a strong demand for the theoretical explanation of neural networks, some researchers utilize information theory to provide insight into the black box model. However, to the best of our knowledge, employing information theory to quantitatively analyze and qualitatively visualize neural networks has not been extensively studied in the visualization community. In this paper, we combine information entropies and visualization techniques to shed light on how CNN works. Specifically, we first introduce a data model to organize the data that can be extracted from CNN models. Then we propose two ways to calculate entropy under different circumstances. To provide a fundamental understanding of the basic building blocks of CNNs (e.g., convolutional layers, pooling layers, normalization layers) from an information-theoretic perspective, we develop a visual analysis system, CNNSlicer. CNNSlicer allows users to interactively explore the amount of information changes inside the model. With case studies on the widely used benchmark datasets (MNIST and CIFAR-10), we demonstrate the effectiveness of our system in opening the blackbox of CNNs.
翻訳日:2022-12-07 13:01:57 公開日:2020-05-02
# SVM-Lattice: ダブルピークプロファイルのための認識・評価フレーム

SVM-Lattice: A Recognition & Evaluation Frame for Double-peaked Profiles ( http://arxiv.org/abs/2005.00678v1 )

ライセンス: Link先を確認
Haifeng Yang, Caixia Qu, Jianghui Cai, Sulan Zhang, Xujun Zhao(参考訳) ビッグデータ時代には、まれな特徴を持つ特殊なデータには大きな意味があるかもしれない。 しかし、これらのサンプルを大規模かつ高次元のデータセットから自動的に検索し、体系的に評価することは極めて困難である。 過去の研究 [2] であるdops は、ラストサーベイの大規模・高次元データから、二重ピークプロファイルを持つレアスペクトルの探索法を提供した。 結果の同定は、主に天文学者による視覚検査に依存する。 本稿では, svm(support vector machine) と fcl(formal concept lattice) に基づき, svm-lattice と呼ばれる新しい格子構造を設計, 特に二重ピークプロファイルを持つ希少スペクトルの認識と評価に応用した。 まず、SVM-Lattice構造の各ノードは、2つの成分を含む: インテントは、特定の特性を持つスペクトルサンプルによって訓練された支持ベクトルによって定義され、関連する範囲は、支持ベクトルによって分類された全ての正のサンプルである。 ハイパープレーンはすべての格子ノードから抽出することができ、カテゴリごとにターゲットを探索するために分類器として使用される。 一般化と特殊化の関係は層間で表現され、より高い層は目標に対する高い信頼を示す。 次に、SVM-Lattice構築アルゴリズム、アソシエーションルールに基づくプルーニングアルゴリズム、評価アルゴリズムを含む、支援アルゴリズムを提供し、分析する。 最後に、ダブルピークプロファイルによるスペクトルの認識と評価のために、lamost surveyのいくつかのデータセットを実験データセットとして使用する。 その結果,従来手法との整合性が良好であり,分類結果の精度が向上し,検索効率も他の類似手法よりも高かった。

In big data era, the special data with rare characteristics may be of great significations. However, it is very difficult to automatically search these samples from the massive and high-dimensional datasets and systematically evaluate them. The DoPS, our previous work [2], provided a search method of rare spectra with double-peaked profiles from massive and high-dimensional data of LAMOST survey. The identification of the results is mainly depended on visually inspection by astronomers. In this paper, as a follow-up study, a new lattice structure named SVM-Lattice is designed based on SVM(Support Vector Machine) and FCL(Formal Concept Lattice) and particularly applied in the recognition and evaluation of rare spectra with double-peaked profiles. First, each node in the SVM-Lattice structure contains two components: the intents are defined by the support vectors trained by the spectral samples with the specific characteristics, and the relevant extents are all the positive samples classified by the support vectors. The hyperplanes can be extracted from every lattice node and used as classifiers to search targets by categories. A generalization and specialization relationship is expressed between the layers, and higher layers indicate higher confidence of targets. Then, including a SVM-Lattice building algorithm, a pruning algorithm based on association rules, and an evaluation algorithm, the supporting algorithms are provided and analysed. Finally, for the recognition and evaluation of spectra with double-peaked profiles, several data sets from LAMOST survey are used as experimental dataset. The results exhibit good consistency with traditional methods, more detailed and accurate evaluations of classification results, and higher searching efficiency than other similar methods.
翻訳日:2022-12-07 13:01:38 公開日:2020-05-02
# 流体に対するラグランジアンニューラルスタイル伝達

Lagrangian Neural Style Transfer for Fluids ( http://arxiv.org/abs/2005.00803v1 )

ライセンス: Link先を確認
Byungsoo Kim, Vinicius C. Azevedo, Markus Gross, Barbara Solenthaler(参考訳) 流体シミュレーションの形状、動き、外観を芸術的に制御することは、視覚効果の生成において大きな課題となる。 本稿では,画像からラグランジアン視点で定式化した3次元流体へのニューラルスタイル伝達手法を提案する。 スタイル転送に粒子を用いることは、グリッドベースの手法と比較してユニークな利点がある。 属性は粒子上に保存され、したがって粒子の動きによって自明に輸送される。 このことは本質的に最適化された構造体の時間的一貫性を確保し、その結果の質を著しく向上させる。 同時に、グリッドアプローチのスタイリゼーション速度場の高価で再帰的なアライメントは不要であり、計算時間を1時間未満に短縮し、生産環境ではニューラルネットワークスタイリゼーションを実用的なものにする。 さらに、ラグランジアン表現は、多流体スタイリゼーションと画像からの一貫した色移動を可能にするため、芸術的制御を改善し、この方法の一般化により、煙や液体のスタイリゼーションも可能となる。

Artistically controlling the shape, motion and appearance of fluid simulations pose major challenges in visual effects production. In this paper, we present a neural style transfer approach from images to 3D fluids formulated in a Lagrangian viewpoint. Using particles for style transfer has unique benefits compared to grid-based techniques. Attributes are stored on the particles and hence are trivially transported by the particle motion. This intrinsically ensures temporal consistency of the optimized stylized structure and notably improves the resulting quality. Simultaneously, the expensive, recursive alignment of stylization velocity fields of grid approaches is unnecessary, reducing the computation time to less than an hour and rendering neural flow stylization practical in production settings. Moreover, the Lagrangian representation improves artistic control as it allows for multi-fluid stylization and consistent color transfer from images, and the generality of the method enables stylization of smoke and liquids likewise.
翻訳日:2022-12-07 13:01:11 公開日:2020-05-02
# Minerva: 従来のエンタープライズSaaSアプリケーションのためのポータブル機械学習マイクロサービスフレームワーク

Minerva: A Portable Machine Learning Microservice Framework for Traditional Enterprise SaaS Applications ( http://arxiv.org/abs/2005.00866v1 )

ライセンス: Link先を確認
Venkata Duvvuri(参考訳) 従来のSaaSエンタープライズアプリケーションでは、マイクロサービスは機械学習(ML)モデルをうまくデプロイするための重要な要素です。 一般的に、マイクロサービスはソフトウェアサービス設計、開発、デリバリの効率性をもたらす。 モノリシックなソフトウェアの再設計において、機械学習が加わったことにより、従来のアプリケーションはますますインテリジェントになりつつある。 本稿では,従来のSaaSアプリケーションスイート,特にエンタープライズドメインにおいて,インテリジェントなマイクロサービスをモジュール化およびデプロイするための効率的な方法として,ポータブルなMLマイクロサービスフレームワークであるMinervaを提案する。 このようなアプリケーションにMLマイクロサービスを組み込むニーズ、課題、アーキテクチャを特定し、議論する。 軽量インフラストラクチャを活用するマイクロサービスアーキテクチャを使用したレガシーアプリケーションとの最適な統合のためのMinervas設計は、そのようなアプリケーションにMLモデルをデプロイすることを加速する。

In traditional SaaS enterprise applications, microservices are an essential ingredient to deploy machine learning (ML) models successfully. In general, microservices result in efficiencies in software service design, development, and delivery. As they become ubiquitous in the redesign of monolithic software, with the addition of machine learning, the traditional applications are also becoming increasingly intelligent. Here, we propose a portable ML microservice framework Minerva (microservices container for applied ML) as an efficient way to modularize and deploy intelligent microservices in traditional legacy SaaS applications suite, especially in the enterprise domain. We identify and discuss the needs, challenges and architecture to incorporate ML microservices in such applications. Minervas design for optimal integration with legacy applications using microservices architecture leveraging lightweight infrastructure accelerates deploying ML models in such applications.
翻訳日:2022-12-07 13:00:36 公開日:2020-05-02
# 機械学習の深みは

How deep the machine learning can be ( http://arxiv.org/abs/2005.00872v1 )

ライセンス: Link先を確認
J\'anos V\'egh(参考訳) 今日、私たちは人工知能と機械学習の時代を生きている。小さなスタートアップからHWやSWの巨人まで、誰もが機械学習チップやアプリケーションを作りたがっている。 しかし、タスクは困難である: 問題のサイズのためだけでなく、テクノロジーが効果的に成功する可能性を強く低下させる(そしてそれに基づくパラダイム)。 今日、シングルプロセッサのパフォーマンスは事実上自然法則の限界に達している。 必要な高いコンピューティング性能を達成する唯一の方法は、多くのシーケンシャルな作業単位を並列化することです。 しかし、(大規模に)並列化されたコンピューティングの法則は、単一プロセッサの組立と利用に関して経験した法則とは異なる。 機械学習は、主に従来のコンピューティング(プロセッサ)に基づいているため、aiに関する並列コンピューティングの(知られているが、幾分衰退した)法則を精査する。 本稿では,AIソリューションの計算性能のスケールアップについて,いくつかの問題点を概観する。

Today we live in the age of artificial intelligence and machine learning; from small startups to HW or SW giants, everyone wants to build machine intelligence chips, applications. The task, however, is hard: not only because of the size of the problem: the technology one can utilize (and the paradigm it is based upon) strongly degrades the chances to succeed efficiently. Today the single-processor performance practically reached the limits the laws of nature enable. The only feasible way to achieve the needed high computing performance seems to be parallelizing many sequentially working units. The laws of the (massively) parallelized computing, however, are different from those experienced in connection with assembling and utilizing systems comprising just-a-few single processors. As machine learning is mostly based on the conventional computing (processors), we scrutinize the (known, but somewhat faded) laws of the parallel computing, concerning AI. This paper attempts to review some of the caveats, especially concerning scaling the computing performance of the AI solutions.
翻訳日:2022-12-07 13:00:23 公開日:2020-05-02
# スピン型ニューロモルフィック回路の電気的可変確率性:変化への自己適応

Electrically-Tunable Stochasticity for Spin-based Neuromorphic Circuits: Self-Adjusting to Variation ( http://arxiv.org/abs/2005.00923v1 )

ライセンス: Link先を確認
Hossein Pourmeidani, Punyashloka Debashis, Zhihong Chen, Ronald F. DeMara, and Ramtin Zand(参考訳) エネルギー効率の高い手法は、ニューロモルフィックアーキテクチャ内の低エネルギー障壁ナノ磁気デバイスを活用するために取り組まれている。 ディープリーフネットワーク(DBN)の神経構造の基礎として磁気抵抗ランダムアクセスメモリ(MRAM)の確率的デバイス(p-bit)を用いて、学習システムに生じる確率性に対して磁気トンネル接合(MTJ)エネルギー障壁を低減させる影響を評価し、最適化する。 これにより、エネルギー障壁がほぼゼロkTを超えると急降下する確率DBNのプロセス変動感度を緩和することができる。 0.5kTの増分で約0kTから2.0kTのエネルギー障壁に対するMNISTデータセットについて評価した結果,安定性係数は5桁変化することが示唆された。 ここで開発された自己補償回路は, プロセス変動の影響を緩和する, コンパクトで低複雑性な手法を提供する。

Energy-efficient methods are addressed for leveraging low energy barrier nanomagnetic devices within neuromorphic architectures. Using a Magnetoresistive Random Access Memory (MRAM) probabilistic device (p-bit) as the basis of neuronal structures in Deep Belief Networks (DBNs), the impact of reducing the Magnetic Tunnel Junction's (MTJ's) energy barrier is assessed and optimized for the resulting stochasticity present in the learning system. This can mitigate the process variation sensitivity of stochastic DBNs which encounter a sharp drop-off when energy barriers exceed near-zero kT. As evaluated for the MNIST dataset for energy barriers at near-zero kT to 2.0 kT in increments of 0.5 kT, it is shown that the stability factor changes by 5 orders of magnitude. The self-compensating circuit developed herein provides a compact, and low complexity approach to mitigating process variation impacts towards practical implementation and fabrication.
翻訳日:2022-12-07 13:00:09 公開日:2020-05-02
# CO2エミッションデータセットを用いたトランスファー学習に基づく新しいGDP予測手法

A Novel GDP Prediction Technique based on Transfer Learning using CO2 Emission Dataset ( http://arxiv.org/abs/2005.02856v1 )

ライセンス: Link先を確認
Sandeep Kumar and Pranab K. Muhuri(参考訳) 過去150年間で、大気中のCO2濃度は280ppmから400ppmに増加した。 これにより、温室効果により、世界平均気温が0.7度近く上昇した。 しかし、最も繁栄している州は温室効果ガス(特にco2)の放出源である。 これは、州のガス排出と国内総生産(GDP)との強い関係を示している。 このような関係は、技術的進歩に依存し、国内外の規制政策や関係を常に変化させるため、非常に不安定で非線形である。 このような非常に非線形な関係を解析するために、ソフトコンピューティング技術は、内部システム機能に関する明確な洞察なしに、多変数パラメータのコンパクトな解を予測できるため、非常に効果的である。 本稿では、GDP予測のためのドメイン適応トランスファー学習と呼ばれる、GDP予測のための新しいトランスファー学習アプローチについて報告する。 各国の国民一人当たりのGDPは、開発または発展途上国のデータに基づいて訓練されたモデルを通じて、CO2排出量を用いて予測される。 その結果, 一般化回帰ニューラルネットワーク, エクストリーム学習マシン, サポートベクトル回帰の3つのよく知られた回帰手法について比較検討した。 次に、提案手法を用いて、戦国・孤立国の一部の国民一人当たりGDPの不足を確実に推定する。

In the last 150 years, CO2 concentration in the atmosphere has increased from 280 parts per million to 400 parts per million. This has caused an increase in the average global temperatures by nearly 0.7 degree centigrade due to the greenhouse effect. However, the most prosperous states are the highest emitters of greenhouse gases (specially, CO2). This indicates a strong relationship between gaseous emissions and the gross domestic product (GDP) of the states. Such a relationship is highly volatile and nonlinear due to its dependence on the technological advancements and constantly changing domestic and international regulatory policies and relations. To analyse such vastly nonlinear relationships, soft computing techniques has been quite effective as they can predict a compact solution for multi-variable parameters without any explicit insight into the internal system functionalities. This paper reports a novel transfer learning based approach for GDP prediction, which we have termed as Domain Adapted Transfer Learning for GDP Prediction. In the proposed approach per capita GDP of different nations is predicted using their CO2 emissions via a model trained on the data of any developed or developing economy. Results are comparatively presented considering three well-known regression methods such as Generalized Regression Neural Network, Extreme Learning Machine and Support Vector Regression. Then the proposed approach is used to reliably estimate the missing per capita GDP of some of the war-torn and isolated countries.
翻訳日:2022-12-07 12:59:53 公開日:2020-05-02
# SAMP:4D車両の形状と動きの先行

SAMP: Shape and Motion Priors for 4D Vehicle Reconstruction ( http://arxiv.org/abs/2005.00922v1 )

ライセンス: Link先を確認
Francis Engelmann, J\"org St\"uckler, Bastian Leibe(参考訳) 移動プラットフォームから3dで車両のポーズや形状を推測することは、カメラの投影センシング原理、反射や透明度といった表面特性の難しさ、画像間の照明変化など、依然として困難な課題である。 本稿では,ステレオ画像のシーケンスにおける車両の軌跡と形状の推定を定式化するために,3次元形状と動きを先行して用いることを提案する。 形状を3次元符号付き距離関数で表現し, 低次元多様体に埋め込む。 この最適化手法により,物体の軌跡に沿って全画像の観測値に共通形状を付与することができる。 運動モデルを用いて軌道を定式化し, 物体の動きを推定する。 提案手法をKITTIデータセット上で評価し,形状再構成とポーズ推定の精度で最先端の結果を示す。

Inferring the pose and shape of vehicles in 3D from a movable platform still remains a challenging task due to the projective sensing principle of cameras, difficult surface properties e.g. reflections or transparency, and illumination changes between images. In this paper, we propose to use 3D shape and motion priors to regularize the estimation of the trajectory and the shape of vehicles in sequences of stereo images. We represent shapes by 3D signed distance functions and embed them in a low-dimensional manifold. Our optimization method allows for imposing a common shape across all image observations along an object track. We employ a motion model to regularize the trajectory to plausible object motions. We evaluate our method on the KITTI dataset and show state-of-the-art results in terms of shape reconstruction and pose estimation accuracy.
翻訳日:2022-12-07 12:52:50 公開日:2020-05-02
# 自然言語処理文学の引用の検討

Examining Citations of Natural Language Processing Literature ( http://arxiv.org/abs/2005.00912v1 )

ライセンス: Link先を確認
Saif M. Mohammad(参考訳) ACLアンソロジー(AA)とGoogle Scholar(GS)から情報を抽出し,NLP論文の引用傾向について検討した。 さまざまなタイプの論文(ジャーナル記事、カンファレンス論文、デモ論文など)がどの程度引用されているか? nlp内の様々な分野の論文がどのくらい引用されているか? など 特に,aaの論文の引用回数が10回以上であることは,約56\%に過ぎなかった。 CL Journalは最も引用された論文があるが、近年は引用の優位性が低下している。 平均して、長い論文は短い論文の約3倍の引用を受け取り、感情分類、アナフォラ分解能、実体認識に関する論文は最も中央値の引用を持つ。 ここで紹介した分析と、引用にマッピングされたNLP論文のデータセットには、フィールドがどのように成長しているかを理解し、異なるタイプの論文の影響を定量化するなど、多くの用途がある。

We extracted information from the ACL Anthology (AA) and Google Scholar (GS) to examine trends in citations of NLP papers. We explore questions such as: how well cited are papers of different types (journal articles, conference papers, demo papers, etc.)? how well cited are papers from different areas of within NLP? etc. Notably, we show that only about 56\% of the papers in AA are cited ten or more times. CL Journal has the most cited papers, but its citation dominance has lessened in recent years. On average, long papers get almost three times as many citations as short papers; and papers on sentiment classification, anaphora resolution, and entity recognition have the highest median citations. The analyses presented here, and the associated dataset of NLP papers mapped to citations, have a number of uses including: understanding how the field is growing and quantifying the impact of different types of papers.
翻訳日:2022-12-07 12:52:38 公開日:2020-05-02
# 人間-ロボット協力チームにおける操作支援行動

Supportive Actions for Manipulation in Human-Robot Coworker Teams ( http://arxiv.org/abs/2005.00769v1 )

ライセンス: Link先を確認
Shray Bansal, Rhys Newbury, Wesley Chan, Akansel Cosgun, Aimee Allen, Dana Kuli\'c, Tom Drummond and Charles Isbell(参考訳) 製造における人間とロボットのチームのような、人間と並んでロボットの存在感が高まると、ロボットに好まれる行動の種類に関する研究が生まれる。 我々は,他者との将来の干渉をロボット支援行動として軽減し,協調操作シナリオにおけるその有用性を検討することにより,相互行為を支援する行動と呼ぶ。 1)タスク指向:ロボットは自身のタスク目標をさらに進めるためにのみ行動を取るし、(2)支援的:ロボットは将来のゴールコンフリクトを減らす際に、タスク指向のタスクに対して支援的な行動を好む。 シミュレーション実験では,支援行動はエージェント間の干渉を減少させるだけでなく,ロボットの作業完了に要する時間も長くなることが明らかとなった。 人間とロボットが共有テーブル上にオブジェクト配置を行うユーザスタディにおいて,これらのモードを物理ロボットに実装した。 以上の結果から,支援ロボットは人間に好意的な同僚として認識され,また2つのシナリオでは人間との干渉も軽減された。 しかし、近近距離操作シナリオのためにロボットの動作を設計する前に考慮する必要があるタスク効率とヒューマン・プリファレンスの興味深いトレードオフを強調する作業が完了するのに時間がかかった。

The increasing presence of robots alongside humans, such as in human-robot teams in manufacturing, gives rise to research questions about the kind of behaviors people prefer in their robot counterparts. We term actions that support interaction by reducing future interference with others as supportive robot actions and investigate their utility in a co-located manipulation scenario. We compare two robot modes in a shared table pick-and-place task: (1) Task-oriented: the robot only takes actions to further its own task objective and (2) Supportive: the robot sometimes prefers supportive actions to task-oriented ones when they reduce future goal-conflicts. Our experiments in simulation, using a simplified human model, reveal that supportive actions reduce the interference between agents, especially in more difficult tasks, but also cause the robot to take longer to complete the task. We implemented these modes on a physical robot in a user study where a human and a robot perform object placement on a shared table. Our results show that a supportive robot was perceived as a more favorable coworker by the human and also reduced interference with the human in the more difficult of two scenarios. However, it also took longer to complete the task highlighting an interesting trade-off between task-efficiency and human-preference that needs to be considered before designing robot behavior for close-proximity manipulation scenarios.
翻訳日:2022-12-07 12:52:05 公開日:2020-05-02
# 部分畳み込みを用いた金属アーティファクト低減のための射影塗装

Projection Inpainting Using Partial Convolution for Metal Artifact Reduction ( http://arxiv.org/abs/2005.00762v1 )

ライセンス: Link先を確認
Lin Yuan, Yixing Huang and Andreas Maier(参考訳) コンピュータ断層撮影では、患者体内に金属インプラントがあるため、再構成された画像は金属加工物に悩まされる。 金属のアーティファクトを減らすために、通常、金属は投影像から取り除かれる。 したがって、金属劣化した投射領域を塗る必要がある。 ディープラーニングの塗装法では、例えばU-Netなど、畳み込みニューラルネットワーク(CNN)が広く使われている。 しかし、これらのCNNは、有効な画素値と破損した画素値の両方で畳み込みフィルタ応答を使用し、不満足な画像品質をもたらす。 本研究では、部分畳み込みを投影インペインティングに適用し、有効なピクセル値のみに依存する。 部分的畳み込みと従来の畳み込みを含むU-Netは、金属加工品の還元に比較される。 実験により, 部分的畳み込みを伴うU-Netは, 従来の畳み込みよりも, 金属劣化した領域を塗布できることを示した。

In computer tomography, due to the presence of metal implants in the patient body, reconstructed images will suffer from metal artifacts. In order to reduce metal artifacts, metals are typically removed in projection images. Therefore, the metal corrupted projection areas need to be inpainted. For deep learning inpainting methods, convolutional neural networks (CNNs) are widely used, for example, the U-Net. However, such CNNs use convolutional filter responses on both valid and corrupted pixel values, resulting in unsatisfactory image quality. In this work, partial convolution is applied for projection inpainting, which only relies on valid pixels values. The U-Net with partial convolution and conventional convolution are compared for metal artifact reduction. Our experiments demonstrate that the U-Net with partial convolution is able to inpaint the metal corrupted areas better than that with conventional convolution.
翻訳日:2022-12-07 12:51:28 公開日:2020-05-02
# 脳MR画像合成のための腫瘍一致損失を有する多モード生成逆ネットワーク

Multi-Modality Generative Adversarial Networks with Tumor Consistency Loss for Brain MR Image Synthesis ( http://arxiv.org/abs/2005.00925v1 )

ライセンス: Link先を確認
Bingyu Xin, Yifan Hu, Yefeng Zheng, Hongen Liao(参考訳) 異なるモードのMR画像は臨床診断に相補的な情報を提供することができるが、全モードはアクセスにコストがかかることが多い。 既存のほとんどの手法は、欠落した画像を2つのモード間で合成することにのみ焦点を当てている。 この問題に対処するために,1つのMRモダリティT2から3つの高品質MRモード(FLAIR,T1,T1ce)を同時に合成する多モード生成対向ネットワーク(MGAN)を提案する。 実験結果から,提案手法による合成画像の品質は,ベースラインモデルpix2pixによる合成画像より優れていることがわかった。 また, MR脳画像合成においては, 生成したモダリティの悪性腫瘍情報を保存することが重要であり, さらに, TC-MGANと呼ばれるMGANにマルチモダリティ腫瘍の整合性損失を導入する。 TC-MGANによる合成モダリティを用いて腫瘍のセグメンテーションの精度を高め,その効果を実証した。

Magnetic Resonance (MR) images of different modalities can provide complementary information for clinical diagnosis, but whole modalities are often costly to access. Most existing methods only focus on synthesizing missing images between two modalities, which limits their robustness and efficiency when multiple modalities are missing. To address this problem, we propose a multi-modality generative adversarial network (MGAN) to synthesize three high-quality MR modalities (FLAIR, T1 and T1ce) from one MR modality T2 simultaneously. The experimental results show that the quality of the synthesized images by our proposed methods is better than the one synthesized by the baseline model, pix2pix. Besides, for MR brain image synthesis, it is important to preserve the critical tumor information in the generated modalities, so we further introduce a multi-modality tumor consistency loss to MGAN, called TC-MGAN. We use the synthesized modalities by TC-MGAN to boost the tumor segmentation accuracy, and the results demonstrate its effectiveness.
翻訳日:2022-12-07 12:50:52 公開日:2020-05-02
# コーパスレベル統計による医療関係予測の合理化

Rationalizing Medical Relation Prediction from Corpus-level Statistics ( http://arxiv.org/abs/2005.00889v1 )

ライセンス: Link先を確認
Zhen Wang, Jennifer Lee, Simon Lin, Huan Sun(参考訳) 近年,特に医療分野において,機械学習モデルの解釈性がますます重要になっている。 医療関係予測の合理化に光を当てる目的で、記憶の動作に関する既存の理論、例えば記憶と認識の理論に触発された新しい解釈可能な枠組みを提案する。 コーパスレベルの統計、すなわち、臨床テキストコーパスのグローバルな共起グラフが2つのエンティティ間の関係を予測することを考えると、まずターゲットエンティティに関連するリッチなコンテキストを思い出し、これらのコンテキスト間の関係的な相互作用を認識して、最終的な予測に寄与する。 実世界の公的な臨床データセットで実験を行い、我々のフレームワークは、神経ベースラインモデルの包括的なリストに対して、競争力のある予測性能を達成するだけでなく、その予測を正当化する根拠を提供する。 我々はさらに医療専門家と協力し,臨床意思決定におけるモデル理性の有用性を検証する。

Nowadays, the interpretability of machine learning models is becoming increasingly important, especially in the medical domain. Aiming to shed some light on how to rationalize medical relation prediction, we present a new interpretable framework inspired by existing theories on how human memory works, e.g., theories of recall and recognition. Given the corpus-level statistics, i.e., a global co-occurrence graph of a clinical text corpus, to predict the relations between two entities, we first recall rich contexts associated with the target entities, and then recognize relational interactions between these contexts to form model rationales, which will contribute to the final prediction. We conduct experiments on a real-world public clinical dataset and show that our framework can not only achieve competitive predictive performance against a comprehensive list of neural baseline models, but also present rationales to justify its prediction. We further collaborate with medical experts deeply to verify the usefulness of our model rationales for clinical decision making.
翻訳日:2022-12-07 12:44:34 公開日:2020-05-02
# 多領域対話状態追跡のための合成データを用いたゼロショット転送学習

Zero-Shot Transfer Learning with Synthesized Data for Multi-Domain Dialogue State Tracking ( http://arxiv.org/abs/2005.00891v1 )

ライセンス: Link先を確認
Giovanni Campagna and Agata Foryciarz and Mehrad Moradshahi and Monica S. Lam(参考訳) マルチドメイン対話状態追跡のためのゼロショット転送学習は,高コストのデータ取得を伴わずに新たなドメインを処理できる。 本稿では,ドメイン内トレーニングデータを抽象対話モデルとドメインのオントロジから合成した対話状態追跡のためのゼロショート転送学習手法を提案する。 合成データによるデータ拡張により,MultiWOZ 2.1データセット上でのTRADEモデルとBERTベースのSUMBTモデルのゼロショット学習の精度が向上することを示す。 SUMBTモデルのドメイン内データのみを合成したトレーニングは、完全なトレーニングデータセットで得られた精度の約2/3に達する。 ドメイン全体で平均して,アートのゼロショット学習状態を21%向上させる。

Zero-shot transfer learning for multi-domain dialogue state tracking can allow us to handle new domains without incurring the high cost of data acquisition. This paper proposes new zero-short transfer learning technique for dialogue state tracking where the in-domain training data are all synthesized from an abstract dialogue model and the ontology of the domain. We show that data augmentation through synthesized data can improve the accuracy of zero-shot learning for both the TRADE model and the BERT-based SUMBT model on the MultiWOZ 2.1 dataset. We show training with only synthesized in-domain data on the SUMBT model can reach about 2/3 of the accuracy obtained with the full training dataset. We improve the zero-shot learning state of the art on average across domains by 21%.
翻訳日:2022-12-07 12:44:16 公開日:2020-05-02
# 機械翻訳の品質評価の実際的展望

Practical Perspectives on Quality Estimation for Machine Translation ( http://arxiv.org/abs/2005.03519v1 )

ライセンス: Link先を確認
Junpei Zhou, Ciprian Chelba, Yuezhang (Music) Li(参考訳) 機械翻訳(MT)のための文レベル品質推定(QE)は、MT出力の修正に必要な後編集作業の翻訳編集率(TER)コストを予測する。 文レベルのQEに関する私たちの見解は、業界で遭遇したいくつかの実践的な設定によって規定されるものである。 MTのアウトプットの利用者は--人でもアルゴリズムでも--主にバイナリ品質の指標に関心がある--翻訳文は適当か、それとも後編集が必要か? そこで我々は,与えられた閾値を超える精度でリコールを最大化することに集中して,文レベルQEの品質分類(QC)の視点を提案する。 従来のQE回帰モデルは、このタスクでは不十分であったが、出力回帰層をバイナリ分類に置き換えて、90倍の精度で50~60倍のリコールを達成できることを実証した。 75~80%の精度で正しい翻訳を行う高品質MTシステムでは、後編集作業の大幅な削減が約束されます。

Sentence level quality estimation (QE) for machine translation (MT) attempts to predict the translation edit rate (TER) cost of post-editing work required to correct MT output. We describe our view on sentence-level QE as dictated by several practical setups encountered in the industry. We find consumers of MT output---whether human or algorithmic ones---to be primarily interested in a binary quality metric: is the translated sentence adequate as-is or does it need post-editing? Motivated by this we propose a quality classification (QC) view on sentence-level QE whereby we focus on maximizing recall at precision above a given threshold. We demonstrate that, while classical QE regression models fare poorly on this task, they can be re-purposed by replacing the output regression layer with a binary classification one, achieving 50-60\% recall at 90\% precision. For a high-quality MT system producing 75-80\% correct translations, this promises a significant reduction in post-editing work indeed.
翻訳日:2022-12-07 12:44:02 公開日:2020-05-02
# particle swarmとdeep learningによるネットワーク科学の強化: particle deep framework

Enhancing network forensics with particle swarm and deep learning: The particle deep framework ( http://arxiv.org/abs/2005.00722v1 )

ライセンス: Link先を確認
Nickolaos Koroniotis, Nour Moustafa(参考訳) iotスマートモノの人気は、提供される自動化と生産性への影響によって高まっている。 しかしながら、IoTデバイスは、確立された新しいIoT固有の攻撃ベクトルの両方に対して脆弱であることが証明されている。 本稿では,深層MLPモデルのハイパーパラメータを調整し,その性能を向上させるためにParticle Swarm Optimisationを利用した,IoTネットワークのための新しいネットワーク法医学フレームワークであるParticle Deep Frameworkを提案する。 PDFは、通常のIoTと非IoTトラフィックとよく知られたボットネット関連の攻撃を組み合わせた、現代のネットワークトラフィックデータセットであるBot-IoTデータセットを使用して、トレーニングされ、検証されている。 実験により,深部MLPモデルの性能が大幅に向上し,99.9%の精度と誤警報率0%に近い精度が得られた。

The popularity of IoT smart things is rising, due to the automation they provide and its effects on productivity. However, it has been proven that IoT devices are vulnerable to both well established and new IoT-specific attack vectors. In this paper, we propose the Particle Deep Framework, a new network forensic framework for IoT networks that utilised Particle Swarm Optimisation to tune the hyperparameters of a deep MLP model and improve its performance. The PDF is trained and validated using Bot-IoT dataset, a contemporary network-traffic dataset that combines normal IoT and non-IoT traffic, with well known botnet-related attacks. Through experimentation, we show that the performance of a deep MLP model is vastly improved, achieving an accuracy of 99.9% and false alarm rate of close to 0%.
翻訳日:2022-12-07 12:43:45 公開日:2020-05-02
# 学生戦略評価のための単語を用いた学習実験

Computing With Words for Student Strategy Evaluation in an Examination ( http://arxiv.org/abs/2005.00868v1 )

ライセンス: Link先を確認
Prashant K Gupta, and Pranab K. Muhuri(参考訳) グラニュラーコンピューティング(GC)の枠組みでは、インターバルタイプ2ファジィセット(IT2 FS)は不確実な言語情報のより良い表現を促進することで顕著な役割を果たす。 perceptual computing (per c)、よく知られたcww(compute with words)アプローチ、そしてその様々な応用がこの利点をうまく活用している。 本稿では,学生戦略評価のための新しい手法であるper cについて述べる。 試験は一般的に学生の科目知識をテストするために行われる。 彼らが解くことのできる質問の数は、試験中の学生の成功率を正確に判断します。 しかし、質問の解決策だけでなく、これらのソリューションを見つけるための戦略も同じように重要であると感じています。 より多くのマークが学生に与えられるべきである。学生は比較的良い戦略ではない学生よりも優れた戦略で質問を解く。 さらに、学生戦略を、教員が認識する学習成果の尺度とすることができる。 これは、学習結果が良くない学生を識別するのに役立ち、それゆえ、改善のために関連する助けを提供することができる。 本研究の主な貢献は,学生戦略評価におけるCWWの利用と,異なるCWWアプローチによる勧告の比較である。 CWWは2つの大きな利点を提供します。 まず,受験生が採用する戦略を総合的に評価するための数値スコアを生成する。 これにより、成績に基づいて生徒の比較とランク付けが可能となる。 第二に、システムから学生戦略を記述する言語的評価も得られる。 これらの数値スコアと言語的レコメンデーションは共に学生の戦略の質を評価するために用いられる。 per-cはすべてのケースでユニークなレコメンデーションを生成し、他のcwwアプローチよりも優れています。

In the framework of Granular Computing (GC), Interval type 2 Fuzzy Sets (IT2 FSs) play a prominent role by facilitating a better representation of uncertain linguistic information. Perceptual Computing (Per C), a well known computing with words (CWW) approach, and its various applications have nicely exploited this advantage. This paper reports a novel Per C based approach for student strategy evaluation. Examinations are generally oriented to test the subject knowledge of students. The number of questions that they are able to solve accurately judges success rates of students in the examinations. However, we feel that not only the solutions of questions, but also the strategy adopted for finding those solutions are equally important. More marks should be awarded to a student, who solves a question with a better strategy compared to a student, whose strategy is relatively not that good. Furthermore, the students strategy can be taken as a measure of his or her learning outcome as perceived by a faculty member. This can help to identify students, whose learning outcomes are not good, and, thus, can be provided with any relevant help, for improvement. The main contribution of this paper is to illustrate the use of CWW for student strategy evaluation and present a comparison of the recommendations generated by different CWW approaches. CWW provides us with two major advantages. First, it generates a numeric score for the overall evaluation of strategy adopted by a student in the examination. This enables comparison and ranking of the students based on their performances. Second, a linguistic evaluation describing the student strategy is also obtained from the system. Both these numeric score and linguistic recommendation are together used to assess the quality of a students strategy. We found that Per-C generates unique recommendations in all cases and outperforms other CWW approaches.
翻訳日:2022-12-07 12:42:55 公開日:2020-05-02
# クロスビュー画像検索 -深層学習による地上から空中画像検索

Cross-View Image Retrieval -- Ground to Aerial Image Retrieval through Deep Learning ( http://arxiv.org/abs/2005.00725v1 )

ライセンス: Link先を確認
Numan Khurshid, Talha Hanif, Mohbat Tharani, Murtaza Taj(参考訳) クロスモーダル検索は、異なるタイプのデータ間のコンテンツ類似度を測定することを目的としている。 このアイデアは以前、視覚、テキスト、および音声データに適用された。 本稿では,多視点画像に特有なクロスモーダル検索手法であるcross-view image retrieval cvirを提案する。 我々のアプローチは、ストリートビュー画像からのサンプルを衛星画像と直接比較する埋め込み空間だけでなく、特徴空間を見つけることを目的としています。 この比較のために、DeepCVIRという新しい深層学習ソリューションが提案されている。 従来のクロスビュー画像データセットでは,(1)クラス情報の欠如,(2)画像が結合したクロスビュー画像のジオローカライゼーションタスクのために収集されたこと,(3)オフストリート画像は含まないこと,などが不足していた。 クロスビュー画像検索の訓練,比較,評価を行うため,高速道路,山,宮殿,川,船,スタジアムなどを含む6種類のクロスビュー画像データセットを新たに提供し,700枚の高解像度デュアルビュー画像を用いた。 提案したDeepCVIRは、与えられたデータセットに対するCVIRタスクにおける従来のマッチング手法よりも優れており、将来の研究のベースラインとしても機能することを示す。

Cross-modal retrieval aims to measure the content similarity between different types of data. The idea has been previously applied to visual, text, and speech data. In this paper, we present a novel cross-modal retrieval method specifically for multi-view images, called Cross-view Image Retrieval CVIR. Our approach aims to find a feature space as well as an embedding space in which samples from street-view images are compared directly to satellite-view images (and vice-versa). For this comparison, a novel deep metric learning based solution "DeepCVIR" has been proposed. Previous cross-view image datasets are deficient in that they (1) lack class information; (2) were originally collected for cross-view image geolocalization task with coupled images; (3) do not include any images from off-street locations. To train, compare, and evaluate the performance of cross-view image retrieval, we present a new 6 class cross-view image dataset termed as CrossViewRet which comprises of images including freeway, mountain, palace, river, ship, and stadium with 700 high-resolution dual-view images for each class. Results show that the proposed DeepCVIR outperforms conventional matching approaches on the CVIR task for the given dataset and would also serve as the baseline for future research.
翻訳日:2022-12-07 12:42:33 公開日:2020-05-02
# 情報フローモデリングを用いた異種知識蒸留

Heterogeneous Knowledge Distillation using Information Flow Modeling ( http://arxiv.org/abs/2005.00727v1 )

ライセンス: Link先を確認
Nikolaos Passalis, Maria Tzelepi, Anastasios Tefas(参考訳) 知識蒸留(kd)法は、大きく複雑な教師にコード化された知識をより小さく高速な生徒に移すことができる。 初期の手法は通常、ネットワークの最後の層間でのみ知識を転送することに限定されていたが、後者の手法では多層KDを実行することができ、学生の精度をさらに高めた。 しかし、性能が向上したにもかかわらず、これらの手法は効率と柔軟性の両方を制限するいくつかの制限に悩まされている。 まず、既存のKD手法は、トレーニングプロセス中に異なる学習フェーズを経てニューラルネットワークが実行されることを無視する。 さらに、既存の多層KD法は、異なるアーキテクチャ(異種KD)のネットワークを効果的に扱うことができないことが多い。 本稿では,教師モデルの様々な層を流れる情報の流れをモデル化し,その情報の流れを模倣するために学生モデルを訓練する新しいKD手法を提案する。 提案手法は,学習過程の異なる段階において,適切な指導スキームを用いることで,上記の制限を克服し,教師が生徒の働き方を"説明"できるプロキシモデルとして機能する適切な補助教師モデルを設計・訓練することにより,その限界を克服することができる。 提案手法の有効性を4つの画像データセットと複数の異なる評価設定を用いて示す。

Knowledge Distillation (KD) methods are capable of transferring the knowledge encoded in a large and complex teacher into a smaller and faster student. Early methods were usually limited to transferring the knowledge only between the last layers of the networks, while latter approaches were capable of performing multi-layer KD, further increasing the accuracy of the student. However, despite their improved performance, these methods still suffer from several limitations that restrict both their efficiency and flexibility. First, existing KD methods typically ignore that neural networks undergo through different learning phases during the training process, which often requires different types of supervision for each one. Furthermore, existing multi-layer KD methods are usually unable to effectively handle networks with significantly different architectures (heterogeneous KD). In this paper we propose a novel KD method that works by modeling the information flow through the various layers of the teacher model and then train a student model to mimic this information flow. The proposed method is capable of overcoming the aforementioned limitations by using an appropriate supervision scheme during the different phases of the training process, as well as by designing and training an appropriate auxiliary teacher model that acts as a proxy model capable of "explaining" the way the teacher works to the student. The effectiveness of the proposed method is demonstrated using four image datasets and several different evaluation setups.
翻訳日:2022-12-07 12:42:12 公開日:2020-05-02
# ドメイン外依存性解析のためのtreebank組み込みベクター

Treebank Embedding Vectors for Out-of-domain Dependency Parsing ( http://arxiv.org/abs/2005.00800v1 )

ライセンス: Link先を確認
Joachim Wagner, James Barry and Jennifer Foster(参考訳) 最近のモノリンガル依存解析の進歩は、木バンク埋め込みベクターのアイデアであり、これは特定の言語に対するすべての木バンクをトレーニングデータとして使用できると同時に、モデルが他の木バンクからトレーニングデータを選択し、テスト時に好まれる木バンクを選択することを可能にする。 私たちはこの考えに基づいています 1 訓練に使用する木銀行から出ない文に対して、木銀行ベクトルを予測する方法の導入、 2) テスト時間中に事前定義されたツリーバンク埋め込みベクターから離れ、代わりに調整された補間を考案するとどうなるかを探る。 私たちはそれを示します 1) 予め定義されたベクトルよりも優れた補間ベクトルが存在する。 2) treebankのベクターは、10つのテスト言語のうち9つで十分な精度で予測でき、テストセットに最も適した事前定義されたtreebank埋め込みを知っているoracleのアプローチのパフォーマンスに合致する。

A recent advance in monolingual dependency parsing is the idea of a treebank embedding vector, which allows all treebanks for a particular language to be used as training data while at the same time allowing the model to prefer training data from one treebank over others and to select the preferred treebank at test time. We build on this idea by 1) introducing a method to predict a treebank vector for sentences that do not come from a treebank used in training, and 2) exploring what happens when we move away from predefined treebank embedding vectors during test time and instead devise tailored interpolations. We show that 1) there are interpolated vectors that are superior to the predefined ones, and 2) treebank vectors can be predicted with sufficient accuracy, for nine out of ten test languages, to match the performance of an oracle approach that knows the most suitable predefined treebank embedding for the test set.
翻訳日:2022-12-07 12:34:28 公開日:2020-05-02
# dqi: nlpにおけるデータ品質の測定

DQI: Measuring Data Quality in NLP ( http://arxiv.org/abs/2005.00816v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar, Bhavdeep Sachdeva, Chris Bryan, Chitta Baral(参考訳) ニューラルネットワークモデルは、複数のNLPデータセットで人間レベルのパフォーマンスを達成した。 しかし、最近の研究では、これらのモデルが本当に望ましいタスクを学習しているわけではないことが示されており、そのハイパフォーマンスはスパイラルなバイアスを使って過度に適合しているため、AIシステムの能力が過大評価されていることが示唆されている。 データ品質指標(DQI)の一般的な式を導入し、データセット作成者がそのような望ましくないバイアスのないデータセットを作成するのを支援する。 この式を,最近提案されている逆フィルタリング aflite の手法を用いて評価する。 高品質なデータを作成するためにDQIを用いた新しいデータ生成パラダイムを提案する。 データ作成パラダイムは、データ作成を支援する複数のデータ視覚化で構成されている (i)データの質を理解し、 (ii) 生成したデータインスタンスが全体的な品質に与える影響を可視化する。 自動化の方法もいくつかあります (i)データ作成と支援 (二)敵の攻撃に対してモデルをより堅牢にする。 DQIとこれらの自動化手法を使って、SNLIのバイアスのある例を再構築します。 SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることを示す。 改修により、モデルの性能が低下し、人間のパフォーマンスに対する大きなギャップが露呈する。 DQIは、アクティブラーニングを使って、より難しいベンチマークを作成するのに役立ちます。 私たちの研究は、動的データセット作成のプロセスを前進させ、データセットは技術の進化した状態とともに進化し、AIの真の進歩をベンチマークする手段として役立ちます。

Neural language models have achieved human level performance across several NLP datasets. However, recent studies have shown that these models are not truly learning the desired task; rather, their high performance is attributed to overfitting using spurious biases, which suggests that the capabilities of AI systems have been over-estimated. We introduce a generic formula for Data Quality Index (DQI) to help dataset creators create datasets free of such unwanted biases. We evaluate this formula using a recently proposed approach for adversarial filtering, AFLite. We propose a new data creation paradigm using DQI to create higher quality data. The data creation paradigm consists of several data visualizations to help data creators (i) understand the quality of data and (ii) visualize the impact of the created data instance on the overall quality. It also has a couple of automation methods to (i) assist data creators and (ii) make the model more robust to adversarial attacks. We use DQI along with these automation methods to renovate biased examples in SNLI. We show that models trained on the renovated SNLI dataset generalize better to out of distribution tasks. Renovation results in reduced model performance, exposing a large gap with respect to human performance. DQI systematically helps in creating harder benchmarks using active learning. Our work takes the process of dynamic dataset creation forward, wherein datasets evolve together with the evolving state of the art, therefore serving as a means of benchmarking the true progress of AI.
翻訳日:2022-12-07 12:34:11 公開日:2020-05-02
# 語順仮説の代替評価者としての言語モデル--日本語の事例研究

Language Models as an Alternative Evaluator of Word Order Hypotheses: A Case Study in Japanese ( http://arxiv.org/abs/2005.00842v1 )

ライセンス: Link先を確認
Tatsuki Kuribayashi, Takumi Ito, Jun Suzuki, Kentaro Inui(参考訳) 本稿では,ニューラルネットワークモデル(LM)を用いて語順を解析する手法について検討する。 このlmベースの方法は、カウントベースメソッドにおけるプリプロセッサエラーの伝播など、既存のメソッドが直面する困難を克服する可能性を秘めている。 本研究では,LMに基づく手法が単語順の分析に有効かどうかを検討する。 ケーススタディとして本研究は,日本語の語順が複雑で柔軟性が高いことに着目した。 LM法の有効性を検証するために (i) lmsと人間の語順の嗜好の類似、及び (ii)以前の言語研究とlm法を用いて得られた結果の整合性について。 実験の結果,LMは分析ツールとして用いるのに十分な語順の知識を示すことがわかった。 最後に, lm法を用いて, 大規模実験では解析されていない正準語順と話題化の関係を示す。

We examine a methodology using neural language models (LMs) for analyzing the word order of language. This LM-based method has the potential to overcome the difficulties existing methods face, such as the propagation of preprocessor errors in count-based methods. In this study, we explore whether the LM-based method is valid for analyzing the word order. As a case study, this study focuses on Japanese due to its complex and flexible word order. To validate the LM-based method, we test (i) parallels between LMs and human word order preference, and (ii) consistency of the results obtained using the LM-based method with previous linguistic studies. Through our experiments, we tentatively conclude that LMs display sufficient word order knowledge for usage as an analysis tool. Finally, using the LM-based method, we demonstrate the relationship between the canonical word order and topicalization, which had yet to be analyzed by large-scale experiments.
翻訳日:2022-12-07 12:33:50 公開日:2020-05-02
# 多言語固有体認識における伝達源

Sources of Transfer in Multilingual Named Entity Recognition ( http://arxiv.org/abs/2005.00847v1 )

ライセンス: Link先を確認
David Mueller and Nicholas Andrews and Mark Dredze(参考訳) 名前付きエンティティは本質的に多言語であり、任意の言語のアノテーションは制限される可能性がある。 このことは,複数の言語から抽出された注釈付きデータを用いて1つのモデルを訓練する多言語認識(NER)を考える動機となっている。 複数の言語から抽出された注釈付きデータを使用したNERモデルのナイーブトレーニングは、より多くのトレーニングデータにアクセスできたにもかかわらず、モノリンガルデータだけでトレーニングされたモデルを一貫して過小評価する。 本稿の出発点は,多言語モデルが単言語データに微調整され,その単言語モデルよりも一貫して著しく優れる,この問題に対する単純な解法である。 この現象を説明するために,多言語NERモデルの多言語移動源を探究し,多言語モデルの重み構造を単言語モデルと比較した。 ポリグロットモデルは言語間で効率的に多くのパラメータを共有でき、微調整はこれらのパラメータを多用する可能性がある。

Named-entities are inherently multilingual, and annotations in any given language may be limited. This motivates us to consider polyglot named-entity recognition (NER), where one model is trained using annotated data drawn from more than one language. However, a straightforward implementation of this simple idea does not always work in practice: naive training of NER models using annotated data drawn from multiple languages consistently underperforms models trained on monolingual data alone, despite having access to more training data. The starting point of this paper is a simple solution to this problem, in which polyglot models are fine-tuned on monolingual data to consistently and significantly outperform their monolingual counterparts. To explain this phenomena, we explore the sources of multilingual transfer in polyglot NER models and examine the weight structure of polyglot models compared to their monolingual counterparts. We find that polyglot models efficiently share many parameters across languages and that fine-tuning may utilize a large number of those parameters.
翻訳日:2022-12-07 12:33:38 公開日:2020-05-02
# 多言語音声認識のための言語スコアに基づく出力選択法

A language score based output selection method for multilingual speech recognition ( http://arxiv.org/abs/2005.00851v1 )

ライセンス: Link先を確認
Van Huy Nguyen, Thi Quynh Khanh Dinh, Truong Thinh Nguyen, Dang Khoa Mac(参考訳) 入力言語を指定すれば、適応方式により多言語音声認識システムの品質を向上させることができる。 多言語入力を受理できるシステムでは、言語識別子を入力に適用し、次のステップでデコーダを切り替えたり設定したり、あるいは別のサブシーケンスモデルを使って候補の集合から出力を選択するのが一般的である。 本稿では,リアルタイムアプリケーションにおける遅延の低減を目標として,まず言語モデル再構成手法を適用して対象言語の候補を全て生成し,入力言語の識別子モデルや言語仕様を使わずに出力を自動選択する簡単なスコアを提案する。 主なポイントは、このスコアを簡単かつ自動的にオンザフライで推定し、デコードパイプライン全体がよりシンプルでコンパクトになることです。 実験の結果,本手法は入力言語が指定された時と同じ品質が得られることがわかった。 さらに,ベトナム語における英語の借用語の精度向上のためのソリューションとして,言語間話者の問題に対処する英語とベトナム語エンド・ツー・エンドモデルを設計する。

The quality of a multilingual speech recognition system can be improved by adaptation methods if the input language is specified. For systems that can accept multilingual inputs, the popular approach is to apply a language identifier to the input then switch or configure decoders in the next step, or use one more subsequence model to select the output from a set of candidates. Motivated by the goal of reducing the latency for real-time applications, in this paper, a language model rescoring method is firstly applied to produce all possible candidates for target languages, then a simple score is proposed to automatically select the output without any identifier model or language specification of the input language. The main point is that this score can be simply and automatically estimated on-the-fly so that the whole decoding pipeline is more simple and compact. Experimental results showed that this method can achieve the same quality as when the input language is specified. In addition, we present to design an English and Vietnamese End-to-End model to deal with not only the problem of cross-lingual speakers but also as a solution to improve the accuracy of borrowed words of English in Vietnamese.
翻訳日:2022-12-07 12:33:20 公開日:2020-05-02
# 自然言語処理タスクの性能予測

Predicting Performance for Natural Language Processing Tasks ( http://arxiv.org/abs/2005.00870v1 )

ライセンス: Link先を確認
Mengzhou Xia, Antonios Anastasopoulos, Ruochen Xu, Yiming Yang, Graham Neubig(参考訳) 自然言語処理(NLP)研究におけるタスク、言語、ドメインの組み合わせの複雑さを考えると、可能な実験環境で新たに提案されたモデルを徹底的にテストすることは、計算的に禁止される。 本研究では,NLPモデルが実際にモデルを訓練したり,テストしたりすることなく,実験条件下でのNLPモデルの性能を評価できる可能性を検討する。 そこで我々は,実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。 9つの異なるNLPタスクを実験した結果、予測器は未知の言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。 さらに、我々は、我々の予測器を使って、他のすべての実験的な設定に対して妥当な予測を得るために実行すべき代表的な実験の小さなサブセットを見つける方法を概説する。

Given the complexity of combinations of tasks, languages, and domains in natural language processing (NLP) research, it is computationally prohibitive to exhaustively test newly proposed models on each possible experimental setting. In this work, we attempt to explore the possibility of gaining plausible judgments of how well an NLP model can perform under an experimental setting, without actually training or testing the model. To do so, we build regression models to predict the evaluation score of an NLP experiment given the experimental settings as input. Experimenting on 9 different NLP tasks, we find that our predictors can produce meaningful predictions over unseen languages and different modeling architectures, outperforming reasonable baselines as well as human experts. Going further, we outline how our predictor can be used to find a small subset of representative experiments that should be run in order to obtain plausible predictions for all other experimental settings.
翻訳日:2022-12-07 12:33:01 公開日:2020-05-02
# 複素構造を持つマルチモーダルレゲックス合成のベンチマーク

Benchmarking Multimodal Regex Synthesis with Complex Structures ( http://arxiv.org/abs/2005.00663v1 )

ライセンス: Link先を確認
Xi Ye, Qiaochu Chen, Isil Dillig and Greg Durrett(参考訳) 自然言語からの正規表現(regex)生成のための既存のデータセットは複雑さに制限があり、ユーザがstackoverflowに投稿するregexタスクと比較すると、これらのデータセットのregexは単純であり、それらを記述するのに使われる言語は多様ではない。 従来とは3つの点で異なる新しいregex合成データセットであるStructuredRegexを紹介した。 まず,実世界のStackOverflowポストから事前に定義されたマクロを持つ確率論的文法を用いて,構造的に複雑で現実的なRegexを得る。 第二に, 言語的に多様な自然言語記述を得るため, 群集作業者は基礎となるレゲックスを抽象的に表現し, それらのパターンを言い換えるのではなく, 記述するよう求める。 第3に、実際のユーザが例を示すのと同じように、基底真理regexと一致しない文字列の集まりで、各regexの例を拡張します。 定量的・定性的な分析により,事前データセットに対するstructuredregexの利点が証明された。 様々なマルチモーダル合成技術を用いたさらなる実験の結果は、非局所制約やマルチモーダル入力を含むデータセットが提示する課題を浮き彫りにする。

Existing datasets for regular expression (regex) generation from natural language are limited in complexity; compared to regex tasks that users post on StackOverflow, the regexes in these datasets are simple, and the language used to describe them is not diverse. We introduce StructuredRegex, a new regex synthesis dataset differing from prior ones in three aspects. First, to obtain structurally complex and realistic regexes, we generate the regexes using a probabilistic grammar with pre-defined macros observed from real-world StackOverflow posts. Second, to obtain linguistically diverse natural language descriptions, we show crowdworkers abstract depictions of the underlying regex and ask them to describe the pattern they see, rather than having them paraphrase synthetic language. Third, we augment each regex example with a collection of strings that are and are not matched by the ground truth regex, similar to how real users give examples. Our quantitative and qualitative analysis demonstrates the advantages of StructuredRegex over prior datasets. Further experimental results using various multimodal synthesis techniques highlight the challenge presented by our dataset, including non-local constraints and multi-modal inputs.
翻訳日:2022-12-07 12:26:43 公開日:2020-05-02
# 同時翻訳のための時間補正によるオポチュニティデコーディング

Opportunistic Decoding with Timely Correction for Simultaneous Translation ( http://arxiv.org/abs/2005.00675v1 )

ライセンス: Link先を確認
Renjie Zheng and Mingbo Ma and Baigong Zheng and Kaibo Liu and Liang Huang(参考訳) 同時翻訳は多くの重要な応用シナリオを持ち、近年は学術と産業の両方から多くの注目を集めている。 しかし、既存のフレームワークの多くは、翻訳品質とレイテンシのバランスをとるのが難しいため、デコードポリシーは通常、攻撃的すぎるか保守的すぎるかのいずれかである。 そこで本研究では,各ステップで一定の単語のマウントを常に(過剰に)生成し,最新の情報を用いてオーディエンスを追跡する,タイムリーな補正機能を備えた日和見的復号手法を提案する。 同時に、より多くのソースコンテキストを観察して高い翻訳品質を確保する場合、前者が過剰に生成した単語の誤りをタイムリーに補正する。 実験により,本手法は,中国語から英語への翻訳において8%以下で,レイテンシーが大幅に減少し,bleuが+3.1まで上昇することを示した。

Simultaneous translation has many important application scenarios and attracts much attention from both academia and industry recently. Most existing frameworks, however, have difficulties in balancing between the translation quality and latency, i.e., the decoding policy is usually either too aggressive or too conservative. We propose an opportunistic decoding technique with timely correction ability, which always (over-)generates a certain mount of extra words at each step to keep the audience on track with the latest information. At the same time, it also corrects, in a timely fashion, the mistakes in the former overgenerated words when observing more source context to ensure high translation quality. Experiments show our technique achieves substantial reduction in latency and up to +3.1 increase in BLEU, with revision rate under 8% in Chinese-to-English and English-to-Chinese translation.
翻訳日:2022-12-07 12:26:10 公開日:2020-05-02
# 専門知識の移行: 専門家と在職者とのコミュニケーションを改善するための新しいタスク

Expertise Style Transfer: A New Task Towards Better Communication between Experts and Laymen ( http://arxiv.org/abs/2005.00701v1 )

ライセンス: Link先を確認
Yixin Cao, Ruihao Shui, Liangming Pan, Min-Yen Kan, Zhiyuan Liu and Tat-Seng Chua(参考訳) 知識の呪いは専門家と平民のコミュニケーションを妨げる。 本稿では,このような認知バイアスの軽減を目標として,手作業で注釈付きデータセットを作成するための新しい課題を提案する。 このタスクを解くことは、プロの言語を単純化するだけでなく、単純な単語を用いた素人記述の精度と専門性を向上させる。 これは、ドメインの知識と構造を深く理解したテキストを修正するために、モデルに専門家の知性を必要とするため、以前の作業では適用できない難しいタスクである。 スタイル転送とテキスト簡易化のための5つの最先端モデルのベンチマーク性能を確立する。 その結果,機械性能と人的性能の差が顕著であった。 また,今後の研究方向性に関する洞察を提供するため,自動評価の課題についても論じる。 データセットはhttps://srhthu.github.io/expertise-style-transferで公開されている。

The curse of knowledge can impede communication between experts and laymen. We propose a new task of expertise style transfer and contribute a manually annotated dataset with the goal of alleviating such cognitive biases. Solving this task not only simplifies the professional language, but also improves the accuracy and expertise level of laymen descriptions using simple words. This is a challenging task, unaddressed in previous work, as it requires the models to have expert intelligence in order to modify text with a deep understanding of domain knowledge and structures. We establish the benchmark performance of five state-of-the-art models for style transfer and text simplification. The results demonstrate a significant gap between machine and human performance. We also discuss the challenges of automatic evaluation, to provide insights into future research directions. The dataset is publicly available at https://srhthu.github.io/expertise-style-transfer.
翻訳日:2022-12-07 12:25:15 公開日:2020-05-02
# ハードコードガウスのニューラルマシン翻訳への応用

Hard-Coded Gaussian Attention for Neural Machine Translation ( http://arxiv.org/abs/2005.00742v1 )

ライセンス: Link先を確認
Weiqiu You, Simeng Sun, Mohit Iyyer(参考訳) 近年の研究では、トランスフォーマーが高い翻訳品質を達成するために多面的な注意を向けることの重要性が疑問視されている。 我々は、学習パラメータを含まない「ハードコード」アテンションバリアントを開発することで、この方向をさらに推し進める。 驚くべきことに、エンコーダとデコーダの学習済みのセルフアテンションヘッドを、固定された入力に依存しないガウス分布に置き換えることで、4つの異なる言語ペアのbleuスコアに最小限の影響を及ぼす。 しかし、デコーダとエンコーダを接続する)クロスアテンションのハードコーディングはBLEUを著しく低下させ、自己アテンションよりも重要であることを示唆している。 このBLEUドロップの多くは、1つの学習されたクロスアテンションヘッドをハードコードされたトランスフォーマーに追加することで回収できる。 全体としては、トランスフォーマーのどのコンポーネントが実際に重要であるかについての洞察を提供し、よりシンプルでより効率的な注意に基づくモデルの開発に将来の取り組みを導くことを望んでいる。

Recent work has questioned the importance of the Transformer's multi-headed attention for achieving high translation quality. We push further in this direction by developing a "hard-coded" attention variant without any learned parameters. Surprisingly, replacing all learned self-attention heads in the encoder and decoder with fixed, input-agnostic Gaussian distributions minimally impacts BLEU scores across four different language pairs. However, additionally hard-coding cross attention (which connects the decoder to the encoder) significantly lowers BLEU, suggesting that it is more important than self-attention. Much of this BLEU drop can be recovered by adding just a single learned cross attention head to an otherwise hard-coded Transformer. Taken as a whole, our results offer insight into which components of the Transformer are actually important, which we hope will guide future work into the development of simpler and more efficient attention-based models.
翻訳日:2022-12-07 12:24:41 公開日:2020-05-02
# 競争的自律レースのための学習モデル予測制御

Learning Model Predictive Control for Competitive Autonomous Racing ( http://arxiv.org/abs/2005.00826v1 )

ライセンス: Link先を確認
Lukas Brunke(参考訳) この論文の目標は、学習モデル予測コントローラ(LMPC)を設計し、複数のエージェントが事前に定義されたレーストラックでリアルタイムに競い合うようにすることである。 この論文は、既存の単一エージェントの定式化における2つの大きな欠点に対処する。 以前は、エージェントは局所的に最適な軌道を決定するが、操作を行うのに必要な状態空間を探索しない。 さらに,非凸終端集合を用いてLMPCの障害物回避を実現しており,最適化問題の解を決定する際の複雑性が増大している。 提案するマルチエージェントレースアルゴリズムは,複数の初期化に対してLMPCを実行することで状態空間を探索し,よりリッチな端末セーフセットを生成する。 さらに、端末セーフセットの凸性を保ち、最適下状態を取ることができる、端末セット内の状態を選択する新しい方法を開発した。

The goal of this thesis is to design a learning model predictive controller (LMPC) that allows multiple agents to race competitively on a predefined race track in real-time. This thesis addresses two major shortcomings in the already existing single-agent formulation. Previously, the agent determines a locally optimal trajectory but does not explore the state space, which may be necessary for overtaking maneuvers. Additionally, obstacle avoidance for LMPC has been achieved in the past by using a non-convex terminal set, which increases the complexity for determining a solution to the optimization problem. The proposed algorithm for multi-agent racing explores the state space by executing the LMPC for multiple different initializations, which yields a richer terminal safe set. Furthermore, a new method for selecting states in the terminal set is developed, which keeps the convexity for the terminal safe set and allows for taking suboptimal states.
翻訳日:2022-12-07 12:18:31 公開日:2020-05-02
# 深部畳み込みニューラルネットワークによる後部胸部X線からのCOVID-19および他の肺炎の診断

Deep Convolutional Neural Networks to Diagnose COVID-19 and other Pneumonia Diseases from Posteroanterior Chest X-Rays ( http://arxiv.org/abs/2005.00845v1 )

ライセンス: Link先を確認
Pierre G. B. Moutounet-Cartan(参考訳) この記事は、健康な327人(152人)、新型コロナウイルス(125人)、その他の肺炎(48人)の胸部x線を訓練し、テストした、さまざまな深層畳み込みニューラルネットワークアーキテクチャを調査している。 特に,深層畳み込みニューラルネットワークvgg16,vgg19,inceptionresnetv2,inceptionv3,およびxceptionについて検討した。 論文によると、最高のパフォーマンスネットワークはVGG16で、3つのクラス(COVID-19, No Finding, Other Pneumonia)でトレーニングされた最後の30ドル%のドロップアウトである。 内部は93.9(\pm3.4)$%、covid-19感受性は87.7(-1.9,+2)$%、no発見感度は96.8(\pm0.8)$%である。 各外部クロスバリデーション値は、84.1(\pm13.5)$%、87.7(-1.9,2)$%、96.8(\pm0.8)$%である。 モデルオプティマイザはAdamの1e-4学習率とカテゴリー横断エントロピー損失である。 この研究が病院で実施されれば、医療専門家は、肺炎の可能性のある機械学習ツールによる診断を中・長期にわたって行うことができ、検出されれば、新型コロナウイルス感染と関連があるかどうかを判断し、ワクチンが発見・普及するまでは期待通り、新たな新型コロナウイルスの感染を検知できるようになると期待されている。 さらに、短期的には、深層畳み込みニューラルネットワークからの診断とRT-PCR検査の結果を比較し、衝突した場合は、より正確な新型コロナウイルス肺炎の診断を行うことができると期待されている。

The article explores different deep convolutional neural network architectures trained and tested on posteroanterior chest X-rays of 327 patients who are healthy (152 patients), diagnosed with COVID-19 (125), and other types of pneumonia (48). In particular, this paper looks at the deep convolutional neural networks VGG16 and VGG19, InceptionResNetV2 and InceptionV3, as well as Xception, all followed by a flat multi-layer perceptron and a final 30% drop-out. The paper has found that the best performing network is VGG16 with a final $30$% drop-out trained over 3 classes (COVID-19, No Finding, Other Pneumonia). It has an internal cross-validated accuracy of $93.9(\pm3.4)$%, a COVID-19 sensitivity of $87.7(-1.9,+2)$%, and a No Finding sensitivity of $96.8(\pm0.8)$%. The respective external cross-validated values are $84.1(\pm13.5)$%, $87.7(-1.9,2)$%, and $96.8(\pm0.8)$%. The model optimizer was Adam with a 1e-4 learning rate, and categorical cross-entropy loss. It is hoped that, once this research will be put to practice in hospitals, healthcare professionals will be able in the medium to long-term to diagnosing through machine learning tools possible pneumonia, and if detected, whether it is linked to a COVID-19 infection, allowing the detection of new possible COVID-19 foyers after the end of possible "stop-and-go" lockdowns as expected by until a vaccine is found and widespread. Furthermore, in the short-term, it is hoped practitioners can compare the diagnosis from the deep convolutional neural networks with possible RT-PCR testing results, and if clashing, a Computed Tomography could be performed as they are more accurate in showing COVID-19 pneumonia.
翻訳日:2022-12-07 12:18:18 公開日:2020-05-02
# 単一画像超解像に対するニューラル微分方程式

Neural Differential Equations for Single Image Super-resolution ( http://arxiv.org/abs/2005.00865v1 )

ライセンス: Link先を確認
Teven Le Scao(参考訳) ニューラル微分方程式は、MNISTのようなおもちゃの問題に対して有望であるが、より困難なタスクにはまだ適用されていない。 偏微分方程式に基づく画像復元のための変分法に着想を得て, 複数種類のニューラルDESとバックプロパゲーション法を1枚の超解像上でベンチマークする。 従来提案した勾配推定の随伴法では理論的安定性は保証されていないが, 離散感度解析による安定性の向上が期待できる。 我々の実験では、差分モデルは最先端の超解像モデルの性能に匹敵する。

Although Neural Differential Equations have shown promise on toy problems such as MNIST, they have yet to be successfully applied to more challenging tasks. Inspired by variational methods for image restoration relying on partial differential equations, we choose to benchmark several forms of Neural DEs and backpropagation methods on single image super-resolution. The adjoint method previously proposed for gradient estimation has no theoretical stability guarantees; we find a practical case where this makes it unusable, and show that discrete sensitivity analysis has better stability. In our experiments, differential models match the performance of a state-of-the art super-resolution model.
翻訳日:2022-12-07 12:17:39 公開日:2020-05-02
# PAMTRI:高ランダム化合成データを用いた車両再同定のための多視点マルチタスク学習

PAMTRI: Pose-Aware Multi-Task Learning for Vehicle Re-Identification Using Highly Randomized Synthetic Data ( http://arxiv.org/abs/2005.00673v1 )

ライセンス: Link先を確認
Zheng Tang, Milind Naphade, Stan Birchfield, Jonathan Tremblay, William Hodge, Ratnesh Kumar, Shuo Wang, Xiaodong Yang(参考訳) 研究コミュニティで広く研究されている人物再識別(ReID)と比較して,車両ReIDの注目度は低い。 自動車のReIDは難しい 1)クラス内変動度が高いこと(形状や外観が視点に依存することによる)、 2)小型クラス間可変性(異なるメーカーが製造する車両の形状や外観の類似性による)。 これらの課題に対処するため,我々はポーズ対応マルチタスク再識別(pamtri)フレームワークを提案する。 このアプローチは、以前の方法と比較して2つのイノベーションを含んでいる。 まず,姿勢推定からキーポイント,ヒートマップ,セグメントを介して車両の姿勢や形状を明示的に推論することにより,視点依存を克服する。 次に、組込みポーズ表現によるマルチタスク学習を通じて、ReIDを実行しながらセマンティックな車両属性(色と型)を共同で分類する。 詳細なポーズと属性情報を手動でラベル付けすることは禁じられているので、トレーニング用に自動的に注釈付けされた車両属性を持つ大規模で高度にランダム化された合成データセットを作成する。 PAMTRIは2つの主要車両ReIDベンチマークであるVeRiとCityFlow-ReIDにおいて,最先端のReIDよりも大幅に改善されている。 コードとモデルはhttps://github.com/NVlabs/PAMTRIで公開されている。

In comparison with person re-identification (ReID), which has been widely studied in the research community, vehicle ReID has received less attention. Vehicle ReID is challenging due to 1) high intra-class variability (caused by the dependency of shape and appearance on viewpoint), and 2) small inter-class variability (caused by the similarity in shape and appearance between vehicles produced by different manufacturers). To address these challenges, we propose a Pose-Aware Multi-Task Re-Identification (PAMTRI) framework. This approach includes two innovations compared with previous methods. First, it overcomes viewpoint-dependency by explicitly reasoning about vehicle pose and shape via keypoints, heatmaps and segments from pose estimation. Second, it jointly classifies semantic vehicle attributes (colors and types) while performing ReID, through multi-task learning with the embedded pose representations. Since manually labeling images with detailed pose and attribute information is prohibitive, we create a large-scale highly randomized synthetic dataset with automatically annotated vehicle attributes for training. Extensive experiments validate the effectiveness of each proposed component, showing that PAMTRI achieves significant improvement over state-of-the-art on two mainstream vehicle ReID benchmarks: VeRi and CityFlow-ReID. Code and models are available at https://github.com/NVlabs/PAMTRI.
翻訳日:2022-12-07 12:16:58 公開日:2020-05-02
# DroTrack:不確実性下での高速ドローンによる物体追跡

DroTrack: High-speed Drone-based Object Tracking Under Uncertainty ( http://arxiv.org/abs/2005.00828v1 )

ライセンス: Link先を確認
Ali Hamdi, Flora Salim, Du Yong Kim(参考訳) DroTrackは、ドローンでキャプチャしたビデオシーケンスのための高速な視覚的単一オブジェクト追跡フレームワークである。 既存のオブジェクト追跡手法のほとんどは、隠蔽や乱雑な背景など、よく知られた課題に対処するために設計されている。 ドローンの複雑な動き、すなわち3次元空間における複数の自由度は、高い不確実性を引き起こす。 不確実性は、スケール推定における不正確な位置予測とファジィ性をもたらす。 DroTrackはオブジェクト表現とモーション幾何学の依存関係を発見することでそのような問題を解決する。 ファジィc平均(fcm)に基づく効果的なオブジェクトセグメンテーションを実装した。 空間情報を会員関数に組み込んで最も識別性の高いセグメントをクラスタ化する。 次に、事前学習された畳み込みニューラルネットワーク(CNN)モデルを用いてオブジェクトセグメンテーションを強化する。 DroTrackはまた、幾何学的な角運動を利用して信頼できる物体スケールを推定する。 51,462フレームの2つのデータセットを用いた実験結果と性能評価について検討した。 fcmセグメンテーションと角スケーリングの組み合わせはドロトラック精度を最大$9\%向上させ、中心位置誤差を平均で$162$ピクセル減少させた。 DroTrackは、すべての高速トラッカーを上回り、ディープラーニングトラッカーと同等の結果を得る。 drotrackは、最高1000フレーム/秒(fps)の高フレームレートを、最高の位置精度で提供し、最先端のリアルタイムトラッカー以上のものを提供している。

We present DroTrack, a high-speed visual single-object tracking framework for drone-captured video sequences. Most of the existing object tracking methods are designed to tackle well-known challenges, such as occlusion and cluttered backgrounds. The complex motion of drones, i.e., multiple degrees of freedom in three-dimensional space, causes high uncertainty. The uncertainty problem leads to inaccurate location predictions and fuzziness in scale estimations. DroTrack solves such issues by discovering the dependency between object representation and motion geometry. We implement an effective object segmentation based on Fuzzy C Means (FCM). We incorporate the spatial information into the membership function to cluster the most discriminative segments. We then enhance the object segmentation by using a pre-trained Convolution Neural Network (CNN) model. DroTrack also leverages the geometrical angular motion to estimate a reliable object scale. We discuss the experimental results and performance evaluation using two datasets of 51,462 drone-captured frames. The combination of the FCM segmentation and the angular scaling increased DroTrack precision by up to $9\%$ and decreased the centre location error by $162$ pixels on average. DroTrack outperforms all the high-speed trackers and achieves comparable results in comparison to deep learning trackers. DroTrack offers high frame rates up to 1000 frame per second (fps) with the best location precision, more than a set of state-of-the-art real-time trackers.
翻訳日:2022-12-07 12:15:59 公開日:2020-05-02
# 知的輸送システムのための深層強化学習:調査

Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey ( http://arxiv.org/abs/2005.00935v1 )

ライセンス: Link先を確認
Ammar Haydari, Yasin Yilmaz(参考訳) 最近の技術改良は輸送の質を高めた。 新しいデータ駆動アプローチは、輸送、ロボティクス、IoT、電力システムなど、すべての制御ベースのシステムに対して、新たな研究方向を提供する。 データ駆動アプリケーションと輸送システムの組み合わせは、最近の輸送アプリケーションにおいて重要な役割を担っている。 本稿では,最新の深層学習(RL)に基づく交通制御アプリケーションについて検討する。 具体的には、文献で広く研究されている(ディープ)RLに基づく交通信号制御(TSC)の応用について詳細に論じる。 TSCの様々な問題定式化、RLパラメータ、シミュレーション環境について概説する。 文献では、深いrlモデルで研究されているいくつかの自動運転アプリケーションもある。 本調査は,アプリケーションの種類,制御モデル,アルゴリズムを分類することで,この分野の既存作品を広範囲に要約する。 最後に,RLをベースとした深層輸送アプリケーションに関する課題とオープンな疑問について論じる。

Latest technological improvements increased the quality of transportation. New data-driven approaches bring out a new research direction for all control-based systems, e.g., in transportation, robotics, IoT and power systems. Combining data-driven applications with transportation systems plays a key role in recent transportation applications. In this paper, the latest deep reinforcement learning (RL) based traffic control applications are surveyed. Specifically, traffic signal control (TSC) applications based on (deep) RL, which have been studied extensively in the literature, are discussed in detail. Different problem formulations, RL parameters, and simulation environments for TSC are discussed comprehensively. In the literature, there are also several autonomous driving applications studied with deep RL models. Our survey extensively summarizes existing works in this field by categorizing them with respect to application types, control models and studied algorithms. In the end, we discuss the challenges and open questions regarding deep RL-based transportation applications.
翻訳日:2022-12-07 12:15:26 公開日:2020-05-02
# 抽象要約における忠実性と事実性について

On Faithfulness and Factuality in Abstractive Summarization ( http://arxiv.org/abs/2005.00661v1 )

ライセンス: Link先を確認
Joshua Maynez and Shashi Narayan and Bernd Bohnet and Ryan McDonald(参考訳) ニューラルテキスト生成モデルにおける標準的な可能性訓練と近似復号化目的が、言語モデリングやストーリー生成のようなオープンエンドタスクに対する人間的な応答を減らすことはよく知られている。 本稿では,抽象文書要約におけるこれらのモデルの限界を解析し,これらのモデルが入力文書に反するコンテンツを幻覚させる傾向にあることを示した。 そこで我々は,複数の神経抽象的要約システムの大規模評価を行い,それらが生成する幻覚のタイプをよりよく理解した。 我々のアノテータは、全てのモデルが生成した要約にかなりの量の幻覚的内容を発見した。 しかし,本研究では,事前学習モデルが,生の指標であるROUGEだけでなく,人間によって評価される忠実で事実的な要約を生成する上で,より優れた要約者であることを示す。 さらに,テキストエンテーメント尺度は標準指標よりも忠実度と相関し,トレーニングや復号化基準と同様に,自動評価指標への道のりを導く可能性が示唆された。

It is well known that the standard likelihood training and approximate decoding objectives in neural text generation models lead to less human-like responses for open-ended tasks such as language modeling and story generation. In this paper we have analyzed limitations of these models for abstractive document summarization and found that these models are highly prone to hallucinate content that is unfaithful to the input document. We conducted a large scale human evaluation of several neural abstractive summarization systems to better understand the types of hallucinations they produce. Our human annotators found substantial amounts of hallucinated content in all model generated summaries. However, our analysis does show that pretrained models are better summarizers not only in terms of raw metrics, i.e., ROUGE, but also in generating faithful and factual summaries as evaluated by humans. Furthermore, we show that textual entailment measures better correlate with faithfulness than standard metrics, potentially leading the way to automatic evaluation metrics as well as training and decoding criteria.
翻訳日:2022-12-07 12:15:13 公開日:2020-05-02
# ボールk-means

Ball k-means ( http://arxiv.org/abs/2005.00784v1 )

ライセンス: Link先を確認
Shuyin Xia, Daowan Peng, Deyu Meng, Changqing Zhang, Guoyin Wang, Zizhong Chen, Wei Wei(参考訳) 本稿では,ボールを用いてクラスタを記述し,ポイントセントロイド距離計算の削減に焦点をあてた,高速なk-meansアルゴリズムであるBall k-meansアルゴリズムを提案する。 ボールk平均は、各クラスタの隣接クラスタを正確に見つけることができ、結果として、すべてのcentroidではなく、ポイントとその隣接クラスタのcentroid間の距離計算が行われる。 さらに、各クラスターを安定した領域と活発な領域に分けることができ、後者はさらに環状領域に分けることができる。 安定領域内のポイントの割り当てられたクラスタは、現在のイテレーションでは変更されず、アンギュラス領域のポイントは、現在のイテレーションでいくつかの隣のクラスタ内で調整される。 また、提案する球体 k-平均には上界や下界はない。 さらに、イテレーション間の遠心距離計算の削減は、大規模なkクラスタリングに効率的である。 高速、余分なパラメータなし、ボール k-means の単純な設計により、ナイーブ k-means アルゴリズムを全周的に置き換えることができる。

This paper presents a novel accelerated exact k-means algorithm called the Ball k-means algorithm, which uses a ball to describe a cluster, focusing on reducing the point-centroid distance computation. The Ball k-means can accurately find the neighbor clusters for each cluster resulting distance computations only between a point and its neighbor clusters' centroids instead of all centroids. Moreover, each cluster can be divided into a stable area and an active area, and the later one can be further divided into annulus areas. The assigned cluster of the points in the stable area is not changed in the current iteration while the points in the annulus area will be adjusted within a few neighbor clusters in the current iteration. Also, there are no upper or lower bounds in the proposed Ball k-means. Furthermore, reducing centroid-centroid distance computation between iterations makes it efficient for large k clustering. The fast speed, no extra parameters and simple design of the Ball k-means make it an all-around replacement of the naive k-means algorithm.
翻訳日:2022-12-07 12:08:58 公開日:2020-05-02
# 多言語組込みと言語間伝達におけるジェンダーバイアス

Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer ( http://arxiv.org/abs/2005.00699v1 )

ライセンス: Link先を確認
Jieyu Zhao, Subhabrata Mukherjee, Saghar Hosseini, Kai-Wei Chang and Ahmed Hassan Awadallah(参考訳) 多言語表現は、言語に関係なく、類似した意味を持つ単語が互いに近いように、多くの言語からの単語を単一の意味空間に埋め込む。 これらの埋め込みは、ある言語で訓練された自然言語処理(nlp)モデルを他の言語にデプロイするクロスリンガル転送など、様々な環境で広く使われている。 言語間の伝達技術は強力だが、ソースからターゲット言語への性別バイアスを担っている。 本稿では,多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。 バイアス分析のための多言語データセットを作成し、本質的・外生的両視点から多言語表現におけるバイアスの定量化方法を提案する。 実験の結果,多言語表現におけるバイアスの大きさは,埋め込みを異なる対象空間に合わせると異なる変化を示し,アライメント方向も伝達学習のバイアスに影響を与えることが示された。 さらに,下流タスクにおける多言語単語表現の使用を推奨する。

Multilingual representations embed words from many languages into a single semantic space such that words with similar meanings are close to each other regardless of the language. These embeddings have been widely used in various settings, such as cross-lingual transfer, where a natural language processing (NLP) model trained on one language is deployed to another language. While the cross-lingual transfer techniques are powerful, they carry gender bias from the source to target languages. In this paper, we study gender bias in multilingual embeddings and how it affects transfer learning for NLP applications. We create a multilingual dataset for bias analysis and propose several ways for quantifying bias in multilingual representations from both the intrinsic and extrinsic perspectives. Experimental results show that the magnitude of bias in the multilingual representations changes differently when we align the embeddings to different target spaces and that the alignment direction can also have an influence on the bias in transfer learning. We further provide recommendations for using the multilingual word representations for downstream tasks.
翻訳日:2022-12-07 12:08:22 公開日:2020-05-02
# 少女の名前:著者の難読化を検知する

A Girl Has A Name: Detecting Authorship Obfuscation ( http://arxiv.org/abs/2005.00702v1 )

ライセンス: Link先を確認
Asad Mahmood, Zubair Shafiq and Padmini Srinivasan(参考訳) authorship attributionは、スタイル分析に基づいてテキストの著者を特定することを目的としている。 一方、著者の難読化は、テキストのスタイルを変更することによって著者の帰属を防ぐことを目的としている。 本稿では,敵対的脅威モデルに基づく最先端のオーサシップ難読化手法のステルス性を評価する。 難読化者(obfuscator)は、難読化者によって修正されたテキストが難読化されているかどうかを検出するのが困難であると考える程度までステルスである。 既存の著者の難読化手法は、難読化テキストを平均F1スコア0.87で識別できるため、ステルス性がないことを示す。 ステルス性が欠如している理由は、これらの難読化器が、ニューラルネットワークモデルによって確認されるように、テキストの滑らかさを検出可能な方法で低下させるからだ。 本研究は,匿名性を求める著者の身元をよりよく保護するステルスな著作者の難読化手法の必要性を強調した。

Authorship attribution aims to identify the author of a text based on the stylometric analysis. Authorship obfuscation, on the other hand, aims to protect against authorship attribution by modifying a text's style. In this paper, we evaluate the stealthiness of state-of-the-art authorship obfuscation methods under an adversarial threat model. An obfuscator is stealthy to the extent an adversary finds it challenging to detect whether or not a text modified by the obfuscator is obfuscated - a decision that is key to the adversary interested in authorship attribution. We show that the existing authorship obfuscation methods are not stealthy as their obfuscated texts can be identified with an average F1 score of 0.87. The reason for the lack of stealthiness is that these obfuscators degrade text smoothness, as ascertained by neural language models, in a detectable manner. Our results highlight the need to develop stealthy authorship obfuscation methods that can better protect the identity of an author seeking anonymity.
翻訳日:2022-12-07 12:08:05 公開日:2020-05-02
# スパイクによる効率的な処理と学習に向けて:マルチスパイク学習の新しいアプローチ

Towards Efficient Processing and Learning with Spikes: New Approaches for Multi-Spike Learning ( http://arxiv.org/abs/2005.00723v1 )

ライセンス: Link先を確認
Qiang Yu, Shenglan Li, Huajin Tang, Longbiao Wang, Jianwu Dang, Kay Chen Tan(参考訳) スパイク(Spike)は、情報伝達と処理のための中枢神経系の通貨である。 また、生物学的システムの低消費電力化において重要な役割を担っていると考えられており、その効率性はニューロモルフィックコンピューティングの分野への関心を高めている。 しかし、離散スパイクの効率的な処理と学習は依然として難しい問題である。 本稿では,この方向への貢献について述べる。 まず、簡易スパイキングニューロンモデルが、インパルス関数でモデル化された膜電位に及ぼすシナプス入力と発射出力の両方の影響によって導入される。 イベント駆動型スキームが提示され、処理効率がさらに向上する。 ニューロンモデルに基づいて,関連,分類,特徴検出などのタスクにおいて,他のベースラインよりも優れたパフォーマンスを示す2つの新しいマルチスパイク学習ルールを提案する。 効率に加えて,学習規則は,異なるタイプの強い雑音に対して高い頑健性を示す。 これらは分類タスクのために異なるスパイクコーディングスキームに一般化することもでき、特にシングルニューロンは学習規則でマルチカテゴリの分類を解くことができる。 特徴検出タスクでは,教師なしのstdpを限界として再検討し,選択性を失う新たな現象を見いだす。 対照的に,提案する学習ルールは,特定の制約を課すことなく,幅広い条件下で確実にタスクを解くことができる。 さらに、我々のルールは特徴を検出するだけでなく、特徴を識別することもできる。 提案手法の性能向上は,好適な選択としてニューロモルフィック・コンピューティングに寄与する。

Spikes are the currency in central nervous systems for information transmission and processing. They are also believed to play an essential role in low-power consumption of the biological systems, whose efficiency attracts increasing attentions to the field of neuromorphic computing. However, efficient processing and learning of discrete spikes still remains as a challenging problem. In this paper, we make our contributions towards this direction. A simplified spiking neuron model is firstly introduced with effects of both synaptic input and firing output on membrane potential being modeled with an impulse function. An event-driven scheme is then presented to further improve the processing efficiency. Based on the neuron model, we propose two new multi-spike learning rules which demonstrate better performance over other baselines on various tasks including association, classification, feature detection. In addition to efficiency, our learning rules demonstrate a high robustness against strong noise of different types. They can also be generalized to different spike coding schemes for the classification task, and notably single neuron is capable of solving multi-category classifications with our learning rules. In the feature detection task, we re-examine the ability of unsupervised STDP with its limitations being presented, and find a new phenomenon of losing selectivity. In contrast, our proposed learning rules can reliably solve the task over a wide range of conditions without specific constraints being applied. Moreover, our rules can not only detect features but also discriminate them. The improved performance of our methods would contribute to neuromorphic computing as a preferable choice.
翻訳日:2022-12-07 12:06:59 公開日:2020-05-02
# マルチコンセンサス分散加速グラディエント蛍光

Multi-consensus Decentralized Accelerated Gradient Descent ( http://arxiv.org/abs/2005.00797v1 )

ライセンス: Link先を確認
Haishan Ye, Luo Luo, Ziang Zhou, Tong Zhang(参考訳) 本稿では,大規模機械学習,センサネットワーク,制御理論などに適用可能な分散最適化問題について考察する。 本稿では,既知の下界を条件数の対数係数に整合させて,ほぼ最適な通信複雑性を実現できる新しいアルゴリズムを提案する。 我々の理論的結果は,局所的な問題ではなく,大域的な条件数に依存する下界に一致する通信複雑性(ほぼ)を達成できるアルゴリズムが存在するかどうかに関して,オープンな問題に対して肯定的な回答を与える。 さらに,提案アルゴリズムは,下界を普遍定数に整合させる最適計算複雑性を実現する。 さらに、線形収束率を達成するために、アルゴリズム \emph{doesn't} は、個々の関数が(強く)凸であることを要求する。 本手法は,Nesterovの加速勾配降下,マルチコンセンサス,勾配追従といった新しい手法の組み合わせに依存する。 解析は新しいもので、他の関連する問題にも適用できる。 実験により,本手法の機械学習への応用が実証された。

This paper considers the decentralized optimization problem, which has applications in large scale machine learning, sensor networks, and control theory. We propose a novel algorithm that can achieve near optimal communication complexity, matching the known lower bound up to a logarithmic factor of the condition number of the problem. Our theoretical results give affirmative answers to the open problem on whether there exists an algorithm that can achieve a communication complexity (nearly) matching the lower bound depending on the global condition number instead of the local one. Moreover, the proposed algorithm achieves the optimal computation complexity matching the lower bound up to universal constants. Furthermore, to achieve a linear convergence rate, our algorithm \emph{doesn't} require the individual functions to be (strongly) convex. Our method relies on a novel combination of known techniques including Nesterov's accelerated gradient descent, multi-consensus and gradient-tracking. The analysis is new, and may be applied to other related problems. Empirical studies demonstrate the effectiveness of our method for machine learning applications.
翻訳日:2022-12-07 12:06:03 公開日:2020-05-02
# マルチタスク学習における情報伝達の理解と改善

Understanding and Improving Information Transfer in Multi-Task Learning ( http://arxiv.org/abs/2005.00944v1 )

ライセンス: Link先を確認
Sen Wu, Hongyang R. Zhang, Christopher R\'e(参考訳) すべてのタスクに共通機能表現を使用するマルチタスク学習手法について検討する。 タスク情報の転送をよりよく理解するために,各タスクの共有モジュールと個別の出力モジュールを用いたアーキテクチャについて検討する。 線形およびReLU活性化モデルにおけるこの設定の理論について検討する。 我々のキーとなる観察は、タスクデータの整合性がマルチタスク学習のパフォーマンスに大きく影響するかどうかである。 タスクデータ間の不一致は負の転送(あるいはパフォーマンスを損なう)を引き起こし、正の転送に十分な条件を提供する。 この理論的な知見から,タスクの埋め込みレイヤの整合化が,GLUEベンチマークや感情分析タスクにおけるマルチタスクトレーニングや伝達学習のパフォーマンス向上につながることを示す。 また,svdに基づくタスクの重み付けスキームも設計し,マルチラベル画像データセットにおけるマルチタスクトレーニングのロバスト性が向上することを示す。

We investigate multi-task learning approaches that use a shared feature representation for all tasks. To better understand the transfer of task information, we study an architecture with a shared module for all tasks and a separate output module for each task. We study the theory of this setting on linear and ReLU-activated models. Our key observation is that whether or not tasks' data are well-aligned can significantly affect the performance of multi-task learning. We show that misalignment between task data can cause negative transfer (or hurt performance) and provide sufficient conditions for positive transfer. Inspired by the theoretical insights, we show that aligning tasks' embedding layers leads to performance gains for multi-task training and transfer learning on the GLUE benchmark and sentiment analysis tasks; for example, we obtain a 2.35% GLUE score average improvement on 5 GLUE tasks over BERT-LARGE using our alignment method. We also design an SVD-based task reweighting scheme and show that it improves the robustness of multi-task training on a multi-label image dataset.
翻訳日:2022-12-07 11:59:39 公開日:2020-05-02
# 文法誤り訂正に関する総合的調査

A Comprehensive Survey of Grammar Error Correction ( http://arxiv.org/abs/2005.06600v1 )

ライセンス: Link先を確認
Yu Wang, Yuelin Wang, Jie Liu, Zhuo Liu(参考訳) 文法誤り訂正(GEC)は自然言語処理技術の重要な応用分野である。 過去10年間、機械学習とディープラーニングの人気が高まり、特に2010年代後半に人間レベルのECCシステムが利用可能になったことで、GECにおいて大きな進歩が見られた。 しかし、進捗の回復全体に焦点を当てた事前作業は行われていない。 本研究は,本分野の文献を総合的に考察するための第1回調査である。 まず5つの公開データセット、データアノテーションスキーマ、2つの重要な共有タスク、4つの標準評価指標を紹介します。 さらに,統計機械翻訳に基づくアプローチ,ニューラルマシン翻訳に基づくアプローチ,分類に基づくアプローチ,言語モデルに基づくアプローチ,GECシステムにおける6つの一般的なパフォーマンス向上手法,および2つのデータ拡張手法など,4種類の基本的アプローチについて議論する。 GECは通常、機械翻訳の姉妹タスクと見なされるため、多くのGECシステムはニューラル・マシン・トランスフォーメーション(NMT)アプローチに基づいており、ニューラル・シーケンス・ツー・シーケンス・モデルが適用される。 同様に、いくつかの性能向上技術は機械翻訳から適用され、最終性能の向上のためにGECシステムとうまく組み合わせられる。 さらに, 実験結果に基づいて, 基本手法, 性能向上技術, 統合型GECシステムの解析を行い, より明確なパターンと結論を得た。 最後に,今後のGEC研究の5つの方向性について論じる。

Grammar error correction (GEC) is an important application aspect of natural language processing techniques. The past decade has witnessed significant progress achieved in GEC for the sake of increasing popularity of machine learning and deep learning, especially in late 2010s when near human-level GEC systems are available. However, there is no prior work focusing on the whole recapitulation of the progress. We present the first survey in GEC for a comprehensive retrospect of the literature in this area. We first give the introduction of five public datasets, data annotation schema, two important shared tasks and four standard evaluation metrics. More importantly, we discuss four kinds of basic approaches, including statistical machine translation based approach, neural machine translation based approach, classification based approach and language model based approach, six commonly applied performance boosting techniques for GEC systems and two data augmentation methods. Since GEC is typically viewed as a sister task of machine translation, many GEC systems are based on neural machine translation (NMT) approaches, where the neural sequence-to-sequence model is applied. Similarly, some performance boosting techniques are adapted from machine translation and are successfully combined with GEC systems for enhancement on the final performance. Furthermore, we conduct an analysis in level of basic approaches, performance boosting techniques and integrated GEC systems based on their experiment results respectively for more clear patterns and conclusions. Finally, we discuss five prospective directions for future GEC researches.
翻訳日:2022-12-07 11:59:02 公開日:2020-05-02
# 絵文字は感情的か? 絵文字と感情の関連を理解するための研究

Are Emojis Emotional? A Study to Understand the Association between Emojis and Emotions ( http://arxiv.org/abs/2005.00693v1 )

ライセンス: Link先を確認
Abu Shoeb, Gerard de Melo(参考訳) 言語における絵文字の多様さを考えると、その意味とコミュニケーションの役割に光を当てる方法やリソースが必要である。 絵文字の顕著な側面の1つは、そうでなければ達成しにくい方法で影響を伝えるために使われることである。 本稿では,絵文字と感情の関連性について,人間同士の関連付けによる新たなデータセットを用いて検討する。 さらに,既存のデータからその関連がどの程度推測可能かを評価する実験を行い,より大規模な絵文字に対して類似した関連を予測できるようにした。 実験の結果,高品質な単語レベル情報が得られれば,これが成功することがわかった。

Given the growing ubiquity of emojis in language, there is a need for methods and resources that shed light on their meaning and communicative role. One conspicuous aspect of emojis is their use to convey affect in ways that may otherwise be non-trivial to achieve. In this paper, we seek to explore the connection between emojis and emotions by means of a new dataset consisting of human-solicited association ratings. We additionally conduct experiments to assess to what extent such associations can be inferred from existing data, such that similar associations can be predicted for a larger set of emojis. Our experiments show that this succeeds when high-quality word-level information is available.
翻訳日:2022-12-07 11:58:39 公開日:2020-05-02
# グラフ畳み込みネットワークを用いた中毒予測の決定支援

Decision Support for Intoxication Prediction Using Graph Convolutional Networks ( http://arxiv.org/abs/2005.00840v1 )

ライセンス: Link先を確認
Hendrik Burwinkel, Matthias Keicher, David Bani-Harouni, Tobias Zellner, Florian Eyer, Nassir Navab, Seyed-Ahmad Ahmadi(参考訳) 毎日、急性中毒の疑いがある場合は、毒規制センター(PCC)が即時分類と治療勧告のために呼ばれる。 これらの症例の時間依存性のため、医師は最小限の時間枠内で正しい診断と介入を提案する必要がある。 通常、毒素は知られ、それに応じて推奨することができる。 しかし、困難な症例では症状のみが言及され、医師は臨床経験に頼る必要がある。 本研究は, 地域別, 地域間差異, 制度的ワークフローなどにより, 症状が教科書の記述と必ずしも一致しない可能性があるため, 有毒化記録の地域データセットを分析した結果, 困難であることが示唆された。 コンピュータ支援診断(CADx)は意思決定を支援することができるが、これまでのアプローチでは、正しい診断に対する潜在的な価値にもかかわらず、年齢や性別などの報告された事例のさらなる情報については考慮していない。 本研究では,グラフ畳み込みネットワークを用いた患者の症状とメタ情報を融合した機械学習に基づくCADx法を提案する。 さらに,事前知識を学習プロセスに効果的に組み込むことを可能にし,毒素予測を明らかに安定化する新しい症状マッチング法を提案する。 ミュンヘンのPCCと10種類の毒素の有毒化を経験した10名の医師に対して,本法の有効性を検証し,本法が有毒化予測に有効であることを示す。

Every day, poison control centers (PCC) are called for immediate classification and treatment recommendations if an acute intoxication is suspected. Due to the time-sensitive nature of these cases, doctors are required to propose a correct diagnosis and intervention within a minimal time frame. Usually the toxin is known and recommendations can be made accordingly. However, in challenging cases only symptoms are mentioned and doctors have to rely on their clinical experience. Medical experts and our analyses of a regional dataset of intoxication records provide evidence that this is challenging, since occurring symptoms may not always match the textbook description due to regional distinctions, inter-rater variance, and institutional workflow. Computer-aided diagnosis (CADx) can provide decision support, but approaches so far do not consider additional information of the reported cases like age or gender, despite their potential value towards a correct diagnosis. In this work, we propose a new machine learning based CADx method which fuses symptoms and meta information of the patients using graph convolutional networks. We further propose a novel symptom matching method that allows the effective incorporation of prior knowledge into the learning process and evidently stabilizes the poison prediction. We validate our method against 10 medical doctors with different experience diagnosing intoxication cases for 10 different toxins from the PCC in Munich and show our method's superiority in performance for poison prediction.
翻訳日:2022-12-07 11:57:49 公開日:2020-05-02
# wisardpkg -- WiSARDベースのモデルのためのライブラリ

wisardpkg -- A library for WiSARD-based models ( http://arxiv.org/abs/2005.00887v1 )

ライセンス: Link先を確認
Aluizio S. Lima Filho and Gabriel P. Guarisa and Leopoldo A. D. Lusquino Filho and Luiz F. R. Oliveira and Felipe M. G. Franca and Priscila M. V. Lima(参考訳) WiSARDベースのモデルによるコード生成を容易にするため、LabZeroは wisardpkg と呼ばれるMLライブラリ C++/Python を開発した。 このライブラリはMITライセンスのオープンソースパッケージで、GitHubにライセンスでホストされている。

In order to facilitate the production of codes using WiSARD-based models, LabZero developed an ML library C++/Python called wisardpkg. This library is an MIT-licensed open-source package hosted on GitHub under the license.
翻訳日:2022-12-07 11:57:26 公開日:2020-05-02
# 応答集合プログラムの帰納的学習のためのilaspシステム

The ILASP system for Inductive Learning of Answer Set Programs ( http://arxiv.org/abs/2005.00904v1 )

ライセンス: Link先を確認
Mark Law, Alessandra Russo, Krysia Broda(参考訳) Inductive Logic Programming (ILP)の目標は、既存のバックグラウンド知識のコンテキストにおけるサンプルのセットを説明するプログラムを学習することである。 近年まで、ICPがターゲットとするPrologプログラムの研究がほとんどである。 私たちのILASPシステムは代わりに、通常のルール、選択ルール、厳しい制約を含むAnswer Set Programsを学びます。 例えば、選好学習を可能にし、デフォルトや例外を含む常識的な知識を学習し、非決定論的理論を学習することである。 本稿ではまず,ilaspの学習フレームワークとその機能の概要について述べる。 続いてilaspシステムの進化に関する包括的な概要が述べられ、スケーラビリティに特に重点を置いた各バージョンの長所と短所が紹介された。

The goal of Inductive Logic Programming (ILP) is to learn a program that explains a set of examples in the context of some pre-existing background knowledge. Until recently, most research on ILP targeted learning Prolog programs. Our own ILASP system instead learns Answer Set Programs, including normal rules, choice rules and hard and weak constraints. Learning such expressive programs widens the applicability of ILP considerably; for example, enabling preference learning, learning common-sense knowledge, including defaults and exceptions, and learning non-deterministic theories. In this paper, we first give a general overview of ILASP's learning framework and its capabilities. This is followed by a comprehensive summary of the evolution of the ILASP system, presenting the strengths and weaknesses of each version, with a particular emphasis on scalability.
翻訳日:2022-12-07 11:57:21 公開日:2020-05-02
# 中小企業の大規模不確実性推定と収益予測への応用

Large-scale Uncertainty Estimation and Its Application in Revenue Forecast of SMEs ( http://arxiv.org/abs/2005.00718v1 )

ライセンス: Link先を確認
Zebang Zhang, Kui Zhao, Kai Huang, Quanhui Jia, Yanming Fang, Quan Yu(参考訳) 中小企業の経済と銀行の重要性は、現代社会においてよく認識されている。 中小企業の運営において、ビジネスクレジットローンは非常に重要であり、収益は信用限度管理の重要な指標である。 したがって、信頼できる収益予測モデルを構築することは極めて有益である。 企業の収益予測の不確実性を推定できれば、より適切な信用限度が与えられる。 自然勾配に基づくマルチパラメータブースティングアルゴリズムによる予測の不確かさを推定する自然勾配ブースティング手法について検討した。 しかし、オリジナルの実装はビッグデータのシナリオにスケールするのは簡単ではなく、最先端のツリーベースモデル(XGBoostなど)と比較して計算コストがかかる。 本稿では,並列化が容易で,容易に解釈可能で,高品質な予測不確実性推定を実現する,スケーラブルな自然勾配ブースティングマシンを提案する。 収益分布の特徴により、不確実な定量化関数を導出する。 本研究では,中小企業の収益予測に正確で不正確なサンプルを識別できることを示す。 さらに、解釈可能性はそのモデルから自然に得られ、経済的ニーズを満たすことができます。

The economic and banking importance of the small and medium enterprise (SME) sector is well recognized in contemporary society. Business credit loans are very important for the operation of SMEs, and the revenue is a key indicator of credit limit management. Therefore, it is very beneficial to construct a reliable revenue forecasting model. If the uncertainty of an enterprise's revenue forecasting can be estimated, a more proper credit limit can be granted. Natural gradient boosting approach, which estimates the uncertainty of prediction by a multi-parameter boosting algorithm based on the natural gradient. However, its original implementation is not easy to scale into big data scenarios, and computationally expensive compared to state-of-the-art tree-based models (such as XGBoost). In this paper, we propose a Scalable Natural Gradient Boosting Machines that is simple to implement, readily parallelizable, interpretable and yields high-quality predictive uncertainty estimates. According to the characteristics of revenue distribution, we derive an uncertainty quantification function. We demonstrate that our method can distinguish between samples that are accurate and inaccurate on revenue forecasting of SMEs. What's more, interpretability can be naturally obtained from the model, satisfying the financial needs.
翻訳日:2022-12-07 11:57:08 公開日:2020-05-02
# ニューロモルフィック視覚データセットにおけるSNNとRNNの比較:類似性と相違

Comparing SNNs and RNNs on Neuromorphic Vision Datasets: Similarities and Differences ( http://arxiv.org/abs/2005.02183v1 )

ライセンス: Link先を確認
Weihua He, YuJie Wu, Lei Deng, Guoqi Li, Haoyu Wang, Yang Tian, Wei Ding, Wenhui Wang, Yuan Xie(参考訳) フレームレススパイクイベントを記録するニューロモルフィックデータには,時空間情報コンポーネントやイベント駆動処理スタイルに注目が集まっている。 spiking neural networks (snns) は、ニューロモーフィック・コンピューティングのための時空間ダイナミクスを持つイベント駆動モデル群であり、ニューロモーフィック・データに基づいて広くベンチマークされている。 興味深いことに、機械学習コミュニティの研究者たちは、リカレント(人工)ニューラルネットワーク(RNN)にも、イベント駆動ではないが時空間の特徴を抽出する能力があると主張している。 したがって、「これらの2種類のモデルをニューロモルフィックデータでベンチマークすればどうなるか」という疑問が浮かび上がっているが、まだ不明である。 本研究では、ニューロモルフィックデータに対するSNNとRNNの比較を体系的に研究し、視覚データセットをケーススタディとする。 まず、モデリングと学習の観点から、SNNとRNN(バニラRNNとLSTMを含む)の類似点と相違点を同定する。 コンパラビリティと公平性を改善するため,時間によるバックプロパゲーション(BPTT)に基づく教師付き学習アルゴリズム,全タイムステップで出力を活用できる損失関数,完全連結層や畳み込み層を積み重ねたネットワーク構造,トレーニング中のハイパーパラメータを統一する。 特に、RNNで使われるメインストリームの損失関数を考えると、レート符号化方式にインスパイアされてSNNにアプローチする。 さらに,モデルのロバスト性と一般化をテストするために,データセットの時間分解をチューニングする。 最後に、DVS変換(N-MNIST)とDVSキャプチャ(DVS Gesture)の2種類のニューロモルフィックデータセットについてコントラスト実験を行った。

Neuromorphic data, recording frameless spike events, have attracted considerable attention for the spatiotemporal information components and the event-driven processing fashion. Spiking neural networks (SNNs) represent a family of event-driven models with spatiotemporal dynamics for neuromorphic computing, which are widely benchmarked on neuromorphic data. Interestingly, researchers in the machine learning community can argue that recurrent (artificial) neural networks (RNNs) also have the capability to extract spatiotemporal features although they are not event-driven. Thus, the question of "what will happen if we benchmark these two kinds of models together on neuromorphic data" comes out but remains unclear. In this work, we make a systematic study to compare SNNs and RNNs on neuromorphic data, taking the vision datasets as a case study. First, we identify the similarities and differences between SNNs and RNNs (including the vanilla RNNs and LSTM) from the modeling and learning perspectives. To improve comparability and fairness, we unify the supervised learning algorithm based on backpropagation through time (BPTT), the loss function exploiting the outputs at all timesteps, the network structure with stacked fully-connected or convolutional layers, and the hyper-parameters during training. Especially, given the mainstream loss function used in RNNs, we modify it inspired by the rate coding scheme to approach that of SNNs. Furthermore, we tune the temporal resolution of datasets to test model robustness and generalization. At last, a series of contrast experiments are conducted on two types of neuromorphic datasets: DVS-converted (N-MNIST) and DVS-captured (DVS Gesture).
翻訳日:2022-12-07 11:50:53 公開日:2020-05-02
# Clue: カプセル生成のためのクロスモーダルコヒーレンスモデリング

Clue: Cross-modal Coherence Modeling for Caption Generation ( http://arxiv.org/abs/2005.00908v1 )

ライセンス: Link先を確認
Malihe Alikhani, Piyush Sharma, Shengjie Li, Radu Soricut and Matthew Stone(参考訳) 談話の計算モデルにインスパイアされたコヒーレンス関係を用いて、画像キャプションの情報ニーズと目標を研究する。 画像キャプチャーコヒーレンス関係をキャプチャするために特別に考案されたアノテーションプロトコルを用いて、公開されている画像キャプチャペアから10,000インスタンスを注釈する。 画像とテキストにおける推論の学習,コヒーレンス関係の予測,およびこれらのコヒーレンスアノテーションを利用して関係分類器を中間的なステップとして学習し,コヒーレンス対応で制御可能な画像キャプションモデルを訓練することを示す。 その結果,コヒーレンス関係によって特定された情報ニーズに対して,生成キャプションの一貫性と品質が劇的に向上した。

We use coherence relations inspired by computational models of discourse to study the information needs and goals of image captioning. Using an annotation protocol specifically devised for capturing image--caption coherence relations, we annotate 10,000 instances from publicly-available image--caption pairs. We introduce a new task for learning inferences in imagery and text, coherence relation prediction, and show that these coherence annotations can be exploited to learn relation classifiers as an intermediary step, and also train coherence-aware, controllable image captioning models. The results show a dramatic improvement in the consistency and quality of the generated captions with respect to information needs specified via coherence relations.
翻訳日:2022-12-07 11:50:05 公開日:2020-05-02
# 擬似タグと個別ベクトルを用いた単一モデルアンサンブル

Single Model Ensemble using Pseudo-Tags and Distinct Vectors ( http://arxiv.org/abs/2005.00879v1 )

ライセンス: Link先を確認
Ryosuke Kuwabara, Jun Suzuki, Hideki Nakayama(参考訳) モデルアンサンブル技術は、しばしばニューラルネットワークのタスクパフォーマンスを向上させるが、時間、メモリ、管理の労力が増加する。 本研究では,単一モデルを用いたモデルアンサンブルの効果を再現する新しい手法を提案する。 提案手法では、k-distinct pseudo-tags と k-distinct vector を用いて単一のパラメータ空間内で k-virtual model を生成する。 複数のデータセットにおけるテキスト分類とシーケンスラベリングタスクの実験は、従来のモデルアンサンブルを1/k時間よりも少ないパラメータでエミュレートしたり、上回ったりすることを示しています。

Model ensemble techniques often increase task performance in neural networks; however, they require increased time, memory, and management effort. In this study, we propose a novel method that replicates the effects of a model ensemble with a single model. Our approach creates K-virtual models within a single parameter space using K-distinct pseudo-tags and K-distinct vectors. Experiments on text classification and sequence labeling tasks on several datasets demonstrate that our method emulates or outperforms a traditional model ensemble with 1/K-times fewer parameters.
翻訳日:2022-12-07 11:48:27 公開日:2020-05-02
# ニューラルネットワークが実験室に入る:人間の行動のモデルとしてディープネットを使う

A neural network walks into a lab: towards using deep nets as models for human behavior ( http://arxiv.org/abs/2005.02181v1 )

ライセンス: Link先を確認
Wei Ji Ma and Benjamin Peters(参考訳) 深層ニューラルネットワークモデル(dnn)を知覚的および認知的タスクにおける人間の行動のモデルとして使用することで、多くの認知科学者にとって、ジョークの始まりのように聞こえるようになる。 DNNは機械学習を引き継いだが、人間の行動のモデルとして使用しようとする試みはまだ初期段階にある。 認知科学者のツールボックスで汎用的なモデルクラスになれるだろうか? まず、DNNが人間の行動の興味深いモデルになる可能性について論じる。 そして、そのポテンシャルをより完全に実現する方法について論じる。 一方、DNNのトレーニング、テスト、改訂のサイクルは、認知科学者の目標のレンズを通して再考する必要があると論じている。 具体的には、DNNモデルと人間の行動の適合性を評価する手法が、現在までに不足していることを論じる。 一方、認知科学はより複雑なタスク(より豊かな刺激空間を含む)を使い始める必要があるかもしれないが、それはDNNに依存しない理由にも有益かもしれない。 最後に、従来の認知プロセスモデルとDNNが生産的な相乗効果を示す方法を強調した。

What might sound like the beginning of a joke has become an attractive prospect for many cognitive scientists: the use of deep neural network models (DNNs) as models of human behavior in perceptual and cognitive tasks. Although DNNs have taken over machine learning, attempts to use them as models of human behavior are still in the early stages. Can they become a versatile model class in the cognitive scientist's toolbox? We first argue why DNNs have the potential to be interesting models of human behavior. We then discuss how that potential can be more fully realized. On the one hand, we argue that the cycle of training, testing, and revising DNNs needs to be revisited through the lens of the cognitive scientist's goals. Specifically, we argue that methods for assessing the goodness of fit between DNN models and human behavior have to date been impoverished. On the other hand, cognitive science might have to start using more complex tasks (including richer stimulus spaces), but doing so might be beneficial for DNN-independent reasons as well. Finally, we highlight avenues where traditional cognitive process models and DNNs may show productive synergy.
翻訳日:2022-12-07 11:41:53 公開日:2020-05-02
# 粒子群最適化アルゴリズムを用いた2型ファジィ信頼度分散問題とその解法

Type-2 fuzzy reliability redundancy allocation problem and its solution using particle swarm optimization algorithm ( http://arxiv.org/abs/2005.00863v1 )

ライセンス: Link先を確認
Zubair Ashraf, Pranab K. Muhuri, Q. M. Danish Lohani, and Mukul L. Roy(参考訳) 本稿では,2型ファジィ不確実性の下でシステムコストを最小化しつつ,システム信頼性を最大化するファジィ多目的信頼性冗長配置問題(FMORRAP)を提案する。 提案した定式化では, システムに関連する高次不確実性(パラメトリック, 製造, 環境, デザイナーの不確実性)を, 間隔型2ファジィ集合(IT2 FS)でモデル化する。 インターバルタイプ2のメンバーシップ関数(it2 mfs)の不確かさの足跡は、複数のシステム専門家の複数の意見を捉えることによって、これらの不確実性に対応している。 我々は、it2 mfをサブシステムの信頼性とコストを表すものとし、その構成、すなわち直列並列および並列列に応じてシステム全体の信頼性とコストを評価する拡張原理を用いてさらに集約する。 本研究では,fmorrap の解法として particle swarm optimization (pso) を用いた新しい解法を提案する。 並列FMORRAPと並列FMORRAPの2つの定式化の適用性を実証するため, 種々の数値データセットを用いて実験を行った。 意思決定者/システムの専門家は目的(システムの信頼性とコスト)に異なる重要性を割り当て、これらの好みは重み付けのセットで表される。 解法により最適結果が得られ、これらの異なる重み集合を用いてパレート最適フロントが確立される。 提案手法から得られた結果を比較するために遺伝的アルゴリズム(GA)を実装した。 PSO法とGA法で統計的解析を行い,PSO法をベースとしたPareto法ではGA法よりも優れた結果が得られた。

In this paper, the fuzzy multi-objective reliability redundancy allocation problem (FMORRAP) is proposed, which maximizes the system reliability while simultaneously minimizing the system cost under the type 2 fuzzy uncertainty. In the proposed formulation, the higher order uncertainties (such as parametric, manufacturing, environmental, and designers uncertainty) associated with the system are modeled with interval type 2 fuzzy sets (IT2 FS). The footprint of uncertainty of the interval type 2 membership functions (IT2 MFs) accommodates these uncertainties by capturing the multiple opinions from several system experts. We consider IT2 MFs to represent the subsystem reliability and cost, which are to be further aggregated using extension principle to evaluate the total system reliability and cost according to their configurations, i.e., series parallel and parallel series. We proposed a particle swarm optimization (PSO) based novel solution approach to solve the FMORRAP. To demonstrate the applicability of two formulations, namely, series parallel FMORRAP and parallel series FMORRAP, we performed experimental simulations on various numerical data sets. The decision makers/system experts assign different importance to the objectives (system reliability and cost), and these preferences are represented by sets of weights. The optimal results are obtained from our solution approach, and the Pareto optimal front is established using these different weight sets. The genetic algorithm (GA) was implemented to compare the results obtained from our proposed solution approach. A statistical analysis was conducted between PSO and GA, and it was found that the PSO based Pareto solution outperforms the GA.
翻訳日:2022-12-07 11:41:36 公開日:2020-05-02
# GenericsKB: ジェネリックステートメントの知識ベース

GenericsKB: A Knowledge Base of Generic Statements ( http://arxiv.org/abs/2005.00660v1 )

ライセンス: Link先を確認
Sumithra Bhakthavatsalam, Chloe Anastasiades, Peter Clark(参考訳) 本稿では,複数のコーパスから収集した「木が大気から二酸化炭素を除去する」という,*ジェネリックステートメントの大規模(3.5m+文)知識ベースという,nlpコミュニティのための新たなリソースを提案する。 これは、抽出またはクラウドソースされたトリプルとは対照的に、*自然に発生する*ジェネリックな文を含む最初の大きなリソースであり、高品質、一般、意味的に完全なステートメントに富んでいる。 すべてのジェネリックskb文は、その話題用語、周囲の文脈(sentences)、および(learned)信頼度でアノテートされる。 また、GenericsKB-Best(1M以上の文)をリリースし、WordNetとConceptNetから選択された合成ジェネリクスを付加したGenericsKBの最高品質ジェネリクスを含む。 マルチホップ推論(OBQAとQASC)を必要とする既存の2つのデータセットのテストでは、GenericsKBを使用することで、はるかに大きなコーパスを使用するよりも高いスコアと説明が得られます。 これは、ジェネリクスKBがNLPアプリケーションに有用なリソースであり、ジェネリクスとその意味論の言語研究のためのデータを提供することを示す。 GenericsKBはhttps://allenai.org/data/genericskb.comで入手できる。

We present a new resource for the NLP community, namely a large (3.5M+ sentence) knowledge base of *generic statements*, e.g., "Trees remove carbon dioxide from the atmosphere", collected from multiple corpora. This is the first large resource to contain *naturally occurring* generic sentences, as opposed to extracted or crowdsourced triples, and thus is rich in high-quality, general, semantically complete statements. All GenericsKB sentences are annotated with their topical term, surrounding context (sentences), and a (learned) confidence. We also release GenericsKB-Best (1M+ sentences), containing the best-quality generics in GenericsKB augmented with selected, synthesized generics from WordNet and ConceptNet. In tests on two existing datasets requiring multihop reasoning (OBQA and QASC), we find using GenericsKB can result in higher scores and better explanations than using a much larger corpus. This demonstrates that GenericsKB can be a useful resource for NLP applications, as well as providing data for linguistic studies of generics and their semantics. GenericsKB is available at https://allenai.org/data/genericskb.
翻訳日:2022-12-07 11:41:07 公開日:2020-05-02
# コモンセンス推論のためのコントラスト型自己監督学習

Contrastive Self-Supervised Learning for Commonsense Reasoning ( http://arxiv.org/abs/2005.00669v1 )

ライセンス: Link先を確認
Tassilo Klein and Moin Nabi(参考訳) 代名詞の曖昧さ解消とウィノグラードスキーマの課題を解決するための自己教師あり手法を提案する。 提案手法は,いわゆる「トリガー」単語に関連する学習コーパスの特徴的構造を利用して,代名詞の曖昧さに答えを反転させる。 ペアワイズ・コントラッシブな補助予測を構築することで、このような常識推論を実現する。 この目的のために、コントラストマージンによって正規化された相互排他的損失を利用する。 我々のアーキテクチャは、最近導入された変圧器ネットワークBERTに基づいており、多くのNLPベンチマークで高い性能を示している。 実験により,本手法はコモンセンス推論における現在の教師付きアプローチの限界を緩和することを示す。 本研究は, 安価な自己スーパービジョンを活用し, 常識推論タスクの性能向上を実現するための道筋を開く。

We propose a self-supervised method to solve Pronoun Disambiguation and Winograd Schema Challenge problems. Our approach exploits the characteristic structure of training corpora related to so-called "trigger" words, which are responsible for flipping the answer in pronoun disambiguation. We achieve such commonsense reasoning by constructing pair-wise contrastive auxiliary predictions. To this end, we leverage a mutual exclusive loss regularized by a contrastive margin. Our architecture is based on the recently introduced transformer networks, BERT, that exhibits strong performance on many NLP benchmarks. Empirical results show that our method alleviates the limitation of current supervised approaches for commonsense reasoning. This study opens up avenues for exploiting inexpensive self-supervision to achieve performance gain in commonsense reasoning tasks.
翻訳日:2022-12-07 11:40:46 公開日:2020-05-02
# 画像-テキスト同時可視化のためのマルチモーダル関係データの確率的近傍埋め込み

Stochastic Neighbor Embedding of Multimodal Relational Data for Image-Text Simultaneous Visualization ( http://arxiv.org/abs/2005.00670v1 )

ライセンス: Link先を確認
Morihiro Mizutani, Akifumi Okuno, Geewook Kim, Hidetoshi Shimodaira(参考訳) 近年、画像や、ソーシャルネットワークサービス(例えばflickr)から取得したテキストタグなど、さまざまな領域にわたるデータ探索において、マルチモーダルなリレーショナルデータ分析の重要性が高まっている。 例えば、t-SNE(t-Stochastic Neighbor Embedding)は低次元の特徴ベクトルを計算し、それらの類似性は観測されたデータベクトルの値を保持する。 しかし、t-SNEは単一のデータ領域のみを対象として設計されており、マルチモーダルデータではなく、これらのベクトルをまたいだ関係を持つ複数の領域のデータベクトルからなるマルチモーダルリレーショナルデータを可視化することを目的としている。 そこで、t-sneを拡張して、(1)領域間の関係を観測し、観測されたデータベクトルを介して各領域内の関係を計算し、(2)低次元空間に共同で拡張関係を埋め込み、(1)拡張関係を計算するマルチモーダル関係確率的近傍埋め込み(mr-sne)を提案する。 FlickrとAnimal with Attributes 2データセットの可視化を通じて、提案されたMR-SNEは他のグラフ埋め込みベースのアプローチと比較される。

Multimodal relational data analysis has become of increasing importance in recent years, for exploring across different domains of data, such as images and their text tags obtained from social networking services (e.g., Flickr). A variety of data analysis methods have been developed for visualization; to give an example, t-Stochastic Neighbor Embedding (t-SNE) computes low-dimensional feature vectors so that their similarities keep those of the observed data vectors. However, t-SNE is designed only for a single domain of data but not for multimodal data; this paper aims at visualizing multimodal relational data consisting of data vectors in multiple domains with relations across these vectors. By extending t-SNE, we herein propose Multimodal Relational Stochastic Neighbor Embedding (MR-SNE), that (1) first computes augmented relations, where we observe the relations across domains and compute those within each of domains via the observed data vectors, and (2) jointly embeds the augmented relations to a low-dimensional space. Through visualization of Flickr and Animal with Attributes 2 datasets, proposed MR-SNE is compared with other graph embedding-based approaches; MR-SNE demonstrates the promising performance.
翻訳日:2022-12-07 11:31:59 公開日:2020-05-02
# DeFormer: より高速な質問回答のために、トレーニング済みのトランスフォーマーを分解する

DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering ( http://arxiv.org/abs/2005.00697v1 )

ライセンス: Link先を確認
Qingqing Cao, Harsh Trivedi, Aruna Balasubramanian, Niranjan Balasubramanian(参考訳) トランスフォーマーベースのQAモデルでは、すべてのレイヤにおいて、インプットワイドな自己アテンション(すなわち、質問と入力パスの両方)が使用される。 すべての層、特に下位層において、インプットワイドな自己注意なしに達成できることがわかりました。 分割変換器であるDeFormerを導入し,下層層における全自己注意を質問範囲,通過範囲の自己注意に置き換える。 これにより、入力テキスト表現の疑問に依存しない処理が可能となり、それによって実行時計算を大幅に削減できる。 さらに、DeFormerはオリジナルのモデルとほとんど同じなので、標準トランスフォーマーのトレーニング前の重みでDeFormerを初期化し、ターゲットのQAデータセットに直接微調整することができます。 BERTとXLNetのDeFormerバージョンは、QAを4.3倍高速化するために使用でき、単純な蒸留に基づく損失は1%の精度でしか得られない。 ソースコードはhttps://github.com/StonyBrookNLP/deformerで公開しています。

Transformer-based QA models use input-wide self-attention -- i.e. across both the question and the input passage -- at all layers, causing them to be slow and memory-intensive. It turns out that we can get by without input-wide self-attention at all layers, especially in the lower layers. We introduce DeFormer, a decomposed transformer, which substitutes the full self-attention with question-wide and passage-wide self-attentions in the lower layers. This allows for question-independent processing of the input text representations, which in turn enables pre-computing passage representations reducing runtime compute drastically. Furthermore, because DeFormer is largely similar to the original model, we can initialize DeFormer with the pre-training weights of a standard transformer, and directly fine-tune on the target QA dataset. We show DeFormer versions of BERT and XLNet can be used to speed up QA by over 4.3x and with simple distillation-based losses they incur only a 1% drop in accuracy. We open source the code at https://github.com/StonyBrookNLP/deformer.
翻訳日:2022-12-07 11:31:18 公開日:2020-05-02
# AVA:質問応答システムに対する自動eValuationアプローチ

AVA: an Automatic eValuation Approach to Question Answering Systems ( http://arxiv.org/abs/2005.00705v1 )

ライセンス: Link先を確認
Thuy Vu and Alessandro Moschitti(参考訳) 質問応答の自動評価手法であるavaを導入することで, 金標準回答に関する一連の質問が与えられ, システム精度を推定できる。 AVAはTransformerベースの言語モデルを使用して質問、回答、参照テキストをエンコードする。 これにより、質問の意味論に偏った参照と自動回答の類似性を効果的に測定できる。 avaの設計、トレーニング、テストのために、パブリックとインダストリアルのベンチマークで複数の大規模なトレーニング、開発、テストセットを構築しました。 我々の革新的なソリューションは、F1の74.7%のスコアを達成し、単一の回答に対する人間の判断を予測する。 さらに、AVAは、複数の参照の可用性に応じて 0.02 から 0.09 の範囲の RMSE でシステム全体の精度を評価するのに使うことができる。

We introduce AVA, an automatic evaluation approach for Question Answering, which given a set of questions associated with Gold Standard answers, can estimate system Accuracy. AVA uses Transformer-based language models to encode question, answer, and reference text. This allows for effectively measuring the similarity between the reference and an automatic answer, biased towards the question semantics. To design, train and test AVA, we built multiple large training, development, and test sets on both public and industrial benchmarks. Our innovative solutions achieve up to 74.7% in F1 score in predicting human judgement for single answers. Additionally, AVA can be used to evaluate the overall system Accuracy with an RMSE, ranging from 0.02 to 0.09, depending on the availability of multiple references.
翻訳日:2022-12-07 11:30:56 公開日:2020-05-02
# コモンセンス知識によるテキストベース強化学習エージェントの強化

Enhancing Text-based Reinforcement Learning Agents with Commonsense Knowledge ( http://arxiv.org/abs/2005.00811v1 )

ライセンス: Link先を確認
Keerthiram Murugesan, Mattia Atzeni, Pushkar Shukla, Mrinmaya Sachan, Pavan Kapanipathi, Kartik Talamadupula(参考訳) 本稿では,テキストベース環境とゲームを用いた強化学習技術の進歩を評価環境として評価する最近のトレンドについて考察する。 このテキストへの依存は、これらのエージェントのアンビットに自然言語処理の進歩をもたらす。 本稿では,conceptnet の commonsense 知識を用いたエージェントのインスタンス化を行い,二つのテキストベース環境において有望な性能を示す。

In this paper, we consider the recent trend of evaluating progress on reinforcement learning technology by using text-based environments and games as evaluation environments. This reliance on text brings advances in natural language processing into the ambit of these agents, with a recurring thread being the use of external knowledge to mimic and better human-level performance. We present one such instantiation of agents that use commonsense knowledge from ConceptNet to show promising performance on two text-based environments.
翻訳日:2022-12-07 11:30:26 公開日:2020-05-02
# 障害者用バリアとしてのNLPモデルにおける社会的バイアス

Social Biases in NLP Models as Barriers for Persons with Disabilities ( http://arxiv.org/abs/2005.00813v1 )

ライセンス: Link先を確認
Ben Hutchinson, Vinodkumar Prabhakaran, Emily Denton, Kellie Webster, Yu Zhong, Stephen Denuyl(参考訳) 公平かつ包括的なNLP技術の構築には、社会的態度がMLモデルでどのように表現されるかを検討する必要がある。 特に、モデルにエンコードされた表現はしばしば、訓練されたデータから望ましくない社会的バイアスを不注意に永続化する。 本稿では,2つの異なる英語モデル(有毒性予測と感情分析)における障害の言及に対する好ましくない偏りの証拠を示す。 次に、ほとんどのnlpパイプラインで重要な第1ステップである神経組込みが、障害への言及に対する望ましくないバイアスを含むことを実証する。 最後に、銃の暴力、ホームレス、薬物依存など、観察されたモデルバイアスに寄与する可能性のある障害に関する談話の話題バイアスを強調することで締めくくる。

Building equitable and inclusive NLP technologies demands consideration of whether and how social attitudes are represented in ML models. In particular, representations encoded in models often inadvertently perpetuate undesirable social biases from the data on which they are trained. In this paper, we present evidence of such undesirable biases towards mentions of disability in two different English language models: toxicity prediction and sentiment analysis. Next, we demonstrate that the neural embeddings that are the critical first step in most NLP pipelines similarly contain undesirable biases towards mentions of disability. We end by highlighting topical biases in the discourse about disability which may contribute to the observed model biases; for instance, gun violence, homelessness, and drug addiction are over-represented in texts discussing mental illness.
翻訳日:2022-12-07 11:30:17 公開日:2020-05-02