このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200525となっている論文です。

PDF登録状況(公開日: 20200525)

TitleAuthorsAbstract論文公表日・翻訳日
# 1次元原子鎖による共鳴光散乱の集団シフト

Collective shift in resonant light scattering by a one-dimensional atomic chain ( http://arxiv.org/abs/2004.05395v2 )

ライセンス: Link先を確認
Antoine Glicenstein, Giovanni Ferioli, Nikola Sibalic, Ludovic Brossard, Igor Ferrier-Barbut, Antoine Browaeys(参考訳) 冷間二段原子の一次元ランダム充填鎖による共鳴光散乱実験を行った。 鎖に沿って散乱する光の局所的な測定により、原子間の光誘起双極子-双極子相互作用における構成的干渉を観察する。 これらは、平均原子間距離が光の波長よりも大きいにもかかわらず、集団共鳴のシフトにつながる。 この結果は,アンサンブルの幾何学的配置を構造化することで,強い集団効果を高めることができることを示した。 また,原子が古典的に記述できない高強度構造についても考察する。 我々は,1つの原子の応答の飽和を考慮した平均場・非線形結合双極子モデルと比較した。

We experimentally study resonant light scattering by a one-dimensional randomly filled chain of cold two-level atoms. By a local measurement of the light scattered along the chain, we observe constructive interferences in light-induced dipole-dipole interactions between the atoms. They lead to a shift of the collective resonance despite the average interatomic distance being larger than the wavelength of the light. This result demonstrates that strong collective effects can be enhanced by structuring the geometrical arrangement of the ensemble. We also explore the high intensity regime where atoms cannot be described classically. We compare our measurement to a mean-field, nonlinear coupled-dipole model accounting for the saturation of the response of a single atom.
翻訳日:2023-05-25 04:20:11 公開日:2020-05-25
# 多変数相関によるベル不等式を超えた二成分非局所性

Bipartite non-locality beyond Bell inequalities by means of multivariable correlations ( http://arxiv.org/abs/2004.12968v2 )

ライセンス: Link先を確認
Bruno Leggio, Bruno Bellomo, Romain Aza\"is, Przemys{\l}aw Prusinkiewicz, Christophe Godin(参考訳) 我々は、ベルの不等式を含む二部系における局所性に必要な条件の集合を与える。 各条件は、真に n-変数の相関関数の観点から、グラフ上で定義される確率変数の拡張の特定の順序に対応する。 最初の非自明な順序はベルの不等式となり、高い順序は追加の非等価条件を生成する。 特に、CHSH設定では、CHSHの不等式に還元されない少なくとも2つの厳密な条件が得られる。 これは、厳密なベルの不等式は、二部量子相関の非局所性には十分であるが必要ではないことを示している。

We give a set of necessary conditions for locality in bipartite systems, which include and generalize known Bell's inequalities. Each condition corresponds to a specific order of the expansion of random variables defined on graphs, in terms of genuinely n-variable correlation functions. The first non-trivial order leads to known Bell inequalities, while higher orders produce additional, non-equivalent conditions. In particular, in CHSH settings, we obtain at least two additional tight conditions which do not reduce to the CHSH inequality. This shows that tight Bell inequalities are sufficient but not necessary conditions for the non-locality of bipartite quantum correlations.
翻訳日:2023-05-22 00:04:07 公開日:2020-05-25
# ハバード模型におけるetaペアリング--スペクトル生成代数から量子多体傷まで

Eta-Pairing in Hubbard Models: From Spectrum Generating Algebras to Quantum Many-Body Scars ( http://arxiv.org/abs/2004.13727v2 )

ライセンス: Link先を確認
Sanjay Moudgalya, Nicolas Regnault, B. Andrei Bernevig(参考訳) 我々は、Hubbardモデルにおける$\eta$-pairing状態を再考し、量子多体スカーとの接続を探り、普遍的なスカーズ機構を発見する。 $\eta$-pairing はスペクトル生成代数 (sga) として知られる代数的構造によって起こり、スペクトルにおける等間隔の固有状態の塔を生み出す。 元の$\eta$-pairing構成を一般化し、任意のグラフ上のいくつかのHubbardのようなモデルが障害やスピン軌道結合を含むSGAを示すことを示す。 さらに、制限スペクトル生成代数(rsga)を定義し、原モデルの等間隔な塔を固有状態として保存するハバード的モデルに対する摂動の例を与える。 生き残った塔の状態は、準熱的絡み合いエントロピーを示し、スペクトルの大部分に存在するパラメータ構造を解析的に取得し、それらが正確な量子多体傷であることを示す。 RSGAフレームワークはまた、AKLTモデルを含むいくつかのよく知られた量子傷のモデルにおいて、等間隔の固有状態の塔についても説明している。

We revisit the $\eta$-pairing states in Hubbard models and explore their connections to quantum many-body scars to discover a universal scars mechanism. $\eta$-pairing occurs due to an algebraic structure known as a Spectrum Generating Algebra (SGA), giving rise to equally spaced towers of eigenstates in the spectrum. We generalize the original $\eta$-pairing construction and show that several Hubbard-like models on arbitrary graphs exhibit SGAs, including ones with disorder and spin-orbit coupling. We further define a Restricted Spectrum Generating Algebra (RSGA) and give examples of perturbations to the Hubbard-like models that preserve an equally spaced tower of the original model as eigenstates. The states of the surviving tower exhibit a sub-thermal entanglement entropy, and we analytically obtain parameter regimes for which they lie in the bulk of the spectrum, showing that they are exact quantum many-body scars. The RSGA framework also explains the equally spaced towers of eigenstates in several well-known models of quantum scars, including the AKLT model.
翻訳日:2023-05-21 21:43:01 公開日:2020-05-25
# 多体フロッケチャーン絶縁体の散布法

Dissipative preparation of many-body Floquet Chern insulators ( http://arxiv.org/abs/2005.09972v2 )

ライセンス: Link先を確認
Souvik Bandyopadhyay and Amit Dutta(参考訳) 周期的に駆動される散逸Haldaneモデルにおける緩和機構としてマイクロ構造浴とのカップリングを考えると, この系は全有限温度における分光的位相定常状態に調整可能である。 周期駆動の振幅と周波数は、一様状態におけるストロボスコープの瞬間におけるハルダンモデルを記述するフロケ・ハミルトニアンが位相的に非自明であるように選択される。 我々は、ストロボスコピック定常状態では、制御温度でフロケハミルトニアンの熱状態に達することを証明した。 さらに, 半局所浴とのカップリングであっても, 特にチャーン絶縁体は, ストロボスコープによるバルクバウンダリ対応が期待できる, チャーン非自明な純定常状態で調製できることが観察された。 チャーン絶縁体の位相相における巨視的バルク電偏極の非特異性を用いて,散逸なアンビエンスにおいてもハルダン模型の平衡多体ストロボスコピック状態のトポロジーを反映した一般化チャーン不変量を提案する。 単一粒子相関に依存する動的チャーン絶縁体の一般化トポロジーは、多体量子観測可能な実験において現れることが期待される。

Considering coupling to a micro-structured bath as a relaxation mechanism in a periodically driven dissipative Haldane model, we establish that the system may be tuned to a stroboscopic topological steady state at all finite temperatures. The amplitude and frequency of the periodic drive is so chosen that the Floquet Hamiltonian describing the Haldane model at stroboscopic instants of time in the unitary situation is topologically non-trivial. We establish that in the stroboscopic steady state, the system reaches a thermal state of the Floquet Hamiltonian at a controlled temperature. Further, it is observed that even with a coupling to a quasi-local bath, remarkably a Chern insulator can indeed be prepared in a Chern non-trivial pure steady state which is expected to exhibit a stroboscopic bulk-boundary correspondence. Using the non-uniqueness of the macroscopic bulk electric polarisation of a Chern insulator in its topological phase, we propose a generalised Chern invariant that reflects the topology of out-of-equilibrium many-body stroboscopic states of the Haldane model even in a dissipative ambience. The generalised topology of dynamical Chern insulators being dependent on single-particle correlations, is expected to manifest in experiments probing many-body quantum observables.
翻訳日:2023-05-19 06:01:26 公開日:2020-05-25
# 新型コロナウイルス(COVID-19)の接触追跡アプリにおけるプライバシー利用トレードオフに対する大衆の認識を理解する

Decentralized is not risk-free: Understanding public perceptions of privacy-utility trade-offs in COVID-19 contact-tracing apps ( http://arxiv.org/abs/2005.11957v1 )

ライセンス: Link先を確認
Tianshi Li, Jackie (Junrui) Yang, Cori Faklaris, Jennifer King, Yuvraj Agarwal, Laura Dabbish, Jason I. Hong(参考訳) 接触追跡アプリは、新型コロナウイルス(COVID-19)の感染拡大を止めるために医療当局が迅速に行動するのに役立つ可能性がある。 しかし、その効果はインストール率に大きく依存しており、これらのアプリの有用性に対する人々の認識や、センシティブなユーザーデータ(例えば、ユーザidとロケーション)の収集と解放による潜在的なプライバシーリスクに影響される可能性がある。 本稿では,アマゾン・メカニカル・トルクの米国限定サンプル(N=208ドル)を用いて,各デザインオプションのリスクとメリットを通知した上で,6種類のコンタクトトラッカーアプリをインストールする意思について調査する。 6つのアプリデザインは、2つの主要なデザイン次元(集中型と分散型、基本的なコンタクトトレースとホットスポット情報の提供)をカバーしました。 以前の作業の仮定とは対照的に、私たちのサンプルの大多数は、診断されたユーザの身元を推測するよりも、集中管理された権限でアプリの利用者の身元にアクセスできるようにするため、コンタクトトレースに集中的なサーバを使用するアプリをインストールすることを好みました。 また、検体の大半は、感染のホットスポットを示すために、診断されたユーザーの最近の場所を共有するアプリをインストールすることを好むことも分かりました。 以上の結果から,集中型アーキテクチャを用いて基本的な接触追跡を行い,公共の場所での感染のホットスポットなど他の有用な情報を提供するアプリは,米国において高い採用率を達成できる可能性が示唆された。

Contact-tracing apps have potential benefits in helping health authorities to act swiftly to halt the spread of COVID-19. However, their effectiveness is heavily dependent on their installation rate, which may be influenced by people's perceptions of the utility of these apps and any potential privacy risks due to the collection and releasing of sensitive user data (e.g., user identity and location). In this paper, we present a survey study that examined people's willingness to install six different contact-tracing apps after informing them of the risks and benefits of each design option (with a U.S.-only sample on Amazon Mechanical Turk, $N=208$). The six app designs covered two major design dimensions (centralized vs decentralized, basic contact tracing vs. also providing hotspot information), grounded in our analysis of existing contact-tracing app proposals. Contrary to assumptions of some prior work, we found that the majority of people in our sample preferred to install apps that use a centralized server for contact tracing, as they are more willing to allow a centralized authority to access the identity of app users rather than allowing tech-savvy users to infer the identity of diagnosed users. We also found that the majority of our sample preferred to install apps that share diagnosed users' recent locations in public places to show hotspots of infection. Our results suggest that apps using a centralized architecture with strong security protection to do basic contact tracing and providing users with other useful information such as hotspots of infection in public places may achieve a high adoption rate in the U.S.
翻訳日:2023-05-18 12:34:54 公開日:2020-05-25
# 遠隔地におけるスポーキーアクション

Spooky Action at a Distance ( http://arxiv.org/abs/2005.11870v1 )

ライセンス: Link先を確認
Stan Gudder(参考訳) 本稿では量子力学的絡み合いについて述べる。 エンタングルメントがなぜ遠くで作用するかを説明することから始める。 次に、純粋な量子状態がいつ絡まるかを決定するための簡単な基準を導入する。 最後に、純粋な状態に対する絡み合いの量を示す尺度を示す。

This article studies quantum mechanical entanglement. We begin by illustrating why entanglement implies action at a distance. We then introduce a simple criterion for determining when a pure quantum state is entangled. Finally, we present a measure for the amount of entanglement for a pure state.
翻訳日:2023-05-18 12:33:52 公開日:2020-05-25
# スピン軌道-角運動量結合ボース-アインシュタイン凝縮体における可視ストライプ相

Visible stripe phases in spin-orbital-angular-momentum coupled Bose-Einstein condensates ( http://arxiv.org/abs/2005.12007v1 )

ライセンス: Link先を確認
N.-C. Chiu, Y. Kawaguchi, S.-K. Yip and Y.-J. Lin(参考訳) 近年, スピン軌道結合型ボース・アインシュタイン凝縮体 (BEC) のストライプ相は超固体相として同定され, 注目されている。 本稿では,実験的に到達可能なパラメータを利用して,スピン軌道-角-モーメント結合(SOAMC)BECにおいて,大きなストライプ間隔と高いストライプコントラストを有する環状ストライプ位相が達成可能であることを示す。 Gross-Pitaevskii の数値シミュレーションの他に,従来の文献では使われていなかった1次への本質的な相互作用効果を捉える変分アンサッツを開発した。 我々の研究は、実験においてSOAMC BECのストライプフェーズを直接観察する可能性を開くべきである。

Recently, stripe phases in spin-orbit coupled Bose-Einstein condensates (BECs) have attracted much attention since they are identified as supersolid phases. In this paper, we exploit experimentally reachable parameters and show theoretically that annular stripe phases with large stripe spacing and high stripe contrast can be achieved in spin-orbital-angular-momentum coupled (SOAMC) BECs. In addition to using Gross-Pitaevskii numerical simulations, we develop a variational ansatz that captures the essential interaction effects to first order, which are not present in the ansatz employed in previous literature. Our work should open the possibility toward directly observing stripe phases in SOAMC BECs in experiments.
翻訳日:2023-05-18 12:29:45 公開日:2020-05-25
# 高等教育のためのTAM(Technology Acceptance Model)における文化とグリットの埋め込み

Embedding Culture and Grit in the Technology Acceptance Model (TAM) for Higher Education ( http://arxiv.org/abs/2005.11973v1 )

ライセンス: Link先を確認
Parvathy Panicker(参考訳) 教育環境における学習技術の実践者は、導入されている教育環境が文化的に中立であると考える戦略に従うことが多い。 教育技術の課題に関する150の論文を含む総合的な文献レビューが行われた。 本研究の目的は、高等教育分野における教育技術の導入に向けた様々な文脈的課題を検討することである。 主要な利害関係者(教師、講義、生徒、サポートスタッフなど)を定義する文化的要因は、実施プロセスが実行されるとしばしば無視される。 また、実施担当者も文化的に中立的であり、文化に固有の特性を持っていないことがしばしば想定される。 文化的要因は, 学習技術の実践に大きく影響し, 要因を考慮できない設計戦略は, 効率や効果を抑える可能性があることが示唆された。 課題は相互に関連し,その知見に基づいて,高等教育における教育技術導入のための技術受容モデル(TAM)に文化と格子を統合する概念的枠組みを提案する。 このフレームワークは、実践と研究の両方を導くのに役立つだろう。

The implementors of learning technologies within education environments often follow strategies that assume the educational environment within which they are being introduced is culturally neutral. A comprehensive literature review including 150 papers on educational technology challenges was undertaken. The purpose of this review is explore different contextual challenges to the adoption of educational technology in the higher education sector. The cultural factors that define the key stakeholders (e.g., teachers, lectures, students and support staff) are often ignored when the implementation processes are undertaken. Furthermore, it is often assumed that the personnel responsible for the implementation are also culturally neutral and do not possess any attributes unique to their culture. It has been shown that cultural factors may significantly influence the implementation of learning technologies and to design strategies that fail to consider factors may limit their efficiency and effectiveness. The challenges are interrelated and based on the findings, this review proposes a conceptual framework by integrating culture and grit into the Technology Acceptance Model(TAM) for implementing educational technology in higher education. The framework will be useful to guide both practice and research.
翻訳日:2023-05-18 12:29:03 公開日:2020-05-25
# モジュールアーキテクチャのための時間スライス量子回路分割

Time-Sliced Quantum Circuit Partitioning for Modular Architectures ( http://arxiv.org/abs/2005.12259v1 )

ライセンス: Link先を確認
Jonathan M. Baker, Casey Duckering, Alexander Hoover, Frederic T. Chong(参考訳) 現在の量子コンピュータの設計はスケールしない。 小さなプロトタイプを超えてスケールするために、量子アーキテクチャは、密結合した量子ビットのクラスタとクラスタ間のスパーザー接続を持つモジュラーアプローチを採用するだろう。 このクラスタリングと静的に知られた量子プログラムの制御フローを利用して、量子回路を1回に一度にモジュラ物理マシンにマッピングするトラクタブルパーティショニングヒューリスティックを生成する。 具体的には、各タイムスライス毎に最適化されたマッピングを作成し、前のタイムスライスからデータを移動するためのコストを考慮し、調整可能なルックアヘッドスキームを使用して将来のタイムスライスに移行するコストを削減する。 このアプローチを従来の静的マッピングのオーナ計算モデルと比較します。 その結果,静的マッピングベースラインよりも厳格に改善が見られた。 非ローカル通信のオーバーヘッドを最善のケースで89.8\%、平均で60.9\%削減する。 我々の手法は、多くの正確な解法とは異なり、計算可能である。

Current quantum computer designs will not scale. To scale beyond small prototypes, quantum architectures will likely adopt a modular approach with clusters of tightly connected quantum bits and sparser connections between clusters. We exploit this clustering and the statically-known control flow of quantum programs to create tractable partitioning heuristics which map quantum circuits to modular physical machines one time slice at a time. Specifically, we create optimized mappings for each time slice, accounting for the cost to move data from the previous time slice and using a tunable lookahead scheme to reduce the cost to move to future time slices. We compare our approach to a traditional statically-mapped, owner-computes model. Our results show strict improvement over the static mapping baseline. We reduce the non-local communication overhead by 89.8\% in the best case and by 60.9\% on average. Our techniques, unlike many exact solver methods, are computationally tractable.
翻訳日:2023-05-18 12:21:05 公開日:2020-05-25
# グリーングリッドのためのエミッションアウェアエネルギー貯蔵スケジューリング

Emission-aware Energy Storage Scheduling for a Greener Grid ( http://arxiv.org/abs/2005.12234v1 )

ライセンス: Link先を確認
Rishikesh Jha, Stephen Lee, Srinivasan Iyengar, Mohammad H. Hajiesmaili, David Irwin, Prashant Shenoy(参考訳) 電力網の炭素フットプリントを減らすためには、炭素集約的なエネルギー源への依存を減らすことが不可欠である。 電力網はクリーンで再生可能エネルギー源の展開が増えているが、電力網の需要の大部分は従来の炭素集約エネルギー源で満たされている。 本稿では,グリッドに配置したエネルギー貯蔵をグリッドの二酸化炭素排出量削減に利用することの問題点について検討する。 エネルギー貯蔵は、かつてはピークシェービングや間欠的ソースの平滑化といったグリッド最適化に用いられてきたが、我々の洞察は、分散ストレージを利用することで、電力会社が効率の低い、ほとんどの炭素集約発電所への依存を減らし、総排出量を減らすことである。 本稿では, 負荷予測の不確実性, 特に太陽や風などの断続的再生可能エネルギーの存在に好適な, 頑健な最適化手法を用いて, 分散エネルギー貯蔵のエミッションアウェアスケジューリングの問題を最適化問題として定式化する。 我々は,1,341戸の配電網から,最先端のニューラルネットワーク負荷予測手法と実負荷トレースを用いて,本手法の評価を行った。 その結果、年間二酸化炭素排出量は0.5万kg以上減少し、電力網の排出量は23.3%減少した。

Reducing our reliance on carbon-intensive energy sources is vital for reducing the carbon footprint of the electric grid. Although the grid is seeing increasing deployments of clean, renewable sources of energy, a significant portion of the grid demand is still met using traditional carbon-intensive energy sources. In this paper, we study the problem of using energy storage deployed in the grid to reduce the grid's carbon emissions. While energy storage has previously been used for grid optimizations such as peak shaving and smoothing intermittent sources, our insight is to use distributed storage to enable utilities to reduce their reliance on their less efficient and most carbon-intensive power plants and thereby reduce their overall emission footprint. We formulate the problem of emission-aware scheduling of distributed energy storage as an optimization problem, and use a robust optimization approach that is well-suited for handling the uncertainty in load predictions, especially in the presence of intermittent renewables such as solar and wind. We evaluate our approach using a state of the art neural network load forecasting technique and real load traces from a distribution grid with 1,341 homes. Our results show a reduction of >0.5 million kg in annual carbon emissions -- equivalent to a drop of 23.3% in our electric grid emissions.
翻訳日:2023-05-18 12:20:41 公開日:2020-05-25
# 量子ストリーム上でのピギーバック

Piggybacking on Quantum Streams ( http://arxiv.org/abs/2005.12215v1 )

ライセンス: Link先を確認
Marco Chiani, Andrea Conti, Moe Z. Win(参考訳) 本稿では,量子誤り訂正符号で保護された量子ビット列の古典情報をピギーバックすることが可能であることを示す。 ピギーバックチャネルは、制御された症候群のシーケンスに対応する意図的なエラーを導入することで作成することができる。 これらの症候群は、量子ノイズが存在する場合、性能遅延トレードオフに従って古典的な誤り訂正符号によってさらに保護される。 したがって、古典的な情報は、追加の量子資源を消費せず、量子ストリームを乱すことなく任意のエポックで追加および抽出することができる。

This paper shows that it is possible to piggyback classical information on a stream of qubits protected by quantum error correcting codes. The piggyback channel can be created by introducing intentional errors corresponding to a controlled sequence of syndromes. These syndromes are further protected, when quantum noise is present, by classical error correcting codes according to a performance-delay trade-off. Classical information can thus be added and extracted at arbitrary epochs without consuming additional quantum resources and without disturbing the quantum stream.
翻訳日:2023-05-18 12:20:03 公開日:2020-05-25
# フーリエ制限単一分子エミッタのレーザー誘起周波数チューニング

Laser-induced frequency tuning of Fourier-limited single-molecule emitters ( http://arxiv.org/abs/2005.12199v1 )

ライセンス: Link先を確認
Maja Colautti (1,2), Francesco S. Piccioli (2), Pietro Lombardi (1,2) and Costanza Toninelli (1,2) ((1) European Laboratory for Non-Linear Spectroscopy (LENS), Florence, Italy, (2) National Institute of Optics (CNR-INO), Florence, Italy) Zoran ristanovic (3), Amin Moradi (3), Subhasis Adhikari (3) and Michel Orrit (3) ((3) Huygens-Kamerlingh Onnes Laboratory, LION, Leiden, The Netherlands) Irena Deperasinska (4) and Boleslaw Kozankiewicz (4) ((4) Institute of Physics, Polish Academy of Sciences, Warsaw, Poland)(参考訳) 有機固体中の電荷と光の局所的相互作用は、異なる基礎的効果の基礎である。 ここでは、単一分子スケールで、焦点を合わせるレーザービームが、数百時間の自然な線幅で局所的にシフトし、異なるホスト行列の液体ヘリウム温度で冷却された有機色調の遷移周波数を持続的に観察する。 量子化学計算によって支持され、結果は光イオン化カスケードの効果と解釈され、安定な電場となり、スタークは分子電子レベルをシフトする。 実験方法は、量子フォトニクスにおける共通の課題、すなわち、複数の光子実験に望ましい近接量子エミッタの独立なチューニングと同期に応用される。 5つの分子は、約50ミクロンで空間的に分離され、もともとは20GHzで分離されていた。 この能力と自発的崩壊によってのみ制限される放出線幅とを組み合わせることで、同じフォトニックチップに統合された複数の分子を製造フリーで独立に調整することができる。

The local interaction of charges and light in organic solids is the basis of distinct and fundamental effects. We here observe, at the single molecule scale, how a focused laser beam can locally shift by hundreds-time their natural linewidth and in a persistent way the transition frequency of organic chromophores, cooled at liquid helium temperatures in different host matrices. Supported by quantum chemistry calculations, the results are interpreted as effects of a photo-ionization cascade, leading to a stable electric field, which Stark-shifts the molecular electronic levels. The experimental method is then applied to a common challenge in quantum photonics, i.e. the independent tuning and synchronization of close-by quantum emitters, which is desirable for multi-photon experiments. Five molecules that are spatially separated by about 50 microns and originally 20 GHz apart are brought into resonance within twice their linewidth. Combining this ability with an emission linewidth that is only limited by the spontaneous decay, the system enables fabrication-free, independent tuning of multiple molecules integrated on the same photonic chip.
翻訳日:2023-05-18 12:19:38 公開日:2020-05-25
# 深さ2QAC回路は量子パリティをシミュレートできない

Depth-2 QAC circuits cannot simulate quantum parity ( http://arxiv.org/abs/2005.12169v1 )

ライセンス: Link先を確認
Daniel Pad\'e (University of South Carolina), Stephen Fenner (University of South Carolina), Daniel Grier (IQC), Thomas Thierauf (Aalen University)(参考訳) n > 3$ qubits 上の量子パリティゲートは、任意のarity の任意の c-サインゲートと任意の 1-qubit ユニタリゲートの2層からなる量子回路では、許容されるアンシラキュービットの数に関係なく、クリーンにシミュレートできない。 これはパリティゲートとこの形式の回路の間の最もよく知られて最初の非自明な分離である。 同じ境界は量子ファンアウトゲートにも適用される。 我々の結果はFangらのものとは相容れない。 [3] は任意の一定深さに適用されるが、シミュレート回路上のアンシラキュービットのサブリニア数を必要とする。

We show that the quantum parity gate on $n > 3$ qubits cannot be cleanly simulated by a quantum circuit with two layers of arbitrary C-SIGN gates of any arity and arbitrary 1-qubit unitary gates, regardless of the number of allowed ancilla qubits. This is the best known and first nontrivial separation between the parity gate and circuits of this form. The same bounds also apply to the quantum fanout gate. Our results are incomparable with those of Fang et al. [3], which apply to any constant depth but require a sublinear number of ancilla qubits on the simulating circuit.
翻訳日:2023-05-18 12:19:19 公開日:2020-05-25
# パンデミック中の大学間e-contestの実験, アドホック, オンライン, 大学間e-contest: 学んだ教訓

Experimental, ad hoc, online, inter-university student e-contest during the pandemic: Lessons learned ( http://arxiv.org/abs/2005.12087v1 )

ライセンス: Link先を確認
Horia-Nicolai Teodorescu(参考訳) 我々は,現在のパンデミック時に開催されている学生のe-contestから学んだ教訓を報告する。 我々は、e-contestを、同じだが対面のコンテストの以前の10版と比較する。 明らかに、競争は仮想的だったために苦しめられなかったが、いくつかの欠点が指摘された。 The main conclusions are: the basic interconnectivity means arise no serious technical issue, but the interconnectivity is more limited than the face-to-face one; online jury-competitors interactivity is poorer than face-to-face interactivity; human factors, higher uncertainties in the organization process, and less time to spend in the process for the local organizers are major limiting factors; concerns on the participation and evaluation fairness are higher; involuntary gender discrimination seems lower, but persists; there are serious concerns related to privacy, including differential privacy; some peculiarities of the presented topics and of the evaluation process emerged, but it is unclear if they are related to the online nature of the competition, to the extra stress on the participants during the pandemic, to other factors, or are random. いくつかの結論は分析されたケースと密接に関連しているかもしれないが、他のオンラインコンペティションに価値があるほど一般的なものもいる。

We are reporting on lessons learned from an e-contest for students held during the current pandemic. We compare the e-contest with the 10 previous editions of the same but face-to-face contest. While apparently the competition did not suffer because of being a virtual one, some disadvantages were noted. The main conclusions are: the basic interconnectivity means arise no serious technical issue, but the interconnectivity is more limited than the face-to-face one; online jury-competitors interactivity is poorer than face-to-face interactivity; human factors, higher uncertainties in the organization process, and less time to spend in the process for the local organizers are major limiting factors; concerns on the participation and evaluation fairness are higher; involuntary gender discrimination seems lower, but persists; there are serious concerns related to privacy, including differential privacy; some peculiarities of the presented topics and of the evaluation process emerged, but it is unclear if they are related to the online nature of the competition, to the extra stress on the participants during the pandemic, to other factors, or are random. While some conclusions may be intimately related to the analyzed case, some are general enough for being worth to other online competitions.
翻訳日:2023-05-18 12:18:39 公開日:2020-05-25
# デバイス非依存量子鍵分布率の上限と修正されたペレス予想

Upper bounds on device-independent quantum key distribution rates and a revised Peres conjecture ( http://arxiv.org/abs/2005.12325v1 )

ライセンス: Link先を確認
Rotem Arnon-Friedman, Felix Leditzky(参考訳) デバイス非依存量子鍵分布(DIQKD)は、量子暗号において最も困難なタスクの一つである。 プロトコルとそのセキュリティは、ベルの不等式の存在と、絡み合った状態を測定することによってそれらに違反する能力に基づいている。 DIQKDプロトコルに必要な絡み合いを2つの異なる方法で検討する。 我々の最初の貢献は、不等式違反の観点からCHSHベースのDIQKDプロトコルの鍵レートに対する上限の導出である。 我々の上界は、Kaur et al の既知境界を改善する。 第二の貢献は、DIQKDにおける有界絡み合い状態の役割の研究の開始である。 我々は、このような状態がDIQKDの資源として利用できないというペレス予想を改訂した。 我々は、vertesi と brunner によって発見された束縛された状態は、di のランダム性を証明することができるにもかかわらず、よく研究されている chsh ベースの diqkd プロトコルに類似したプロトコルを用いて鍵を生成するのに使用できないことを示すことによって、予想の第一の証拠を与える。

Device-independent quantum key distribution (DIQKD) is one of the most challenging tasks in quantum cryptography. The protocols and their security are based on the existence of Bell inequalities and the ability to violate them by measuring entangled states. We study the entanglement needed for DIQKD protocols in two different ways. Our first contribution is the derivation of upper bounds on the key rates of CHSH-based DIQKD protocols in terms of the violation of the inequality; this sets an upper limit on the possible DI key extraction rate from states with a given violation. Our upper bound improves on the previously known bound of Kaur et al. Our second contribution is the initiation of the study of the role of bound entangled states in DIQKD. We present a revised Peres conjecture stating that such states cannot be used as a resource for DIQKD. We give a first piece of evidence for the conjecture by showing that the bound entangled state found by Vertesi and Brunner, even though it can certify DI randomness, cannot be used to produce a key using protocols analogous to the well-studied CHSH-based DIQKD protocol.
翻訳日:2023-05-18 12:12:03 公開日:2020-05-25
# 不安定非線形量子系のロバスト制御

Robust Control of Unstable Non-linear Quantum Systems ( http://arxiv.org/abs/2005.12321v1 )

ライセンス: Link先を確認
Jing-Jun Zhu, Xi Chen, Hans-Rudolf Jauslin, and St\'ephane Gu\'erin(参考訳) 断熱通路は量子系におけるロバスト転送を達成するための標準ツールである。 非線形ハミルトニアン系の文脈において, 目標が不安定な場合, 断熱通路は非常に非ロバストになることを示す。 この結果は, 古典位相空間における双曲的不動点に対応し, モデルの小さな摂動に強く敏感な断熱接続を特徴とする一般(1:2)共鳴に対するものである。 逆工学により、高忠実性とロバストな部分的非断熱的軌跡を考案する。 それらはセパラトリクスの安定多様体の近くの目標の接近に局在し、ロバストな方法で目標に向かってダイナミクスを駆動する。 これらの結果は、原子-分子ボース-アインシュタイン凝縮変換や非線形光学に適用できる。

Adiabatic passage is a standard tool for achieving robust transfer in quantum systems. We show that, in the context of driven nonlinear Hamiltonian systems, adiabatic passage becomes highly non-robust when the target is unstable. We show this result for a generic (1:2) resonance, for which the complete transfer corresponds to a hyperbolic fixed point in the classical phase space featuring an adiabatic connectivity strongly sensitive to small perturbations of the model. By inverse engineering, we devise high-fidelity and robust partially non-adiabatic trajectories. They localize at the approach of the target near the stable manifold of the separatrix, which drives the dynamics towards the target in a robust way. These results can be applicable to atom-molecule Bose-Einstein condensate conversion and to nonlinear optics.
翻訳日:2023-05-18 12:11:43 公開日:2020-05-25
# 機能制御NOTゲート用量子回路

Quantum Circuits for Functionally Controlled NOT Gates ( http://arxiv.org/abs/2005.12310v1 )

ライセンス: Link先を確認
Mathias Soeken, Martin Roetteler(参考訳) 我々は、セリンガーとジョーンズによって提示された toffoli ゲートの量子回路を、任意の $n$-variable boolean 関数によって制御される関数制御 not ゲート、すなわち $x$ ゲートに対して一般化する。 我々の構造はクリフォードゲートと単一キュービット回転からなるゲートセットを任意の角度でターゲットとしている。 私たちの構成では、ブール関数のウォルシュ・ハダマードスペクトルを使い、schchu、sewert、welchらの作品をベースにしています。 本稿では、ターゲット量子ビットが任意の状態にある場合と、ターゲットが既知の状態にある特別な場合の量子回路について述べる。 さらに、補助量子ビットを必要としない構成と回転深さ1の構成を提案する。

We generalize quantum circuits for the Toffoli gate presented by Selinger and Jones for functionally controlled NOT gates, i.e., $X$ gates controlled by arbitrary $n$-variable Boolean functions. Our constructions target the gate set consisting of Clifford gates and single qubit rotations by arbitrary angles. Our constructions use the Walsh-Hadamard spectrum of Boolean functions and build on the work by Schuch and Siewert and Welch et al. We present quantum circuits for the case where the target qubit is in an arbitrary state as well as the special case where the target is in a known state. Additionally, we present constructions that require no auxiliary qubits and constructions that have a rotation depth of 1.
翻訳日:2023-05-18 12:11:14 公開日:2020-05-25
# 分散型プライバシ保護プロキシトレーシング

Decentralized Privacy-Preserving Proximity Tracing ( http://arxiv.org/abs/2005.12273v1 )

ライセンス: Link先を確認
Carmela Troncoso, Mathias Payer, Jean-Pierre Hubaux, Marcel Salath\'e, James Larus, Edouard Bugnion, Wouter Lueks, Theresa Stadler, Apostolos Pyrgelis, Daniele Antonioli, Ludovic Barman, Sylvain Chatel, Kenneth Paterson, Srdjan \v{C}apkun, David Basin, Jan Beutel, Dennis Jackson, Marc Roeschlin, Patrick Leu, Bart Preneel, Nigel Smart, Aysajan Abidin, Seda G\"urses, Michael Veale, Cas Cremers, Michael Backes, Nils Ole Tippenhauer, Reuben Binns, Ciro Cattuto, Alain Barrat, Dario Fiore, Manuel Barbosa, Rui Oliveira, Jos\'e Pereira(参考訳) 本論文は,大規模に安全かつプライバシーを保った近接追跡システムについて記述し,解析する。 このシステムはdp3tと呼ばれ、sars-cov-2の拡散を遅らせる技術基盤を提供し、ウイルスに曝された可能性のある人々に通知し、その伝達連鎖を壊す適切な対策を講じるプロセスを簡素化し、促進する。 このシステムの目的は、個人やコミュニティのプライバシーやセキュリティのリスクを最小化し、最高レベルのデータ保護を保証することだ。 我々の近接追跡システムの目的は、接触者の身元や接触があった場所を明かさずに、covid-19陽性者と物理的に近接し、ウイルスに感染した人物を特定することである。 この目的を達成するために、ユーザは、ユーザの携帯電話を表す短命で擬似ランダムIDを継続的にブロードキャストするスマートフォンアプリを実行し、スマートフォンから観測された擬似ランダムIDを近接して記録する。 患者が新型コロナウイルスと診断された場合、携帯電話から送信された疑似ランダムIDを中央サーバーにアップロードすることができる。 アップロードの前には、すべてのデータはユーザーの携帯電話にのみ保存される。 他のユーザーのアプリは、データをアップロードした新型コロナウイルス陽性の人物に近接して、デバイス所有者がウイルスに曝されたかどうかをローカルで推定するために、サーバーのデータを使用することができる。 アプリが高いリスクを検知した場合、ユーザーに通知する。

This document describes and analyzes a system for secure and privacy-preserving proximity tracing at large scale. This system, referred to as DP3T, provides a technological foundation to help slow the spread of SARS-CoV-2 by simplifying and accelerating the process of notifying people who might have been exposed to the virus so that they can take appropriate measures to break its transmission chain. The system aims to minimise privacy and security risks for individuals and communities and guarantee the highest level of data protection. The goal of our proximity tracing system is to determine who has been in close physical proximity to a COVID-19 positive person and thus exposed to the virus, without revealing the contact's identity or where the contact occurred. To achieve this goal, users run a smartphone app that continually broadcasts an ephemeral, pseudo-random ID representing the user's phone and also records the pseudo-random IDs observed from smartphones in close proximity. When a patient is diagnosed with COVID-19, she can upload pseudo-random IDs previously broadcast from her phone to a central server. Prior to the upload, all data remains exclusively on the user's phone. Other users' apps can use data from the server to locally estimate whether the device's owner was exposed to the virus through close-range physical proximity to a COVID-19 positive person who has uploaded their data. In case the app detects a high risk, it will inform the user.
翻訳日:2023-05-18 12:09:42 公開日:2020-05-25
# キャンパスマイクログリッドにおける電池エネルギー最適化のピーク予測

Peak Forecasting for Battery-based Energy Optimizations in Campus Microgrids ( http://arxiv.org/abs/2005.13517v1 )

ライセンス: Link先を確認
Akhil Soman, Amee Trivedi, David Irwin, Beka Kosanovic, Benjamin McDaniel, Prashant Shenoy(参考訳) バッテリーベースのエネルギー貯蔵は、ピークシェービングやコスト調整など、様々なグリッドエネルギー最適化を実現する技術として登場した。 バッテリー駆動のピークシェービング最適化の鍵となるコンポーネントはピーク予測であり、最大の需要を予想する日の時間を予測する。 負荷予測には先行して大きな課題があったが、個々の消費者やマイクログリッドの需要がピークとなる期間を予測するという問題は、グリッドスケールでの負荷予測よりも難しい。 ディープラーニングに基づくピーク予測の新しいモデルを提案し,最も高い需要と最低需要で1日1k時間を予測する。 我々は,156棟の実際のマイクログリッドから得られた2年間のトレースを用いて,ピーク予測に適応したアート負荷予測手法を11~32%上回る評価を行った。 バッテリーベースのピークシェービングに使用すると、このマイクログリッド用の4MWhrバッテリーで年間496,320ドルの節約が得られます。

Battery-based energy storage has emerged as an enabling technology for a variety of grid energy optimizations, such as peak shaving and cost arbitrage. A key component of battery-driven peak shaving optimizations is peak forecasting, which predicts the hours of the day that see the greatest demand. While there has been significant prior work on load forecasting, we argue that the problem of predicting periods where the demand peaks for individual consumers or micro-grids is more challenging than forecasting load at a grid scale. We propose a new model for peak forecasting, based on deep learning, that predicts the k hours of each day with the highest and lowest demand. We evaluate our approach using a two year trace from a real micro-grid of 156 buildings and show that it outperforms the state of the art load forecasting techniques adapted for peak predictions by 11-32%. When used for battery-based peak shaving, our model yields annual savings of $496,320 for a 4 MWhr battery for this micro-grid.
翻訳日:2023-05-18 12:00:49 公開日:2020-05-25
# 静的偏光性が低下したrydbergイオンのマジックトラップ

Magic trapping of a Rydberg ion with a diminished static polarizability ( http://arxiv.org/abs/2005.12422v1 )

ライセンス: Link先を確認
Fabian Pokorny, Chi Zhang, Gerard Higgins and Markus Hennrich(参考訳) 高励起のリドベルク状態は通常極度に偏光性があり、電場に非常に敏感である。 このリドベルグイオンが電場に閉じ込められているため、状態に依存したトラップポテンシャルを持つ。 我々は、2つのRydberg状態と反対符号の静的偏光度を結合することにより、電場に無感なRydberg状態を構築し、この方法で状態非依存のマジックトラップを実現する。 イオンの運動を制御せずに、魔法にトラップされたイオンをrydberg状態へコヒーレントに励起できることを示した。

Highly excited Rydberg states are usually extremely polarizable and exceedingly sensitive to electric fields. Because of this Rydberg ions confined in electric fields have state-dependent trapping potentials. We engineer a Rydberg state that is insensitive to electric fields by coupling two Rydberg states with static polarizabilities of opposite sign, in this way we achieve state-independent magic trapping. We show that the magically-trapped ion can be coherently excited to the Rydberg state without the need for control of the ion's motion.
翻訳日:2023-05-18 12:00:17 公開日:2020-05-25
# 新型コロナウイルスパンデミック管理のデジタル化とネットワークシステムによるサイバーリスク

Digitalization of COVID-19 pandemic management and cyber risk from connected systems ( http://arxiv.org/abs/2005.12409v1 )

ライセンス: Link先を確認
Petar Radanliev, David De Roure, Max Van Kleek(参考訳) ネット接続システムから生じるサイバーリスクは、パンデミックの管理中になぜ難しいのか? さまざまなサイバー物理システムがすでに運用されていると仮定し、データを自律的に分析し、行動していると仮定すれば、パンデミック管理への応用にはどんなリスクが生じるのか? これらのシステムは、すでに運用、収集、分析を自律的に行っているので、パンデミックモニタリングアプリは、どう違うのか、リスクが高いのか? 本稿では、新型コロナウイルスのパンデミック管理とネットワークシステムからのサイバーリスクのデジタル化について論じる。

What makes cyber risks arising from connected systems challenging during the management of a pandemic? Assuming that a variety of cyber-physical systems are already operational-collecting, analyzing, and acting on data autonomously-what risks might arise in their application to pandemic management? We already have these systems operational, collecting, and analyzing data autonomously, so how would a pandemic monitoring app be different or riskier? In this review article, we discuss the digitalization of COVID-19 pandemic management and cyber risk from connected systems.
翻訳日:2023-05-18 12:00:07 公開日:2020-05-25
# 光捕捉分子におけるマジック波長選択のための遷移強度測定

Transition strength measurements to guide magic wavelength selection in optically trapped molecules ( http://arxiv.org/abs/2005.12400v1 )

ライセンス: Link先を確認
K. H. Leung, I. Majewska, H. Bekker, C.-H. Lee, E. Tiberi, S. S. Kondov, R. Moszynski, T. Zelevinsky(参考訳) 長いコヒーレンス時間を持つ分子の光トラップは、量子情報やメトロロジーにおける多くのプロトコルにとって重要である。 しかし、トラップされた分子の寿命を制限する要因は解明され、基礎となる分子構造の理解を改善する必要がある。 ここでは、弱く深い有界な$^{88}$Sr$_2$分子における振動線強度の測定と、 \textit{ab initio}計算と組み合わせることで、振動量子数の不明瞭な同定が可能であることを示す。 これにより、長い振動コヒーレンスを促進する魔法の波長の選択を知らせる洗練された励起ポテンシャルエネルギー曲線の構築が可能になる。 遠方分離振動状態間のRabi振動が100ms近く持続することを示す。

Optical trapping of molecules with long coherence times is crucial for many protocols in quantum information and metrology. However, the factors that limit the lifetimes of the trapped molecules remain elusive and require improved understanding of the underlying molecular structure. Here we show that measurements of vibronic line strengths in weakly and deeply bound $^{88}$Sr$_2$ molecules, combined with \textit{ab initio} calculations, allow for unambiguous identification of vibrational quantum numbers. This, in turn, enables the construction of refined excited potential energy curves that inform the selection of magic wavelengths which facilitate long vibrational coherence. We demonstrate Rabi oscillations between far-separated vibrational states that persist for nearly 100 ms.
翻訳日:2023-05-18 11:59:43 公開日:2020-05-25
# 永続多体量子エコー

Persistent many-body quantum echoes ( http://arxiv.org/abs/2005.12382v1 )

ライセンス: Link先を確認
Lennart Dabelow and Peter Reimann(参考訳) 量子多体系は、時間非依存のハミルトニアン$H$の下で、時t=0$の非平衡初期状態から時t=\tau$の近接平衡状態へと進化すると考える。 その後、この状態はわずかに摂動され、逆ハミルトニアン$-H$の下で別の期間$\tau$が伝播する。 手続き全体は不完全な時間反転あるいは「エコーダイナミクス」と見なすこともできる。 平衡期待値から時間依存期待値の観測可能偏差に関して、そのような力学の顕著な持続性を明らかにする: ほとんどの摂動の場合、最終状態の偏差は本質的に逆時間点$\tau$とは独立である。 我々の定量的解析予測は、正確な数値結果と非常によく比較される。

We consider quantum many-body systems evolving under a time-independent Hamiltonian $H$ from a nonequilibrium initial state at time $t=0$ towards a close-to-equilibrium state at time $t=\tau$. Subsequently, this state is slightly perturbed and finally propagated for another time period $\tau$ under the inverted Hamiltonian $-H$. The entire procedure may also be viewed as an imperfect time inversion or "echo dynamics". We unravel a remarkable persistence of such dynamics with respect to the observable deviations of the time-dependent expectation values from the equilibrium expectation value: For most perturbations, the deviations in the final state are essentially independent of the inversion time point $\tau$. Our quantitative analytical predictions compare very well with exact numerical results.
翻訳日:2023-05-18 11:59:31 公開日:2020-05-25
# 視野深度拡大のための学習ウェーブフロント符号化

Learning Wavefront Coding for Extended Depth of Field Imaging ( http://arxiv.org/abs/1912.13423v2 )

ライセンス: Link先を確認
Ugur Akpinar, Erdem Sahin, Monjurul Meem, Rajesh Menon, Atanas Gotchev(参考訳) 被写界深度は、取得した空間情報の質に高い影響を与える画像システムの重要な要素である。 extended depth of field (edof) イメージングは困難な不適切な問題であり、文献で広く取り上げられている。 本稿では, 回折光学素子(DOE)による波面符号化を応用し, 畳み込みニューラルネットワークによるデブロワーリングを実現するEDoFの計算画像化手法を提案する。 光画像形成と計算後処理のエンド・ツー・エンドの微分可能モデリングにより,光学設計,すなわちDOE,および標準勾配降下法による劣化を協調的に最適化する。 基礎となる屈折レンズの特性と所望のEDoF範囲に基づいて、エンド・ツー・エンド・ネットワークの収束に寄与するDOEの探索空間の解析式を提供する。 我々は,深部3Dシーンやブロードバンド画像など,さまざまなシナリオにおいて,最小限のアーティファクトによる結果を示す技術と比較して,優れたEDoF撮像性能を実現する。

Depth of field is an important factor of imaging systems that highly affects the quality of the acquired spatial information. Extended depth of field (EDoF) imaging is a challenging ill-posed problem and has been extensively addressed in the literature. We propose a computational imaging approach for EDoF, where we employ wavefront coding via a diffractive optical element (DOE) and we achieve deblurring through a convolutional neural network. Thanks to the end-to-end differentiable modeling of optical image formation and computational post-processing, we jointly optimize the optical design, i.e., DOE, and the deblurring through standard gradient descent methods. Based on the properties of the underlying refractive lens and the desired EDoF range, we provide an analytical expression for the search space of the DOE, which is instrumental in the convergence of the end-to-end network. We achieve superior EDoF imaging performance compared to the state of the art, where we demonstrate results with minimal artifacts in various scenarios, including deep 3D scenes and broadband imaging.
翻訳日:2023-01-16 21:27:15 公開日:2020-05-25
# フローの制限:属性のための情報基盤

Restricting the Flow: Information Bottlenecks for Attribution ( http://arxiv.org/abs/2001.00396v4 )

ライセンス: Link先を確認
Karl Schulz, Leon Sixt, Federico Tombari, Tim Landgraf(参考訳) アトリビューション手法は、ニューラルネットワークのような機械学習モデルの意思決定に関する洞察を提供する。 与えられた入力サンプルに対して、画像の画素など個々の入力変数に関連性スコアを割り当てる。 この作業では、情報ボトルネックの概念を属性に適用する。 中間特徴写像にノイズを加えることで、情報の流れを制限し、画像領域が提供する情報量(ビット)を定量化できます。 VGG-16とResNet-50の3つの測定値を用いて,提案手法を10基線と比較し,提案手法が6つの設定のうち5基線で比較した。 この方法の情報理論基礎は、帰属値(ビット)の絶対的な参照フレームを提供し、ネットワークの決定に0に近い領域が不要である保証を提供する。 レビュー: https://openreview.net/forum? id=S1xWh1rYwB コード:https://github.com/BioroboticsLab/IBA

Attribution methods provide insights into the decision-making of machine learning models like artificial neural networks. For a given input sample, they assign a relevance score to each individual input variable, such as the pixels of an image. In this work we adapt the information bottleneck concept for attribution. By adding noise to intermediate feature maps we restrict the flow of information and can quantify (in bits) how much information image regions provide. We compare our method against ten baselines using three different metrics on VGG-16 and ResNet-50, and find that our methods outperform all baselines in five out of six settings. The method's information-theoretic foundation provides an absolute frame of reference for attribution values (bits) and a guarantee that regions scored close to zero are not necessary for the network's decision. For reviews: https://openreview.net/forum?id=S1xWh1rYwB For code: https://github.com/BioroboticsLab/IBA
翻訳日:2023-01-16 03:45:57 公開日:2020-05-25
# rs-fMRI関数接続解析のためのグラフ同型ネットワークの理解

Understanding Graph Isomorphism Network for rs-fMRI Functional Connectivity Analysis ( http://arxiv.org/abs/2001.03690v2 )

ライセンス: Link先を確認
Byung-Hoon Kim and Jong Chul Ye(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ関連タスクに対するニューラルネットワークトレーニングを含むグラフ操作に依存している。 近年,機能的磁気共鳴画像(fMRI)データにGNNを適用する試みがいくつか行われている。 近年の進歩にもかかわらず、神経科学的に説明可能な方法で分類結果を説明するのが難しいという共通の制限がある。 本稿では,グラフ分類のための強力なGNNとして最近提案されたグラフ同型ネットワーク(GIN)を用いてfMRIデータを解析するフレームワークを開発する。 本稿では,シフト演算が隣接行列を用いて定義されるグラフ空間において,ginが畳み込みニューラルネットワーク(cnn)の二重表現であることを示す。 この理解により,脳の重要領域を可視化するために,提案したGINとワンホットエンコーディングを併用したGNNのためのCNNベースのサリエンシマップ技術を利用することができる。 我々は,脳のグラフ構造に基づいて対象者の性別を分類するために,大規模静止状態fMRI(rs-fMRI)データを用いて提案フレームワークを検証した。 この実験は、得られたサリエンシマップが、性差に関連する過去の神経画像証拠と高い対応性を示すという我々の期待と一致した。

Graph neural networks (GNN) rely on graph operations that include neural network training for various graph related tasks. Recently, several attempts have been made to apply the GNNs to functional magnetic resonance image (fMRI) data. Despite recent progresses, a common limitation is its difficulty to explain the classification results in a neuroscientifically explainable way. Here, we develop a framework for analyzing the fMRI data using the Graph Isomorphism Network (GIN), which was recently proposed as a powerful GNN for graph classification. One of the important contributions of this paper is the observation that the GIN is a dual representation of convolutional neural network (CNN) in the graph space where the shift operation is defined using the adjacency matrix. This understanding enables us to exploit CNN-based saliency map techniques for the GNN, which we tailor to the proposed GIN with one-hot encoding, to visualize the important regions of the brain. We validate our proposed framework using large-scale resting-state fMRI (rs-fMRI) data for classifying the sex of the subject based on the graph structure of the brain. The experiment was consistent with our expectation such that the obtained saliency map show high correspondence with previous neuroimaging evidences related to sex differences.
翻訳日:2023-01-12 22:36:46 公開日:2020-05-25
# 確率力学系のモデルに対する文法表現に付随する木

A Tree Adjoining Grammar Representation for Models Of Stochastic Dynamical Systems ( http://arxiv.org/abs/2001.05320v2 )

ライセンス: Link先を確認
Dhruv Khandelwal, Maarten Schoukens and Roland T\'oth(参考訳) モデル構造と複雑性の選択は、特にパラメトリック非線形モデルにおいて、システム識別において難しい問題である。 モデル構造と複雑性を推定するための多くの進化的アルゴリズム(EA)に基づく手法が文献で提案されている。 ほとんどの場合、提案手法は特定のモデルクラスの構造と複雑さを推定するために考案され、したがってこれらの手法は大きな変化なしに他のモデル構造に拡張されない。 本稿では,確率的パラメトリックモデルのための木結合文法(TAG)を提案する。 TAGは、望ましい構造的制約を課し、事前の知識を取り入れながら、EAフレームワークでモデルを生成するために使用できる。 本稿では,FIRから多項式ARMAXモデルまでのモデルを体系的に生成できるTAGを提案する。 さらに,非線形のBox-Jenkinsモデルクラスなど,より一般的なモデルクラスにTAGを簡単に拡張できることを示し,フレキシブルで自動的なモデル構造の実現とEAによる複雑性の選択を可能にした。

Model structure and complexity selection remains a challenging problem in system identification, especially for parametric non-linear models. Many Evolutionary Algorithm (EA) based methods have been proposed in the literature for estimating model structure and complexity. In most cases, the proposed methods are devised for estimating structure and complexity within a specified model class and hence these methods do not extend to other model structures without significant changes. In this paper, we propose a Tree Adjoining Grammar (TAG) for stochastic parametric models. TAGs can be used to generate models in an EA framework while imposing desirable structural constraints and incorporating prior knowledge. In this paper, we propose a TAG that can systematically generate models ranging from FIRs to polynomial NARMAX models. Furthermore, we demonstrate that TAGs can be easily extended to more general model classes, such as the non-linear Box-Jenkins model class, enabling the realization of flexible and automatic model structure and complexity selection via EA.
翻訳日:2023-01-11 05:38:25 公開日:2020-05-25
# fquad: フランスの質問応答データセット

FQuAD: French Question Answering Dataset ( http://arxiv.org/abs/2002.06071v2 )

ライセンス: Link先を確認
Martin d'Hoffschmidt, Wacim Belblidia, Tom Brendl\'e, Quentin Heinrich, Maxime Vidal(参考訳) 言語モデリングの分野における最近の進歩は、多くの自然言語処理タスクにおける最先端の結果を改善した。 その中でもReading Comprehensionは,ここ数年で大きな進歩を遂げています。 しかし、フランス語など他の言語で利用可能なラベル付きリソースは少ないため、ほとんどの結果は英語で報告されている。 本研究では,フランス語質問応答データセット(FQuAD)を紹介する。 FQuADはフランス語のNative Reading Comprehensionのデータセットで、ウィキペディアの記事の集合で、1.0バージョンは25,000以上のサンプル、1.1バージョンは6万以上のサンプルで構成されている。 テストセット上でのf1スコア92.2と正確な一致率82.1を達成するベースラインモデルをトレーニングする。 フランスの質問回答モデルの進捗を追跡するため、リーダーボードを提案し、データセットの1.0バージョンをhttps://illuin-tech.github.io/FQuAD-explorer/で無償公開しました。

Recent advances in the field of language modeling have improved state-of-the-art results on many Natural Language Processing tasks. Among them, Reading Comprehension has made significant progress over the past few years. However, most results are reported in English since labeled resources available in other languages, such as French, remain scarce. In the present work, we introduce the French Question Answering Dataset (FQuAD). FQuAD is a French Native Reading Comprehension dataset of questions and answers on a set of Wikipedia articles that consists of 25,000+ samples for the 1.0 version and 60,000+ samples for the 1.1 version. We train a baseline model which achieves an F1 score of 92.2 and an exact match ratio of 82.1 on the test set. In order to track the progress of French Question Answering models we propose a leader-board and we have made the 1.0 version of our dataset freely available at https://illuin-tech.github.io/FQuAD-explorer/.
翻訳日:2023-01-01 03:38:21 公開日:2020-05-25
# プログレッシブニューラルネットワーク学習のためのサブセットサンプリング

Subset Sampling For Progressive Neural Network Learning ( http://arxiv.org/abs/2002.07141v2 )

ライセンス: Link先を確認
Dat Thanh Tran, Moncef Gabbouj, Alexandros Iosifidis(参考訳) プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。 このアプローチは、複数のネットワークトポロジの設計と検証という手作業からユーザーを除外するが、多くの場合、膨大な数の計算を必要とする。 本稿では,インクリメンタルトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスを高速化することを提案する。 異なる基準に従ってトレーニングサンプルを選択するための3つの異なるサンプリング戦略を提案し,評価した。 また、ネットワーク進行中にオンラインのハイパーパラメータ選択を行うことを提案し、トレーニング時間を大幅に短縮する。 対象,場面,顔の認識問題に対する実験結果から,提案手法は,トレーニングプロセス全体を通してトレーニングセット全体を活用したベースラインアプローチと同等に動作しながら,最適化手順をかなり高速化することが示された。

Progressive Neural Network Learning is a class of algorithms that incrementally construct the network's topology and optimize its parameters based on the training data. While this approach exempts the users from the manual task of designing and validating multiple network topologies, it often requires an enormous number of computations. In this paper, we propose to speed up this process by exploiting subsets of training data at each incremental training step. Three different sampling strategies for selecting the training samples according to different criteria are proposed and evaluated. We also propose to perform online hyperparameter selection during the network progression, which further reduces the overall training time. Experimental results in object, scene and face recognition problems demonstrate that the proposed approach speeds up the optimization procedure considerably while operating on par with the baseline approach exploiting the entire training set throughout the training process.
翻訳日:2022-12-31 12:07:09 公開日:2020-05-25
# 適応的政策伝達による効率的な深層強化学習

Efficient Deep Reinforcement Learning via Adaptive Policy Transfer ( http://arxiv.org/abs/2002.08037v3 )

ライセンス: Link先を確認
Tianpei Yang, Jianye Hao, Zhaopeng Meng, Zongzhang Zhang, Yujing Hu, Yingfeng Cheng, Changjie Fan, Weixun Wang, Wulong Liu, Zhaodong Wang, and Jiajie Peng(参考訳) 伝達学習(TL)は、過去の学習したタスクの方針から事前知識を活用することにより、強化学習(RL)を加速する大きな可能性を示している。 既存の転送アプローチは、タスク間の類似性を明示的に計算するか、ターゲットタスクに対するガイド付き探索を提供する適切なソースポリシーを選択する。 しかし、現在、類似性を明示的に測定することなく、適切なソースポリシーからの知識を代替して、ターゲットポリシーを直接最適化する方法が欠落している。 本稿では,このアイデアを生かしてRLを加速する新しい政策伝達フレームワーク(PTF)を提案する。 本フレームワークは,選択肢学習問題として多国間移動をモデル化することにより,対象政策の再利用が最善である時期と終了時期を学習する。 PTFは、既存の深いRLアプローチと簡単に組み合わせることができる。 実験の結果, 離散的かつ連続的な行動空間における学習効率と最終性能の観点から, 学習過程を著しく加速し, 最先端の政策伝達手法を超越した。

Transfer Learning (TL) has shown great potential to accelerate Reinforcement Learning (RL) by leveraging prior knowledge from past learned policies of relevant tasks. Existing transfer approaches either explicitly computes the similarity between tasks or select appropriate source policies to provide guided explorations for the target task. However, how to directly optimize the target policy by alternatively utilizing knowledge from appropriate source policies without explicitly measuring the similarity is currently missing. In this paper, we propose a novel Policy Transfer Framework (PTF) to accelerate RL by taking advantage of this idea. Our framework learns when and which source policy is the best to reuse for the target policy and when to terminate it by modeling multi-policy transfer as the option learning problem. PTF can be easily combined with existing deep RL approaches. Experimental results show it significantly accelerates the learning process and surpasses state-of-the-art policy transfer methods in terms of learning efficiency and final performance in both discrete and continuous action spaces.
翻訳日:2022-12-30 12:52:00 公開日:2020-05-25
# 小型データセットの分類器校正の改善

Better Classifier Calibration for Small Data Sets ( http://arxiv.org/abs/2002.10199v2 )

ライセンス: Link先を確認
Tuomo Alasalmi, Jaakko Suutala, Heli Koskim\"aki, and Juha R\"oning(参考訳) 分類器の校正は、クラスを分離する分類器の能力と相まってはならない。 優れた分類器の校正、すなわち正確な確率推定を生成する能力が、クラス分離よりも重要であるという応用もある。 トレーニング用のデータ量が限られると、キャリブレーションを改善する従来のアプローチが崩壊し始めます。 本稿では,キャリブレーションのためのデータ生成がキャリブレーションアルゴリズムの性能を向上させる方法を示す。 提案手法は計算コストを増大させるが、主なユースケースは、この余分な計算コストが重要で、予測時間において他の手法に匹敵するものであることを考える。 試験された分類器から,無作為林とナイーブベイズ分類器で最大の改善が検出された。 したがって,トレーニングに必要なデータ量が限られており,キャリブレーションが良好である場合には,少なくとも分類器に対しては,提案手法を推奨することができる。

Classifier calibration does not always go hand in hand with the classifier's ability to separate the classes. There are applications where good classifier calibration, i.e. the ability to produce accurate probability estimates, is more important than class separation. When the amount of data for training is limited, the traditional approach to improve calibration starts to crumble. In this article we show how generating more data for calibration is able to improve calibration algorithm performance in many cases where a classifier is not naturally producing well-calibrated outputs and the traditional approach fails. The proposed approach adds computational cost but considering that the main use case is with small data sets this extra computational cost stays insignificant and is comparable to other methods in prediction time. From the tested classifiers the largest improvement was detected with the random forest and naive Bayes classifiers. Therefore, the proposed approach can be recommended at least for those classifiers when the amount of data available for training is limited and good calibration is essential.
翻訳日:2022-12-29 03:01:54 公開日:2020-05-25
# 合成データと自己ラベルを用いた単語スポッティングの深部表現のアノテーションなし学習

Annotation-free Learning of Deep Representations for Word Spotting using Synthetic Data and Self Labeling ( http://arxiv.org/abs/2003.01989v4 )

ライセンス: Link先を確認
Fabian Wolf and Gernot A. Fink(参考訳) ワードスポッティング(word spotting)は、歴史ある手書きの文書コレクションを初めて探索するためのツールである。 現在、最高の実行方法は、大量の注釈付きトレーニング材料を必要とする機械学習技術に依存している。 トレーニングデータは通常、アプリケーションシナリオでは利用できないため、アノテーションなしのメソッドは、代表的なトレーニングサンプルなしで検索タスクを解決することを目的としている。 本稿では,まだ機械学習手法を活用し,それゆえ,他の学習フリーアプローチに勝るアノテーションフリー手法を提案する。 弱い教師付きトレーニングスキームは、データセットに正確に適合する必要がないレキシコンに依存している。 疑似ラベルトレーニングサンプルの信頼度に基づく選択と組み合わせて,最新のクエリ・バイ・サンプルのパフォーマンスを実現する。 さらに,この手法では,他のアノテーションフリーなメソッドでは一般的ではないクエリ・バイ・ストリングを行うことができる。

Word spotting is a popular tool for supporting the first exploration of historic, handwritten document collections. Today, the best performing methods rely on machine learning techniques, which require a high amount of annotated training material. As training data is usually not available in the application scenario, annotation-free methods aim at solving the retrieval task without representative training samples. In this work, we present an annotation-free method that still employs machine learning techniques and therefore outperforms other learning-free approaches. The weakly supervised training scheme relies on a lexicon, that does not need to precisely fit the dataset. In combination with a confidence based selection of pseudo-labeled training samples, we achieve state-of-the-art query-by-example performances. Furthermore, our method allows to perform query-by-string, which is usually not the case for other annotation-free methods.
翻訳日:2022-12-26 13:17:58 公開日:2020-05-25
# 深部モデルにおけるパラメータ数の再考:有効次元性の再考

Rethinking Parameter Counting in Deep Models: Effective Dimensionality Revisited ( http://arxiv.org/abs/2003.02139v2 )

ライセンス: Link先を確認
Wesley J. Maddox, Gregory Benton, Andrew Gordon Wilson(参考訳) ニューラルネットワークは、パラメータカウントを複雑性のプロキシとして使用すると、謎の一般化特性を持つように見える。 実際、ニューラルネットワークはデータポイントよりも多くのパラメータを持つことが多いが、優れた一般化性能を提供する。 さらに、パラメータの関数としての一般化を測定すると、テストエラーが減少し、増加し、そして再び減少する二重降下挙動が見られます。 これらの性質の多くは、データによって決定されるパラメータ空間の次元を測定する効果的な次元のレンズを通して見ることで理解できる。 ベイジアン深層学習,モデル選択,幅深度トレードオフ,二重降下,損失面の機能的多様性に有効な次元性が関係し,深層モデルにおけるパラメータと関数の相互作用の理解を深めた。 また、有効次元性は代替ノルムおよび平坦度に基づく一般化尺度と好適に比較できることを示した。

Neural networks appear to have mysterious generalization properties when using parameter counting as a proxy for complexity. Indeed, neural networks often have many more parameters than there are data points, yet still provide good generalization performance. Moreover, when we measure generalization as a function of parameters, we see double descent behaviour, where the test error decreases, increases, and then again decreases. We show that many of these properties become understandable when viewed through the lens of effective dimensionality, which measures the dimensionality of the parameter space determined by the data. We relate effective dimensionality to posterior contraction in Bayesian deep learning, model selection, width-depth tradeoffs, double descent, and functional diversity in loss surfaces, leading to a richer understanding of the interplay between parameters and functions in deep models. We also show that effective dimensionality compares favourably to alternative norm- and flatness- based generalization measures.
翻訳日:2022-12-26 12:23:27 公開日:2020-05-25
# FedLoc: データ駆動型コラボローカライゼーションとロケーションデータ処理のためのフェデレーションラーニングフレームワーク

FedLoc: Federated Learning Framework for Data-Driven Cooperative Localization and Location Data Processing ( http://arxiv.org/abs/2003.03697v2 )

ライセンス: Link先を確認
Feng Yin, Zhidi Lin, Yue Xu, Qinglei Kong, Deshi Li, Sergios Theodoridis, Shuguang (Robert) Cui(参考訳) 本稿では,データ駆動学習モデルに基づく協調的ローカライゼーションと位置データ処理を,新たな機械学習やビッグデータ手法に則って検討する。 まず,(1)フェデレーション学習の文脈における最先端のアルゴリズム,(2)ディープニューラルネットワークモデルとガウスプロセスモデルという2つの広く使われている学習モデル,(3)様々な分散モデルハイパーパラメータ最適化スキームについて検討する。 そこで我々は,協調的な静的な位置決め・フィンガープリンティング,屋内目標追跡,低サンプリングGPSを用いた屋外ナビゲーション,時空間無線交通データモデリングと予測など,幅広い位置情報サービスを網羅した,標準・新版・未公開作品の混在から要約した多種多様な実用事例を紹介する。 実験の結果,分散アルゴリズムを実行する協調モバイルユーザの集合によって,ほぼ一元的データフィッティングと予測性能が達成できることがわかった。 このフレームワークは、ユーザのプライバシーを犠牲にすることなく、正確な位置情報サービスを構築すること、特に、地理的トラジェクタに関連する機密情報を共同構築することを目的としています。 本稿の最後には,今後の研究の方向性についても述べる。

In this overview paper, data-driven learning model-based cooperative localization and location data processing are considered, in line with the emerging machine learning and big data methods. We first review (1) state-of-the-art algorithms in the context of federated learning, (2) two widely used learning models, namely the deep neural network model and the Gaussian process model, and (3) various distributed model hyper-parameter optimization schemes. Then, we demonstrate various practical use cases that are summarized from a mixture of standard, newly published, and unpublished works, which cover a broad range of location services, including collaborative static localization/fingerprinting, indoor target tracking, outdoor navigation using low-sampling GPS, and spatio-temporal wireless traffic data modeling and prediction. Experimental results show that near centralized data fitting- and prediction performance can be achieved by a set of collaborative mobile users running distributed algorithms. All the surveyed use cases fall under our newly proposed Federated Localization (FedLoc) framework, which targets on collaboratively building accurate location services without sacrificing user privacy, in particular, sensitive information related to their geographical trajectories. Future research directions are also discussed at the end of this paper.
翻訳日:2022-12-25 14:46:58 公開日:2020-05-25
# 身元確認が着替えに変わるとき

When Person Re-identification Meets Changing Clothes ( http://arxiv.org/abs/2003.04070v3 )

ライセンス: Link先を確認
Fangbin Wan, Yang Wu, Xuelin Qian, Yixiong Chen, Yanwei Fu(参考訳) reid(person re-identification)は現在、特定の人物検索などのaiベースのビデオ監視アプリケーションで活発な研究テーマとなっているが、対象者が服を変更できるという現実的な問題は、長い間見過ごされてきた。 本論文は初めてこの問題を体系的に研究した。 まず、トレーニングとより深い研究のための大規模な現実的な合成データセットを構築しながら、テストのために小さなが代表的な実際のデータセットを収集し、適切なデータセットの欠如を克服する。 新たなデータセットによって、衣服の不整合の影響を研究するために、さまざまな興味深い新しい実験を行うことが出来ます。 服の着替えは、効果的な表現の学習に困難をもたらすという意味で、ReIDをはるかに困難にし、また、それまでのReIDモデルの一般化能力に挑戦し、目に見えない(新しい)服装の人を識別する。 既存のreidモデルを代表的に採用して,このような困難な状況下での有益な結果を示すとともに,既存モデルのロバスト性向上に向けた予備的な取り組みも実施する。 この研究は、この方向へのさらなる研究を促進するのに役立つと信じている。 データセットはプロジェクトのWebサイトで公開されている。

Person re-identification (ReID) is now an active research topic for AI-based video surveillance applications such as specific person search, but the practical issue that the target person(s) may change clothes (clothes inconsistency problem) has been overlooked for long. For the first time, this paper systematically studies this problem. We first overcome the difficulty of lack of suitable dataset, by collecting a small yet representative real dataset for testing whilst building a large realistic synthetic dataset for training and deeper studies. Facilitated by our new datasets, we are able to conduct various interesting new experiments for studying the influence of clothes inconsistency. We find that changing clothes makes ReID a much harder problem in the sense of bringing difficulties to learning effective representations and also challenges the generalization ability of previous ReID models to identify persons with unseen (new) clothes. Representative existing ReID models are adopted to show informative results on such a challenging setting, and we also provide some preliminary efforts on improving the robustness of existing models on handling the clothes inconsistency issue in the data. We believe that this study can be inspiring and helpful for encouraging more researches in this direction. The dataset is available on the project website: https://wanfb.github.io/dataset.html.
翻訳日:2022-12-25 08:59:44 公開日:2020-05-25
# 因果関係に基づく分類結果の記述

Causality-based Explanation of Classification Outcomes ( http://arxiv.org/abs/2003.06868v2 )

ライセンス: Link先を確認
Leopoldo Bertossi, Jordan Li, Maximilian Schleich, Dan Suciu, Zografoula Vagena(参考訳) 本稿では,因果関係の概念に基づく分類器の結果に対する説明の簡単な定義を提案する。 提案する説明概念と比較し,その複雑性について検討する。 金融分野の2つの実データを用いて実験的な評価を行う。

We propose a simple definition of an explanation for the outcome of a classifier based on concepts from causality. We compare it with previously proposed notions of explanation, and study their complexity. We conduct an experimental evaluation with two real datasets from the financial domain.
翻訳日:2022-12-23 08:29:35 公開日:2020-05-25
# チャネル推定値からのDNNに基づく位置推定:特徴設計と実験結果

DNN-based Localization from Channel Estimates: Feature Design and Experimental Results ( http://arxiv.org/abs/2004.00363v2 )

ライセンス: Link先を確認
Paul Ferrand, Alexis Decurninge, Maxime Guillaud(参考訳) 大規模mimoセルラシステムにおけるチャネル状態情報(csi)に基づく局在化の文脈におけるディープニューラルネットワーク(dnn)の利用について検討する。 本稿では,実用的なcsi推定に現われる可能性のある実用的障害について考察し,その特徴を検討中の障害に不変にすることを目的としたcsiベースのdnnアプリケーションの特徴設計に関する原則的アプローチを提案する。 本手法は,屋外キャンパス環境で測定された地理タグcsiからなるデータセットに適用し,そのcsiに基づいて,dnnを訓練してueの位置を推定することにより,その効率を実証する。 我々は,その学習手法のいくつかの側面について,局所化精度,一般化能力,データ老化などの実験的評価を行った。

We consider the use of deep neural networks (DNNs) in the context of channel state information (CSI)-based localization for Massive MIMO cellular systems. We discuss the practical impairments that are likely to be present in practical CSI estimates, and introduce a principled approach to feature design for CSI-based DNN applications based on the objective of making the features invariant to the considered impairments. We demonstrate the efficiency of this approach by applying it to a dataset constituted of geo-tagged CSI measured in an outdoors campus environment, and training a DNN to estimate the position of the UE on the basis of the CSI. We provide an experimental evaluation of several aspects of that learning approach, including localization accuracy, generalization capability, and data aging.
翻訳日:2022-12-21 22:24:19 公開日:2020-05-25
# AIによる自律システムの正確性と転送可能性に関する調査

When Autonomous Systems Meet Accuracy and Transferability through AI: A Survey ( http://arxiv.org/abs/2003.12948v3 )

ライセンス: Link先を確認
Chongzhen Zhang, Jianrui Wang, Gary G. Yen, Chaoqiang Zhao, Qiyu Sun, Yang Tang, Feng Qian, and J\"urgen Kurths(参考訳) 人工知能(AI)の幅広い応用により、自律システムに対する認識、理解、意思決定、制御の能力はここ数年で大幅に向上した。 自律的なシステムが精度と転送可能性のパフォーマンスを考慮すると、敵対的学習、強化学習(RL)、メタ学習といったいくつかのAI手法がその強力なパフォーマンスを示す。 本稿では,自律システムにおける学習に基づくアプローチを,精度と伝達可能性の観点から検討する。 正確性は、十分にトレーニングされたモデルがテストフェーズで良い結果を示し、テストセットが同じタスクまたはデータ分散をトレーニングセットと共有することを意味します。 転送可能性とは、よく訓練されたモデルを他のテスト領域に転送する場合、その精度は依然として良好であることを意味する。 まず,転帰学習の基本概念を紹介し,対人学習,RL,メタラーニングの予備概念を提示する。 第2に、画像スタイル変換、画像スーパーレゾリューション、画像デブラッシング/デハジング/レイン除去、セマンティックセグメンテーション、深さ推定、歩行者検出、人物再識別(re-ID)を含む自律システムにおける典型的なコンピュータビジョンタスクにおいて、生成的対人ネットワーク(GAN)のような対人学習の利点を示すために、正確性または伝達可能性の両面をレビューすることに焦点を当てた。 さらに, 歩行者追跡, ロボットナビゲーション, ロボット操作など, 自律システムにおけるRLとメタラーニングの性能について, 精度や伝達性の観点から検討した。 最後に,自律システムにおける対人学習,RL,メタ学習の課題と今後の課題について論じる。

With widespread applications of artificial intelligence (AI), the capabilities of the perception, understanding, decision-making and control for autonomous systems have improved significantly in the past years. When autonomous systems consider the performance of accuracy and transferability, several AI methods, like adversarial learning, reinforcement learning (RL) and meta-learning, show their powerful performance. Here, we review the learning-based approaches in autonomous systems from the perspectives of accuracy and transferability. Accuracy means that a well-trained model shows good results during the testing phase, in which the testing set shares a same task or a data distribution with the training set. Transferability means that when a well-trained model is transferred to other testing domains, the accuracy is still good. Firstly, we introduce some basic concepts of transfer learning and then present some preliminaries of adversarial learning, RL and meta-learning. Secondly, we focus on reviewing the accuracy or transferability or both of them to show the advantages of adversarial learning, like generative adversarial networks (GANs), in typical computer vision tasks in autonomous systems, including image style transfer, image superresolution, image deblurring/dehazing/rain removal, semantic segmentation, depth estimation, pedestrian detection and person re-identification (re-ID). Then, we further review the performance of RL and meta-learning from the aspects of accuracy or transferability or both of them in autonomous systems, involving pedestrian tracking, robot navigation and robotic manipulation. Finally, we discuss several challenges and future topics for using adversarial learning, RL and meta-learning in autonomous systems.
翻訳日:2022-12-18 13:15:51 公開日:2020-05-25
# 強化学習を用いた医学的質問の学習

Learning to Ask Medical Questions using Reinforcement Learning ( http://arxiv.org/abs/2004.00994v2 )

ライセンス: Link先を確認
Uri Shaham, Tom Zahavy, Cesar Caraballo, Shiwani Mahajan, Daisy Massey, Harlan Krumholz(参考訳) 適応的かつ反復的な特徴選択のための新しい強化学習に基づくアプローチを提案する。 入力特徴のマスキングベクトルが与えられると、強化学習エージェントは、未マスクの特定の特徴を反復的に選択し、十分な自信をもって結果を予測する。 このアルゴリズムは、非定常マルコフ決定プロセスに対応する、新しい環境設定を利用する。 我々のアプローチの重要なコンポーネントは推測ネットワークで、選択した特徴から結果を予測するように訓練され、報酬関数をパラメータ化します。 本手法を全国調査データセットに適用することにより,少数の入力特徴に基づいて予測を行う必要のある場合,高いベースラインを達成できるだけでなく,解釈性も高いことを示す。 私たちのコードは \url{https://github.com/ushaham/adaptiveFS} で公開されています。

We propose a novel reinforcement learning-based approach for adaptive and iterative feature selection. Given a masked vector of input features, a reinforcement learning agent iteratively selects certain features to be unmasked, and uses them to predict an outcome when it is sufficiently confident. The algorithm makes use of a novel environment setting, corresponding to a non-stationary Markov Decision Process. A key component of our approach is a guesser network, trained to predict the outcome from the selected features and parametrizing the reward function. Applying our method to a national survey dataset, we show that it not only outperforms strong baselines when requiring the prediction to be made based on a small number of input features, but is also highly more interpretable. Our code is publicly available at \url{https://github.com/ushaham/adaptiveFS}.
翻訳日:2022-12-17 23:53:37 公開日:2020-05-25
# entropy-constrained training ternarization (ec2t) を用いたsparse & ternaryニューラルネットワークの学習

Learning Sparse & Ternary Neural Networks with Entropy-Constrained Trained Ternarization (EC2T) ( http://arxiv.org/abs/2004.01077v2 )

ライセンス: Link先を確認
Arturo Marban, Daniel Becking, Simon Wiedemann and Wojciech Samek(参考訳) ディープニューラルネットワーク(DNN)は、さまざまな機械学習アプリケーションで顕著な成功を収めている。 これらのモデル(例えばパラメータの数)の容量は表現力を与え、所望のパフォーマンスに到達できるようにする。 近年、資源に制約のあるデバイス(モバイルデバイス)にDNNを配置することへの関心が高まっており、エネルギー、メモリ、計算予算が限られている。 この問題に対処するために、ストレージ(例えば、重み行列を保存するために、最大2つのバイナリマスクと2つの完全精度値)と計算(例えば、MAC操作は、数個の累積と2つの乗算に還元される)において効率的なスパースニューラルネットワークと3次ニューラルネットワークを作成する一般的なフレームワークであるEntropy-Constrained Ternarization (EC2T)を提案する。 このアプローチは2つのステップからなる。 まず、事前訓練されたモデルの寸法(すなわち幅と深さ)をスケールすることによって、スーパーネットワークが作成される。 その後、このスーパーネットワークは(エントロピー制約を用いて)同時に切断され、トレーニングプロセスにおいて量子化され(3次値は層単位で割り当てられる)、スパースおよび3次ネットワーク表現をもたらす。 CIFAR-10, CIFAR-100, ImageNetデータセットにおける提案手法の有効性を検証する。

Deep neural networks (DNN) have shown remarkable success in a variety of machine learning applications. The capacity of these models (i.e., number of parameters), endows them with expressive power and allows them to reach the desired performance. In recent years, there is an increasing interest in deploying DNNs to resource-constrained devices (i.e., mobile devices) with limited energy, memory, and computational budget. To address this problem, we propose Entropy-Constrained Trained Ternarization (EC2T), a general framework to create sparse and ternary neural networks which are efficient in terms of storage (e.g., at most two binary-masks and two full-precision values are required to save a weight matrix) and computation (e.g., MAC operations are reduced to a few accumulations plus two multiplications). This approach consists of two steps. First, a super-network is created by scaling the dimensions of a pre-trained model (i.e., its width and depth). Subsequently, this super-network is simultaneously pruned (using an entropy constraint) and quantized (that is, ternary values are assigned layer-wise) in a training process, resulting in a sparse and ternary network representation. We validate the proposed approach in CIFAR-10, CIFAR-100, and ImageNet datasets, showing its effectiveness in image classification tasks.
翻訳日:2022-12-17 09:54:08 公開日:2020-05-25
# 一貫した質問応答のための論理誘導データ拡張と正規化

Logic-Guided Data Augmentation and Regularization for Consistent Question Answering ( http://arxiv.org/abs/2004.10157v2 )

ライセンス: Link先を確認
Akari Asai, Hannaneh Hajishirzi(参考訳) 多くの自然言語の質問は2つの実体や事象の質的、定量的、論理的比較を必要とする。 本稿では、論理規則とニューラルモデルを統合することにより、比較問題に対する応答の精度と整合性を改善する問題に対処する。 提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。 予測のグローバルな整合性を改善するため,複数選択質的推論,原因影響推論,抽出機械読解など,様々な質問応答(QA)タスクにおいて,従来の手法よりも大幅に改善されている。 特に,本手法は,データセット間のRoBERTaモデルの性能を1~5%向上させる。 WIQAとQuaRelでは5~8%,HotpotQAでは58%,整合性違反では58%程度であった。 さらに、限られたデータから効果的に学習できることを実証する。

Many natural language questions require qualitative, quantitative or logical comparisons between two entities or events. This paper addresses the problem of improving the accuracy and consistency of responses to comparison questions by integrating logic rules and neural models. Our method leverages logical and linguistic knowledge to augment labeled training data and then uses a consistency-based regularizer to train the model. Improving the global consistency of predictions, our approach achieves large improvements over previous methods in a variety of question answering (QA) tasks including multiple-choice qualitative reasoning, cause-effect reasoning, and extractive machine reading comprehension. In particular, our method significantly improves the performance of RoBERTa-based models by 1-5% across datasets. We advance the state of the art by around 5-8% on WIQA and QuaRel and reduce consistency violations by 58% on HotpotQA. We further demonstrate that our approach can learn effectively from limited data.
翻訳日:2022-12-11 06:56:41 公開日:2020-05-25
# 単語近接ネットワークを活用した会話型質問応答

Conversational Question Answering over Passages by Leveraging Word Proximity Networks ( http://arxiv.org/abs/2004.13117v3 )

ライセンス: Link先を確認
Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 文節に対する質問応答(QA)は情報検索における長年の関心の問題である。 近年,会話環境が注目され,ユーザがトピックに関する情報ニーズを満たすために一連の質問を行うようになっている。 このセットアップは自然なもので、人間が会話するのと似ているが、ユーザが暗黙に残したコンテキストを理解すること、アドホックな質問の定式化を扱うこと、という2つの重要な研究課題が導入されている。 本研究では,複数ターンにわたるコンテキスト伝達モードをサポートする会話型qaのための教師なしかつ効果的なシステムであるcrown (conversational passage ranking by reasoning over word networks): 実演する。 この目的のために、CROWNはまず大きなコーパスからワード近接ネットワーク(WPN)を構築し、統計的に重要な用語の共起を格納する。 回答時には、質問との類似度とクエリ用語のコヒーレンスの組み合わせによって評価される: これらの要因は、wpnからノードとエッジの重みを読み取ることによって測定される。 CROWNはエンドユーザに直感的なインターフェースを提供し、専門家には個々の設定に再構成するための洞察力がある。 CROWNはTREC CAsTデータで評価され、ニューラルネットワークのプールにおいて上述の性能を達成した。

Question answering (QA) over text passages is a problem of long-standing interest in information retrieval. Recently, the conversational setting has attracted attention, where a user asks a sequence of questions to satisfy her information needs around a topic. While this setup is a natural one and similar to humans conversing with each other, it introduces two key research challenges: understanding the context left implicit by the user in follow-up questions, and dealing with ad hoc question formulations. In this work, we demonstrate CROWN (Conversational passage ranking by Reasoning Over Word Networks): an unsupervised yet effective system for conversational QA with passage responses, that supports several modes of context propagation over multiple turns. To this end, CROWN first builds a word proximity network (WPN) from large corpora to store statistically significant term co-occurrences. At answering time, passages are ranked by a combination of their similarity to the question, and coherence of query terms within: these factors are measured by reading off node and edge weights from the WPN. CROWN provides an interface that is both intuitive for end-users, and insightful for experts for reconfiguration to individual setups. CROWN was evaluated on TREC CAsT data, where it achieved above-median performance in a pool of neural methods.
翻訳日:2022-12-09 05:49:15 公開日:2020-05-25
# 規則制約付きラインの学習

Learning Lines with Ordinal Constraints ( http://arxiv.org/abs/2004.13202v2 )

ライセンス: Link先を確認
Bohan Fan, Diego Ihara Centurion, Neshat Mohammadi, Francesco Sgherzi, Anastasios Sidiropoulos, Mina Valizadeh(参考訳) 直交三重制約の下で、一組の点から実数直線への写像$f$を求める問題について検討する。 点 $(u,v,w)$ の三重項に対する順序的制約は $|f を主張する (u)-f (v)|<|f (u)-f(w)|$ である。 この問題の高密度ケースに対する近似アルゴリズムを提案する。 1-\varepsilon)$-fraction of all constraintsを満足する解を与えられた場合、我々のアルゴリズムは、すべての制約を$(1-O(\varepsilon^{1/8})$-fraction of all constraints, in time $O(n^7) + (1/\varepsilon)^{O(1/\varepsilon^{1/8})} n$を満足する解を計算する。

We study the problem of finding a mapping $f$ from a set of points into the real line, under ordinal triple constraints. An ordinal constraint for a triple of points $(u,v,w)$ asserts that $|f(u)-f(v)|<|f(u)-f(w)|$. We present an approximation algorithm for the dense case of this problem. Given an instance that admits a solution that satisfies $(1-\varepsilon)$-fraction of all constraints, our algorithm computes a solution that satisfies $(1-O(\varepsilon^{1/8}))$-fraction of all constraints, in time $O(n^7) + (1/\varepsilon)^{O(1/\varepsilon^{1/8})} n$.
翻訳日:2022-12-09 04:53:05 公開日:2020-05-25
# コンピュータービジョンを用いた新型コロナ後の製造業における労働力の安全性向上

Using Computer Vision to enhance Safety of Workforce in Manufacturing in a Post COVID World ( http://arxiv.org/abs/2005.05287v2 )

ライセンス: Link先を確認
Prateek Khandelwal, Anuj Khandelwal, Snigdha Agarwal, Deep Thomas, Naveen Xavier, Arun Raghuraman (for Group Data and Analytics, Aditya Birla Group)(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、世界中の政府に、ウイルス感染を防ぐためにロックダウンを強要した。 これにより、すべての経済活動が停止され、多くの部門で製造工場の生産が停止された。 生産再開の緊急性はあるものの、工場現場の労働者の安全を確保する必要性はさらに高まっている。 報告書によると、職場で社会的距離を保ち、フェイスマスクを着用していると、感染のリスクが明らかに減少する。 我々は、CCTVフィードでコンピュータビジョンを使用して労働者の活動を監視し、店の床でリアルタイムの音声アラートを引き起こす違反を検出することに決めた。 本稿では,aiを用いた安全環境構築の効率的かつ経済的なアプローチについて述べる。 本研究では,現代の深層学習と古典的な射影幾何学手法を組み合わせて,ロバストなソーシャルディスタンス計測アルゴリズムを構築する手法を示す。 私たちはAditya Birla Group(ABG)の工場でソリューションをデプロイしました。 また、マスク検出手法についても述べており、カスタマイズされたマスクの幅に高い精度を提供する。

The COVID-19 pandemic forced governments across the world to impose lockdowns to prevent virus transmissions. This resulted in the shutdown of all economic activity and accordingly the production at manufacturing plants across most sectors was halted. While there is an urgency to resume production, there is an even greater need to ensure the safety of the workforce at the plant site. Reports indicate that maintaining social distancing and wearing face masks while at work clearly reduces the risk of transmission. We decided to use computer vision on CCTV feeds to monitor worker activity and detect violations which trigger real time voice alerts on the shop floor. This paper describes an efficient and economic approach of using AI to create a safe environment in a manufacturing setup. We demonstrate our approach to build a robust social distancing measurement algorithm using a mix of modern-day deep learning and classic projective geometry techniques. We have deployed our solution at manufacturing plants across the Aditya Birla Group (ABG). We have also described our face mask detection approach which provides a high accuracy across a range of customized masks.
翻訳日:2022-12-04 19:27:29 公開日:2020-05-25
# 2次元ecgスペクトル画像を用いたディープラーニングによる不整脈の分類

Classification of Arrhythmia by Using Deep Learning with 2-D ECG Spectral Image Representation ( http://arxiv.org/abs/2005.06902v2 )

ライセンス: Link先を確認
Amin Ullah, Syed M. Anwar, Muhammad Bilal, and Raja M Mehmood(参考訳) 心電図 (ECG) は、心血管疾患(CVD)の診断と予測に最も広く用いられている信号の一つである。 ECG信号は、不整脈として知られる心臓のリズミカルな不整脈を捉えることができる。 心電図信号の慎重な研究は、患者の急性および慢性心疾患の正確な診断に不可欠である。 本研究では,心電図信号の2次元畳み込みニューラルネットワーク(CNN)モデルを用いて,正常拍動,早期心室収縮拍動,ペースト拍動,右束枝ブロック拍動,左束枝ブロック拍動,心房早期収縮拍動,心室粗動拍動,心室避難拍動の8つのクラスに分類する。 1次元ecg時系列信号は、短時間フーリエ変換により2次元スペクトログラムに変換される。 4つの畳み込み層と4つのプーリング層からなる2次元CNNモデルは、入力スペクトログラムからロバストな特徴を抽出するために設計されている。 提案手法をMIT-BIH不整脈データセットを用いて評価した。 我々は,最近報告した同種の不整脈の分類に比較して,最先端の平均分類精度99.11\%を達成した。 提案手法の成功を示す感度や特異性など,他の指標においても性能は重要である。

The electrocardiogram (ECG) is one of the most extensively employed signals used in the diagnosis and prediction of cardiovascular diseases (CVDs). The ECG signals can capture the heart's rhythmic irregularities, commonly known as arrhythmias. A careful study of ECG signals is crucial for precise diagnoses of patients' acute and chronic heart conditions. In this study, we propose a two-dimensional (2-D) convolutional neural network (CNN) model for the classification of ECG signals into eight classes; namely, normal beat, premature ventricular contraction beat, paced beat, right bundle branch block beat, left bundle branch block beat, atrial premature contraction beat, ventricular flutter wave beat, and ventricular escape beat. The one-dimensional ECG time series signals are transformed into 2-D spectrograms through short-time Fourier transform. The 2-D CNN model consisting of four convolutional layers and four pooling layers is designed for extracting robust features from the input spectrograms. Our proposed methodology is evaluated on a publicly available MIT-BIH arrhythmia dataset. We achieved a state-of-the-art average classification accuracy of 99.11\%, which is better than those of recently reported results in classifying similar types of arrhythmias. The performance is significant in other indices as well, including sensitivity and specificity, which indicates the success of the proposed method.
翻訳日:2022-12-03 04:57:17 公開日:2020-05-25
# 動的グラフにおける異常検出のための構造時間グラフニューラルネットワーク

Structural Temporal Graph Neural Networks for Anomaly Detection in Dynamic Graphs ( http://arxiv.org/abs/2005.07427v2 )

ライセンス: Link先を確認
Lei Cai, Zhengzhang Chen, Chen Luo, Jiaping Gui, Jingchao Ni, Ding Li, Haifeng Chen(参考訳) 動的グラフにおける異常の検出は重要なタスクであり、セキュリティ、金融、ソーシャルメディアといった分野に多くの実用的な応用がある。 従来のネットワーク埋め込みベースの手法は、よいノード表現の学習に重点を置いていたが、動的グラフのターゲットノードに関するサブグラフ構造の変化は無視されている。 本稿では,動的グラフの異常エッジを検出するためのエンドツーエンド構造時相グラフニューラルネットワークモデルstrgnnを提案する。 特に,まず対象エッジを中心とした$h$-hop囲いサブグラフを抽出し,サブグラフにおける各ノードの役割を識別するためのノードラベリング関数を提案する。 次に、グラフ畳み込み演算とソルトプール層を利用して、各スナップショット/タイムスタンプから固定サイズの特徴を抽出する。 抽出した特徴に基づき,GRU(Gated Recurrent Unit)を用いて,異常検出のための時間的情報を取得する。 6つのベンチマークデータセットと実際のエンタープライズセキュリティシステムに関する広範な実験がstrgnnの有効性を示している。

Detecting anomalies in dynamic graphs is a vital task, with numerous practical applications in areas such as security, finance, and social media. Previous network embedding based methods have been mostly focusing on learning good node representations, whereas largely ignoring the subgraph structural changes related to the target nodes in dynamic graphs. In this paper, we propose StrGNN, an end-to-end structural temporal Graph Neural Network model for detecting anomalous edges in dynamic graphs. In particular, we first extract the $h$-hop enclosing subgraph centered on the target edge and propose the node labeling function to identify the role of each node in the subgraph. Then, we leverage graph convolution operation and Sortpooling layer to extract the fixed-size feature from each snapshot/timestamp. Based on the extracted features, we utilize Gated recurrent units (GRUs) to capture the temporal information for anomaly detection. Extensive experiments on six benchmark datasets and a real enterprise security system demonstrate the effectiveness of StrGNN.
翻訳日:2022-12-02 22:43:28 公開日:2020-05-25
# rnnアーキテクチャは構文に敏感な依存関係を学ぶのにどのくらいの複雑さが必要ですか?

How much complexity does an RNN architecture need to learn syntax-sensitive dependencies? ( http://arxiv.org/abs/2005.08199v2 )

ライセンス: Link先を確認
Gantavya Bhatt, Hritik Bansal, Rishubh Singh, Sumeet Agarwal(参考訳) 長期記憶(LSTM)ネットワークとその変種は、様々な言語タスクのパフォーマンスから明らかな長距離依存をカプセル化することができる。 一方で、シナプス接続の観点でより生物学的に接する単純なリカレントネットワーク(srns)は、一般的には、教師なしの設定で文法的エラーの軌跡と同様に、長距離の依存関係を捉えることにはあまり成功していない。 本稿では,生物学的妥当性と言語能力のギャップを埋めるモデルの開発を目指す。 本稿では,ニューロン活性化の減衰特性を取り入れた新しいアーキテクチャであるDecay RNNを提案し,ニューロンの集団における興奮性および抑制性接続をモデル化する。 その生物学的インスピレーションに加えて、本モデルでは、主語と動詞の一致、文の文法性、言語モデリングタスクに対するLSTMの競合性能も示す。 これらの結果は,言語現象をモデル化する上で,RNNアーキテクチャに必要な帰納バイアスの性質を明らかにするための指標となる。

Long short-term memory (LSTM) networks and their variants are capable of encapsulating long-range dependencies, which is evident from their performance on a variety of linguistic tasks. On the other hand, simple recurrent networks (SRNs), which appear more biologically grounded in terms of synaptic connections, have generally been less successful at capturing long-range dependencies as well as the loci of grammatical errors in an unsupervised setting. In this paper, we seek to develop models that bridge the gap between biological plausibility and linguistic competence. We propose a new architecture, the Decay RNN, which incorporates the decaying nature of neuronal activations and models the excitatory and inhibitory connections in a population of neurons. Besides its biological inspiration, our model also shows competitive performance relative to LSTMs on subject-verb agreement, sentence grammaticality, and language modeling tasks. These results provide some pointers towards probing the nature of the inductive biases required for RNN architectures to model linguistic phenomena successfully.
翻訳日:2022-12-02 05:42:21 公開日:2020-05-25
# CSNE: 条件付き署名ネットワーク埋め込み

CSNE: Conditional Signed Network Embedding ( http://arxiv.org/abs/2005.10701v2 )

ライセンス: Link先を確認
Alexandru Mara, Yoosof Mashayekhi, Jefrey Lijffijt, Tijl De Bie(参考訳) 署名されたネットワークは、友人/家族や信頼/不信といったエンティティ間の正と負の関係を符号化する数学的構造である。 近年,これらのネットワークの欠落関係や記号の予測に有用な低次元表現(埋め込み)の構築が研究されている。 サイン予測のための既存の埋め込み手法は、一般に最適化関数におけるステータスやバランス理論の異なる概念を強制する。 しかし、これらの理論はしばしば不正確または不完全であり、メソッドのパフォーマンスに悪影響を及ぼす。 この文脈では、条件付き符号付きネットワーク埋め込み(CSNE)を導入する。 我々の確率論的アプローチは、きめ細かい詳細とは別途、ネットワーク内の記号に関する構造情報をモデル化する。 構造情報は事前の形式で表現され、埋め込みそのものはきめ細かい情報を取得するために使用される。 これらのコンポーネントは厳密な方法で統合される。 CSNEの精度は、署名されたネットワークをモデル化するための十分に強力な構造的先行性の存在に依存する。 したがって、第2の主貢献として、我々は、それ自身で非常に価値の高いものとして、最大エントロピー(Maximum Entropy, MaxEnt)原理に基づく事前構築のための新しいアプローチを導入する。 これらの事前は、ノード(リンクが正の度数)と署名された \emph{triangle counts}(ネットワークにおける構造的バランスの度合いの尺度)の \emph{polarity} をモデル化することができる。 様々な実世界のネットワークの実験により、CSNEはサイン予測のタスクにおいて最先端よりも優れていることが確認された。 さらに、MaxEntは、完全なCSNEよりも精度が低いが、非常に計算コストの制限で最先端と競合するアキュラシーを達成し、リソース制約のある状況において優れた実行時精度のトレードオフを提供する。

Signed networks are mathematical structures that encode positive and negative relations between entities such as friend/foe or trust/distrust. Recently, several papers studied the construction of useful low-dimensional representations (embeddings) of these networks for the prediction of missing relations or signs. Existing embedding methods for sign prediction generally enforce different notions of status or balance theories in their optimization function. These theories, however, are often inaccurate or incomplete, which negatively impacts method performance. In this context, we introduce conditional signed network embedding (CSNE). Our probabilistic approach models structural information about the signs in the network separately from fine-grained detail. Structural information is represented in the form of a prior, while the embedding itself is used for capturing fine-grained information. These components are then integrated in a rigorous manner. CSNE's accuracy depends on the existence of sufficiently powerful structural priors for modelling signed networks, currently unavailable in the literature. Thus, as a second main contribution, which we find to be highly valuable in its own right, we also introduce a novel approach to construct priors based on the Maximum Entropy (MaxEnt) principle. These priors can model the \emph{polarity} of nodes (degree to which their links are positive) as well as signed \emph{triangle counts} (a measure of the degree structural balance holds to in a network). Experiments on a variety of real-world networks confirm that CSNE outperforms the state-of-the-art on the task of sign prediction. Moreover, the MaxEnt priors on their own, while less accurate than full CSNE, achieve accuracies competitive with the state-of-the-art at very limited computational cost, thus providing an excellent runtime-accuracy trade-off in resource-constrained situations.
翻訳日:2022-12-01 13:51:11 公開日:2020-05-25
# 音声認識におけるラベル同期モデルとフレーム同期モデルの比較

A Comparison of Label-Synchronous and Frame-Synchronous End-to-End Models for Speech Recognition ( http://arxiv.org/abs/2005.10113v2 )

ライセンス: Link先を確認
Linhao Dong, Cheng Yi, Jianzong Wang, Shiyu Zhou, Shuang Xu, Xueli Jia, Bo Xu(参考訳) エンドツーエンドモデルは自動音声認識(ASR)の分野で広く注目を集めている。 それらの利点の1つは、ニューラルネットワークによって音声フレームシーケンスをテキストラベルシーケンスに直接認識する簡易性である。 認識プロセスの駆動端によれば、エンドツーエンドのASRモデルはラベル同期とフレーム同期の2つのタイプに分類される。 本研究では,代表的なラベル同期モデル (transformer) とソフトフレーム同期モデル (continuous integrated-and-fire (cif) based model) について詳細な比較を行った。 3つの公開データセットと12000時間のトレーニングデータを持つ大規模データセットの結果から,2種類のモデルが同期モードと整合したそれぞれにメリットがあることが分かる。

End-to-end models are gaining wider attention in the field of automatic speech recognition (ASR). One of their advantages is the simplicity of building that directly recognizes the speech frame sequence into the text label sequence by neural networks. According to the driving end in the recognition process, end-to-end ASR models could be categorized into two types: label-synchronous and frame-synchronous, each of which has unique model behaviour and characteristic. In this work, we make a detailed comparison on a representative label-synchronous model (transformer) and a soft frame-synchronous model (continuous integrate-and-fire (CIF) based model). The results on three public dataset and a large-scale dataset with 12000 hours of training data show that the two types of models have respective advantages that are consistent with their synchronous mode.
翻訳日:2022-12-01 05:57:15 公開日:2020-05-25
# 識別機能付きビデオにおける共同検出と追跡

Joint Detection and Tracking in Videos with Identification Features ( http://arxiv.org/abs/2005.10905v2 )

ライセンス: Link先を確認
Bharti Munjal, Abdul Rafey Aftab, Sikandar Amin, Meltem D. Brandlmaier, Federico Tombari, Fabio Galasso(参考訳) 近年の研究では、オブジェクト検出と追跡タスクを組み合わせることで、ビデオデータの場合、両方のタスクのパフォーマンスが向上するが、パフォーマンスの厳しい要件としてフレームレートが高いことが示されている。 これは、モデルが組み込みデバイス上で動作し、1秒間に数フレームしか持たない場合に、現実世界のアプリケーションでしばしば違反する仮定である。 フレームレートの低いビデオは、大きな物体の変位に苦しむ。 ここでの再識別機能は、大きな変位物体の検出にマッチするが、現在の関節検出と再同定の定式化は、これら2つが対照的なタスクであるため、検出器の性能を低下させる。 実世界のアプリケーションでは、メモリとランタイムの両方が効果的に2倍になるため、分離された検出器とリIDモデルを持つ場合、しばしば実現不可能である。 本稿では,低消費電力デバイスに適用可能な堅牢な長期追跡に向けて,ビデオの検出,追跡,再識別機能の最初の共同最適化を提案する。 特に、我々の共同最適化は、典型的なマルチタスクチャレンジである検出器性能を維持している。 推定時には、物体が見えて、検出可能で、画像内でゆっくりと移動する時の追跡(検出による追跡)に検出を利用する。 代わりに、複数のフレームで消えたオブジェクト(例えば、オクルージョン)や、高速モーション(または低フレームレートビデオ)のために追跡されなかったオブジェクトとマッチングするために再識別機能を利用する。 提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題の1位,総合3位となった。

Recent works have shown that combining object detection and tracking tasks, in the case of video data, results in higher performance for both tasks, but they require a high frame-rate as a strict requirement for performance. This is assumption is often violated in real-world applications, when models run on embedded devices, often at only a few frames per second. Videos at low frame-rate suffer from large object displacements. Here re-identification features may support to match large-displaced object detections, but current joint detection and re-identification formulations degrade the detector performance, as these two are contrasting tasks. In the real-world application having separate detector and re-id models is often not feasible, as both the memory and runtime effectively double. Towards robust long-term tracking applicable to reduced-computational-power devices, we propose the first joint optimization of detection, tracking and re-identification features for videos. Notably, our joint optimization maintains the detector performance, a typical multi-task challenge. At inference time, we leverage detections for tracking (tracking-by-detection) when the objects are visible, detectable and slowly moving in the image. We leverage instead re-identification features to match objects which disappeared (e.g. due to occlusion) for several frames or were not tracked due to fast motion (or low-frame-rate videos). Our proposed method reaches the state-of-the-art on MOT, it ranks 1st in the UA-DETRAC'18 tracking challenge among online trackers, and 3rd overall.
翻訳日:2022-11-30 23:48:13 公開日:2020-05-25
# GroupFace:潜在グループを学習し、顔認識のためのグループベース表現を構築する

GroupFace: Learning Latent Groups and Constructing Group-based Representations for Face Recognition ( http://arxiv.org/abs/2005.10497v2 )

ライセンス: Link先を確認
Yonghyun Kim, Wonpyo Park, Myung-Cheol Roh and Jongju Shin(参考訳) 顔認識の分野では、モデルは、次元埋め込みの少ない数百万の顔画像を識別することを学び、そのような膨大な情報は、単一のブランチを持つ従来のモデルでは正しくエンコードされない。 本稿では,複数のグループ認識表現を同時に利用し,組込み機能の品質向上を図る,グループFaceと呼ばれる新しい顔認識特化アーキテクチャを提案する。 提案手法は,人間のアノテーションを付加せずに各グループに属するサンプルの数をバランスさせる自己分散ラベルを提供し,対象のアイデンティティの検索空間を狭めるグループ認識表現を学習する。 提案手法の有効性を広範囲なアブレーション実験と可視化により証明する。 提案手法のすべてのコンポーネントは、計算複雑性を極端に増加させてエンドツーエンドで訓練することができる。 最後に, lfw, ytf, calfw, cplfw, cfp, ageb-30, megaface, ijb-b, ijb-cの公開データセットにおいて, 1:1 の顔認証と 1:n 顔識別タスクを大幅に改善した。

In the field of face recognition, a model learns to distinguish millions of face images with fewer dimensional embedding features, and such vast information may not be properly encoded in the conventional model with a single branch. We propose a novel face-recognition-specialized architecture called GroupFace that utilizes multiple group-aware representations, simultaneously, to improve the quality of the embedding feature. The proposed method provides self-distributed labels that balance the number of samples belonging to each group without additional human annotations, and learns the group-aware representations that can narrow down the search space of the target identity. We prove the effectiveness of the proposed method by showing extensive ablation studies and visualizations. All the components of the proposed method can be trained in an end-to-end manner with a marginal increase of computational complexity. Finally, the proposed method achieves the state-of-the-art results with significant improvements in 1:1 face verification and 1:N face identification tasks on the following public datasets: LFW, YTF, CALFW, CPLFW, CFP, AgeDB-30, MegaFace, IJB-B and IJB-C.
翻訳日:2022-11-30 23:39:29 公開日:2020-05-25
# トラクトメトリーを用いた白色単体分析のための異常検出

Tractometry-based Anomaly Detection for Single-subject White Matter Analysis ( http://arxiv.org/abs/2005.11082v2 )

ライセンス: Link先を確認
Maxime Chamberland, Sila Genc, Erika P. Raven, Greg D. Parker, Adam Cunningham, Joanne Doherty, Marianne van den Bree, Chantal M. W. Tax, Derek K. Jones(参考訳) 拡散MRI(dMRI)では, 集団比較から個人診断へのパラダイムシフトが緊急に必要であり, 稀な症例と臨床的に異種群を解析できる。 ディープオートエンコーダは、神経画像データの異常を検出する大きな可能性を示している。 本稿では,白質多様体(wm)経路上で活動し,正常な微細構造を学習し,家族集団の制御から遺伝的リスクを判断する枠組みを提案する。

There is an urgent need for a paradigm shift from group-wise comparisons to individual diagnosis in diffusion MRI (dMRI) to enable the analysis of rare cases and clinically-heterogeneous groups. Deep autoencoders have shown great potential to detect anomalies in neuroimaging data. We present a framework that operates on the manifold of white matter (WM) pathways to learn normative microstructural features, and discriminate those at genetic risk from controls in a paediatric population.
翻訳日:2022-11-30 09:51:39 公開日:2020-05-25
# 半教師付き学習: ラベルなしデータが等しく有用である場合

Semi-Supervised Learning: the Case When Unlabeled Data is Equally Useful ( http://arxiv.org/abs/2005.11018v2 )

ライセンス: Link先を確認
Jingge Zhu(参考訳) 半教師付き学習アルゴリズムは比較的安価な未ラベルデータを利用して学習性能を向上させる。 本研究では,データ分布が連続パラメータによって特徴づけられる統計モデルについて考察する。 分布の特定の条件下では,ラベルなしデータは学習率の点でラベル付き日付として等しく有用であることを示す。 具体的には、$n, m$をラベル付きデータとラベルなしデータの数とする。 半教師学習の学習レートは、$O(1/n)$ if $m\sim n$, and scales $O(1/n^{1+\gamma})$ if $m\sim n^{1+\gamma}$ for some $\gamma>0$, 一方、教師学習の学習レートは$O(1/n)$である。

Semi-supervised learning algorithms attempt to take advantage of relatively inexpensive unlabeled data to improve learning performance. In this work, we consider statistical models where the data distributions can be characterized by continuous parameters. We show that under certain conditions on the distribution, unlabeled data is equally useful as labeled date in terms of learning rate. Specifically, let $n, m$ be the number of labeled and unlabeled data, respectively. It is shown that the learning rate of semi-supervised learning scales as $O(1/n)$ if $m\sim n$, and scales as $O(1/n^{1+\gamma})$ if $m\sim n^{1+\gamma}$ for some $\gamma>0$, whereas the learning rate of supervised learning scales as $O(1/n)$.
翻訳日:2022-11-30 08:50:37 公開日:2020-05-25
# 個人ソーシャルメディアデータからのパーソナライズされたファッションレコメンデーション:アイテムツーセットのメトリックラーニングアプローチ

Personalized Fashion Recommendation from Personal Social Media Data: An Item-to-Set Metric Learning Approach ( http://arxiv.org/abs/2005.12439v1 )

ライセンス: Link先を確認
Haitian Zheng, Kefei Wu, Jong-Hwi Park, Wei Zhu, Jiebo Luo(参考訳) ファッション商品のオンラインショッピングの成長に伴い、正確なファッションレコメンデーションが重要な問題となっている。 一方、ソーシャルネットワークはパーソナライズされたファッション分析のためのオープンで新しいデータソースを提供する。 本研究は,ソーシャルメディアのデータからファッションをパーソナライズする問題,すなわち,ファッションの好みに合ったソーシャルメディアユーザーに新しい服装を推奨する問題について検討する。 そこで本研究では,ユーザの過去のファッションアイテムの集合と新しいファッションアイテムとの類似性を計算するために学習する,アイテム・ツー・セットのメトリック学習フレームワークを提案する。 マルチモーダルなストリートビューのファッションアイテムから特徴を抽出するために,多モーダルな特徴抽出とクロスモーダルなゲート融合を行う埋め込みモジュールを提案する。 提案手法の有効性を検証するため,実世界のソーシャルメディアデータセットを収集した。 収集したデータセットに対する大規模な実験は,提案手法の優れた性能を示す。

With the growth of online shopping for fashion products, accurate fashion recommendation has become a critical problem. Meanwhile, social networks provide an open and new data source for personalized fashion analysis. In this work, we study the problem of personalized fashion recommendation from social media data, i.e. recommending new outfits to social media users that fit their fashion preferences. To this end, we present an item-to-set metric learning framework that learns to compute the similarity between a set of historical fashion items of a user to a new fashion item. To extract features from multi-modal street-view fashion items, we propose an embedding module that performs multi-modality feature extraction and cross-modality gated fusion. To validate the effectiveness of our approach, we collect a real-world social media dataset. Extensive experiments on the collected dataset show the superior performance of our proposed approach.
翻訳日:2022-11-29 06:41:54 公開日:2020-05-25
# 逆データ拡張によるロバストWiFiによる転倒検出に向けて

Towards a Robust WiFi-based Fall Detection with Adversarial Data Augmentation ( http://arxiv.org/abs/2005.11932v1 )

ライセンス: Link先を確認
Tuan-Duy H. Nguyen and Huu-Nghia H. Nguyen(参考訳) 近年のWiFiによる転倒検知システムは,他のセンサシステムに対する優位性から注目されている。 機械学習とディープラーニング技術のおかげで、さまざまな実装のパフォーマンスが著しく進歩しました。 しかし、このような高い精度のシステムの多くは、目に見えない環境で堅牢性を達成できないため、信頼性が低い。 そこで本研究では,逆データ拡張による一般化手法について検討する。 以上の結果から,未発見領域における深層学習システムの改善はみられたが,その性能はそれほど大きくない。

Recent WiFi-based fall detection systems have drawn much attention due to their advantages over other sensory systems. Various implementations have achieved impressive progress in performance, thanks to machine learning and deep learning techniques. However, many of such high accuracy systems have low reliability as they fail to achieve robustness in unseen environments. To address that, this paper investigates a method of generalization through adversarial data augmentation. Our results show a slight improvement in deep learning-systems in unseen domains, though the performance is not significant.
翻訳日:2022-11-29 06:41:40 公開日:2020-05-25
# WiFiネットワークにおけるRFエネルギーハーベスティングデバイスを充電する学習

Learning to Charge RF-Energy Harvesting Devices in WiFi Networks ( http://arxiv.org/abs/2005.12022v1 )

ライセンス: Link先を確認
Yizhou Luo and Kwan-Wu Chin(参考訳) 本稿では,非エネルギーの収穫やラップトップなどのレガシなデータユーザ,無線周波数(RF)の収穫・感知機能を備えたデバイスをサポートするための太陽エネルギーアクセスポイント(AP)について考察する。 我々は、APが送電電力制御により収穫エネルギーを管理できるようにし、デバイスが頻繁に検知タスクを実行することを保証できる2つのソリューションを提案する。 有利なことに、我々のソリューションは現在のワイヤレスネットワークに適しており、完璧なチャネル利得情報やデバイスへの非causal energyの到着を必要としない。 第1のソリューションはディープQネットワーク(DQN)を使用し、第2のソリューションはモデル予測制御(MPC)を使用してAPの送信電力を制御する。 我々のDQNおよびMPCソリューションは, 競合アルゴリズムと比較してエネルギー効率とユーザ満足度をそれぞれ16%から35%, 10%から42%向上することを示した。

In this paper, we consider a solar-powered Access Point (AP) that is tasked with supporting both non-energy harvesting or legacy data users such as laptops, and devices with Radio Frequency (RF)-energy harvesting and sensing capabilities. We propose two solutions that enable the AP to manage its harvested energy via transmit power control and also ensure devices perform sensing tasks frequently. Advantageously, our solutions are suitable for current wireless networks and do not require perfect channel gain information or non-causal energy arrival at devices. The first solution uses a deep Q-network (DQN) whilst the second solution uses Model Predictive Control (MPC) to control the AP's transmit power. Our results show that our DQN and MPC solutions improve energy efficiency and user satisfaction by respectively 16% to 35%, and 10% to 42% as compared to competing algorithms.
翻訳日:2022-11-29 06:41:33 公開日:2020-05-25
# 学習に基づく制御における学習データの効果

How Training Data Impacts Performance in Learning-based Control ( http://arxiv.org/abs/2005.12062v1 )

ライセンス: Link先を確認
Armin Lederer, Alexandre Capone, Jonas Umlauft, Sandra Hirche(参考訳) 第一原理モデルが実システムの複雑さのために導出できない場合、データ駆動手法はシステム観測からモデルを構築することができる。 これらのモデルが学習に基づく制御に使用されるため、データの品質は結果の制御法の性能に重要な役割を果たす。 しかしながら、トレーニングデータセットを評価するための尺度はほとんど存在せず、閉ループシステムの特性に対するデータの分布の影響はほとんど分かっていない。 本稿では,ガウス過程モデルに基づいて,トレーニングデータの密度と制御性能の相関関係を導出する。 モデルの不確実性を考慮した追跡誤差の究極的境界を導出するため、データセットの品質指標を$\rho$-gapと呼ぶ。 我々は,$\rho$-gap がフィードバック線形化制御則に適用できることを示すとともに,その手法を数値的に示す。

When first principle models cannot be derived due to the complexity of the real system, data-driven methods allow us to build models from system observations. As these models are employed in learning-based control, the quality of the data plays a crucial role for the performance of the resulting control law. Nevertheless, there hardly exist measures for assessing training data sets, and the impact of the distribution of the data on the closed-loop system properties is largely unknown. This paper derives - based on Gaussian process models - an analytical relationship between the density of the training data and the control performance. We formulate a quality measure for the data set, which we refer to as $\rho$-gap, and derive the ultimate bound for the tracking error under consideration of the model uncertainty. We show how the $\rho$-gap can be applied to a feedback linearizing control law and provide numerical illustrations for our approach.
翻訳日:2022-11-29 06:41:17 公開日:2020-05-25
# SunDown:住宅アレイのモデル駆動型パネルごとの太陽異常検出

SunDown: Model-driven Per-Panel Solar Anomaly Detection for Residential Arrays ( http://arxiv.org/abs/2005.12181v1 )

ライセンス: Link先を確認
Menghong Feng, Noman Bashir, Prashant Shenoy, David Irwin, Beka Kosanovic(参考訳) 近年、テクノロジーの急速な改善と価格の下落により、ユーティリティースケールと住宅規模のソーラー設備の両方が大幅に成長している。 専門的に管理され維持されているユーティリティスケールのソーラーファームとは異なり、小さな住宅規模の設備では、パフォーマンスモニタリングや故障検知のためのセンサーや機器が欠如していることが多い。 結果として、断層は長い間発見されず、家主の世代や収入が失われる可能性がある。 本稿では,住宅用ソーラーアレイ内のパネル毎の故障を検知するセンサレス手法であるsundownを提案する。 sundownは、障害検出のために新しいセンサーを必要としない。代わりに、隣接するパネルによって生成された電力間の相関を利用して、期待される行動からの逸脱を検出するモデル駆動のアプローチを使用する。 SunDownは複数のパネルで同時障害を処理でき、異常分類を実行して可能性のある原因を判断できる。 実家庭からの2年間の太陽発電データと手動で生成された複数の太陽断層のデータセットを用いて,パネル当たりの出力を予測した場合のmapeは2.98\%であることを示した。 以上の結果から,SunDownは積雪や葉や破片,電気的故障などの故障を99.13%の精度で検出し,また,複数の同時故障を97.2%の精度で検出できることがわかった。

There has been significant growth in both utility-scale and residential-scale solar installations in recent years, driven by rapid technology improvements and falling prices. Unlike utility-scale solar farms that are professionally managed and maintained, smaller residential-scale installations often lack sensing and instrumentation for performance monitoring and fault detection. As a result, faults may go undetected for long periods of time, resulting in generation and revenue losses for the homeowner. In this paper, we present SunDown, a sensorless approach designed to detect per-panel faults in residential solar arrays. SunDown does not require any new sensors for its fault detection and instead uses a model-driven approach that leverages correlations between the power produced by adjacent panels to detect deviations from expected behavior. SunDown can handle concurrent faults in multiple panels and perform anomaly classification to determine probable causes. Using two years of solar generation data from a real home and a manually generated dataset of multiple solar faults, we show that our approach has a MAPE of 2.98\% when predicting per-panel output. Our results also show that SunDown is able to detect and classify faults, including from snow cover, leaves and debris, and electrical failures with 99.13% accuracy, and can detect multiple concurrent faults with 97.2% accuracy.
翻訳日:2022-11-29 06:41:03 公開日:2020-05-25
# レビューはレコメンデーションにどの程度役立つか? 批判的レビューと潜在的な改善

How Useful are Reviews for Recommendation? A Critical Review and Potential Improvements ( http://arxiv.org/abs/2005.12210v1 )

ライセンス: Link先を確認
Noveen Sachdeva, Julian McAuley(参考訳) 本稿では,レビューテキストを用いてレコメンダシステムを改善するための作業の増大について検討する。 概してこれらの論文は、レビューはユーザーの意見を「説明」するため、評価や購入を予測する基礎となる次元を推測するのに有用であると主張する。 レビューを組み込むスキームは、単純な正規化からニューラルネットワークアプローチまで幅広い。 実験条件やデータ前処理の変更にもかかわらず、論文間で結果がコピーされた(例)ことなどから、報告結果にいくつかの相違点が判明した。 まず、これらの曖昧さを解決するために包括的分析を試みる。 さらなる調査により、レコメンデーションに対するユーザーレビューの「インポージェンス」に関するより大きな問題に関する議論が求められる。 幅広い実験を通して、現状の手法が既存のベースラインを上回りませんが、特にレビューが有用であるいくつかの限定された設定から逸脱しているケースを観察する。 我々は、レビューが役に立つであろう条件の下で特徴付けしようとする観察のための仮説を提供することで、結論付ける。 本研究は,フィールドの進行方向を評価し,ロバストな経験的評価を促進することを目的とする。

We investigate a growing body of work that seeks to improve recommender systems through the use of review text. Generally, these papers argue that since reviews 'explain' users' opinions, they ought to be useful to infer the underlying dimensions that predict ratings or purchases. Schemes to incorporate reviews range from simple regularizers to neural network approaches. Our initial findings reveal several discrepancies in reported results, partly due to (e.g.) copying results across papers despite changes in experimental settings or data pre-processing. First, we attempt a comprehensive analysis to resolve these ambiguities. Further investigation calls for discussion on a much larger problem about the "importance" of user reviews for recommendation. Through a wide range of experiments, we observe several cases where state-of-the-art methods fail to outperform existing baselines, especially as we deviate from a few narrowly-defined settings where reviews are useful. We conclude by providing hypotheses for our observations, that seek to characterize under what conditions reviews are likely to be helpful. Through this work, we aim to evaluate the direction in which the field is progressing and encourage robust empirical evaluation.
翻訳日:2022-11-29 06:40:38 公開日:2020-05-25
# 即時呼吸特徴を用いた話者と姿勢の分類

Speaker and Posture Classification using Instantaneous Intraspeech Breathing Features ( http://arxiv.org/abs/2005.12230v1 )

ライセンス: Link先を確認
At{\i}l \.Ilerialkan, Alptekin Temizel, H\"useyin Hac{\i}habibo\u{g}lu(参考訳) 音声から抽出された音響的特徴は、バイオメトリックな話者識別や一人称行動検出などの問題で広く使われている。 しかし、そのような目的での音声の使用は、コンテンツが処理相手からアクセス可能なため、プライバシーの問題を引き起こす。 本研究では,音声内呼吸音を用いた話者と姿勢の分類手法を提案する。 本研究では,Hilbert-Huang 変換 (HHT) を用いて瞬時等級の特徴を抽出し,CNN-GRU ネットワークに入力し,オープン音声内呼吸音声データセット BreathBase から記録の分類を行った。 口内呼吸音,87%の話者分類,98%の姿勢分類精度を得た。

Acoustic features extracted from speech are widely used in problems such as biometric speaker identification and first-person activity detection. However, the use of speech for such purposes raises privacy issues as the content is accessible to the processing party. In this work, we propose a method for speaker and posture classification using intraspeech breathing sounds. Instantaneous magnitude features are extracted using the Hilbert-Huang transform (HHT) and fed into a CNN-GRU network for classification of recordings from the open intraspeech breathing sound dataset, BreathBase, that we collected for this study. Using intraspeech breathing sounds, 87% speaker classification, and 98% posture classification accuracy were obtained.
翻訳日:2022-11-29 06:40:21 公開日:2020-05-25
# ハードデッドラインを有するエッジ推論システムの動的圧縮比選択

Dynamic Compression Ratio Selection for Edge Inference Systems with Hard Deadlines ( http://arxiv.org/abs/2005.12235v1 )

ライセンス: Link先を確認
Xiufeng Huang, Sheng Zhou(参考訳) モノのインターネット(IoT)デバイス上での機械学習アルゴリズムの実装は、自律運転や環境監視といった新興アプリケーションにとって不可欠になっている。 しかし、計算能力とエネルギー消費の制限により、特に遅延期限が存在する場合、IoTデバイス上で複雑な機械学習アルゴリズムを実行するのが難しくなる。 ひとつの解決策は、計算集約的なタスクをエッジサーバにオフロードすることだ。 しかし、生データのワイヤレスアップロードには時間がかかり、期限違反につながる可能性がある。 通信コストを削減するために、データ圧縮の損失を推論タスクに利用することができるが、誤った推論結果をもたらす可能性がある。 本稿では,ハードデッドラインを有するエッジ推論システムに対する動的圧縮比選択方式を提案する。 鍵となるアイデアは、通信コストと推論精度のトレードオフをバランスさせることです。 待ち行列タスクの残期限予算と最適圧縮比を動的に選択することにより、限られた通信リソースの下で正しい推論でより多くのタスクをタイムリーに完了させることができる。 さらに,タスクの圧縮少ないデータを誤推論で再送信し,精度を向上させる情報拡張手法を提案する。 推論の正確性を知ることはしばしば難しいが、不確実性を用いて推論の信頼性を推定し、それに基づいて情報拡張と圧縮比の選択を共同で最適化する。 最後に,無線伝送の誤りを考慮し,パケット損失による性能低下を低減させる再送方式を更に設計する。 シミュレーションの結果,提案手法の期限とタスク到着率の異なる性能を示す。

Implementing machine learning algorithms on Internet of things (IoT) devices has become essential for emerging applications, such as autonomous driving, environment monitoring. But the limitations of computation capability and energy consumption make it difficult to run complex machine learning algorithms on IoT devices, especially when latency deadline exists. One solution is to offload the computation intensive tasks to the edge server. However, the wireless uploading of the raw data is time consuming and may lead to deadline violation. To reduce the communication cost, lossy data compression can be exploited for inference tasks, but may bring more erroneous inference results. In this paper, we propose a dynamic compression ratio selection scheme for edge inference system with hard deadlines. The key idea is to balance the tradeoff between communication cost and inference accuracy. By dynamically selecting the optimal compression ratio with the remaining deadline budgets for queued tasks, more tasks can be timely completed with correct inference under limited communication resources. Furthermore, information augmentation that retransmits less compressed data of task with erroneous inference, is proposed to enhance the accuracy performance. While it is often hard to know the correctness of inference, we use uncertainty to estimate the confidence of the inference, and based on that, jointly optimize the information augmentation and compression ratio selection. Lastly, considering the wireless transmission errors, we further design a retransmission scheme to reduce performance degradation due to packet losses. Simulation results show the performance of the proposed schemes under different deadlines and task arrival rates.
翻訳日:2022-11-29 06:40:10 公開日:2020-05-25
# 多様体学習を用いた組込みfMRIレスティング状態機能接続ネットワークの構築

Construction of embedded fMRI resting state functional connectivity networks using manifold learning ( http://arxiv.org/abs/2005.12390v1 )

ライセンス: Link先を確認
Ioannis Gallos, Evangelos Galaris, Constantinos Siettos(参考訳) 統合失調症患者および健康管理者から得られたベンチマーク・安静時機能的磁気共鳴イメージング(rsfmri)データから,多次元スケーリング(mds),等尺性特徴マッピング(isomap),拡散マップといった線形および非線形多様体学習アルゴリズムに基づいて,組み込み機能接続ネットワーク(fcn)を構築した。 さらに,組込みFCNの重要なグローバルグラフ理論特性に基づいて,その分類ポテンシャルを機械学習技術を用いて比較する。 また,fMRI から FCN を構築するために広く用いられている2つの指標,すなわちユークリッド距離とタグ付き相互相関測定値の性能を評価する。 ディフュージョンマップとラベル付き相互相関計量を用いて構築したFCNは、他の組み合わせよりも優れていることを示す。

We construct embedded functional connectivity networks (FCN) from benchmark resting-state functional magnetic resonance imaging (rsfMRI) data acquired from patients with schizophrenia and healthy controls based on linear and nonlinear manifold learning algorithms, namely, Multidimensional Scaling (MDS), Isometric Feature Mapping (ISOMAP) and Diffusion Maps. Furthermore, based on key global graph-theoretical properties of the embedded FCN, we compare their classification potential using machine learning techniques. We also assess the performance of two metrics that are widely used for the construction of FCN from fMRI, namely the Euclidean distance and the lagged cross-correlation metric. We show that the FCN constructed with Diffusion Maps and the lagged cross-correlation metric outperform the other combinations.
翻訳日:2022-11-29 06:39:32 公開日:2020-05-25
# ロボット運動計画のための離散軌道空間の組合せ

Combinatorics of a Discrete Trajectory Space for Robot Motion Planning ( http://arxiv.org/abs/2005.12064v1 )

ライセンス: Link先を確認
Felix Wiebe and Shivesh Kumar and Daniel Harnack and Malte Langosz and Hendrik W\"ohrle and Frank Kirchner(参考訳) モーションプランニングはロボット制御の難しい問題である。 問題の複雑さはロボットの構成空間の次元に直接関係している。 多くの理論計算や応用において、構成空間は連続空間としてモデル化されているが、ロボットの基本ハードウェア仕様に基づく離散ロボットモデルを提案する。 格子経路法を用いて, 離散ロボット構成空間における軌道数を数えることにより, 運動計画の複雑さを推定する。

Motion planning is a difficult problem in robot control. The complexity of the problem is directly related to the dimension of the robot's configuration space. While in many theoretical calculations and practical applications the configuration space is modeled as a continuous space, we present a discrete robot model based on the fundamental hardware specifications of a robot. Using lattice path methods, we provide estimates for the complexity of motion planning by counting the number of possible trajectories in a discrete robot configuration space.
翻訳日:2022-11-29 06:32:58 公開日:2020-05-25
# IRS支援無線通信におけるロバストビームフォーミングの最適化による深部強化学習

Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications ( http://arxiv.org/abs/2005.11885v1 )

ライセンス: Link先を確認
Jiaye Lin, Yuze Zou, Xiaoru Dong, Shimin Gong, Dinh Thai Hoang, Dusit Niyato(参考訳) Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。 本稿では,APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを併用することにより,APの送信電力を最小化する。 チャネル条件の不確かさから,受信者の信号対雑音比(snr)要件とirsの電力予算制約に基づくロバストな電力最小化問題を定式化する。 過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。 学習性能を向上させるために,drlフレームワークに統合されたロバスト問題に対する下限として凸近似を導出し,新しい最適化駆動型深決定論的政策勾配(ddpg)アプローチを促進する。 特に、DDPGアルゴリズムがアクションの一部(例えば受動ビームフォーミング)を生成すると、モデルベースの凸近似を用いてアクションの他の部分(例えばアクティブビームフォーミング)をより効率的に最適化することができる。 シミュレーションの結果,従来のDDPGアルゴリズムと比較して,最適化駆動型DDPGアルゴリズムは学習率と報奨性能の両方を向上できることが示された。

Intelligent reflecting surface (IRS) is a promising technology to assist downlink information transmissions from a multi-antenna access point (AP) to a receiver. In this paper, we minimize the AP's transmit power by a joint optimization of the AP's active beamforming and the IRS's passive beamforming. Due to uncertain channel conditions, we formulate a robust power minimization problem subject to the receiver's signal-to-noise ratio (SNR) requirement and the IRS's power budget constraint. We propose a deep reinforcement learning (DRL) approach that can adapt the beamforming strategies from past experiences. To improve the learning performance, we derive a convex approximation as a lower bound on the robust problem, which is integrated into the DRL framework and thus promoting a novel optimization-driven deep deterministic policy gradient (DDPG) approach. In particular, when the DDPG algorithm generates a part of the action (e.g., passive beamforming), we can use the model-based convex approximation to optimize the other part (e.g., active beamforming) of the action more efficiently. Our simulation results demonstrate that the optimization-driven DDPG algorithm can improve both the learning rate and reward performance significantly compared to the conventional model-free DDPG algorithm.
翻訳日:2022-11-29 06:32:15 公開日:2020-05-25
# 共同項目推薦と属性推論:適応型グラフ畳み込みネットワークアプローチ

Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach ( http://arxiv.org/abs/2005.12021v1 )

ライセンス: Link先を確認
Le Wu, Yonghui Yang, Kun Zhang, Richang Hong, Yanjie Fu and Meng Wang(参考訳) 多くのレコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。 属性情報は、ユーザの(items)特性を記述し、ユーザプロファイリング、アイテムアノテーション、機能強化レコメンデーションなど幅広いアプリケーションを持つ。 ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。 したがって、これらのプラットフォームではアイテムレコメンデーションと属性推論が2つの主要なタスクになっている。 研究者は長い間、ユーザー(イテム)属性と嗜好行動は高い相関関係にあると結論づけてきた。 一部の研究者は、残りのタスクに1種類のデータを活用することを提案し、パフォーマンスの向上を示した。 しかしながら、これらのモデルは、ユーザ(イテム)属性の不完全性を無視したり、単純なモデルによる2つのタスクの相関を考慮し、これら2つのタスクの最適下性能を導いた。 そこで本稿では,これら2つのタスクを属性付き2部グラフで定義し,共同項目推薦と属性推定のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。 AGCNのキーとなる考え方は、反復的に2つの部分を実行することである。 1) 前回学習した属性値を用いたグラフ埋め込みパラメータの学習 2) グラフ埋め込み学習を改善するために、おおよそ更新された属性値を属性グラフに戻す。 そのため、AGCNは、与えられた属性と推定属性の両方を組み込むことで、グラフ埋め込み学習パラメータを適応的に調整し、2つのタスクを洗練するために弱教師付き情報を提供する。 3つの実世界のデータセットの広範な実験結果から,提案モデルの有効性が明らかとなった。

In many recommender systems, users and items are associated with attributes, and users show preferences to items. The attribute information describes users'(items') characteristics and has a wide range of applications, such as user profiling, item annotation, and feature-enhanced recommendation. As annotating user (item) attributes is a labor intensive task, the attribute values are often incomplete with many missing attribute values. Therefore, item recommendation and attribute inference have become two main tasks in these platforms. Researchers have long converged that user (item) attributes and the preference behavior are highly correlated. Some researchers proposed to leverage one kind of data for the remaining task, and showed to improve performance. Nevertheless, these models either neglected the incompleteness of user (item) attributes or regarded the correlation of the two tasks with simple models, leading to suboptimal performance of these two tasks. To this end, in this paper, we define these two tasks in an attributed user-item bipartite graph, and propose an Adaptive Graph Convolutional Network (AGCN) approach for joint item recommendation and attribute inference. The key idea of AGCN is to iteratively perform two parts: 1) Learning graph embedding parameters with previously learned approximated attribute values to facilitate two tasks; 2) Sending the approximated updated attribute values back to the attributed graph for better graph embedding learning. Therefore, AGCN could adaptively adjust the graph embedding learning parameters by incorporating both the given attributes and the estimated attribute values, in order to provide weakly supervised information to refine the two tasks. Extensive experimental results on three real-world datasets clearly show the effectiveness of the proposed model.
翻訳日:2022-11-29 06:31:53 公開日:2020-05-25
# インサイダーの脅威検出のためのディープラーニング: レビュー,課題,機会

Deep Learning for Insider Threat Detection: Review, Challenges and Opportunities ( http://arxiv.org/abs/2005.12433v1 )

ライセンス: Link先を確認
Shuhan Yuan and Xintao Wu(参考訳) サイバースペースにおける最も困難な脅威の1つとして、インサイダーの脅威は通常、組織に重大な損失をもたらす。 While the problem of insider threat detection has been studied for a long time in both security and data mining communities, the traditional machine learning based detection approaches, which heavily rely on feature engineering, are hard to accurately capture the behavior difference between insiders and normal users due to various challenges related to the characteristics of underlying data, such as high-dimensionality, complexity, heterogeneity, sparsity, lack of labeled insider threats, and the subtle and adaptive nature of insider threats. 高度なディープラーニング技術は、複雑なデータからエンドツーエンドモデルを学ぶための新しいパラダイムを提供する。 本稿では、まず、インサイダー脅威検出のための一般的なデータセットを紹介し、そのような研究の深層学習に関する最近の文献をレビューする。 既存の研究では、従来の機械学習アルゴリズムと比較して、ディープラーニングモデルはインサイダー脅威検出のパフォーマンスを向上させることが示されている。 しかし、インサイダー脅威検出タスクをさらに進めるためにディープラーニングを適用すると、ラベル付きデータや適応攻撃の欠如など、いくつかの制限に直面することになる。 次に,このような課題について議論し,課題に対処し,インサイダー脅威検出のためのディープラーニングの性能をさらに向上させる可能性を持つ今後の研究方向を提案する。

Insider threats, as one type of the most challenging threats in cyberspace, usually cause significant loss to organizations. While the problem of insider threat detection has been studied for a long time in both security and data mining communities, the traditional machine learning based detection approaches, which heavily rely on feature engineering, are hard to accurately capture the behavior difference between insiders and normal users due to various challenges related to the characteristics of underlying data, such as high-dimensionality, complexity, heterogeneity, sparsity, lack of labeled insider threats, and the subtle and adaptive nature of insider threats. Advanced deep learning techniques provide a new paradigm to learn end-to-end models from complex data. In this brief survey, we first introduce one commonly-used dataset for insider threat detection and review the recent literature about deep learning for such research. The existing studies show that compared with traditional machine learning algorithms, deep learning models can improve the performance of insider threat detection. However, applying deep learning to further advance the insider threat detection task still faces several limitations, such as lack of labeled data, adaptive attacks. We then discuss such challenges and suggest future research directions that have the potential to address challenges and further boost the performance of deep learning for insider threat detection.
翻訳日:2022-11-29 06:31:06 公開日:2020-05-25
# 点雲から表面を再構築する効率的な反復法

An efficient iterative method for reconstructing surface from point clouds ( http://arxiv.org/abs/2005.11864v1 )

ライセンス: Link先を確認
Dong Wang(参考訳) ポイントクラウドによる表面再構成は、コンピュータビジョンにおける多くの応用において基本的なステップである。 本稿では,点雲からの表面再構成を行うための変動モデルに基づく効率的な反復法を提案する。 表面は指標関数によって暗黙的に表現され、エネルギー関数は熱核畳み込みを用いてそのような表現に基づいて近似される。 次に, 近似エネルギーを最小化し, エネルギー減衰特性を各反復で証明する新しい反復法を開発した。 次に漸近展開を用いて,提案するアルゴリズムとアクティブ輪郭モデルとの接続を与える。 2次元と3次元のユークリッド空間において広範な数値実験を行い,提案手法が単純,効率的,正確であることを証明した。

Surface reconstruction from point clouds is a fundamental step in many applications in computer vision. In this paper, we develop an efficient iterative method on a variational model for the surface reconstruction from point clouds. The surface is implicitly represented by indicator functions and the energy functional is then approximated based on such representations using heat kernel convolutions. We then develop a novel iterative method to minimize the approximate energy and prove the energy decaying property during each iteration. We then use asymptotic expansion to give a connection between the proposed algorithm and active contour models. Extensive numerical experiments are performed in both 2- and 3- dimensional Euclidean spaces to show that the proposed method is simple, efficient, and accurate.
翻訳日:2022-11-29 06:30:45 公開日:2020-05-25
# SSMI患者に対する視線制御型ロボットアーム

Eye Gaze Controlled Robotic Arm for Persons with SSMI ( http://arxiv.org/abs/2005.11994v1 )

ライセンス: Link先を確認
Vinay Krishna Sharma, L.R.D. Murthy, KamalPreet Singh Saluja, Vimal Mollyn, Gourav Sharma and Pradipta Biswas(参考訳) 背景: 重度スピーチと運動障害(SSMI)を持つ人は、しばしば外界とコミュニケーションするためにアイポインティングと呼ばれる技術を使用する。 親の1人、養育者または教師は、その前にプリント基板を持ち、手動で視線を分析することにより、彼らの意図を解釈する。 このテクニックは、しばしばエラーを起こしやすく、時間がかかり、単一の世話人に依存します。 目的: 市販のタブレット, コンピュータ, ラップトップを用いて, 視線追跡のための専用ハードウェアを必要とせず, 電子的に視線追跡プロセスを自動化することを目的とした。 目視追跡装置は、目視でロボットデバイスを制御し、布の印刷タスクに展開するビデオ・シースルー(拡張現実)ベースのar(拡張現実)ディスプレイを開発するために使用される。 方法論: ユーザ中心の設計プロセスを実行し, ウェブカメラを用いた視線追跡装置と, SSMIを利用するユーザによる人間ロボットのインタラクションによる映像視聴を別々に評価した。 また,webカメラを用いた視線追跡装置を用いたロボットアーム操作に関するユーザ調査も報告した。 結果: 視線制御インタフェースを用いて, 身体障害者は中央値2秒未満で9つの画面のうちの1つを選択でき, SSMI使用者は中央値4秒で選択できる。 視線制御された人ロボットARディスプレイを用いて、SSMIのユーザは平均15秒未満で代表的ピック・アンド・ドロップタスクを実行し、COTSアイトラッカーを用いて60秒以内にランダムに指定された目標に到達し、Webカメラベースの視線追跡装置を用いて平均2分間の時間で2分間に到達することができる。

Background: People with severe speech and motor impairment (SSMI) often uses a technique called eye pointing to communicate with outside world. One of their parents, caretakers or teachers hold a printed board in front of them and by analyzing their eye gaze manually, their intentions are interpreted. This technique is often error prone and time consuming and depends on a single caretaker. Objective: We aimed to automate the eye tracking process electronically by using commercially available tablet, computer or laptop and without requiring any dedicated hardware for eye gaze tracking. The eye gaze tracker is used to develop a video see through based AR (augmented reality) display that controls a robotic device with eye gaze and deployed for a fabric printing task. Methodology: We undertook a user centred design process and separately evaluated the web cam based gaze tracker and the video see through based human robot interaction involving users with SSMI. We also reported a user study on manipulating a robotic arm with webcam based eye gaze tracker. Results: Using our bespoke eye gaze controlled interface, able bodied users can select one of nine regions of screen at a median of less than 2 secs and users with SSMI can do so at a median of 4 secs. Using the eye gaze controlled human-robot AR display, users with SSMI could undertake representative pick and drop task at an average duration less than 15 secs and reach a randomly designated target within 60 secs using a COTS eye tracker and at an average time of 2 mins using the webcam based eye gaze tracker.
翻訳日:2022-11-29 06:30:33 公開日:2020-05-25
# Isabelle/HOLにおける自動誘導のための統一推論に向けて

Towards United Reasoning for Automatic Induction in Isabelle/HOL ( http://arxiv.org/abs/2005.12737v1 )

ライセンス: Link先を確認
Yutaka Nagashima(参考訳) 帰納定理証明はコンピュータ科学における長年の重要な課題である。 本稿では,Isabelle/HOLの帰納法による証明の最近の展開を要約する。 次に,帰納的定理証明をさらに自動化するための新しい手法である統一推論を提案する。 結束推論は、帰納的推論(deductive reasoning)、帰納的推論(inductive reasoning)、帰納的推論(inductive reasoning)、帰納的推論(inductive reasoning)という3つの推論の流派の中で最良である。

Inductive theorem proving is an important long-standing challenge in computer science. In this extended abstract, we first summarize the recent developments of proof by induction for Isabelle/HOL. Then, we propose united reasoning, a novel approach to further automating inductive theorem proving. Upon success, united reasoning takes the best of three schools of reasoning: deductive reasoning, inductive reasoning, and inductive reasoning, to prove difficult inductive problems automatically.
翻訳日:2022-11-29 06:24:18 公開日:2020-05-25
# 教師付き凸クラスタリング

Supervised Convex Clustering ( http://arxiv.org/abs/2005.12198v1 )

ライセンス: Link先を確認
Minjie Wang, Tianyi Yao, Genevera I. Allen(参考訳) クラスタリングは長い間、類似したオブジェクトのグループを特定し、多くのアプリケーションでラベルのないデータからパターンを見つけるための教師なし学習アプローチとして人気を博してきた。 しかし、推定されたクラスターの有意義な解釈を思いつくことは、その教師なしの性質のためにしばしば困難である。 一方,実世界のシナリオの多くでは,非ラベルデータの不均一性に関連する主観的診断的意見など,補助変数を監督するノイズがいくつか存在する。 補助変数とラベルなしデータの両方の情報を活用することで、完全に教師なしの分析によって隠されるかもしれない科学的に解釈可能なグループ構造を明らかにする。 本研究では,情報ソースとガイドの両方から強度を借用したSupervised Convex Clustering (SCC) という新しい統計パターン発見手法を提案し,その手法を開発した。 我々はSCCのいくつかの拡張を開発し、異なる種類の補助変数を統合し、追加の共変量に調整し、双クラスターを見つける。 シミュレーションによりsccの実用的利点を実証し,アルツハイマー病ゲノム学の事例研究を行った。 具体的には、高齢者の認知機能低下を観察する不均一性の原因となる遺伝子機構の理解を深める可能性のある、新しい候補遺伝子およびアルツハイマー病の新たなサブタイプを発見する。

Clustering has long been a popular unsupervised learning approach to identify groups of similar objects and discover patterns from unlabeled data in many applications. Yet, coming up with meaningful interpretations of the estimated clusters has often been challenging precisely due to its unsupervised nature. Meanwhile, in many real-world scenarios, there are some noisy supervising auxiliary variables, for instance, subjective diagnostic opinions, that are related to the observed heterogeneity of the unlabeled data. By leveraging information from both supervising auxiliary variables and unlabeled data, we seek to uncover more scientifically interpretable group structures that may be hidden by completely unsupervised analyses. In this work, we propose and develop a new statistical pattern discovery method named Supervised Convex Clustering (SCC) that borrows strength from both information sources and guides towards finding more interpretable patterns via a joint convex fusion penalty. We develop several extensions of SCC to integrate different types of supervising auxiliary variables, to adjust for additional covariates, and to find biclusters. We demonstrate the practical advantages of SCC through simulations and a case study on Alzheimer's Disease genomics. Specifically, we discover new candidate genes as well as new subtypes of Alzheimer's Disease that can potentially lead to better understanding of the underlying genetic mechanisms responsible for the observed heterogeneity of cognitive decline in older adults.
翻訳日:2022-11-29 06:24:05 公開日:2020-05-25
# mr2nst:マンモグラフィのためのマルチレゾリューションおよびマルチレファレンスニューラルスタイル転送

mr2NST: Multi-Resolution and Multi-Reference Neural Style Transfer for Mammography ( http://arxiv.org/abs/2005.11926v1 )

ライセンス: Link先を確認
Sheng Wang, Jiayu Huo, Xi Ouyang, Jifei Che, Xuhua Ren, Zhong Xue, Qian Wang, Jie-Zhi Cheng(参考訳) 深層学習技術を用いたコンピュータ支援診断は,多くの臨床研究においてマンモグラフィの診断に有用であることが示されている。 しかし、異なるベンダーの画像スタイルは非常に独特であり、一つのディープラーニングモデルの普遍的適用性を損なう可能性がある異なるベンダーの間にドメインギャップが存在する可能性がある。 本研究では,提案するマルチレゾリューションおよびマルチレゾリューションニューラルスタイル転送(mr2NST)ネットワークを用いて,スタイルの多様性問題に対処する。 mr2NSTは異なるベンダーのスタイルを非常に高解像度で同じスタイルのベースラインに標準化することができる。 転写された画像の画質は、NIMAスコアの点から、ターゲット領域(ベンダー)の原画像の品質に匹敵するものであることを示す。 また, マンモグラムの病変検出にはm2NSTが有用であることが示唆された。

Computer-aided diagnosis with deep learning techniques has been shown to be helpful for the diagnosis of the mammography in many clinical studies. However, the image styles of different vendors are very distinctive, and there may exist domain gap among different vendors that could potentially compromise the universal applicability of one deep learning model. In this study, we explicitly address style variety issue with the proposed multi-resolution and multi-reference neural style transfer (mr2NST) network. The mr2NST can normalize the styles from different vendors to the same style baseline with very high resolution. We illustrate that the image quality of the transferred images is comparable to the quality of original images of the target domain (vendor) in terms of NIMA scores. Meanwhile, the mr2NST results are also shown to be helpful for the lesion detection in mammograms.
翻訳日:2022-11-29 06:23:02 公開日:2020-05-25
# 透過画像を用いた添加物生成物の同定に関する予備的検討

A Preliminary Study for Identification of Additive Manufactured Objects with Transmitted Images ( http://arxiv.org/abs/2005.12027v1 )

ライセンス: Link先を確認
Kenta Yamamoto, Ryota Kawamura, Kazuki Takazawa, Hiroyuki Osone, Yoichi Ochiai(参考訳) 添加性製造は、製品製造の標準方法となる可能性があり、商品流通システムには製品情報が不可欠である。 ほとんどの製品は外面にバーコードを与えるが、製品内にバーコードを埋め込む研究は進行中である。 これは、添加物製造が製造と情報付加を同時に行うことが可能であり、内部に埋め込まれた情報が製品の外観を損なうことはないためである。 しかし、組み込まれていない製品は特定できず、後では組み込まれた情報を書き換えることができない。 本研究では,埋め込みバーコードを必要としない製品識別システムを開発した。 本システムでは、異なる内部支持構造や製造誤差などの各製品に関する情報を含む製品の送信画像を使用する。 我々は,送信画像のデータセットが利用可能であれば,90%以上の精度で物体を識別できることを示す実験を行った。 この結果から,本手法は組込み情報のないオブジェクトの識別に有用であることが示唆された。

Additive manufacturing has the potential to become a standard method for manufacturing products, and product information is indispensable for the item distribution system. While most products are given barcodes to the exterior surfaces, research on embedding barcodes inside products is underway. This is because additive manufacturing makes it possible to carry out manufacturing and information adding at the same time, and embedding information inside does not impair the exterior appearance of the product. However, products that have not been embedded information can not be identified, and embedded information can not be rewritten later. In this study, we have developed a product identification system that does not require embedding barcodes inside. This system uses a transmission image of the product which contains information of each product such as different inner support structures and manufacturing errors. We have shown through experiments that if datasets of transmission images are available, objects can be identified with an accuracy of over 90%. This result suggests that our approach can be useful for identifying objects without embedded information.
翻訳日:2022-11-29 06:22:08 公開日:2020-05-25
# 乳癌および胃癌の病理組織像におけるFISH-based HER2 oncogene amplification testの解釈可能な自動検出システム

An interpretable automated detection system for FISH-based HER2 oncogene amplification testing in histo-pathological routine images of breast and gastric cancer diagnostics ( http://arxiv.org/abs/2005.12066v1 )

ライセンス: Link先を確認
Sarah Schmell and Falk Zakrzewski and Walter de Back and Martin Weigert and Uwe Schmidt and Torsten Wenke and Silke Zeugner and Robert Mantey and Christian Sperling and Ingo Roeder and Pia Hoenscheid and Daniela Aust and Gustavo Baretton(参考訳) 病理診断は日常の作業の本質的な部分であるが、特に手間がかかり、画像データの手動解析に時間を要する。 現在の人口増加と人口動態の変化とパーソナライズされた医療の進歩により、診断症例数の増加に対応するため、病理学者は支援を求める。 デジタル病理学と人工知能の使用により、個々のソリューションを提供することができる(例えば、ラベル付きがん組織セクションを検出する)。 ヒト上皮成長因子受容体2(HER2)の蛍光 in situ hybridization(FISH)による遺伝子増幅状態の検査は、乳癌や胃癌の診断に推奨され、クリニックで定期的に行われている。 本稿では,HER2遺伝子増幅試験におけるFISH画像の評価を自動化する,解釈可能な深層学習パイプラインを開発する。 病理学的評価を模倣し、インスタンスセグメンテーションネットワークに基づく相間核の検出と局在に依存する。 さらに、画像分類と物体検出畳み込みニューラルネットワーク(cnns)の助けを借りて、各核内の蛍光信号を局在化し分類する。 最後に、パイプラインはHER2増幅状態に関する全体像を分類する。 ネットワークが決定を下すピクセルの可視化は、病理学者による解釈を可能にする重要な部分を補完する。

Histo-pathological diagnostics are an inherent part of the everyday work but are particularly laborious and associated with time-consuming manual analysis of image data. In order to cope with the increasing diagnostic case numbers due to the current growth and demographic change of the global population and the progress in personalized medicine, pathologists ask for assistance. Profiting from digital pathology and the use of artificial intelligence, individual solutions can be offered (e.g. detect labeled cancer tissue sections). The testing of the human epidermal growth factor receptor 2 (HER2) oncogene amplification status via fluorescence in situ hybridization (FISH) is recommended for breast and gastric cancer diagnostics and is regularly performed at clinics. Here, we develop an interpretable, deep learning (DL)-based pipeline which automates the evaluation of FISH images with respect to HER2 gene amplification testing. It mimics the pathological assessment and relies on the detection and localization of interphase nuclei based on instance segmentation networks. Furthermore, it localizes and classifies fluorescence signals within each nucleus with the help of image classification and object detection convolutional neural networks (CNNs). Finally, the pipeline classifies the whole image regarding its HER2 amplification status. The visualization of pixels on which the networks' decision occurs, complements an essential part to enable interpretability by pathologists.
翻訳日:2022-11-29 06:21:53 公開日:2020-05-25
# 異種顔認識のためのマルチマージン型非相関学習

Multi-Margin based Decorrelation Learning for Heterogeneous Face Recognition ( http://arxiv.org/abs/2005.11945v1 )

ライセンス: Link先を確認
Bing Cao, Nannan Wang, Xinbo Gao, Jie Li, Zhifeng Li(参考訳) Heterogeneous Face Recognition (HFR) とは、異なるドメインから取得した顔画像と、セキュリティシナリオにおける幅広い応用のマッチングである。 本稿では,超球面空間におけるデコリレーション表現を抽出するために,マルチマージンベースデコリレーション学習(MMDL)というディープニューラルネットワークアプローチを提案する。 提案するフレームワークは,ヘテロジニアス表現ネットワークと非相関表現学習の2つの構成要素に分けられる。 まず、異種表現ネットワークを訓練するために、アクセス可能な大規模な視覚画像を用いる。 デコリレーション層は、第1成分の出力をデコリレーション潜在部分空間に投影し、デコリレーション表現を得る。 さらに,提案手法を制約するために,四点マージン損失 (qml) と不均一角マージン損失 (haml) からなるマルチマージン損失 (mml) を設計した。 2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において,最先端の手法と比較して優れた性能を発揮することが示された。

Heterogeneous face recognition (HFR) refers to matching face images acquired from different domains with wide applications in security scenarios. This paper presents a deep neural network approach namely Multi-Margin based Decorrelation Learning (MMDL) to extract decorrelation representations in a hyperspherical space for cross-domain face images. The proposed framework can be divided into two components: heterogeneous representation network and decorrelation representation learning. First, we employ a large scale of accessible visual face images to train heterogeneous representation network. The decorrelation layer projects the output of the first component into decorrelation latent subspace and obtains decorrelation representation. In addition, we design a multi-margin loss (MML), which consists of quadruplet margin loss (QML) and heterogeneous angular margin loss (HAML), to constrain the proposed framework. Experimental results on two challenging heterogeneous face databases show that our approach achieves superior performance on both verification and recognition tasks, comparing with state-of-the-art methods.
翻訳日:2022-11-29 06:15:21 公開日:2020-05-25
# クロスデータセットパームプリント認識のための共同画素と特徴アライメントフレームワーク

A Joint Pixel and Feature Alignment Framework for Cross-dataset Palmprint Recognition ( http://arxiv.org/abs/2005.12044v1 )

ライセンス: Link先を確認
Huikai Shao and Dexing Zhong(参考訳) ディープラーニングベースのパームプリント認識アルゴリズムは大きな可能性を秘めている。 その多くは、同じデータセットからサンプルを識別することに集中している。 しかし、トレーニングやテスト用の画像が、組み込み端末やスマートフォンによって収集されるような、異なるデータセットからのものであるような、より便利なケースには適していないかもしれない。 そこで我々は,このようなパームプリント横断認識シナリオのための新しい統合画素・特徴アライメント(jpfa)フレームワークを提案する。 2つのステージアライメントを適用して、ソースおよびターゲットデータセットの適応的な特徴を得る。 1) ソース画像から偽画像に変換してデータセットのギャップを減らし, ピクセルレベルでデータ拡張を行うために, ディープスタイルの転送モデルを採用する。 2) ターゲットソースとターゲットフェイクペアのデータセット固有の分布を特徴レベルで整合させることにより適応的特徴を抽出するための新しい深部領域適応モデルを提案する。 制約付きおよび制約なしのpalmprintデータベースを含むいくつかのベンチマークで適切な実験が行われた。 その結果、jpfaは最先端を達成するために他のモデルよりも優れています。 ベースラインと比較して、クロスデータセット識別の精度が最大28.10%向上し、クロスデータセット検証の等しいエラーレート(eer)が最大4.69%低減される。 結果を再現できるように、コードはhttp://gr.xjtu.edu.cn/web/bell/resource.comで公開されています。

Deep learning-based palmprint recognition algorithms have shown great potential. Most of them are mainly focused on identifying samples from the same dataset. However, they may be not suitable for a more convenient case that the images for training and test are from different datasets, such as collected by embedded terminals and smartphones. Therefore, we propose a novel Joint Pixel and Feature Alignment (JPFA) framework for such cross-dataset palmprint recognition scenarios. Two stage-alignment is applied to obtain adaptive features in source and target datasets. 1) Deep style transfer model is adopted to convert source images into fake images to reduce the dataset gaps and perform data augmentation on pixel level. 2) A new deep domain adaptation model is proposed to extract adaptive features by aligning the dataset-specific distributions of target-source and target-fake pairs on feature level. Adequate experiments are conducted on several benchmarks including constrained and unconstrained palmprint databases. The results demonstrate that our JPFA outperforms other models to achieve the state-of-the-arts. Compared with baseline, the accuracy of cross-dataset identification is improved by up to 28.10% and the Equal Error Rate (EER) of cross-dataset verification is reduced by up to 4.69%. To make our results reproducible, the codes are publicly available at http://gr.xjtu.edu.cn/web/bell/resource.
翻訳日:2022-11-29 06:15:03 公開日:2020-05-25
# GameGANで動的環境をシミュレートする学習

Learning to Simulate Dynamic Environments with GameGAN ( http://arxiv.org/abs/2005.12126v1 )

ライセンス: Link先を確認
Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler(参考訳) シミュレーションはどんなロボットシステムでも重要な要素である。 正しくシミュレートするためには、動的エージェントがどのように振る舞うか、各エージェントのアクションが他者の行動にどのように影響するかという、環境の複雑なルールを記述する必要がある。 本稿では,エージェントが環境と対話するのを見ることでシミュレータを学習することを目的とする。 我々は実環境の代理としてグラフィックゲームに焦点を当てている。 ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学ぶ生成モデルである。 エージェントによって押されたキーが与えられた後、GameGANは慎重に設計された生成的敵ネットワークを使用して次の画面を「レンダリング」する。 我々は、環境の内部マップを構築するメモリモジュールを設計し、エージェントが以前訪れた場所へ、高い視覚的一貫性を持って戻れるようにします。 さらに、GameGANは、画像内の静的および動的コンポーネントをアンタングルすることで、モデルの振る舞いをより解釈可能とし、動的要素に対する明示的な推論を必要とする下流タスクに関連付けることができる。 これにより、ゲームの異なるコンポーネントを交換して、存在しない新しいゲームを構築するなど、多くの興味深いアプリケーションが可能になる。

Simulation is a crucial component of any robotic system. In order to simulate correctly, we need to write complex rules of the environment: how dynamic agents behave, and how the actions of each of the agents affect the behavior of others. In this paper, we aim to learn a simulator by simply watching an agent interact with an environment. We focus on graphics games as a proxy of the real environment. We introduce GameGAN, a generative model that learns to visually imitate a desired game by ingesting screenplay and keyboard actions during training. Given a key pressed by the agent, GameGAN "renders" the next screen using a carefully designed generative adversarial network. Our approach offers key advantages over existing work: we design a memory module that builds an internal map of the environment, allowing for the agent to return to previously visited locations with high visual consistency. In addition, GameGAN is able to disentangle static and dynamic components within an image making the behavior of the model more interpretable, and relevant for downstream tasks that require explicit reasoning over dynamic elements. This enables many interesting applications such as swapping different components of the game to build new games that do not exist.
翻訳日:2022-11-29 06:14:28 公開日:2020-05-25
# アイデンティティ保存型現実的な会話顔生成

Identity-Preserving Realistic Talking Face Generation ( http://arxiv.org/abs/2005.12318v1 )

ライセンス: Link先を確認
Sanjana Sinha, Sandika Biswas and Brojeshwar Bhowmick(参考訳) 音声駆動の顔アニメーションは、テレプレゼンス、チャットボットなど、さまざまなアプリケーションに有用である。 リアルな顔アニメーションを持つために必要な特性は 1) 音声と視覚の同期(2) 対象者の識別保存(3) 可視性口の動き(4) 自然眼の点滅の有無。 既存の手法は主に音声と視覚の唇の同期に対処しており、近年ではビデオリアリズム全体のための自然な目まみれの合成に対処する研究はほとんどない。 本稿では,音声から現実的な顔のアニメーションを識別する手法を提案する。 まず、DeepSpeech機能を使って音声から人物非依存の顔のランドマークを生成し、異なる音声、アクセント等に不変性を持たせる。 現実主義を加えるために,教師なし学習を用いて顔ランドマークに目まぶしを課し,個人固有のランドマークを個人固有のランドマークに再ターゲティングすることで,ターゲットアイデンティティの再現可能な口形状の生成を支援するアイデンティティ関連顔構造を維持する。 最後に、lsganを用いて顔のテクスチャを個人固有の顔のランドマークから生成し、パーソナライズ関連テクスチャの保存を支援するアテンション機構を用いて顔のテクスチャを生成する。 提案手法と最先端技術との比較により, リップ同期精度, 画像再構成品質, シャープネス, アイデンティティ保存の点で, 大幅な改善が見られた。 ユーザスタディでは、最先端の手法によるアニメーション結果のリアリズムの改善も明らかにしている。 我々の知る限りでは、これは、現実的な音声駆動顔アニメーションの上記の属性をすべて同時に扱う、音声駆動顔アニメーションにおける最初の作品である。

Speech-driven facial animation is useful for a variety of applications such as telepresence, chatbots, etc. The necessary attributes of having a realistic face animation are 1) audio-visual synchronization (2) identity preservation of the target individual (3) plausible mouth movements (4) presence of natural eye blinks. The existing methods mostly address the audio-visual lip synchronization, and few recent works have addressed the synthesis of natural eye blinks for overall video realism. In this paper, we propose a method for identity-preserving realistic facial animation from speech. We first generate person-independent facial landmarks from audio using DeepSpeech features for invariance to different voices, accents, etc. To add realism, we impose eye blinks on facial landmarks using unsupervised learning and retargets the person-independent landmarks to person-specific landmarks to preserve the identity-related facial structure which helps in the generation of plausible mouth shapes of the target identity. Finally, we use LSGAN to generate the facial texture from person-specific facial landmarks, using an attention mechanism that helps to preserve identity-related texture. An extensive comparison of our proposed method with the current state-of-the-art methods demonstrates a significant improvement in terms of lip synchronization accuracy, image reconstruction quality, sharpness, and identity-preservation. A user study also reveals improved realism of our animation results over the state-of-the-art methods. To the best of our knowledge, this is the first work in speech-driven 2D facial animation that simultaneously addresses all the above-mentioned attributes of a realistic speech-driven face animation.
翻訳日:2022-11-29 06:13:43 公開日:2020-05-25
# 階層性疾患依存と不確実性ラベルを爆発させるCNNによる胸部X線解析

Interpreting Chest X-rays via CNNs that Exploit Hierarchical Disease Dependencies and Uncertainty Labels ( http://arxiv.org/abs/2005.12734v1 )

ライセンス: Link先を確認
Hieu H. Pham, Tung T. Le, Dat T. Ngo, Dat Q. Tran, Ha Q. Nguyen(参考訳) 胸部X線 (CXR) は放射線科医 (NHS) が最も多く発注する視線の一つであり、多くの胸部疾患の診断に重要である。 CXRから複数の疾患を正確に検出することは依然として難しい課題である。 深層畳み込みニューラルネットワーク(CNN)を用いた多言語分類フレームワークを提案し,14の一般的な胸部疾患の存在と観察を診断する。 具体的には,異常ラベル間の依存関係を利用したAstrong set of CNNsを訓練し,不確実なサンプルの取り扱いを改善するためにラベルの平滑化正則化(LSR)を用いた。 私たちのディープネットワークは、最近リリースされたchexpertデータセット(irvinandal., 2019)の20万以上のcxrでトレーニングされ、バリデーションセットから選択された5つの病理を予測するために、最もパフォーマンスの高いネットワークのアンサンブルであるfinalモデルが、曲線(auc)下の平均領域を0.940に減らしました。 私たちの知る限りでは、これはこれまでに報告されたAUCの最高スコアです。 さらに,CheXpertコンペティション(CheXpertコンペティション)のinde-pendentテストセットに,経験者5名によるアパネルを付加した500個のCXR研究を含む方法も検討した。 報告された性能は、CheXpertテストセットで現在行われている最先端のパフォーマンスに繋がった平均AUC0.930の他の3人の放射線学者のうち、平均2.6倍であった。

The chest X-rays (CXRs) is one of the views most commonly ordered by radiologists (NHS),which is critical for diagnosis of many different thoracic diseases. Accurately detecting thepresence of multiple diseases from CXRs is still a challenging task. We present a multi-labelclassification framework based on deep convolutional neural networks (CNNs) for diagnos-ing the presence of 14 common thoracic diseases and observations. Specifically, we trained astrong set of CNNs that exploit dependencies among abnormality labels and used the labelsmoothing regularization (LSR) for a better handling of uncertain samples. Our deep net-works were trained on over 200,000 CXRs of the recently released CheXpert dataset (Irvinandal., 2019) and the final model, which was an ensemble of the best performing networks,achieved a mean area under the curve (AUC) of 0.940 in predicting 5 selected pathologiesfrom the validation set. To the best of our knowledge, this is the highest AUC score yetreported to date. More importantly, the proposed method was also evaluated on an inde-pendent test set of the CheXpert competition, containing 500 CXR studies annotated by apanel of 5 experienced radiologists. The reported performance was on average better than2.6 out of 3 other individual radiologists with a mean AUC of 0.930, which had led to thecurrent state-of-the-art performance on the CheXpert test set.
翻訳日:2022-11-29 06:13:18 公開日:2020-05-25
# AutoSUM:エンティティ要約のための特徴抽出とマルチユーザ予測シミュレーション

AutoSUM: Automating Feature Extraction and Multi-user Preference Simulation for Entity Summarization ( http://arxiv.org/abs/2005.11888v1 )

ライセンス: Link先を確認
Dongjun Wei and Yaxin Liu and Fuqing Zhu and Liangjun Zang and Wei Zhou and Yijun Lu and Songlin Hu(参考訳) the growthofknowledgegraphsでは、エンティティの記述が非常に長くなっています。 エンティティの多様性,包括性,代表的要約の生成を目的としたエンティティ要約タスクが最近,注目を集めている。 これまでのほとんどの方法では、特徴は通常手作りテンプレートによって抽出される。 そして、機能選択とマルチユーザー選好のシミュレーションが行われ、人間の専門知識に大きく依存する。 本稿では,先行手法の欠点を克服するために,自動特徴抽出とマルチユーザ嗜好シミュレーションのためのautosumと呼ばれる新しい統合手法を提案する。 AutoSUMには抽出器とシミュレータの2つのモジュールがある。 抽出モジュールは、単語埋め込みとグラフ埋め込みを含む入力表現を組み合わせたBiLSTMに基づく自動特徴抽出を実行する。 一方、シミュレータモジュールは、よく設計された二相注意機構(すなわち、エンティティフェーズ注意とユーザフェーズ注意)に基づいて、マルチユーザ嗜好シミュレーションを自動化する。 実験の結果、AutoSUMはF測定とMAPの両方で広く使われている2つのデータセット(DBpediaとLinkedMDB)上で、最先端のパフォーマンスを実現することがわかった。

Withthegrowthofknowledgegraphs, entity descriptions are becoming extremely lengthy. Entity summarization task, aiming to generate diverse, comprehensive, and representative summaries for entities, has received increasing interest recently. In most previous methods, features are usually extracted by the handcrafted templates. Then the feature selection and multi-user preference simulation take place, depending too much on human expertise. In this paper, a novel integration method called AutoSUM is proposed for automatic feature extraction and multi-user preference simulation to overcome the drawbacks of previous methods. There are two modules in AutoSUM: extractor and simulator. The extractor module operates automatic feature extraction based on a BiLSTM with a combined input representation including word embeddings and graph embeddings. Meanwhile, the simulator module automates multi-user preference simulation based on a well-designed two-phase attention mechanism (i.e., entity-phase attention and user-phase attention). Experimental results demonstrate that AutoSUM produces state-of-the-art performance on two widely used datasets (i.e., DBpedia and LinkedMDB) in both F-measure and MAP.
翻訳日:2022-11-29 06:12:51 公開日:2020-05-25
# 密集交通の融合のための反復推論による強化学習

Reinforcement Learning with Iterative Reasoning for Merging in Dense Traffic ( http://arxiv.org/abs/2005.11895v1 )

ライセンス: Link先を確認
Maxime Bouton, Alireza Nakhaei, David Isele, Kikuo Fujimura, and Mykel J. Kochenderfer(参考訳) 他の多くの参加者の確率的な振る舞いを推論する必要があるため、密集した交通の確保は自動運転車にとって難しい課題である。 さらに、エージェントは限られた時間と距離で操作を行なわなければならない。 本研究では,強化学習とゲーム理論の組み合わせを提案し,マージ行動を学習する。 我々は,レベル=k$の行動の概念を用いて,強化学習エージェントの訓練カリキュラムを設計する。 このアプローチは、トレーニング中にエージェントをさまざまな行動にさらし、不一致のモデル化に堅牢な学習ポリシを促進する。 従来の学習方法よりも効率的な政策を学習していることを示す。

Maneuvering in dense traffic is a challenging task for autonomous vehicles because it requires reasoning about the stochastic behaviors of many other participants. In addition, the agent must achieve the maneuver within a limited time and distance. In this work, we propose a combination of reinforcement learning and game theory to learn merging behaviors. We design a training curriculum for a reinforcement learning agent using the concept of level-$k$ behavior. This approach exposes the agent to a broad variety of behaviors during training, which promotes learning policies that are robust to model discrepancies. We show that our approach learns more efficient policies than traditional training methods.
翻訳日:2022-11-29 06:12:33 公開日:2020-05-25
# ヘイトスピーチ検出における人種バイアスの軽減

Demoting Racial Bias in Hate Speech Detection ( http://arxiv.org/abs/2005.12246v1 )

ライセンス: Link先を確認
Mengzhou Xia, Anjalie Field, Yulia Tsvetkov(参考訳) 現在のヘイトスピーチデータセットでは、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に高い相関関係が存在する。 このアノテートトレーニングデータのバイアスと機械学習モデルの増幅傾向は、現在のヘイトスピーチ分類器による偽陽性率の高い嫌悪/悪/憎悪のスピーチとして、AAEテキストを誤ってラベル付けすることが多い。 本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。 ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AEテキストの偽陽性率を大幅に低減できることが示された。

In current hate speech datasets, there exists a high correlation between annotators' perceptions of toxicity and signals of African American English (AAE). This bias in annotated training data and the tendency of machine learning models to amplify it cause AAE text to often be mislabeled as abusive/offensive/hate speech with a high false positive rate by current hate speech classifiers. In this paper, we use adversarial training to mitigate this bias, introducing a hate speech classifier that learns to detect toxic sentences while demoting confounds corresponding to AAE texts. Experimental results on a hate speech dataset and an AAE dataset suggest that our method is able to substantially reduce the false positive rate for AAE text while only minimally affecting the performance of hate speech classification.
翻訳日:2022-11-29 06:05:50 公開日:2020-05-25
# ニューラルマシン翻訳モデルの不合理なボラティリティ

The Unreasonable Volatility of Neural Machine Translation Models ( http://arxiv.org/abs/2005.12398v1 )

ライセンス: Link先を確認
Marzieh Fadaee and Christof Monz(参考訳) 近年の研究では、ニューラルネットワーク翻訳(NMT)モデルが優れた性能を発揮することが示されているが、これらのモデルの振る舞いを理解することについての疑問は未解決のままである。 入力が意味的かつ構文的に正しいNMTモデルの予期せぬ変動性について検討する。 ソース文の簡単な修正によって、翻訳中に \textit{unexpected changes} が発生するケースと、最悪の場合には誤訳につながるケースを識別できることが分かりました。 この極めて類似した文を驚くほど異なる方法で翻訳する揮発的挙動は、現在のnmtモデルの基盤となる一般化問題を示している。 RNNモデルとTransformerモデルでは,それぞれ26%と19%の文変動が揮発性を示すことがわかった。

Recent works have shown that Neural Machine Translation (NMT) models achieve impressive performance, however, questions about understanding the behavior of these models remain unanswered. We investigate the unexpected volatility of NMT models where the input is semantically and syntactically correct. We discover that with trivial modifications of source sentences, we can identify cases where \textit{unexpected changes} happen in the translation and in the worst case lead to mistranslations. This volatile behavior of translating extremely similar sentences in surprisingly different ways highlights the underlying generalization problem of current NMT models. We find that both RNN and Transformer models display volatile behavior in 26% and 19% of sentence variations, respectively.
翻訳日:2022-11-29 06:05:37 公開日:2020-05-25
# maintnet: メンテナンス言語リソースを予測するための共同オープンソースライブラリ

MaintNet: A Collaborative Open-Source Library for Predictive Maintenance Language Resources ( http://arxiv.org/abs/2005.12443v1 )

ライセンス: Link先を確認
Farhad Akhbardeh, Travis Desell, Marcos Zampieri(参考訳) 保守記録ログブックは、NLPの新たなテキストタイプである。 典型的には、多くのドメイン固有の技術的用語、略語、および非標準スペルと文法を持つ自由テキスト文書から成り、標準コーパスで訓練されたNLPパイプラインに困難をもたらす。 このような文書の分析・注釈は, 運用効率の向上, 事故防止, 命を救うことを目的とした, 予測保守システムの開発において特に重要である。 この分野の研究の促進と促進を目的として,技術およびドメイン固有言語データセットのオープンソースライブラリであるMaintNetを開発した。 MaintNetは、航空、自動車、施設ドメインからの新しいログブックデータと、前処理とクラスタリングを支援するツールを提供している。 さらに、ログブックデータ分析のための新しいデータセットとツールの議論と共有を促進する手段を提供する。

Maintenance record logbooks are an emerging text type in NLP. They typically consist of free text documents with many domain specific technical terms, abbreviations, as well as non-standard spelling and grammar, which poses difficulties to NLP pipelines trained on standard corpora. Analyzing and annotating such documents is of particular importance in the development of predictive maintenance systems, which aim to provide operational efficiencies, prevent accidents and save lives. In order to facilitate and encourage research in this area, we have developed MaintNet, a collaborative open-source library of technical and domain-specific language datasets. MaintNet provides novel logbook data from the aviation, automotive, and facilities domains along with tools to aid in their (pre-)processing and clustering. Furthermore, it provides a way to encourage discussion on and sharing of new datasets and tools for logbook data analysis.
翻訳日:2022-11-29 06:05:26 公開日:2020-05-25
# 条件付き信念関数からの非破壊サンプル生成

Non-Destructive Sample Generation From Conditional Belief Functions ( http://arxiv.org/abs/2005.11963v1 )

ライセンス: Link先を確認
Mieczys{\l}aw A. K{\l}opotek(参考訳) 本稿では,条件信念関数の限定的かつ非自明な部分集合に対して,条件信念関数からサンプルを生成する新しい手法を提案する。 ベイズネットワーク構造に沿った信念関数の分解(分解)を仮定する。 一般条件信念関数を適用する。

This paper presents a new approach to generate samples from conditional belief functions for a restricted but non trivial subset of conditional belief functions. It assumes the factorization (decomposition) of a belief function along a bayesian network structure. It applies general conditional belief functions.
翻訳日:2022-11-29 06:05:12 公開日:2020-05-25
# 柔軟な予測における属性の無関係性について

On Irrelevance of Attributes in Flexible Prediction ( http://arxiv.org/abs/2005.11979v1 )

ライセンス: Link先を確認
Mieczyslaw A. Klopotek and Andrzej Matuszewski(参考訳) 本稿では,「フレキシブル予測」と呼ばれる漸進的な概念形成手法を用いて得られた概念階層の特性を分析し,どの属性の「関連性」が意味ある概念階層に要求されるかを決定する。 簡単な属性と組み合わせた属性の選択,個々の属性のスケーリングと分布,およびそれらの相関強度の影響について検討した。 どちらの属性も弱く、他の属性と強く関連しているため、全体的な分類に影響を及ぼす。 導出属性の適切な構成と個々の属性のスケーリングの選択は、得られた概念階層に強く影響を及ぼす。 分布の属性密度は、分類に弱く、また、概念階層(タコノミ)は、データに関する客観的な真実において、データと我々の関心の間の妥協を反映しているように見える。 目的に適した分類を得るため、属性間の対称性を分解する(従属型と独立型に分けて、それらの貢献に対して異なる評価式を適用することにより)。 連続変数と離散変数の両方が考慮される。 前者の方法論も考慮されている。

This paper analyses properties of conceptual hierarchy obtained via incremental concept formation method called "flexible prediction" in order to determine what kind of "relevance" of participating attributes may be requested for meaningful conceptual hierarchy. The impact of selection of simple and combined attributes, of scaling and of distribution of individual attributes and of correlation strengths among them is investigated. Paradoxically, both: attributes weakly and strongly related with other attributes have deteriorating impact onto the overall classification. Proper construction of derived attributes as well as selection of scaling of individual attributes strongly influences the obtained concept hierarchy. Attribute density of distribution seems to influence the classification weakly It seems also, that concept hierarchies (taxonomies) reflect a compromise between the data and our interests in some objective truth about the data. To obtain classifications more suitable for one's purposes, breaking the symmetry among attributes (by dividing them into dependent and independent and applying differing evaluation formulas for their contribution) is suggested. Both continuous and discrete variables are considered. Some methodologies for the former are considered.
翻訳日:2022-11-29 06:05:07 公開日:2020-05-25
# 探索エージェントを用いた非協調型マルチエージェントシステム

Non-cooperative Multi-agent Systems with Exploring Agents ( http://arxiv.org/abs/2005.12360v1 )

ライセンス: Link先を確認
Jalal Etesami, Christoph-Nikolas Straehle(参考訳) マルチエージェント学習は、分散制御、ロボット工学、経済学など、さまざまな分野に応用されている機械学習において難しい問題である。 マルコフゲームを用いたマルチエージェント行動規範モデルを開発した。 多くのマルチエージェントシステムにおいて、エージェントは他のエージェント(例えば、マルチペデストリアン相互作用)に対して最適な戦略を選択する必要はないので、エージェントが探索を行うモデルに焦点を当てる。 このようなポリシーをボルツマン・ギブス分布を用いてモデル化する。 このことは、エージェントの振る舞いを記述する結合したベルマン方程式の集合につながる。 方程式の集合が一意解を許容する条件の集合を導入し、有限時間および無限時間地平線シナリオにおける解を確実に提供する2つのアルゴリズムを提案する。 また,本手法を用いてインタラクションを記述できる実用的な設定について検討し,複雑さの少ない簡易マルコフゲームを提案する。 さらに,探索戦略によるマルコフゲームとマルチエージェントシステムにおける最大因果エントロピーの原理の関連性を確立する。 最後に、文献からよく知られたゲームや、現実世界のアプリケーションに基づいて設計されたゲームを通じて、アルゴリズムの性能を評価する。

Multi-agent learning is a challenging problem in machine learning that has applications in different domains such as distributed control, robotics, and economics. We develop a prescriptive model of multi-agent behavior using Markov games. Since in many multi-agent systems, agents do not necessary select their optimum strategies against other agents (e.g., multi-pedestrian interaction), we focus on models in which the agents play "exploration but near optimum strategies". We model such policies using the Boltzmann-Gibbs distribution. This leads to a set of coupled Bellman equations that describes the behavior of the agents. We introduce a set of conditions under which the set of equations admit a unique solution and propose two algorithms that provably provide the solution in finite and infinite time horizon scenarios. We also study a practical setting in which the interactions can be described using the occupancy measures and propose a simplified Markov game with less complexity. Furthermore, we establish the connection between the Markov games with exploration strategies and the principle of maximum causal entropy for multi-agent systems. Finally, we evaluate the performance of our algorithms via several well-known games from the literature and some games that are designed based on real world applications.
翻訳日:2022-11-29 06:04:49 公開日:2020-05-25
# 興奮・抑制シナプスを用いた最適学習

Optimal Learning with Excitatory and Inhibitory synapses ( http://arxiv.org/abs/2005.12330v1 )

ライセンス: Link先を確認
Alessandro Ingrosso(参考訳) 重み構造と入出力統計の関係を特徴付けることは、神経回路の計算能力を理解する上で基本である。 本研究では,統計力学の手法を用いて,相関の存在下でアナログ信号間の相関を記憶する問題を考察する。 ランダムな入力および出力プロセスのパワースペクトルの観点から、典型的な学習性能を特徴付ける。 最適なシナプス重み構成は, 刺激量から抑制重量への比例して0.5の容量に到達し, サイレントシナプスを有限に有する特異なシナプス分布を有することを示す。 さらに,典型的な学習性能と主成分分析とのリンクについても述べる。 これらの結果は、時間依存的な信号を処理し、オンライン予測を行うと考えられている小脳構造などの脳回路のシナプスプロファイルに光を当てる可能性がある。

Characterizing the relation between weight structure and input/output statistics is fundamental for understanding the computational capabilities of neural circuits. In this work, I study the problem of storing associations between analog signals in the presence of correlations, using methods from statistical mechanics. I characterize the typical learning performance in terms of the power spectrum of random input and output processes. I show that optimal synaptic weight configurations reach a capacity of 0.5 for any fraction of excitatory to inhibitory weights and have a peculiar synaptic distribution with a finite fraction of silent synapses. I further provide a link between typical learning performance and principal components analysis in single cases. These results may shed light on the synaptic profile of brain circuits, such as cerebellar structures, that are thought to engage in processing time-dependent signals and performing on-line prediction.
翻訳日:2022-11-29 06:04:30 公開日:2020-05-25
# セマンティクスセグメンテーションと奥行き予測を用いた視覚定位

Visual Localization Using Semantic Segmentation and Depth Prediction ( http://arxiv.org/abs/2005.11922v1 )

ライセンス: Link先を確認
Huanhuan Fan, Yuhao Zhou, Ang Li, Shuang Gao, Jijunnan Li, Yandong Guo(参考訳) 本稿では,セマンティクスと奥行き情報を利用した単眼視定位パイプラインを提案する。 画像検索結果のランク付けに意味的一貫性評価を応用し,推定異常を拒否する実用的なクラスタリング手法を提案する。 さらに,複数の特徴抽出器を組み合わせることで,性能が大幅に向上することを示す。 さらに,ディープニューラルネットワークを用いた深度予測により,かなりの数の偽マッチングキーポイントが同定され,排除されていることを示す。 提案されたパイプラインは、Long-Term Visual Localizationベンチマーク2020において、既存のアプローチのほとんどを上回っている。

In this paper, we propose a monocular visual localization pipeline leveraging semantic and depth cues. We apply semantic consistency evaluation to rank the image retrieval results and a practical clustering technique to reject estimation outliers. In addition, we demonstrate a substantial performance boost achieved with a combination of multiple feature extractors. Furthermore, by using depth prediction with a deep neural network, we show that a significant amount of falsely matched keypoints are identified and eliminated. The proposed pipeline outperforms most of the existing approaches at the Long-Term Visual Localization benchmark 2020.
翻訳日:2022-11-29 06:03:52 公開日:2020-05-25
# スケール不変群数のための層間・層内スケールアグリゲーション

Interlayer and Intralayer Scale Aggregation for Scale-invariant Crowd Counting ( http://arxiv.org/abs/2005.11943v1 )

ライセンス: Link先を確認
Mingjie Wang and Hao Cai and Jun Zhou and Minglun Gong(参考訳) クラウドカウントは重要なビジョンタスクであり、特定のシーン内の連続的なスケールの変化と、画像内と画像間の大きな密度シフトに直面する。 これらの課題は通常、既存手法のマルチカラム構造を用いて対処される。 しかしながら、このようなアプローチは、マルチスケールな特徴をキャプチャする能力の制限、大きな密度シフトに対する感度、マルチブランチモデルのトレーニングの難しさから、一貫した改善と転送性を提供していない。 このような制約を克服するために,scsinet (single-column scale-invariant network) が提案されている。 さらに, 密度の多様性を増大させるため, 単分岐法をトレーニングするためにランダムに統合された損失を提示する。 公開データセットに対する大規模な実験により、提案手法は精度の計測における最先端のアプローチを一貫して上回り、顕著な転送性およびスケール不変性を達成することを示した。

Crowd counting is an important vision task, which faces challenges on continuous scale variation within a given scene and huge density shift both within and across images. These challenges are typically addressed using multi-column structures in existing methods. However, such an approach does not provide consistent improvement and transferability due to limited ability in capturing multi-scale features, sensitiveness to large density shift, and difficulty in training multi-branch models. To overcome these limitations, a Single-column Scale-invariant Network (ScSiNet) is presented in this paper, which extracts sophisticated scale-invariant features via the combination of interlayer multi-scale integration and a novel intralayer scale-invariant transformation (SiT). Furthermore, in order to enlarge the diversity of densities, a randomly integrated loss is presented for training our single-branch method. Extensive experiments on public datasets demonstrate that the proposed method consistently outperforms state-of-the-art approaches in counting accuracy and achieves remarkable transferability and scale-invariant property.
翻訳日:2022-11-29 06:03:43 公開日:2020-05-25
# 未知領域に対する知識グラフ簡易解答法

Knowledge Graph Simple Question Answering for Unseen Domains ( http://arxiv.org/abs/2005.12040v1 )

ライセンス: Link先を確認
Georgios Sidiropoulos, Nikos Voskarides and Evangelos Kanoulas(参考訳) 知識グラフ 単純質問応答(kgsqa) 標準的な形式では、人間による質問応答のトレーニングデータには、知識グラフ(kg)に存在する関係のごく一部、あるいはさらに悪いことに、既存のドメインとあまり異なる新しい領域がkgに追加されていることを考慮に入れていない。 本研究では,テスト期間中に新しい未知のドメインが追加される,未検討の環境でKGSQAを研究する。 この設定では、新しいドメインの質問応答ペアはトレーニング中に現れないので、タスクをより難しくする。 本稿では、新しいドメインに適用可能なKGSQAシステムと、新しいドメインに対する質問対を自動的に生成するシーケンスからシーケンスへの質問生成方法からなる、データ中心のドメイン適応フレームワークを提案する。 kgsqaに対する質問生成の有効性は、生成した質問の限定語彙の多様性によって制限されるため、遠隔監視を用いて、未知ドメインの各関係を表現し、質問生成法にそれらを取り込むキーワード群を抽出する。 実験の結果,本フレームワークはゼロショットベースラインよりも大幅に改善され,ドメイン間で堅牢であることがわかった。

Knowledge graph simple question answering (KGSQA), in its standard form, does not take into account that human-curated question answering training data only cover a small subset of the relations that exist in a Knowledge Graph (KG), or even worse, that new domains covering unseen and rather different to existing domains relations are added to the KG. In this work, we study KGSQA in a previously unstudied setting where new, unseen domains are added during test time. In this setting, question-answer pairs of the new domain do not appear during training, thus making the task more challenging. We propose a data-centric domain adaptation framework that consists of a KGSQA system that is applicable to new domains, and a sequence to sequence question generation method that automatically generates question-answer pairs for the new domain. Since the effectiveness of question generation for KGSQA can be restricted by the limited lexical variety of the generated questions, we use distant supervision to extract a set of keywords that express each relation of the unseen domain and incorporate those in the question generation method. Experimental results demonstrate that our framework significantly improves over zero-shot baselines and is robust across domains.
翻訳日:2022-11-29 05:57:26 公開日:2020-05-25
# NILE : 忠実な自然言語説明を伴う自然言語推論

NILE : Natural Language Inference with Faithful Natural Language Explanations ( http://arxiv.org/abs/2005.12116v1 )

ライセンス: Link先を確認
Sawan Kumar and Partha Talukdar(参考訳) NLP分類タスクにおけるディープラーニングモデルの人気と成功の最近の成長は、予測されたラベルのある種の自然言語説明を生成する必要性を伴う。 このような生成された自然言語(NL)の説明は忠実であることが期待される。 本研究では,自然言語推論(NLI)の課題に焦点をあて,高い精度でラベルを生成するNLIシステムを構築するとともに,その決定を忠実に説明できるのか,という課題に対処する。 ラベル特定説明法(NILE)に対する自然言語推論を提案し,その忠実な説明とともにラベルを自動生成するNL説明を用いた新しいNLI法を提案する。 我々は,NILEが以前報告した手法に対して,生成したラベルと説明の自動評価と人為的評価によって有効性を示す。 NILEの評価は、その決定の検証可能な説明を提供することのできる正確なシステムが設計可能であるという主張も支持する。 我々は, NILE の説明の忠実さを, 対応する説明に対する決定の敏感さの観点から論じる。 我々は,忠実性に対する明示的な評価は,ラベルと説明の正確さに加えて,モデルの説明を評価する上で重要なステップであると主張する。 さらに,このような感度を確立するためにはタスク特定プローブが必要であることを実証する。

The recent growth in the popularity and success of deep learning models on NLP classification tasks has accompanied the need for generating some form of natural language explanation of the predicted labels. Such generated natural language (NL) explanations are expected to be faithful, i.e., they should correlate well with the model's internal decision making. In this work, we focus on the task of natural language inference (NLI) and address the following question: can we build NLI systems which produce labels with high accuracy, while also generating faithful explanations of its decisions? We propose Natural-language Inference over Label-specific Explanations (NILE), a novel NLI method which utilizes auto-generated label-specific NL explanations to produce labels along with its faithful explanation. We demonstrate NILE's effectiveness over previously reported methods through automated and human evaluation of the produced labels and explanations. Our evaluation of NILE also supports the claim that accurate systems capable of providing testable explanations of their decisions can be designed. We discuss the faithfulness of NILE's explanations in terms of sensitivity of the decisions to the corresponding explanations. We argue that explicit evaluation of faithfulness, in addition to label and explanation accuracy, is an important step in evaluating model's explanations. Further, we demonstrate that task-specific probes are necessary to establish such sensitivity.
翻訳日:2022-11-29 05:55:23 公開日:2020-05-25
# マルチチョイス質問応答のための聴取強化BERTフレームワーク

An Audio-enriched BERT-based Framework for Spoken Multiple-choice Question Answering ( http://arxiv.org/abs/2005.12142v1 )

ライセンス: Link先を確認
Chia-Chih Kuo, Shang-Bao Luo, Kuan-Yu Chen(参考訳) smcqa(talkd multiple-choice question answering)タスクでは、文章、質問、そして複数の選択をすべて音声形式で行ないますが、マシンは質問に答えるために正しい選択を選択する必要があります。 音声にはSMCQAの有用な手がかりが含まれているが、通常は自動転写されたテキストのみがシステム開発に利用される。 変換器(BERT)からの双方向エンコーダ表現など、大規模に訓練された言語表現モデルのおかげで、自動書き起こされたテキストのみを持つシステムは、一定のレベルのパフォーマンスを達成することができる。 しかし、従来の研究では、音声認識システムや単語埋め込みジェネレータに潜む表現の不正確さによって、音声レベルの統計がテキストの不正確さを相殺できることが証明されており、SMCQAシステムは堅牢である。 本研究は,BERTが学習した文脈化言語表現の利点を継承するだけでなく,音声から抽出した補音レベル情報をテキストレベル情報と統合する,BERTベースのSMCQAフレームワークの設計に集中する。 その結果,BERTベースのSMCQAフレームワークが提案されている。 一連の実験により、中国のSMCQAデータセット上で選択されたベースラインとSOTAシステムの精度が著しく向上した。

In a spoken multiple-choice question answering (SMCQA) task, given a passage, a question, and multiple choices all in the form of speech, the machine needs to pick the correct choice to answer the question. While the audio could contain useful cues for SMCQA, usually only the auto-transcribed text is utilized in system development. Thanks to the large-scaled pre-trained language representation models, such as the bidirectional encoder representations from transformers (BERT), systems with only auto-transcribed text can still achieve a certain level of performance. However, previous studies have evidenced that acoustic-level statistics can offset text inaccuracies caused by the automatic speech recognition systems or representation inadequacy lurking in word embedding generators, thereby making the SMCQA system robust. Along the line of research, this study concentrates on designing a BERT-based SMCQA framework, which not only inherits the advantages of contextualized language representations learned by BERT, but integrates the complementary acoustic-level information distilled from audio with the text-level information. Consequently, an audio-enriched BERT-based SMCQA framework is proposed. A series of experiments demonstrates remarkable improvements in accuracy over selected baselines and SOTA systems on a published Chinese SMCQA dataset.
翻訳日:2022-11-29 05:55:03 公開日:2020-05-25
# 読みやすい字幕に対するエンドツーエンド音声認識の適用

Adapting End-to-End Speech Recognition for Readable Subtitles ( http://arxiv.org/abs/2005.12143v1 )

ライセンス: Link先を確認
Danni Liu, Jan Niehues, Gerasimos Spanakis(参考訳) 音声認識システム(ASR)は主に転写精度に基づいて評価される。 しかし、サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限のある出力可読性を減らすことができる。 そこで本研究では,トレーニングデータの不足による教師付きアプローチの課題である出力圧縮によるASRに焦点を当てた。 まず, 教師なし圧縮モデルを用いて, 書き起こした音声を後編集するカスケードシステムについて検討する。 次に,出力長制約下でのエンドツーエンド音声認識のいくつかの手法を比較する。 実験によれば、モデルをスクラッチからトレーニングするのに必要以上に少ないデータがあれば、トランスフォーマーベースのasrモデルに書き起こしと圧縮機能の両方を組み込むことができる。 さらに、WERおよびROUGEスコアの点で最高の性能は、エンドツーエンドのASRシステム内の長さ制約を明示的にモデル化することで達成される。

Automatic speech recognition (ASR) systems are primarily evaluated on transcription accuracy. However, in some use cases such as subtitling, verbatim transcription would reduce output readability given limited screen size and reading time. Therefore, this work focuses on ASR with output compression, a task challenging for supervised approaches due to the scarcity of training data. We first investigate a cascaded system, where an unsupervised compression model is used to post-edit the transcribed speech. We then compare several methods of end-to-end speech recognition under output length constraints. The experiments show that with limited data far less than needed for training a model from scratch, we can adapt a Transformer-based ASR model to incorporate both transcription and compression capabilities. Furthermore, the best performance in terms of WER and ROUGE scores is achieved by explicitly modeling the length constraints within the end-to-end ASR system.
翻訳日:2022-11-29 05:54:42 公開日:2020-05-25
# アラビア語における感情分析研究の展望

A review of sentiment analysis research in Arabic language ( http://arxiv.org/abs/2005.12240v1 )

ライセンス: Link先を確認
Oumaima Oueslati, Erik Cambria, Moez Ben HajHmida, and Habib Ounelli(参考訳) 感性分析は自然言語処理の課題であり,近年注目を集めている。 しかし、感情分析研究は主に英語で行われてきた。 アラビア語はインターネット上でもっとも使われている言語の1つだが、アラビア語の感情分析に焦点を絞った研究はごくわずかである。 本稿では,既存のアプローチの限界と強みを提示することにより,この文脈における最も重要な研究成果の詳細な質的研究を行う。 特に,機械翻訳や翻訳学習を活用して英語資源をアラビア語に適応させるアプローチと,アラビア語から直接派生したアプローチの両方を調査した。

Sentiment analysis is a task of natural language processing which has recently attracted increasing attention. However, sentiment analysis research has mainly been carried out for the English language. Although Arabic is ramping up as one of the most used languages on the Internet, only a few studies have focused on Arabic sentiment analysis so far. In this paper, we carry out an in-depth qualitative study of the most important research works in this context by presenting limits and strengths of existing approaches. In particular, we survey both approaches that leverage machine translation or transfer learning to adapt English resources to Arabic and approaches that stem directly from the Arabic language.
翻訳日:2022-11-29 05:54:28 公開日:2020-05-25
# ジェネレータと批判:Eコマースにおけるスレートの深層強化学習アプローチ

Generator and Critic: A Deep Reinforcement Learning Approach for Slate Re-ranking in E-commerce ( http://arxiv.org/abs/2005.12206v1 )

ライセンス: Link先を確認
Jianxiong Wei, Anxiang Zeng, Yueqiu Wu, Peng Guo, Qingsong Hua, Qingpeng Cai(参考訳) また,電子商取引におけるユーザ満足度向上のための項目間の相互影響を,ポイントワイドランキングと比較した。 以前の作業では、アイテムをエンドツーエンドモデルで直接ランク付けするか、ポイントワイズスコアとアイテム間の多様性をトレードオフするスコア関数でランク付けする。 しかし,(1)スレートの複雑な相互影響によりスレートの評価が困難であること,(2)最適評価であっても,動作空間が指数関数的に大きいため最適スレートの探索が難しいこと,の2つの課題が十分に検討されていない。 本稿では,新しい生成元と批判的スレートの再ランク付け手法を提案する。この手法では,批判者がスレートを評価し,生成元が強化学習アプローチによって項目をランク付けする。 そこで本研究では,実際の印象的項目を考慮し,既存モデルの印象的バイアスを回避するFSCモデルを提案する。 本研究では,大規模動作空間の問題に取り組むために,ppo-explorationと呼ばれる新しい探索強化学習アルゴリズムを提案する。 実験結果から, FSCモデルは技量評価手法の状態を著しく上回り, PPO-Explorationアルゴリズムは既存の強化学習手法を著しく上回ることがわかった。 ジェネレータと批評家のアプローチは、世界最大のeコマースウェブサイトの1つで、スレート効率(4%gmvと5%の注文数)とライブ実験の多様性の両方を改善している。

The slate re-ranking problem considers the mutual influences between items to improve user satisfaction in e-commerce, compared with the point-wise ranking. Previous works either directly rank items by an end to end model, or rank items by a score function that trades-off the point-wise score and the diversity between items. However, there are two main existing challenges that are not well studied: (1) the evaluation of the slate is hard due to the complex mutual influences between items of one slate; (2) even given the optimal evaluation, searching the optimal slate is challenging as the action space is exponentially large. In this paper, we present a novel Generator and Critic slate re-ranking approach, where the Critic evaluates the slate and the Generator ranks the items by the reinforcement learning approach. We propose a Full Slate Critic (FSC) model that considers the real impressed items and avoids the impressed bias of existing models. For the Generator, to tackle the problem of large action space, we propose a new exploration reinforcement learning algorithm, called PPO-Exploration. Experimental results show that the FSC model significantly outperforms the state of the art slate evaluation methods, and the PPO-Exploration algorithm outperforms the existing reinforcement learning methods substantially. The Generator and Critic approach improves both the slate efficiency(4% gmv and 5% number of orders) and diversity in live experiments on one of the largest e-commerce websites in the world.
翻訳日:2022-11-29 05:49:06 公開日:2020-05-25
# 混合データ型によるロバスト行列補完

Robust Matrix Completion with Mixed Data Types ( http://arxiv.org/abs/2005.12415v1 )

ライセンス: Link先を確認
Daqian Sun, Martin T. Wells(参考訳) 混合データ型を持つ部分観測エントリを持つ構造化低ランク行列を復元する行列補完問題を考える。 解の大半は、行列内のデータの基底分布が連続である場合に強い統計的保証を持つ計算可能な推定器を提案している。 最近のいくつかのアプローチでは、これらの推定子を使って、基礎となる分布が指数関数族に属する場合に拡張している。 これらのアプローチのほとんどは、基礎となる分布が1つしかないと仮定し、低階の制約は行列のシャッテンノルムによって正規化される。 本稿では, 並列化に適したアルゴリズムフレームワークとともに, 高い回復保証を有する計算可能な統計手法を提案し, 混合データ型に対する部分的に観測されたエントリを持つ低階行列を1ステップで復元する。 また、我々の理論結果を裏付ける広範なシミュレーション証拠も提供する。

We consider the matrix completion problem of recovering a structured low rank matrix with partially observed entries with mixed data types. Vast majority of the solutions have proposed computationally feasible estimators with strong statistical guarantees for the case where the underlying distribution of data in the matrix is continuous. A few recent approaches have extended using similar ideas these estimators to the case where the underlying distributions belongs to the exponential family. Most of these approaches assume that there is only one underlying distribution and the low rank constraint is regularized by the matrix Schatten Norm. We propose a computationally feasible statistical approach with strong recovery guarantees along with an algorithmic framework suited for parallelization to recover a low rank matrix with partially observed entries for mixed data types in one step. We also provide extensive simulation evidence that corroborate our theoretical results.
翻訳日:2022-11-29 05:48:09 公開日:2020-05-25
# 深層政策グラディエントにおける実装課題:PPOとTRPOを事例として

Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO ( http://arxiv.org/abs/2005.12729v1 )

ライセンス: Link先を確認
Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry Rudolph, Aleksander Madry(参考訳) 本稿では,PPO (Proximal Policy Optimization) とTRPO (Trust Region Policy Optimization) の2つのアルゴリズムをケーススタディとして,ディープポリシー勾配アルゴリズムのアルゴリズム進歩のルーツについて検討する。 具体的には,実装やコアアルゴリズムの補助的詳細として記述された"コードレベルの最適化:"アルゴリズム拡張の結果について検討する。 二次的な重要性を見れば、このような最適化はエージェントの振る舞いに大きな影響を与えることが分かる。 私たちの結果は (a) TRPOに対する累積報酬におけるPPOの利益の大部分を担い、 b) RL メソッドの機能を根本的に変える。 これらの知見は、深層強化学習における業績向上の難しさと重要性を示している。 結果の再現コードはhttps://github.com/MadryLab/implementation-matters で公開されている。

We study the roots of algorithmic progress in deep policy gradient algorithms through a case study on two popular algorithms: Proximal Policy Optimization (PPO) and Trust Region Policy Optimization (TRPO). Specifically, we investigate the consequences of "code-level optimizations:" algorithm augmentations found only in implementations or described as auxiliary details to the core algorithm. Seemingly of secondary importance, such optimizations turn out to have a major impact on agent behavior. Our results show that they (a) are responsible for most of PPO's gain in cumulative reward over TRPO, and (b) fundamentally change how RL methods function. These insights show the difficulty and importance of attributing performance gains in deep reinforcement learning. Code for reproducing our results is available at https://github.com/MadryLab/implementation-matters .
翻訳日:2022-11-29 05:47:17 公開日:2020-05-25
# Visual Attention:Deep Rareの機能

Visual Attention: Deep Rare Features ( http://arxiv.org/abs/2005.12073v1 )

ライセンス: Link先を確認
Matei Mancas, Phutphalla Kong, Bernard Gosselin(参考訳) 人間の視覚システムは、画像へのコントラスト付き/サプライズ/unusualなデータを検出する特徴工学的手法を提供する工学領域でモデル化されている。 このデータは人間にとって「興味深い」ものであり、多くの応用をもたらす。 ディープラーニング(DNN)は、主要なベンチマークデータセットのアルゴリズム効率を大幅に改善した。 しかし、dnnベースのモデルは直観に反する:驚きまたは異常なデータは、その発生確率が低いため、定義上は学習が困難である。 実際には、dnnsモデルは主に人間の注意を引く顔、テキスト、人、動物といったトップダウンの特徴を学習するが、画像内の驚くべきデータや異常なデータを抽出する効率は低い。 本稿では,DNNの特徴抽出と特徴工学アルゴリズムの汎用性を利用したDeepRare2019(DR)モデルを提案する。 DR 1)トレーニングは必要ありません。 2) CPU上のイメージ1枚につき1秒未満で、 3) 3つの非常に異なるアイトラッキングデータセットに対するテストでは、DRはジェネリックであり、すべてのデータセットやメトリクスの上位3モデルに常に含まれています。 DeepRare2019コードはhttps://github.com/numediart/VisualAttention-RareFamilyで見ることができる。

Human visual system is modeled in engineering field providing feature-engineered methods which detect contrasted/surprising/unusual data into images. This data is "interesting" for humans and leads to numerous applications. Deep learning (DNNs) drastically improved the algorithms efficiency on the main benchmark datasets. However, DNN-based models are counter-intuitive: surprising or unusual data is by definition difficult to learn because of its low occurrence probability. In reality, DNNs models mainly learn top-down features such as faces, text, people, or animals which usually attract human attention, but they have low efficiency in extracting surprising or unusual data in the images. In this paper, we propose a model called DeepRare2019 (DR) which uses the power of DNNs feature extraction and the genericity of feature-engineered algorithms. DR 1) does not need any training, 2) it takes less than a second per image on CPU only and 3) our tests on three very different eye-tracking datasets show that DR is generic and is always in the top-3 models on all datasets and metrics while no other model exhibits such a regularity and genericity. DeepRare2019 code can be found at https://github.com/numediart/VisualAttention-RareFamily
翻訳日:2022-11-29 05:47:03 公開日:2020-05-25
# 無線UAVネットワークにおける軌道設計のためのメタ強化学習

Meta-Reinforcement Learning for Trajectory Design in Wireless UAV Networks ( http://arxiv.org/abs/2005.12394v1 )

ライセンス: Link先を確認
Ye Hu, Mingzhe Chen, Walid Saad, H. Vincent Poor, and Shuguang Cui(参考訳) 本稿では,動的ネットワーク環境で動作するエネルギー制約ドローンの最適軌道の設計について検討する。 考慮されたモデルでは、要求が動的で予測不可能である地上ユーザーにアップリンク接続を提供するために、ドローン基地局(dbs)が派遣される。 この場合、DBSの軌道は動的ユーザアクセス要求を満たすように適応的に調整されなければならない。 この目的のために, 強化学習(RL)ソリューションをチューニングすることにより, 新たな環境に遭遇したDBSの軌道に適応するメタ学習アルゴリズムを提案する。 メタ学習アルゴリズムは、限られた以前の経験に基づいて、新しい環境でDBSを迅速に適応するソリューションを提供する。 メタチューニングされたRLは、基本方針勾配アルゴリズムと比較して計算の複雑さがかなり低い未確認環境において、最適カバレッジにより早く収束することを示した。 シミュレーションの結果,提案したメタ学習ソリューションは,基本方針勾配アルゴリズムと比較して収束速度が25%向上し,DBSの通信性能が約10%向上していることがわかった。 一方、DBSが50%以上のユーザリクエストを処理する確率は、基本方針勾配アルゴリズムと比較して約27%増加する。

In this paper, the design of an optimal trajectory for an energy-constrained drone operating in dynamic network environments is studied. In the considered model, a drone base station (DBS) is dispatched to provide uplink connectivity to ground users whose demand is dynamic and unpredictable. In this case, the DBS's trajectory must be adaptively adjusted to satisfy the dynamic user access requests. To this end, a meta-learning algorithm is proposed in order to adapt the DBS's trajectory when it encounters novel environments, by tuning a reinforcement learning (RL) solution. The meta-learning algorithm provides a solution that adapts the DBS in novel environments quickly based on limited former experiences. The meta-tuned RL is shown to yield a faster convergence to the optimal coverage in unseen environments with a considerably low computation complexity, compared to the baseline policy gradient algorithm. Simulation results show that, the proposed meta-learning solution yields a 25% improvement in the convergence speed, and about 10% improvement in the DBS' communication performance, compared to a baseline policy gradient algorithm. Meanwhile, the probability that the DBS serves over 50% of user requests increases about 27%, compared to the baseline policy gradient algorithm.
翻訳日:2022-11-29 05:45:49 公開日:2020-05-25
# 人工エージェントは人間とロボットの協調的問題解決の助けを求めるべきか?

Should artificial agents ask for help in human-robot collaborative problem-solving? ( http://arxiv.org/abs/2006.00882v1 )

ライセンス: Link先を確認
Adrien Bennetot, Vicky Charisi, Natalia D\'iaz-Rodr\'iguez(参考訳) できるだけ早く脳を人工知能に機能させるというのは、AIとロボティクスの最先端技術を促進するための野心的な目標だ。 この観点から,人間とロボットの相互作用における経験的研究から得られた仮説から始め,基礎的強化学習アルゴリズムと同様の形で検証されているかを検証することを提案する。 したがって、単純な閉じこもったタスク(ハノホイの塔)を解決する際に専門家の助けを受けるかどうかを、その介入が標準的か、またはプレイヤーの要求かによって、このタスクの学習を加速させることができるかチェックする。 私たちの経験から、Q-ラーニングのアルゴリズムは、Q-ラーニングのアルゴリズムが、子供と同じように専門家の助けから恩恵を受けていると結論付けることができました。

Transferring as fast as possible the functioning of our brain to artificial intelligence is an ambitious goal that would help advance the state of the art in AI and robotics. It is in this perspective that we propose to start from hypotheses derived from an empirical study in a human-robot interaction and to verify if they are validated in the same way for children as for a basic reinforcement learning algorithm. Thus, we check whether receiving help from an expert when solving a simple close-ended task (the Towers of Hano\"i) allows to accelerate or not the learning of this task, depending on whether the intervention is canonical or requested by the player. Our experiences have allowed us to conclude that, whether requested or not, a Q-learning algorithm benefits in the same way from expert help as children do.
翻訳日:2022-11-29 05:38:59 公開日:2020-05-25
# 階層ベイズ回帰法による神経画像データの多地点規範モデリング

Hierarchical Bayesian Regression for Multi-Site Normative Modeling of Neuroimaging Data ( http://arxiv.org/abs/2005.12055v1 )

ライセンス: Link先を確認
Seyed Mostafa Kia, Hester Huijsdens, Richard Dinga, Thomas Wolfers, Maarten Mennes, Ole A. Andreassen, Lars T. Westlye, Christian F. Beckmann, Andre F. Marquand(参考訳) 臨床ニューロイメージングは、最近データアベイラビリティーの爆発的な成長を目撃し、臨床コホートの多様性の研究にスポットライトを当てている。 ノルマティブモデリングはこの目的を達成するための新しい統計ツールである。 しかし、画像取得装置の可変性などにより、迷惑変動を適切に処理できないため、その適用は技術的に難しいままである。 本稿では,階層ベイズ回帰(HBR)の多地点規範モデリングへの応用を提案する。 実験の結果,広範に用いられている手法と比較して,大規模な多地点神経画像データに対してより正確な基準範囲を導出する際のHBRの優位性が確認された。 これが可能性を与えます 一 大規模多地点データにおける構造的及び機能的脳測定の規範的範囲を学ぶこと。 二 学習したモデルを局所的な小データに基づいて再校正し、再利用すること。したがって、HBRは、精神疾患の診断及び予後のための医療ツールとして規範的モデリングを適用するための技術的ループを閉じる。

Clinical neuroimaging has recently witnessed explosive growth in data availability which brings studying heterogeneity in clinical cohorts to the spotlight. Normative modeling is an emerging statistical tool for achieving this objective. However, its application remains technically challenging due to difficulties in properly dealing with nuisance variation, for example due to variability in image acquisition devices. Here, in a fully probabilistic framework, we propose an application of hierarchical Bayesian regression (HBR) for multi-site normative modeling. Our experimental results confirm the superiority of HBR in deriving more accurate normative ranges on large multi-site neuroimaging data compared to widely used methods. This provides the possibility i) to learn the normative range of structural and functional brain measures on large multi-site data; ii) to recalibrate and reuse the learned model on local small data; therefore, HBR closes the technical loop for applying normative modeling as a medical tool for the diagnosis and prognosis of mental disorders.
翻訳日:2022-11-29 05:38:08 公開日:2020-05-25
# シミュレーションに基づく最適化におけるヒューリスティック検索のためのリアクティブサンプルサイズ

Reactive Sample Size for Heuristic Search in Simulation-based Optimization ( http://arxiv.org/abs/2005.12141v1 )

ライセンス: Link先を確認
Manuel Dalcastagn\'e, Andrea Mariello, Roberto Battiti(参考訳) シミュレーションに基づく最適化では、対象関数の入力パラメータの最適設定はヒューリスティック最適化手法によって決定できる。 しかし、シミュレータが実世界の問題の確率性をモデル化する場合、その出力はランダム変数であり、異なるパラメータ設定の期待性能を適切に比較するためには、目的関数の複数の評価が必要である。 本稿では, パラメトリックテストと非差分ゾーン選択に基づく, ヒューリスティック最適化手法の効率とロバスト性を向上させるための新しいリアクティブサンプルサイズアルゴリズムを提案する。 アルゴリズムは、オンラインの方法で、観察された統計証拠に従って、最適化中の各比較に使用するサンプルサイズを反応的に決定する。 テストでは、人工的なノイズレベルを拡張したベンチマーク機能と、ホテル収益管理のためのシミュレーションベースの最適化ツールを使用している。 実験の結果, シミュレーションに基づく最適化手法の効率とロバスト性を向上させることができた。

In simulation-based optimization, the optimal setting of the input parameters of the objective function can be determined by heuristic optimization techniques. However, when simulators model the stochasticity of real-world problems, their output is a random variable and multiple evaluations of the objective function are necessary to properly compare the expected performance of different parameter settings. This paper presents a novel reactive sample size algorithm based on parametric tests and indifference-zone selection, which can be used for improving the efficiency and robustness of heuristic optimization methods. The algorithm reactively decides, in an online manner, the sample size to be used for each comparison during the optimization according to observed statistical evidence. Tests employ benchmark functions extended with artificial levels of noise and a simulation-based optimization tool for hotel revenue management. Experimental results show that the reactive method can improve the efficiency and robustness of simulation-based optimization techniques.
翻訳日:2022-11-29 05:37:51 公開日:2020-05-25
# 回避攻撃に対する敵対的特徴選択

Adversarial Feature Selection against Evasion Attacks ( http://arxiv.org/abs/2005.12154v1 )

ライセンス: Link先を確認
Fei Zhang, Patrick P.K. Chan, Battista Biggio, Daniel S. Yeung, Fabio Roli(参考訳) パターン認識や機械学習技術は、スパム、侵入、マルウェア検出といった敵の環境でますます採用されているが、テスト時にデータを操作して検出を回避するための、巧妙な攻撃に対するセキュリティはまだ十分に評価されていない。 従来の研究は主に回避策に対抗するために敵意識の分類アルゴリズムを考案することに焦点を当ててきたが、同じ攻撃に対する分類器セキュリティに対する機能セットの削減による影響を考慮した著者は少ない。 興味深い予備的な結果は、機能選択の適用により、回避に対する分類器のセキュリティはさらに悪化する可能性があることである。 本稿では,回避攻撃に対する特徴選択のセキュリティ特性に光を当てながら,この点についてより詳細な調査を行う。 本研究は,従来の敵認識分類器の研究に触発されて,敵のデータ操作戦略に特定の仮定を組み込むことで,回避攻撃に対する分類器の安全性を向上させる新しい敵認識特徴選択モデルを提案する。 提案手法の効率的なラッパーベース実装に注目し,スパムやマルウェア検出など,アプリケーション例の健全性を実験的に検証した。

Pattern recognition and machine learning techniques have been increasingly adopted in adversarial settings such as spam, intrusion and malware detection, although their security against well-crafted attacks that aim to evade detection by manipulating data at test time has not yet been thoroughly assessed. While previous work has been mainly focused on devising adversary-aware classification algorithms to counter evasion attempts, only few authors have considered the impact of using reduced feature sets on classifier security against the same attacks. An interesting, preliminary result is that classifier security to evasion may be even worsened by the application of feature selection. In this paper, we provide a more detailed investigation of this aspect, shedding some light on the security properties of feature selection against evasion attacks. Inspired by previous work on adversary-aware classifiers, we propose a novel adversary-aware feature selection model that can improve classifier security against evasion attacks, by incorporating specific assumptions on the adversary's data manipulation strategy. We focus on an efficient, wrapper-based implementation of our approach, and experimentally validate its soundness on different application examples, including spam and malware detection.
翻訳日:2022-11-29 05:37:37 公開日:2020-05-25
# 構成モデリングのための熱力学に基づくニューラルネットワーク

Thermodynamics-based Artificial Neural Networks for constitutive modeling ( http://arxiv.org/abs/2005.12183v1 )

ライセンス: Link先を確認
Filippo Masi, Ioannis Stefanou, Paolo Vannucci, Victor Maffi-Berthier(参考訳) 機械学習手法、特に人工ニューラルネットワーク(ANN)は、物質構成モデリングにおいて有望な能力を示している。 このようなアプローチの主な欠点の1つは、物理学の法則に基づく厳密な枠組みの欠如である。 これはトレーニングされたネットワークの予測を物理的に矛盾させる可能性がある。 本稿では,物質点レベルでのひずみ速度独立プロセスの構成モデリングのための,データ駆動型物理ベースニューラルネットワークの新たなクラスを提案し,熱力学に基づくニューラルネットワーク (TANN) と定義する。 熱力学の2つの基本的な原理は、ネットワークの入力に対する数値微分を計算するための自動微分を利用してネットワークのアーキテクチャに符号化される。 このようにして、自由エネルギーの微分、散逸速度、応力および内部状態変数との関係はネットワーク内でハードワイヤ化される。 したがって、トレーニング中の熱力学法則の基本的なパターンをネットワークが特定する必要はなく、大規模なデータセットの必要性を低減します。 さらに、トレーニングは効率的で堅牢であり、予測はより正確である。 最後に、さらに重要なのは、予測が熱力学的に一貫していることだ。 これらの特徴に基づいて、TANNは、ニューラルネットワークによるデータ駆動、物理ベースの構成モデリングの出発点である。 エラスト塑性材料をモデル化するためのTANNの広範な適用性を示し, ひずみ硬化とひずみ軟化を図った。 詳細な比較では、TANNの予測は標準ANNの予測を上回っている。 TANNのアーキテクチャは一般的なもので、アプリケーションは変更することなく、異なる、あるいはより複雑な振る舞いの材料を利用できる。

Machine Learning methods and, in particular, Artificial Neural Networks (ANNs) have demonstrated promising capabilities in material constitutive modeling. One of the main drawbacks of such approaches is the lack of a rigorous frame based on the laws of physics. This may render physically inconsistent the predictions of a trained network, which can be even dangerous for real applications. Here we propose a new class of data-driven, physics-based, neural networks for constitutive modeling of strain rate independent processes at the material point level, which we define as Thermodynamics-based Artificial Neural Networks (TANNs). The two basic principles of thermodynamics are encoded in the network's architecture by taking advantage of automatic differentiation to compute the numerical derivatives of a network with respect to its inputs. In this way, derivatives of the free-energy, the dissipation rate and their relation with the stress and internal state variables are hardwired in the network. Consequently, our network does not have to identify the underlying pattern of thermodynamic laws during training, reducing the need of large data-sets. Moreover the training is more efficient and robust, and the predictions more accurate. Finally and more important, the predictions remain thermodynamically consistent, even for unseen data. Based on these features, TANNs are a starting point for data-driven, physics-based constitutive modeling with neural networks. We demonstrate the wide applicability of TANNs for modeling elasto-plastic materials, with strain hardening and strain softening. Detailed comparisons show that the predictions of TANNs outperform those of standard ANNs. TANNs ' architecture is general, enabling applications to materials with different or more complex behavior, without any modification.
翻訳日:2022-11-29 05:37:00 公開日:2020-05-25
# インセプション核を用いたエンドツーエンド聴覚物体認識

End-to-End Auditory Object Recognition via Inception Nucleus ( http://arxiv.org/abs/2005.12195v1 )

ライセンス: Link先を確認
Mohammad K. Ebrahimpour, Timothy Shea, Andreea Danielescu, David C. Noelle, Christopher T. Kello(参考訳) 聴覚物体認識への機械学習のアプローチは、伝統的にスペクトルやケプストラムに由来するような工学的特徴に基づいている。 近年,画像と聴覚の認識システムにおけるエンドツーエンドの分類システムが開発され,特徴が分類と連動して学習され,分類精度が向上している。 本稿では,生波形入力を音響クラスラベルにマッピングする,新しいエンドツーエンドのディープニューラルネットワークを提案する。 当社のネットワークには,コンボリューションフィルタのサイズをオンザフライで最適化する“インセプション核(inception nucleus)”が含まれています。 分類結果は、現在の最先端のアプローチと比較し、urbansound8kデータセットで10.4ポイント向上した。 学習された表現の分析により、初期の隠れ層のフィルターはウェーブレットのような変換を学び、分類に有用な特徴を抽出した。

Machine learning approaches to auditory object recognition are traditionally based on engineered features such as those derived from the spectrum or cepstrum. More recently, end-to-end classification systems in image and auditory recognition systems have been developed to learn features jointly with classification and result in improved classification accuracy. In this paper, we propose a novel end-to-end deep neural network to map the raw waveform inputs to sound class labels. Our network includes an "inception nucleus" that optimizes the size of convolutional filters on the fly that results in reducing engineering efforts dramatically. Classification results compared favorably against current state-of-the-art approaches, besting them by 10.4 percentage points on the Urbansound8k dataset. Analyses of learned representations revealed that filters in the earlier hidden layers learned wavelet-like transforms to extract features that were informative for classification.
翻訳日:2022-11-29 05:36:39 公開日:2020-05-25
# 時間スケールグラフィカルイベントモデルの学習可能性

Learnability of Timescale Graphical Event Models ( http://arxiv.org/abs/2005.12186v1 )

ライセンス: Link先を確認
Philipp Behrendt(参考訳) この技術的レポートは、Timescale Graphical Event Modelsに関する現在の文献のギャップを埋めようとしている。 構造学習アルゴリズム中のハイパーパラメータを判定し,既存の距離尺度を洗練するために,異なるヒューリスティックスを提案し,評価する。 合成データに関する包括的なベンチマークは、異なるヒューリスティックスの適用性に関する結論を与える。

This technical report tries to fill a gap in current literature on Timescale Graphical Event Models. I propose and evaluate different heuristics to determine hyper-parameters during the structure learning algorithm and refine an existing distance measure. A comprehensive benchmark on synthetic data will be conducted allowing conclusions about the applicability of the different heuristics.
翻訳日:2022-11-29 05:30:48 公開日:2020-05-25
# 注意に基づく時系列データのニューラルネットワーク学習

Attention-based Neural Bag-of-Features Learning for Sequence Data ( http://arxiv.org/abs/2005.12250v1 )

ライセンス: Link先を確認
Dat Thanh Tran, Nikolaos Passalis, Anastasios Tefas, Moncef Gabbouj, Alexandros Iosifidis(参考訳) 本稿では2D-Attention(2DA)を提案する。この2D-Attention(2DA)はシーケンスデータに対する一般的なアテンションの定式化であり,学習対象の関連情報の検出と集中を行う補完的な計算ブロックとして機能する。 提案したアテンションモジュールは、最近提案されたNeural Bag of Feature(NBoF)モデルに組み込まれ、学習能力を高める。 2DAはプラグイン層として機能し、NBoFモデルの異なる計算段階に注入すると異なる2DA-NBoFアーキテクチャが生成される。 我々は,金融予測,音声解析,医療診断に関する広範な実験を行い,Gated Recurrent Unitsなどの既存手法と比較して,提案手法をベンチマークした。 実験結果から,提案手法はnbofモデルの性能を向上させるだけでなく,ノイズデータにも耐性を持つことがわかった。

In this paper, we propose 2D-Attention (2DA), a generic attention formulation for sequence data, which acts as a complementary computation block that can detect and focus on relevant sources of information for the given learning objective. The proposed attention module is incorporated into the recently proposed Neural Bag of Feature (NBoF) model to enhance its learning capacity. Since 2DA acts as a plug-in layer, injecting it into different computation stages of the NBoF model results in different 2DA-NBoF architectures, each of which possesses a unique interpretation. We conducted extensive experiments in financial forecasting, audio analysis as well as medical diagnosis problems to benchmark the proposed formulations in comparison with existing methods, including the widely used Gated Recurrent Units. Our empirical analysis shows that the proposed attention formulations can not only improve performances of NBoF models but also make them resilient to noisy data.
翻訳日:2022-11-29 05:29:03 公開日:2020-05-25
# SegAttnGAN: セグメンテーションを考慮したテキストから画像生成

SegAttnGAN: Text to Image Generation with Segmentation Attention ( http://arxiv.org/abs/2005.12444v1 )

ライセンス: Link先を確認
Yuchuan Gou, Qiancheng Wu, Minghao Li, Bo Gong, Mei Han(参考訳) 本稿では,テキストから画像への合成タスクに付加的なセグメンテーション情報を利用する新しい生成ネットワーク(segattngan)を提案する。 モデルに導入したセグメンテーションデータがジェネレータトレーニングに有用なガイダンスを提供するため,提案手法は,従来の最先端手法と比較して,よりリアルリズム品質,定量的な画像を生成することができる。 我々はCUBデータセットで4.84、オックスフォード102データセットで3.52のインセプションスコアを達成した。 さらに、注目のためにデータセットから生成されたマスクの代わりに生成されたセグメンテーションデータを用いて自己注意SegAttnGANをテストし、同様の高品質な結果を得た。

In this paper, we propose a novel generative network (SegAttnGAN) that utilizes additional segmentation information for the text-to-image synthesis task. As the segmentation data introduced to the model provides useful guidance on the generator training, the proposed model can generate images with better realism quality and higher quantitative measures compared with the previous state-of-art methods. We achieved Inception Score of 4.84 on the CUB dataset and 3.52 on the Oxford-102 dataset. Besides, we tested the self-attention SegAttnGAN which uses generated segmentation data instead of masks from datasets for attention and achieved similar high-quality results, suggesting that our model can be adapted for the text-to-image synthesis task.
翻訳日:2022-11-29 05:28:12 公開日:2020-05-25
# 自動要約のためのディープラーニングモデル

Deep Learning Models for Automatic Summarization ( http://arxiv.org/abs/2005.11988v1 )

ライセンス: Link先を確認
Pirmin Lemberger(参考訳) テキスト要約は、テキスト文書をできるだけ多くの意味を維持しつつ、短い文書に変換することを目的としたNLPタスクである。 この教育的な記事は、この分野の研究を進めるのに役立った最近のDeep Learningアーキテクチャをレビューしている。 本稿では,特にポインタネットワーク,階層型トランスフォーマー,強化学習の応用について論じる。 NLP内のSeq2SeqアーキテクチャとTransformerネットワークの基本知識を仮定する。

Text summarization is an NLP task which aims to convert a textual document into a shorter one while keeping as much meaning as possible. This pedagogical article reviews a number of recent Deep Learning architectures that have helped to advance research in this field. We will discuss in particular applications of pointer networks, hierarchical Transformers and Reinforcement Learning. We assume basic knowledge of Seq2Seq architecture and Transformer networks within NLP.
翻訳日:2022-11-29 05:21:41 公開日:2020-05-25
# IMS-CUBoulder System for the SIGMORPHON 2020 Shared Task on Unsupervised Morphological Paradigm Completion

The IMS-CUBoulder System for the SIGMORPHON 2020 Shared Task on Unsupervised Morphological Paradigm Completion ( http://arxiv.org/abs/2005.12411v1 )

ライセンス: Link先を確認
Manuel Mager and Katharina Kann(参考訳) 本稿では,Stuttgart IMS大学とコロラド大学ボルダー校(IMS-CUBoulder)のSIGMORPHON 2020タスク2における,教師なし形態素パラダイムの完成に関するシステムについて紹介する(Kann et al., 2020)。 この課題は、補題のセットの形態的パラダイムを生成することであり、補題そのものとラベルのないテキストのみを与えられた。 提案システムは,タスクとともに導入されたベースラインの修正版である。 特に,インフレクション生成成分をLSTMシーケンス・ツー・シーケンスモデルとLSTMポインタ・ジェネレータネットワークで置換する実験を行った。 我々のポインタジェネレータシステムは、全ての言語で平均して7つの提案されたシステムの中で最高のスコアを取得し、ブルガリア語とカンナダ語において、総合的に最も優れた公式ベースラインを上回ります。

In this paper, we present the systems of the University of Stuttgart IMS and the University of Colorado Boulder (IMS-CUBoulder) for SIGMORPHON 2020 Task 2 on unsupervised morphological paradigm completion (Kann et al., 2020). The task consists of generating the morphological paradigms of a set of lemmas, given only the lemmas themselves and unlabeled text. Our proposed system is a modified version of the baseline introduced together with the task. In particular, we experiment with substituting the inflection generation component with an LSTM sequence-to-sequence model and an LSTM pointer-generator network. Our pointer-generator system obtains the best score of all seven submitted systems on average over all languages, and outperforms the official baseline, which was best overall, on Bulgarian and Kannada.
翻訳日:2022-11-29 05:21:22 公開日:2020-05-25
# 階層分類におけるモデルのベイズ応力試験

Bayesian Stress Testing of Models in a Classification Hierarchy ( http://arxiv.org/abs/2005.12327v1 )

ライセンス: Link先を確認
Bashar Awwad Shiekh Hasan and Kate Kelly(参考訳) 現実のアプリケーションで機械学習ソリューションを構築するには、しばしば問題を様々な複雑さの複数のモデルに分解する。 これには全体的なパフォーマンス、結果の解釈性の向上、モデルのメンテナンスが容易な点がある。 本研究では,そのような階層内のモデル間の相互作用をモデル化するベイズ的枠組みを提案する。 フレームワークは、全体的なソリューションのストレステストを容易にし、アクティブなデプロイ前に期待されるパフォーマンスをより信頼できることを示す。 最後に,提案フレームワークをトイ問題と金融不正検出データセット上でテストし,基盤となるモデリングによらず,どのような機械学習ベースのソリューションにも適用できることを示す。

Building a machine learning solution in real-life applications often involves the decomposition of the problem into multiple models of various complexity. This has advantages in terms of overall performance, better interpretability of the outcomes, and easier model maintenance. In this work we propose a Bayesian framework to model the interaction amongst models in such a hierarchy. We show that the framework can facilitate stress testing of the overall solution, giving more confidence in its expected performance prior to active deployment. Finally, we test the proposed framework on a toy problem and financial fraud detection dataset to demonstrate how it can be applied for any machine learning based solution, regardless of the underlying modelling required.
翻訳日:2022-11-29 05:21:02 公開日:2020-05-25
# マルチビュー学習のための深部テンソルCA

Deep Tensor CCA for Multi-view Learning ( http://arxiv.org/abs/2005.11914v1 )

ライセンス: Link先を確認
Hok Shing Wong, Li Wang, Raymond Chan, and Tieyong Zeng(参考訳) 本稿では、複数のビュー(2つ以上)の複雑な非線形変換を学習し、結果の表現を高次に線形に相関させる方法であるDeep Tensor Canonical correlation Analysis (DTCCA)を提案する。 与えられた多重ビューの高次相関は共分散テンソルによってモデル化され、これはペアワイズ相関のみに依存するcca公式と異なる。 各ビューの変換パラメータは、高次正準相関を最大化することにより、共同で学習される。 この問題を解くために,既存のテンソル分解法で効率的に解くことのできるrank-1近似の最良和として再編成する。 DTCCAは、ディープネットワークを介してテンソルCA(TCCA)の非線形拡張である。 dtcca の変換はパラメトリック関数であり、これはカーネル関数の形での暗黙的マッピングとは大きく異なる。 カーネルTCCAと比較して、DTCCAは入力データの任意の次元を処理できるだけでなく、任意のデータポイントの表現を計算するためのトレーニングデータを維持する必要もない。 したがって、DTCCAは高次元多視点データや大量のビューに対するTCCAのスケーラブルな問題を効率的に克服することができ、また非線形表現を学ぶためのTCCAを自然に拡張することができる。 3つのマルチビューデータセットに対する実験により,提案手法の有効性が示された。

We present Deep Tensor Canonical Correlation Analysis (DTCCA), a method to learn complex nonlinear transformations of multiple views (more than two) of data such that the resulting representations are linearly correlated in high order. The high-order correlation of given multiple views is modeled by covariance tensor, which is different from most CCA formulations relying solely on the pairwise correlations. Parameters of transformations of each view are jointly learned by maximizing the high-order canonical correlation. To solve the resulting problem, we reformulate it as the best sum of rank-1 approximation, which can be efficiently solved by existing tensor decomposition method. DTCCA is a nonlinear extension of tensor CCA (TCCA) via deep networks. The transformations of DTCCA are parametric functions, which are very different from implicit mapping in the form of kernel function. Comparing with kernel TCCA, DTCCA not only can deal with arbitrary dimensions of the input data, but also does not need to maintain the training data for computing representations of any given data point. Hence, DTCCA as a unified model can efficiently overcome the scalable issue of TCCA for either high-dimensional multi-view data or a large amount of views, and it also naturally extends TCCA for learning nonlinear representation. Extensive experiments on three multi-view data sets demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-29 05:20:51 公開日:2020-05-25
# LSTMネットワークを用いた不規則サンプリング・誤り時系列データの教師なしオンライン異常検出

Unsupervised Online Anomaly Detection On Irregularly Sampled Or Missing Valued Time-Series Data Using LSTM Networks ( http://arxiv.org/abs/2005.12005v1 )

ライセンス: Link先を確認
Oguzhan Karaahmetoglu (1 and 2), Fatih Ilhan (1 and 2), Ismail Balaban (2), Suleyman Serdar Kozat (1 and 2) ((1) Bilkent University, (2) DataBoss A.S.)(参考訳) 異常検出について検討し,変長,不規則なサンプルシーケンス,あるいは欠落値を含むシーケンスを処理するアルゴリズムを提案する。 しかし,本アルゴリズムは完全に教師なしであり,論文全体に異常ラベルが存在する場合,教師ありあるいは半教師ありの場合に容易に拡張することができる。 本手法では,時間的特徴を抽出し,異常検出のための最も関連性の高い特徴ベクトルを見つけるために,Long Short Term Memory (LSTM) ネットワークを用いる。 我々は,標準lstmモデルを時間変調ゲートで変調することにより,サンプリング時間情報をモデルに組み込む。 LSTMから最も関連性の高い特徴を得た後、Support Vector Data Descriptor(SVDD)モデルを用いてシーケンスをラベル付けする。 損失関数を導入し,特徴抽出機構とシーケンス処理機構をエンドツーエンドで協調的に最適化する。 この共同最適化により、LSTMは後にSVDDで使用される異常検出の最も関連性の高い特徴を抽出し、専門家による特徴選択の必要性を完全に排除する。 さらに、オンライン設定のためのトレーニングアルゴリズムを提供し、新しいデータが到着すると、個々のシーケンスでモデルパラメータを最適化します。 最後に,実生活データセットにおいて,本モデルがlstmとsvddの組み合わせと協調最適化により,標準アプローチを著しく上回っていることを示す。

We study anomaly detection and introduce an algorithm that processes variable length, irregularly sampled sequences or sequences with missing values. Our algorithm is fully unsupervised, however, can be readily extended to supervised or semisupervised cases when the anomaly labels are present as remarked throughout the paper. Our approach uses the Long Short Term Memory (LSTM) networks in order to extract temporal features and find the most relevant feature vectors for anomaly detection. We incorporate the sampling time information to our model by modulating the standard LSTM model with time modulation gates. After obtaining the most relevant features from the LSTM, we label the sequences using a Support Vector Data Descriptor (SVDD) model. We introduce a loss function and then jointly optimize the feature extraction and sequence processing mechanisms in an end-to-end manner. Through this joint optimization, the LSTM extracts the most relevant features for anomaly detection later to be used in the SVDD, hence completely removes the need for feature selection by expert knowledge. Furthermore, we provide a training algorithm for the online setup, where we optimize our model parameters with individual sequences as the new data arrives. Finally, on real-life datasets, we show that our model significantly outperforms the standard approaches thanks to its combination of LSTM with SVDD and joint optimization.
翻訳日:2022-11-29 05:20:27 公開日:2020-05-25
# 勾配監視強化学習

Gradient Monitored Reinforcement Learning ( http://arxiv.org/abs/2005.12108v1 )

ライセンス: Link先を確認
Mohammed Sharafath Abdul Hameed (1), Gavneet Singh Chadha (1), Andreas Schwung (1), and Steven X. Ding (2) ((1) South Westphalia University of Applied Sciences, Germany (2) University of Duisburg-Essen, Germany)(参考訳) 本稿では,より高速な収束と高次強化学習のためのニューラルネットワーク学習手法を提案する。 特に,グラデーション分散を体系的に低減し,よりターゲティングな学習プロセスを提供することにより,強化学習アルゴリズムにおけるトレーニングと評価性能の向上に焦点をあてる。 提案手法である勾配モニタリング(gm)は,ニューラルネットワークの重みパラメータの学習を動的発達と学習プロセスからのフィードバックに基づいて制御する手法である。 モデルの性能を向上させることが証明されたGM手法の異なる変種を提案する。 提案されている変種であるMomentum with Gradient Monitoring (M-WGM)は、特定の学習パラメータに基づいて、ネットワーク内のバックプロパゲート勾配の量子を連続的に調整することを可能にする。 さらに, ある重みの集中学習と, 収集した報奨からのフィードバックに応じて, より分散学習を自動調整できる適応的モメンタム(AM-WGM)法による手法をさらに強化する。 副産物として、トレーニング中に必要なディープネットワークサイズの自動導出も可能で、アルゴリズムはトレーニングされた重みを自動的に凍結する。 この手法は,Advantage Actor-Critic (A2C) と Proximal Policy Optimization (PPO) を用いた2つの離散的(マルチロボット協調問題とアタリゲーム)と1つの連続制御タスク (MuJoCo) に適用される。 その結果, 一般化能力の観点から, 手法の適用可能性と性能改善が特に強調された。

This paper presents a novel neural network training approach for faster convergence and better generalization abilities in deep reinforcement learning. Particularly, we focus on the enhancement of training and evaluation performance in reinforcement learning algorithms by systematically reducing gradient's variance and thereby providing a more targeted learning process. The proposed method which we term as Gradient Monitoring(GM), is an approach to steer the learning in the weight parameters of a neural network based on the dynamic development and feedback from the training process itself. We propose different variants of the GM methodology which have been proven to increase the underlying performance of the model. The one of the proposed variant, Momentum with Gradient Monitoring (M-WGM), allows for a continuous adjustment of the quantum of back-propagated gradients in the network based on certain learning parameters. We further enhance the method with Adaptive Momentum with Gradient Monitoring (AM-WGM) method which allows for automatic adjustment between focused learning of certain weights versus a more dispersed learning depending on the feedback from the rewards collected. As a by-product, it also allows for automatic derivation of the required deep network sizes during training as the algorithm automatically freezes trained weights. The approach is applied to two discrete (Multi-Robot Co-ordination problem and Atari games) and one continuous control task (MuJoCo) using Advantage Actor-Critic (A2C) and Proximal Policy Optimization (PPO) respectively. The results obtained particularly underline the applicability and performance improvements of the methods in terms of generalization capability.
翻訳日:2022-11-29 05:19:51 公開日:2020-05-25
# 異常検出のための混合データの因子分析

Factor Analysis of Mixed Data for Anomaly Detection ( http://arxiv.org/abs/2005.12129v1 )

ライセンス: Link先を確認
Matthew Davidow, David S. Matteson(参考訳) 異常検出は、典型的なデータパターンから逸脱する観測を識別することを目的としている。 異常な観察は、金融詐欺、健康リスク、または実際の不正確な測定データに対応する可能性がある。 我々は,まずデータを埋め込み,異常スコアリング方式を評価することによって,高次元混合データ中の異常を検出する。 我々は教師なし検出と連続的・カテゴリ的(混合)変数ケースに注目した。 本稿では,異常検出のための混合データ(FAMDAD)のクルトーシス重み要因解析を行い,異常判定のための連続埋め込みを実現する。 この空間の最初の数次元と最後の数次元において異常は非常に分離され、この部分空間内で様々な異常スコア実験をテストする。 提案手法(FAMDAD)は,これらの多様なシナリオにおいて,高次元の混合データに対して極めて正確である。

Anomaly detection aims to identify observations that deviate from the typical pattern of data. Anomalous observations may correspond to financial fraud, health risks, or incorrectly measured data in practice. We show detecting anomalies in high-dimensional mixed data is enhanced through first embedding the data then assessing an anomaly scoring scheme. We focus on unsupervised detection and the continuous and categorical (mixed) variable case. We propose a kurtosis-weighted Factor Analysis of Mixed Data for anomaly detection, FAMDAD, to obtain a continuous embedding for anomaly scoring. We illustrate that anomalies are highly separable in the first and last few ordered dimensions of this space, and test various anomaly scoring experiments within this subspace. Results are illustrated for both simulated and real datasets, and the proposed approach (FAMDAD) is highly accurate for high-dimensional mixed data throughout these diverse scenarios.
翻訳日:2022-11-29 05:19:09 公開日:2020-05-25
# インシデント・スーパービジョン: 教師付き学習を超えて

Incidental Supervision: Moving beyond Supervised Learning ( http://arxiv.org/abs/2005.12339v1 )

ライセンス: Link先を確認
Dan Roth(参考訳) 自然言語テキスト,視覚シーン,その他の乱雑で自然に発生するデータのより抽象的な表現を誘導し,それに依存する決定を支援すべく,機械学習と推論手法が普及してきた。 しかし、必要な監督信号の生成にはコストがかかり、スケールしないため、これらのタスクの学習モデルは困難である。 本稿では、監視ボトルネックを軽減するために設計された学習パラダイムについて述べる。 それは、テキストから様々なレベルの意味表現を誘導することに関連する、複数の問題の文脈におけるそれらの利点を説明する。

Machine Learning and Inference methods have become ubiquitous in our attempt to induce more abstract representations of natural language text, visual scenes, and other messy, naturally occurring data, and support decisions that depend on it. However, learning models for these tasks is difficult partly because generating the necessary supervision signals for it is costly and does not scale. This paper describes several learning paradigms that are designed to alleviate the supervision bottleneck. It will illustrate their benefit in the context of multiple problems, all pertaining to inducing various levels of semantic representations from text.
翻訳日:2022-11-29 05:12:57 公開日:2020-05-25
# out-of-distribution分類のポリシーエントロピー

Policy Entropy for Out-of-Distribution Classification ( http://arxiv.org/abs/2005.12069v1 )

ライセンス: Link先を確認
Andreas Sedlmeier and Robert M\"uller and Steffen Illium and Claudia Linnhoff-Popien(参考訳) 実世界における強化学習システムの展開には,エージェントが訓練を受けていない状況を確実に検出する能力が不可欠である。 このような状況は、誤った予測が有害な行動の実行につながると、潜在的な安全リスクにつながる可能性がある。 本研究では, 深層強化学習における未確認状態を確実に検出する新しいポリシエントロピーであるPEOCを提案する。 エージェントのポリシーのエントロピーを1クラスの分類器の分類スコアとして利用する。 本手法は手続き環境生成器を用いて評価する。 その結果、peocは評価された環境において最先端の1クラス分類アルゴリズムと高い競合性を示す。 さらに,強化学習において,分布外分類をベンチマークするための構造化プロセスを提案する。

One critical prerequisite for the deployment of reinforcement learning systems in the real world is the ability to reliably detect situations on which the agent was not trained. Such situations could lead to potential safety risks when wrong predictions lead to the execution of harmful actions. In this work, we propose PEOC, a new policy entropy based out-of-distribution classifier that reliably detects unencountered states in deep reinforcement learning. It is based on using the entropy of an agent's policy as the classification score of a one-class classifier. We evaluate our approach using a procedural environment generator. Results show that PEOC is highly competitive against state-of-the-art one-class classification algorithms on the evaluated environments. Furthermore, we present a structured process for benchmarking out-of-distribution classification in reinforcement learning.
翻訳日:2022-11-29 05:12:47 公開日:2020-05-25
# シングルタスクマルチシーン強化学習における動的値推定

Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement Learning ( http://arxiv.org/abs/2005.12254v1 )

ライセンス: Link先を確認
Jaskirat Singh and Liang Zheng(参考訳) 同じタスクから複数のレベル/シーン/条件を持つ環境での深層強化学習エージェントのトレーニングは、シミュレーションから現実世界への一般化とドメイン転送を達成するために多くのアプリケーションにとって不可欠である。 このような戦略は一般化に有効であるが、複数のシーンを使用すると、ポリシー勾配計算のために収集されたサンプルの分散が著しく増加する。 現在のメソッドでは、このシーンの集まりを共通の値関数を持つ単一のマルコフ決定プロセス(mdp)として捉えていますが、複数の下位mdpを持つ単一の環境として扱う方がよいと思います。 そこで本研究では,様々な場面における値関数分布で観測されるクラスタリング効果を動機とするマルチマルチmdp環境における動的値推定(dve)手法を提案する。 得られたエージェントは、より正確でシーン固有の値関数の推定(従って有利関数)を学習することができ、サンプルのばらつきが小さくなる。 提案手法は,既存の実装(PPO,A3Cなど)に対応することが簡単で,ProcGen環境やAI2-THORフレームワークベースのビジュアルナビゲーションタスクの一貫性が向上する。

Training deep reinforcement learning agents on environments with multiple levels / scenes / conditions from the same task, has become essential for many applications aiming to achieve generalization and domain transfer from simulation to the real world. While such a strategy is helpful with generalization, the use of multiple scenes significantly increases the variance of samples collected for policy gradient computations. Current methods continue to view this collection of scenes as a single Markov Decision Process (MDP) with a common value function; however, we argue that it is better to treat the collection as a single environment with multiple underlying MDPs. To this end, we propose a dynamic value estimation (DVE) technique for these multiple-MDP environments, motivated by the clustering effect observed in the value function distribution across different scenes. The resulting agent is able to learn a more accurate and scene-specific value function estimate (and hence the advantage function), leading to a lower sample variance. Our proposed approach is simple to accommodate with several existing implementations (like PPO, A3C) and results in consistent improvements for a range of ProcGen environments and the AI2-THOR framework based visual navigation task.
翻訳日:2022-11-29 05:12:36 公開日:2020-05-25
# qdkt: 質問中心の深い知識のトレース

qDKT: Question-centric Deep Knowledge Tracing ( http://arxiv.org/abs/2005.12442v1 )

ライセンス: Link先を確認
Shashank Sonkar, Andrew E. Waters, Andrew S. Lan, Phillip J. Grimaldi, Richard G. Baraniuk(参考訳) 知識トレース(kt)モデル(例えば、deep knowledge tracing(dkt)モデル)は、個々の学習者のスキル獲得を追跡し、そのスキルに関連する質問に対する学習者の成績を調べる。 既存のほとんどのKTモデルでは、特定のスキルの下でネストされた全ての質問は、実際の教育シナリオにおいて不正確な仮定である学習者の能力の同等の観察として扱われる。 この制限を克服するために、各学習者の個々の質問に対する成功確率をモデル化するDKTの変種であるqDKTを導入する。 まず、qdktにはグラフラプラシアン正則化(graph laplacian regularization)が組み込まれており、各スキルの下での予測がスムーズになる。 第二に、qDKTはfastTextアルゴリズムにインスパイアされた初期化スキームを使用しており、様々な言語モデリングタスクで成功している。 実世界のいくつかのデータセットに対する実験により,qDKTは学習結果の予測において最先端のパフォーマンスを達成することが示された。 このため、qDKTは新しい質問中心のKTモデルのベースラインとして機能する。

Knowledge tracing (KT) models, e.g., the deep knowledge tracing (DKT) model, track an individual learner's acquisition of skills over time by examining the learner's performance on questions related to those skills. A practical limitation in most existing KT models is that all questions nested under a particular skill are treated as equivalent observations of a learner's ability, which is an inaccurate assumption in real-world educational scenarios. To overcome this limitation we introduce qDKT, a variant of DKT that models every learner's success probability on individual questions over time. First, qDKT incorporates graph Laplacian regularization to smooth predictions under each skill, which is particularly useful when the number of questions in the dataset is big. Second, qDKT uses an initialization scheme inspired by the fastText algorithm, which has found success in a variety of language modeling tasks. Our experiments on several real-world datasets show that qDKT achieves state-of-art performance on predicting learner outcomes. Because of this, qDKT can serve as a simple, yet tough-to-beat, baseline for new question-centric KT models.
翻訳日:2022-11-29 05:12:16 公開日:2020-05-25
# NENET: シーンテキストのリンク予測のためのエッジ学習可能なネットワーク

NENET: An Edge Learnable Network for Link Prediction in Scene Text ( http://arxiv.org/abs/2005.12147v1 )

ライセンス: Link先を確認
Mayank Kumar Singh, Sayan Banerjee, Shubhasis Chaudhuri(参考訳) ディープニューラルネットワークに基づくシーンにおけるテキスト検出は有望な結果を示している。 単語境界ボックス回帰を使う代わりに、最近の最先端手法は文字境界ボックスとピクセルレベルの予測に焦点を当て始めた。 本稿では,新しいグラフニューラルネットワーク(gnn)アーキテクチャを用いて,従来のgnn下のノード機能のみとは対照的に,ノード機能とエッジ機能の両方を学習可能にすることを提案する。 リンク予測にGNNを使用する主な利点は、空間的に分離され任意の向きを持つ文字を接続できることにある。 我々はよく知られたsynthtextデータセットの概念を示し、最先端のメソッドと比較してトップ結果を得る。

Text detection in scenes based on deep neural networks have shown promising results. Instead of using word bounding box regression, recent state-of-the-art methods have started focusing on character bounding box and pixel-level prediction. This necessitates the need to link adjacent characters, which we propose in this paper using a novel Graph Neural Network (GNN) architecture that allows us to learn both node and edge features as opposed to only the node features under the typical GNN. The main advantage of using GNN for link prediction lies in its ability to connect characters which are spatially separated and have an arbitrary orientation. We show our concept on the well known SynthText dataset, achieving top results as compared to state-of-the-art methods.
翻訳日:2022-11-29 05:11:52 公開日:2020-05-25
# 尾部実体の次数認識アライメント

Degree-Aware Alignment for Entities in Tail ( http://arxiv.org/abs/2005.12132v1 )

ライセンス: Link先を確認
Weixin Zeng, Xiang Zhao, Wei Wang, Jiuyang Tang, and Zhen Tan(参考訳) エンティティアライメント(ea)とは、知識グラフ(kgs)において、異種情報ソースを橋渡しし、知識の統合を促進する、等価なエンティティを発見することである。 既存のEAソリューションは主に、KG埋め込みを通じてエンティティを整合させる構造情報に依存している。 それにもかかわらず、実生活のkgsでは、他と密接な関係を持つエンティティはごくわずかであり、他の多数派は比較的少ない近隣構造を持っている。 我々は後者をロングテールエンティティと呼び、そのような現象がEAの構造情報の使用を制限することを確実に観察する。 この問題を軽減するため,従来のEAパイプラインを再検討し,エレガントなパフォーマンスを追求する。 先行検討では,比較的弱い構造情報であるロングテールエンティティを,結合されたパワー平均単語埋め込みの形で一般に利用可能(ただし見落とされる)なエンティティ名情報で増幅する。 アライメントのために、構造信号と名前信号を統合する新しい補完的な枠組みの下で、エンティティの学位を2つの異なる情報ソースを効果的に融合するための重要なガイダンスとして認識する。 この目的のために、次数対応のコアテンションネットワークを考案し、次数対応の方法で特徴の重要度を動的に調整する。 ポストアライメントのために、我々は、信頼できるEA結果を反復的なトレーニングを通じてアンカーとして利用することで、元のKGを相手の事実と補完することを提案する。 提案手法の有効性を総合実験により検証した。

Entity alignment (EA) is to discover equivalent entities in knowledge graphs (KGs), which bridges heterogeneous sources of information and facilitates the integration of knowledge. Existing EA solutions mainly rely on structural information to align entities, typically through KG embedding. Nonetheless, in real-life KGs, only a few entities are densely connected to others, and the rest majority possess rather sparse neighborhood structure. We refer to the latter as long-tail entities, and observe that such phenomenon arguably limits the use of structural information for EA. To mitigate the issue, we revisit and investigate into the conventional EA pipeline in pursuit of elegant performance. For pre-alignment, we propose to amplify long-tail entities, which are of relatively weak structural information, with entity name information that is generally available (but overlooked) in the form of concatenated power mean word embeddings. For alignment, under a novel complementary framework of consolidating structural and name signals, we identify entity's degree as important guidance to effectively fuse two different sources of information. To this end, a degree-aware co-attention network is conceived, which dynamically adjusts the significance of features in a degree-aware manner. For post-alignment, we propose to complement original KGs with facts from their counterparts by using confident EA results as anchors via iterative training. Comprehensive experimental evaluations validate the superiority of our proposed techniques.
翻訳日:2022-11-29 05:10:24 公開日:2020-05-25