このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200213となっている論文です。

PDF登録状況(公開日: 20200213)

TitleAuthorsAbstract論文公表日・翻訳日
# 制約下における最適化問題の解法における量子アニールの破断限界

Breaking limitation of quantum annealer in solving optimization problems under constraints ( http://arxiv.org/abs/2002.05298v1 )

ライセンス: Link先を確認
Masayuki Ohzeki(参考訳) 量子アニーリング(quantum annealing)は、架空の量子揺らぎを用いた最適化問題のための汎用解法である。 量子アニールの研究分野における最も画期的な進歩は、そのハードウェア実装、すなわち人工スピンを用いたいわゆる量子アニールである。 しかし、人工スピン間の接続は弱く、キメラグラフと呼ばれる特別なネットワークで制限されている。 いくつかの埋め込み技術が提案されているが、解くべき最適化問題を表す論理スピンの数は大幅に減少している。 特に、完全あるいは部分連結スピンを含む最適化問題は、キメラグラフ上の低埋め込み可能なサイズに悩まされる。 本研究では,統計力学においてよく知られた手法であるハバード・ストラトノヴィッチ変換あるいはその変種を用いて,キメラグラフの大規模最適化問題を解決するための代替手法を提案する。 提案手法は,キメラグラフに埋め込まれることなく完全に連結したIsingモデルを扱うことができ,最適化問題の非自明な結果をもたらす。 提案手法は, 線形方程式の解法や, 京都市と仙台市における交通流最適化問題を含む分割問題を多数抱えて検証した。

Quantum annealing is a generic solver for optimization problems that uses fictitious quantum fluctuation. The most groundbreaking progress in the research field of quantum annealing is its hardware implementation, i.e., the so-called quantum annealer, using artificial spins. However, the connectivity between the artificial spins is sparse and limited on a special network known as the chimera graph. Several embedding techniques have been proposed, but the number of logical spins, which represents the optimization problems to be solved, is drastically reduced. In particular, an optimization problem including fully or even partly connected spins suffers from low embeddable size on the chimera graph. In the present study, we propose an alternative approach to solve a large-scale optimization problem on the chimera graph via a well-known method in statistical mechanics called the Hubbard-Stratonovich transformation or its variants. The proposed method can be used to deal with a fully connected Ising model without embedding on the chimera graph and leads to nontrivial results of the optimization problem. We tested the proposed method with a number of partition problems involving solving linear equations and the traffic flow optimization problem in Sendai and Kyoto cities in Japan.
翻訳日:2023-06-03 19:23:25 公開日:2020-02-13
# 個人の行動を理解する:仮想パターンから物理パターンへ

Understanding individual behaviour: from virtual to physical patterns ( http://arxiv.org/abs/2002.05500v1 )

ライセンス: Link先を確認
Marco De Nadai, Bruno Lepri and Nuria Oliver(参考訳) ビッグデータ」が普及するにつれて、オフラインとオンラインの世界における人間の行動と点を結びつける研究が増えている。 その結果、研究者たちはこれらの発見を利用して、人間の生活のさまざまな側面を予測し、将来の行動を推奨するモデルを作った。 しかし、今のところ、これらの仮想世界と物理的世界における人間の行動の類似点と相違点を十分に理解していない。 ここでは8ヶ月にわたる40,000人のモビリティとアプリケーション利用状況を分析し,議論する。 物理的な空間における人々のモビリティと、スマートフォンにおけるアプリからアプリへの移動方法との間には、驚くべき類似点があります。 われわれのデータは、個人が限られた数のアプリや場所を利用、訪問していることを示している。 特に、個人の2つの異なるプロファイルが現れる:場所やサービスを変え続けるもの、時間とともに安定したもの、すなわち「探索者」と「管理者」と呼ばれるもの。 これらの発見は、コンピュータ社会科学の最近の成果を活用した人間中心のAIシステム構築の可能性と課題について、議論を深める上で不可欠であると考えています。

As "Big Data" has become pervasive, an increasing amount of research has connected the dots between human behaviour in the offline and online worlds. Consequently, researchers have exploited these new findings to create models that better predict different aspects of human life and recommend future behaviour. To date, however, we do not yet fully understand the similarities and differences of human behaviour in these virtual and physical worlds. Here, we analyse and discuss the mobility and application usage of 400,000 individuals over eight months. We find an astonishing similarity between people's mobility in the physical space and how they move from app to app in smartphones. Our data shows that individuals use and visit a finite number of apps and places, but they keep exploring over time. In particular, two distinct profiles of individuals emerge: those that keep changing places and services, and those that are stable over time, named as "explorers" and "keepers". We see these findings as crucial to enrich a discussion for the potentials and the challenges of building human-centric AI systems, which might leverage recent results in Computational Social Science.
翻訳日:2023-06-03 19:21:31 公開日:2020-02-13
# ランクワン効果によるPOVMの識別

Discrimination of POVMs with rank-one effects ( http://arxiv.org/abs/2002.05452v1 )

ライセンス: Link先を確認
Aleksandra Krawiec, {\L}ukasz Pawela, and Zbigniew Pucha{\l}a(参考訳) この研究の主な目的は、ランクワン効果を持つ正の作用素値測度を識別する問題に対する洞察を提供することである。 このような測定値の複数ショットの識別を研究するのは我々の意図であり、特定の回数で未知の測定に使用できる場合である。 さらに,並列型と適応型型の2つの識別方式を比較することに関心がある。 この目的のために、二発適応スキームで完全に判別できる対称な情報完全正の作用素価値測度を構築する。 これに加えて、我々はこの適応型スキームを見つけるための明示的なアルゴリズムを提供する。

The main goal of this work is to provide an insight into the problem of discrimination of positive operator valued measures with rank-one effects. It is our intention to study multiple shot discrimination of such measurements, that is the case when we are able to use to unknown measurement a given number of times. Furthermore, we are interested in comparing two possible discrimination schemes: the parallel and adaptive ones. To this end we construct a pair of symmetric, information complete positive operator valued measures which can be perfectly discriminated in a two-shot adaptive scheme. On top of this we provide an explicit algorithm which allows us to find this adaptive scheme.
翻訳日:2023-06-03 19:20:03 公開日:2020-02-13
# 修正バトマンラグランジアンに基づく減衰高調波発振器の量子化

Quantization of the damped harmonic oscillator based on a modified Bateman Lagrangian ( http://arxiv.org/abs/2002.05435v1 )

ライセンス: Link先を確認
Shinichi Deguchi, Yuki Fujiwara(参考訳) 減衰調和振動子(DHO)の量子化へのアプローチは、修正されたベイトマンラグランジアン(MBL)に基づいて開発され、DHOの量子力学的側面が明確になる。 我々は、MBLから決定され、系の総エネルギーに対応するハミルトニアン作用素に加えて、DHOのエネルギー演算子を扱う。 DHOのエネルギー固有値は時間とともに指数関数的に減少し、エネルギー固有状態間の遷移はシュルンディンガー方程式に従って起こることが示されている。 また,新しい臨界パラメータが遷移確率の異なる挙動を判別できることが指摘された。

An approach to quantization of the damped harmonic oscillator (DHO) is developed on the basis of a modified Bateman Lagrangian (MBL); thereby some quantum mechanical aspects of the DHO are clarified. We treat the energy operator for the DHO, in addition to the Hamiltonian operator that is determined from the MBL and corresponds to the total energy of the system. It is demonstrated that the energy eigenvalues of the DHO exponentially decrease with time and that transitions between the energy eigenstates occur in accordance with the Schr\"{o}dinger equation. Also, it is pointed out that a new critical parameter discriminates different behaviours of transition probabilities.
翻訳日:2023-06-03 19:19:53 公開日:2020-02-13
# 場の接続と強度の相関--シーゲルト関係とそれをテストする方法

Connecting field and intensity correlations: the Siegert relation and how to test it ( http://arxiv.org/abs/2002.05425v1 )

ライセンス: Link先を確認
Dilleys Ferreira, Romain Bachelard, William Guerin, Robin Kaiser, Mathilde Fouch\'e(参考訳) シーゲルト関係は、所定の仮定の下で光の電場と強度相関を関連付ける。 強度相関の短い歴史の後、関係の導出を行う。 そこで,本研究では,大学構内において容易に適応できる実験を行い,フィールド相関と強度相関を同時に測定し,シーゲルト関係を直接検証する。 結論として、関係が失敗する典型的な状況について論じる。

The Siegert relation relates the electric field and intensity correlations of light, under given assumptions. After a brief history of intensity correlations, we give a derivation of the relation. Then we present an experiment, which can be easily adapted for an undergraduate setup, and that allows measuring both field and intensity correlations at the same time, thus providing a direct test of the Siegert relation. As a conclusion, we discuss typical situations where the relation fails.
翻訳日:2023-06-03 19:19:39 公開日:2020-02-13
# ハイパーグラフの量子エントロピーコーン

The Quantum Entropy Cone of Hypergraphs ( http://arxiv.org/abs/2002.05317v1 )

ライセンス: Link先を確認
Ning Bao, Newton Cheng, Sergio Hern\'andez-Cuenca, Vincent P. Su(参考訳) 本研究では,ホログラフィックエントロピーコーンのグラフ理論的手法を一般化し,ハイパーグラフとその類似したエントロピーコーンについて研究する。 これにより、効率的にエントロピーを計算し、ハイパーグラフによって満たされる不等式を証明するフレームワークを開発することができる。 このようにして、ホログラフィック状態を超える量子エントロピーベクトルのクラスを発見し、安定化状態と線形ランクによって従うものと密接に関連する制約に従う。 以上より,少なくとも4つまでは,ハイパーグラフ円錐は安定エントロピー円錐と同一であり,エントロピーのエントロピー研究に広く適用できることを示す。 我々は、この平等がより高い党数を保持し続け、この方向に関する部分的な進歩を報告していると推測する。 この予想同値性を物理的に動機付けるために、与えられた超グラフから量子状態を構築してエントロピーベクトルが一致するようにテンソルネットワークにインスパイアされた妥当な方法を提案する。

In this work, we generalize the graph-theoretic techniques used for the holographic entropy cone to study hypergraphs and their analogously-defined entropy cone. This allows us to develop a framework to efficiently compute entropies and prove inequalities satisfied by hypergraphs. In doing so, we discover a class of quantum entropy vectors which reach beyond those of holographic states and obey constraints intimately related to the ones obeyed by stabilizer states and linear ranks. We show that, at least up to 4 parties, the hypergraph cone is identical to the stabilizer entropy cone, thus demonstrating that the hypergraph framework is broadly applicable to the study of entanglement entropy. We conjecture that this equality continues to hold for higher party numbers and report on partial progress on this direction. To physically motivate this conjectured equivalence, we also propose a plausible method inspired by tensor networks to construct a quantum state from a given hypergraph such that their entropy vectors match.
翻訳日:2023-06-03 19:19:12 公開日:2020-02-13
# 問題なく機能的に有効なAI

Functionally Effective Conscious AI Without Suffering ( http://arxiv.org/abs/2002.05652v1 )

ライセンス: Link先を確認
Aman Agarwal, Shimon Edelman(参考訳) 意識が学習と行動制御を促進する上で機能的な役割を担っているため、自律型AIシステムの構築者は、それを設計に組み込もうとする可能性が高い。 AIの倫理に関する広範な文献は、AIシステム、特に自律意識的なシステムが倫理的に振る舞うことを確実にすることに関心を持っている。 対照的に、ここでの焦点は、エンジニアリング意識aiの補足的な側面である:そのようなシステムを非難することを避ける方法、その創造にのみ責任を負うこと、そして驚くべき自己意識によって引き起こされる避けられない苦痛である。 この問題に対する2つの相補的アプローチを概説する。1つは現象的自己の哲学的分析に動機づけられ、もう1つは強化学習におけるある種の計算概念に動機付けられたものである。

Insofar as consciousness has a functional role in facilitating learning and behavioral control, the builders of autonomous AI systems are likely to attempt to incorporate it into their designs. The extensive literature on the ethics of AI is concerned with ensuring that AI systems, and especially autonomous conscious ones, behave ethically. In contrast, our focus here is on the rarely discussed complementary aspect of engineering conscious AI: how to avoid condemning such systems, for whose creation we would be solely responsible, to unavoidable suffering brought about by phenomenal self-consciousness. We outline two complementary approaches to this problem, one motivated by a philosophical analysis of the phenomenal self, and the other by certain computational concepts in reinforcement learning.
翻訳日:2023-06-03 19:10:15 公開日:2020-02-13
# 分子酸素イオン中の振動オーバートン遷移の精密量子論理分光法の展望

Prospect for precision quantum logic spectroscopy of vibrational overtone transitions in molecular oxygen ions ( http://arxiv.org/abs/2002.05584v1 )

ライセンス: Link先を確認
Fabian Wolf, Jan C. Heip, Maximilian J. Zawierucha, Chunyan Shi, Silke Ospelkaus and Piet O. Schmidt(参考訳) 精密分光法は、我々の物理理解の進歩の原動力であり、新しい物理学の研究のための有望なツールである。 分子は、原子システムでは不可能なテストを可能にする遷移を提供する。 しかし、状態準備と状態検出のためのサイクル遷移が欠如しているため、分子の通常精密分光は困難である。 分子イオンでは、量子論理分光法によってこの障害を克服することができ、状態の合成と検出のための散逸は、運動の共有固有状態を利用する共トラップ原子イオンによって与えられる。 本稿では,分子酸素イオンの完全な量子論理分光法を提案し,量子論理支援状態検出と準備の可能性について理論的に検討する。 さらに,陽子対電子質量比の変動の可能性について,感度の高い遷移として機能する振動オーバートン遷移の単光子四極子直接励起の結合速度を提供する。

Precision spectroscopy has been the driving force for progress of our physical understanding and still is a promising tool for the investigation of new physics. Molecules offer transitions which allow tests that are not possible in atomic systems. However, usually precision spectroscopy of molecules is challenging due to the lack of cycling transitions for state preparation and state detection. For molecular ions, this obstacle can be overcome by quantum logic spectroscopy, where dissipation for state preparation and detection is provided by a co-trapped atomic ion exploiting the shared eigenstates of motion. Here, we propose a full quantum logic spectroscopy scheme for molecular oxygen ions and theoretically investigate the feasibility of quantum logic assisted state detection and preparation. Furthermore, we provide coupling rates for a direct single-photon quadrupole excitation of a vibrational overtone transition that can serve as a sensitive transition for tests of a possible variation of the proton-to-electron mass ratio.
翻訳日:2023-06-03 19:09:23 公開日:2020-02-13
# ユニタリ行列の数値的範囲の摂動

Perturbation of the numerical range of unitary matrices ( http://arxiv.org/abs/2002.05553v1 )

ライセンス: Link先を確認
Ryszard Kukulski, Paulina Lewandowska, {\L}ukasz Pawela(参考訳) 本研究では,ユニタリ行列の数値範囲を操作する問題にどのようにアプローチするかを示す。 このタスクは、量子測定の識別の研究に大きな影響を与える。 本研究では,ユニタリ行列とその摂動との間の距離が与えられた計量において相対的に小さい原点を含むユニタリ行列を求める方法を導入することにより,上記の操作を実現する。

In this work we show how to approach the problem of manimulating the numerical range of a unitary matrix. This task has far-reaching impact on the study of discrimination of quantum measurements. We achieve the aforementioned manipulation by introducing a method which allows us to find a unitary matrix whose numerical range contains the origin where at the same time the distance between unitary matrix and its perturbation is relative small in given metric.
翻訳日:2023-06-03 19:09:10 公開日:2020-02-13
# スピン軌道量子ビットの非断熱スピンフリッププロトコルに対する熱的効果

Thermal effects on a nonadiabatic spin-flip protocol of spin-orbit qubits ( http://arxiv.org/abs/2002.05548v1 )

ライセンス: Link先を確認
Brecht Donvil, Lara Ul\v{c}akar, Toma\v{z} Rejec, and Anton Ramsak(参考訳) 熱環境がスピン軌道量子ビットの非断熱スピンフリップ駆動プロトコルに与える影響について検討する。 駆動プロトコルは、時間依存のスピン軌道相互作用の存在下でナノワイヤに沿って、調和ポテンシャルに閉じ込められた量子ビットを移動させることで動作する。 我々は,高調波の自由度を熱浴と弱結合すると考える。 フロッケ状態の解析式を見いだし、lindblad方程式から強く非断続的に駆動される量子ビットを導出する。 リンドブラッド方程式は、ラムシフト項と散逸行動を持つ孤立量子ビットのダイナミクスを補正する。 lindblad方程式を用いて,スピンフリッププロトコルにおける熱環境の影響を解析した。

We study the influence of a thermal environment on a non-adiabatic spin-flip driving protocol of spin-orbit qubits. The driving protocol operates by moving the qubit, trapped in a harmonic potential, along a nanowire in the presence of a time-dependent spin-orbit interaction. We consider the harmonic degrees of freedom to be weakly coupled to a thermal bath. We find an analytical expression for the Floquet states and derive the Lindblad equation for a strongly non-adiabatically driven qubit. The Lindblad equation corrects the dynamics of an isolated qubit with Lamb shift terms and a dissipative behaviour. Using the Lindblad equation, the influence of a thermal environment on the spin-flip protocol is analysed.
翻訳日:2023-06-03 19:08:40 公開日:2020-02-13
# 量子チャネルの最適表現

Optimal representation of quantum channels ( http://arxiv.org/abs/2002.05507v1 )

ライセンス: Link先を確認
Paulina Lewandowska, Ryszard Kukulski, {\L}ukasz Pawela(参考訳) 本研究は,量子チャネルの行列表現の次元性を低減する手法を示す。 量子チャネルを表す正の半定値行列の錐の基底を見つけることで達成される。 次に、これはJuliaプログラミング言語でQuantumInformation.jlパッケージの一部として実装される。

This work shows an approach to reduce the dimensionality of matrix representations of quantum channels. It is achieved by finding a base of the cone of positive semidefinite matrices which represent quantum channels. Next, this is implemented in the Julia programming language as a part of the QuantumInformation.jl package.
翻訳日:2023-06-03 19:08:32 公開日:2020-02-13
# AIによる死:スマートシティにおける自律性を保証する場所

Death by AI: Where Assured Autonomy in Smart Cities Meets the End-to-End Argument ( http://arxiv.org/abs/2002.11625v1 )

ライセンス: Link先を確認
Gregory Falco(参考訳) スマートシティには、デジタル的に有効になった重要なインフラストラクチャシステムが含まれる。 スマートシティのサイバー物理システムはますます自動化されつつある。 自動化の範囲は、基本的な論理ゲートから、完全に自律的なシステムを可能にする高度な人工知能(AI)まで様々である。 現代社会がスマートシティの自律システムに依存しているため、安全な方法での運用が不可欠である。 スマートシティは人口密度の高い地域で、何千もの自律システムが協業する可能性があるため、安全保証が必要である。 さまざまな開発者、製造業者、オペレーター、ユーザのために、このような自律システムの安全性を一貫して管理することの課題。 自律システムのための安全性のベースラインを提供することを目的とした,新しいネットワークと関連するネットワーク機能のサンプルを提案する。 これは、インターネットとは切り離された自律システムのためのカスタム設計のネットワークを確立することで実現され、アクティブネットワークを通じて安全な機能を実現することができる。 このようなネットワーク設計は、この論文で論じられているように、自律システムの安全性を考えると、エンド・ツー・エンドの原則の限界にある。 提案されたように、自律システムのスケーラブルな安全戦略がなければ、スマートシティにおける自律性はいまだに解明されないだろう。

A smart city involves critical infrastructure systems that have been digitally enabled. Increasingly, many smart city cyber-physical systems are becoming automated. The extent of automation ranges from basic logic gates to sophisticated, artificial intelligence (AI) that enables fully autonomous systems. Because of modern society's reliance on autonomous systems in smart cities, it is crucial for them to operate in a safe manner; otherwise, it is feasible for these systems to cause considerable physical harm or even death. Because smart cities could involve thousands of autonomous systems operating in concert in densely populated areas, safety assurances are required. Challenges abound to consistently manage the safety of such autonomous systems due to their disparate developers, manufacturers, operators and users. A novel network and a sample of associated network functions for autonomous systems is proposed that aims to provide a baseline of safety for autonomous systems. This is accomplished by establishing a custom-designed network for autonomous systems that is separate from the Internet, and can handle certain functions that enable safety through active networking. Such a network design sits at the margins of the end-to-end principle, which is warranted considering the safety of autonomous systems is at stake as is argued in this paper. Without a scalable safety strategy for autonomous systems as proposed, assured autonomy in smart cities will remain elusive.
翻訳日:2023-06-03 19:01:58 公開日:2020-02-13
# 3次パラメトリックダウンコンバージョン:刺激的アプローチ

Third order parametric downconversion: a stimulated approach ( http://arxiv.org/abs/2002.05783v1 )

ライセンス: Link先を確認
Francisco A. Dominguez-Serna, Alfred B. U'Ren, Karina Garay-Palmett(参考訳) 我々は, 自然パラメトリックダウンコンバージョン(TOSPDC)に関するこれまでの研究の延長として, 3次パラメトリックダウンコンバージョンをシード, あるいは刺激したプロセスについて検討した。 そこで本研究では,tospdcモードのうち1つまたは2つのモードにシードフィールドとフィールドが重なり合う場合に期待されるスペクトルとスループットの一般的な表現を示し,ポンプとシードの両方を単色またはパルスにすることができることを示す。 そこで本研究では,2重オーバーラップの種子化が,単独オーバーラップの種子化に比べてかなり大きな生成フラックスをもたらすことを示した。 さらに、3光子TOSPDC結合スペクトル強度の再構成のために,2重重畳みシード法により励起発光トモグラフィーが可能であることを示す。 我々は,3次パラメトリックダウンコンバージョンプロセスに基づいて,今後の実験的取り組みを導くことを願っている。

We study the process of seeded, or stimulated, third-order parametric down-conversion, as an extension of our previous work on spontaneous parametric downconversion (TOSPDC). We present general expressions for the spectra and throughputs expected for the cases where the seed field or fields overlap either only one or two of the TOSPDC modes, and also allow for both pump and seed to be either monochromatic or pulsed. We present a numerical study for a particular source design, showing that doubly-overlapped seeding can lead to a considerably greater generated flux as compared with singly-overlapped seeding. We furthermore show that doubly-overlapped seeding permits stimulated emission tomography for the reconstruction of the three-photon TOSPDC joint spectral intensity. We hope that our work will guide future experimental efforts based on the process of third-order parametric downconversion.
翻訳日:2023-06-03 19:01:21 公開日:2020-02-13
# 光通信における量子限界

Quantum Limits in Optical Communications ( http://arxiv.org/abs/2002.05766v1 )

ライセンス: Link先を確認
Konrad Banaszek, Ludwig Kunz, Micha{\l} Jachura, Marcin Jarzyna(参考訳) このチュートリアルでは、ホールボ容量制限を、従来の光増幅ファイバリンクから電力制限光信号による自由空間通信まで、様々な光通信シナリオにおける究極の伝送速度を分析するための普遍的なツールとして検討する。 標準添加白色ガウスノイズモデルは、光信号の伝搬を記述するために用いられる。 伝搬過程で取得した雑音のパワースペクトル密度が単位時間幅あたりのキャリア周波数における単一光子のエネルギーと比較して小さいとき、ホールボ限界は標準シャノン限界を実質的に超過する。 一般的な結果は、光子餓死状態における効率的な通信戦略に関する議論で示される。

This tutorial reviews the Holevo capacity limit as a universal tool to analyze the ultimate transmission rates in a variety of optical communication scenarios, ranging from conventional optically amplified fiber links to free-space communication with power-limited optical signals. The canonical additive white Gaussian noise model is used to describe the propagation of the optical signal. The Holevo limit exceeds substantially the standard Shannon limit when the power spectral density of noise acquired in the course of propagation is small compared to the energy of a single photon at the carrier frequency per unit time-bandwidth area. General results are illustrated with a discussion of efficient communication strategies in the photon-starved regime.
翻訳日:2023-06-03 19:00:37 公開日:2020-02-13
# 量子カオスによるページ曲線の動的メカニズム

A dynamical mechanism for the Page curve from quantum chaos ( http://arxiv.org/abs/2002.05734v1 )

ライセンス: Link先を確認
Hong Liu and Shreya Vardhan(参考訳) 純粋な状態から形成されたブラックホールの蒸発がユニタリであれば、ホーキング放射の絡み合いエントロピーはページ曲線に従い、蒸発の中間点近くまでゼロから増加し、その後0まで減少する。 ページ曲線の一般的な議論は、蒸発過程におけるブラックホールと放射の量子状態が典型的であるという仮定に基づいている。 本稿では、最近提案された量子カオスのシグネチャに基づいて、ページ曲線がブラックホールの進化における単純な動的入力から得られることを、典型性に頼らずに示す。 我々の主張は、我々が「操作気体」アプローチと呼ぶものに基づいており、これはブラックホールのミクロ状態の進化を作用素のハイゼンベルク進化の一般的な特徴から理解することができる。 ページ曲線に繋がる重要な特徴の1つは、「ガス」の作用素がブラックホールの外側で「ジャンプ」できるような動的過程の可能性である。 このようなプロセスは最初指数関数的に抑制されるが、ある時間スケールの後に支配的であり、ページ時間の動的定義として使用することができる。 若く古いブラックホールに対するHayden-Preskillプロトコルでは、ブラックホールから放射への情報の転送にもヴォイド形成が関与していることが示されている。 我々は,放射線の絡み合いエントロピーの計算において,最近の島を含む半古典的処方について,空洞形成が微視的な説明を与える可能性があると推測する。

If the evaporation of a black hole formed from a pure state is unitary, the entanglement entropy of the Hawking radiation should follow the Page curve, increasing from zero until near the halfway point of the evaporation, and then decreasing back to zero. The general argument for the Page curve is based on the assumption that the quantum state of the black hole plus radiation during the evaporation process is typical. In this paper, we show that the Page curve can result from a simple dynamical input in the evolution of the black hole, based on a recently proposed signature of quantum chaos, without resorting to typicality. Our argument is based on what we refer to as the "operator gas" approach, which allows one to understand the evolution of the microstate of the black hole from generic features of the Heisenberg evolution of operators. One key feature which leads to the Page curve is the possibility of dynamical processes where operators in the "gas" can "jump" outside the black hole, which we refer to as void formation processes. Such processes are initially exponentially suppressed, but dominate after a certain time scale, which can be used as a dynamical definition of the Page time. In the Hayden-Preskill protocol for young and old black holes, we show that void formation is also responsible for the transfer of information from the black hole to the radiation. We conjecture that void formation may provide a microscopic explanation for the recent semi-classical prescription of including islands in the calculation of the entanglement entropy of the radiation.
翻訳日:2023-06-03 19:00:12 公開日:2020-02-13
# NAS評価はフラストレーション的に難しい

NAS evaluation is frustratingly hard ( http://arxiv.org/abs/1912.12522v3 )

ライセンス: Link先を確認
Antoine Yang, Pedro M. Esperan\c{c}a, Fabio M. Carlucci(参考訳) Neural Architecture Search(NAS)は、2012年のConvolutional Neural Networksと同じくらい、ゲームチェンジャーになることを約束する、エキサイティングな新しい分野だ。 様々なタスクに対する大幅な改善につながる多くの優れた作業にもかかわらず、異なるメソッドの比較は依然として非常にオープンな問題である。 ほとんどのアルゴリズムは同一のデータセットでテストされるが、実験的なプロトコルの共有は一切ない。 このように、また、アブレーション研究の過小利用により、特定の方法が他の方法よりも効果的である理由の明確さが欠如している。 最初のコントリビューションは、データセット5ドルに対する8ドルのNASメソッドのベンチマークです。 異なる検索空間とメソッドを比較するハードルを克服するため、ランダムにサンプリングされた平均的アーキテクチャよりも相対的に改善する手法を提案し、専門家が設計した検索空間やトレーニングプロトコルから生じる利点を効果的に除去する。 驚いたことに、多くのNAS技術が平均的なアーキテクチャのベースラインを大きく上回るのに苦労している。 我々は、NASパイプラインにおける各コンポーネントの寄与を理解するために、よく使われるDARTS探索空間でさらなる実験を行う。 これらの実験は (i)評価プロトコルにおけるトリックの使用は、アーキテクチャの報告された性能に大きな影響を与える。 (ii) セルベースの検索空間は、その種がアーキテクチャのランキングに大きな影響を与えるように、非常に狭い精度範囲を有する。 (iii)手作りのマクロ構造(セル)は、探索されたマイクロ構造(操作)よりも重要である。 (iv)この奥行きギャップは実質的な現象であり、8ドルから20ドルのセルアーキテクチャのランキングが変化したことが証明している。 結論として、私たちはコミュニティにとって有益であることを証明し、現在のNAS落とし穴を軽減するためのベストプラクティスを提案します。 使用するコードはhttps://github.com/antoyang/NAS-Benchmarkで公開されている。

Neural Architecture Search (NAS) is an exciting new field which promises to be as much as a game-changer as Convolutional Neural Networks were in 2012. Despite many great works leading to substantial improvements on a variety of tasks, comparison between different methods is still very much an open issue. While most algorithms are tested on the same datasets, there is no shared experimental protocol followed by all. As such, and due to the under-use of ablation studies, there is a lack of clarity regarding why certain methods are more effective than others. Our first contribution is a benchmark of $8$ NAS methods on $5$ datasets. To overcome the hurdle of comparing methods with different search spaces, we propose using a method's relative improvement over the randomly sampled average architecture, which effectively removes advantages arising from expertly engineered search spaces or training protocols. Surprisingly, we find that many NAS techniques struggle to significantly beat the average architecture baseline. We perform further experiments with the commonly used DARTS search space in order to understand the contribution of each component in the NAS pipeline. These experiments highlight that: (i) the use of tricks in the evaluation protocol has a predominant impact on the reported performance of architectures; (ii) the cell-based search space has a very narrow accuracy range, such that the seed has a considerable impact on architecture rankings; (iii) the hand-designed macro-structure (cells) is more important than the searched micro-structure (operations); and (iv) the depth-gap is a real phenomenon, evidenced by the change in rankings between $8$ and $20$ cell architectures. To conclude, we suggest best practices, that we hope will prove useful for the community and help mitigate current NAS pitfalls. The code used is available at https://github.com/antoyang/NAS-Benchmark.
翻訳日:2023-01-17 12:36:09 公開日:2020-02-13
# フィルタアンサンブルを用いた多目的ハイパーパラメータチューニングと特徴選択

Multi-Objective Hyperparameter Tuning and Feature Selection using Filter Ensembles ( http://arxiv.org/abs/1912.12912v2 )

ライセンス: Link先を確認
Martin Binder, Julia Moosbauer, Janek Thomas, Bernd Bischl(参考訳) 機能選択とハイパーパラメータチューニングの両方が機械学習の重要なタスクである。 ハイパーパラメータチューニングは、しばしばモデル性能を向上させるのに役立ち、機能選択はスパースモデルを達成するために行われる。 スパーシリティは、より良いモデル解釈可能性とデータ取得、データハンドリング、モデル推論の低コストをもたらす可能性がある。 スパーシリティは、予測性能に有益または有害な影響を及ぼす可能性があるが、スパースネスの実質的な上昇と引き換えに、わずかな性能低下が許容される。 したがって,特徴選択を多目的最適化タスクとして扱う。 モデルの特徴の選択がハイパーパラメータの性能に影響を及ぼす可能性があるため、ハイパーパラメータチューニングと特徴選択を同時に行う。 我々は,多目的共同パラメータ最適化と特徴選択のための2つの異なるアプローチを提示し,ベンチマークし,比較する。 2つ目は、NSGA-IIに基づく機能選択のための進化的ラッパーアプローチで、特別なサンプリング、突然変異、組換え演算子を含んでいる。 どちらの手法もパラメータ化フィルタアンサンブルを利用する。 モデルに基づく最適化は、優れた性能を達成するために客観的な評価は少ないが、nsga-iiと比較して計算上のオーバーヘッドが生じるため、望ましい選択は、与えられたデータに基づいてモデルを評価するコストに依存する。

Both feature selection and hyperparameter tuning are key tasks in machine learning. Hyperparameter tuning is often useful to increase model performance, while feature selection is undertaken to attain sparse models. Sparsity may yield better model interpretability and lower cost of data acquisition, data handling and model inference. While sparsity may have a beneficial or detrimental effect on predictive performance, a small drop in performance may be acceptable in return for a substantial gain in sparseness. We therefore treat feature selection as a multi-objective optimization task. We perform hyperparameter tuning and feature selection simultaneously because the choice of features of a model may influence what hyperparameters perform well. We present, benchmark, and compare two different approaches for multi-objective joint hyperparameter optimization and feature selection: The first uses multi-objective model-based optimization. The second is an evolutionary NSGA-II-based wrapper approach to feature selection which incorporates specialized sampling, mutation and recombination operators. Both methods make use of parameterized filter ensembles. While model-based optimization needs fewer objective evaluations to achieve good performance, it incurs computational overhead compared to the NSGA-II, so the preferred choice depends on the cost of evaluating a model on given data.
翻訳日:2023-01-17 02:05:52 公開日:2020-02-13
# マルチエージェント強化学習による社会的ジレンマの協調行動の誘導

Inducing Cooperative behaviour in Sequential-Social dilemmas through Multi-Agent Reinforcement Learning using Status-Quo Loss ( http://arxiv.org/abs/2001.05458v2 )

ライセンス: Link先を確認
Pinkesh Badjatiya, Mausoom Sarkar, Abhishek Sinha, Siddharth Singh, Nikaash Puri, Jayakumar Subramanian, Balaji Krishnamurthy(参考訳) 社会的ジレンマの状況では、個々の合理性は最適群の結果をもたらす。 いくつかの人間との関わりは、シーケンシャル(多段階)な社会的ジレンマとしてモデル化できる。 しかし、人間とは対照的に、社会的ジレンマにおける個人の報酬を最適化するために訓練された深層強化学習エージェントは、利己的で相互に有害な行動に収束する。 我々は、エージェントが繰り返しポリシーを変更するのではなく、ステータスクオに固執することを奨励するステータスクオロス(SQLoss)を導入する。 いくつかのソーシャルジレンマ行列ゲームにおいて、SQLossで訓練されたエージェントが協調行動をどのように進化させるかを示す。 視覚入力を持つソーシャルジレンマゲームを扱うために,GameDistillを提案する。 GameDistillは自己スーパービジョンとクラスタリングを使用して、ソーシャルジレンマゲームから協力的および利己的なポリシーを自動的に抽出する。 我々はGameDistillとSQLossを組み合わせて、Coin Gameにおいてエージェントが社会的に望ましい協調行動をどのように進化させるかを示す。

In social dilemma situations, individual rationality leads to sub-optimal group outcomes. Several human engagements can be modeled as a sequential (multi-step) social dilemmas. However, in contrast to humans, Deep Reinforcement Learning agents trained to optimize individual rewards in sequential social dilemmas converge to selfish, mutually harmful behavior. We introduce a status-quo loss (SQLoss) that encourages an agent to stick to the status quo, rather than repeatedly changing its policy. We show how agents trained with SQLoss evolve cooperative behavior in several social dilemma matrix games. To work with social dilemma games that have visual input, we propose GameDistill. GameDistill uses self-supervision and clustering to automatically extract cooperative and selfish policies from a social dilemma game. We combine GameDistill and SQLoss to show how agents evolve socially desirable cooperative behavior in the Coin Game.
翻訳日:2023-01-11 06:05:32 公開日:2020-02-13
# データ-テキスト生成のための変分テンプレートマシン

Variational Template Machine for Data-to-Text Generation ( http://arxiv.org/abs/2002.01127v2 )

ライセンス: Link先を確認
Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li(参考訳) テーブルに整理された構造化データから記述を生成するには? 既存のニューラルエンコーダ-デコーダモデルを用いたアプローチは、しばしば多様性の欠如に苦しむ。 オープンなテンプレートセットはフレーズ構成を豊かにし、様々な世代を実現するために不可欠であると主張する。 このようなテンプレートを学習することは、しばしば大きなペアの<table, description>コーパスを必要とするため、禁止される。 本稿では,ペアデータとペアデータから再利用可能な「テンプレート」を自動的に学習する問題を検討する。 本稿では,データテーブルからテキスト記述を生成する新しい手法である変分テンプレートマシン(vtm)を提案する。 私たちの貢献には a) 特定のモデルアーキテクチャと損失を慎重に考案し、テキストテンプレートとセマンティックコンテンツ情報を明確にアンタングルし、潜在空間に配置し、 b) テンプレート学習を充実させるために, テーブルを並べない小さな並列データと大きな原文を併用する。 さまざまなドメインのデータセットに関する実験によると、VTMはより多様な生成が可能であり、優れた流線型性と品質を維持している。

How to generate descriptions from structured data organized in tables? Existing approaches using neural encoder-decoder models often suffer from lacking diversity. We claim that an open set of templates is crucial for enriching the phrase constructions and realizing varied generations. Learning such templates is prohibitive since it often requires a large paired <table, description> corpus, which is seldom available. This paper explores the problem of automatically learning reusable "templates" from paired and non-paired data. We propose the variational template machine (VTM), a novel method to generate text descriptions from data tables. Our contributions include: a) we carefully devise a specific model architecture and losses to explicitly disentangle text template and semantic content information, in the latent spaces, and b)we utilize both small parallel data and large raw text without aligned tables to enrich the template learning. Experiments on datasets from a variety of different domains show that VTM is able to generate more diversely while keeping a good fluency and quality.
翻訳日:2023-01-04 02:58:43 公開日:2020-02-13
# 無線チャネル上での深層学習に基づく変調分類器の防空攻撃

Over-the-Air Adversarial Attacks on Deep Learning Based Modulation Classifier over Wireless Channels ( http://arxiv.org/abs/2002.02400v2 )

ライセンス: Link先を確認
Brian Kim and Yalin E. Sagduyu and Kemal Davaslioglu and Tugba Erpek and Sennur Ulukus(参考訳) 本稿では,送信機,受信機,敵からなる無線通信システムについて考察する。 送信機は異なる変調タイプで信号を送信し、受信した信号をディープラーニングベースの分類器を用いて変調タイプに分類する。 一方、敵は送信機の信号に重畳されたように受信された空気上送信を行い、受信機で分類器を騙してエラーを発生させる。 この回避攻撃は近年注目されているが、敵から受信機へのチャネル効果は無視されており、従来の攻撃機構は現実的なチャネル効果では適用できない。 本稿では,敵側から受信側へのチャネルを考慮し,現実的な回避攻撃を行う方法を提案する。 以上の結果から, 変調分類は, 経路損失とシャドウ化を伴うレイリーフェーディングとしてモデル化された無線チャネル上の敵攻撃に対して脆弱であることが示唆された。 本稿では,チャネル情報,送信機入力情報,分類器アーキテクチャに関する様々な敵攻撃について述べる。 まず,標的ラベル以外のラベルへの分類変更を目的とした,標的攻撃(最小限の攻撃力を持つ)と非目標攻撃(非目標攻撃)の2種類を提示する。 どちらも送信機固有のホワイトボックス攻撃であり、チャネル情報を使用する。 次に,敵がチャネル分布のみを知っている限られたチャネル情報を用いて敵攻撃を生成するアルゴリズムを提案する。 最後に,uap攻撃(black-box universal adversarial perturbation, black-box universal adversarial perturbation, black-box universal adversarial perturbation)を提案する。

We consider a wireless communication system that consists of a transmitter, a receiver, and an adversary. The transmitter transmits signals with different modulation types, while the receiver classifies its received signals to modulation types using a deep learning-based classifier. In the meantime, the adversary makes over-the-air transmissions that are received as superimposed with the transmitter's signals to fool the classifier at the receiver into making errors. While this evasion attack has received growing interest recently, the channel effects from the adversary to the receiver have been ignored so far such that the previous attack mechanisms cannot be applied under realistic channel effects. In this paper, we present how to launch a realistic evasion attack by considering channels from the adversary to the receiver. Our results show that modulation classification is vulnerable to an adversarial attack over a wireless channel that is modeled as Rayleigh fading with path loss and shadowing. We present various adversarial attacks with respect to availability of information about channel, transmitter input, and classifier architecture. First, we present two types of adversarial attacks, namely a targeted attack (with minimum power) and non-targeted attack that aims to change the classification to a target label or to any other label other than the true label, respectively. Both are white-box attacks that are transmitter input-specific and use channel information. Then we introduce an algorithm to generate adversarial attacks using limited channel information where the adversary only knows the channel distribution. Finally, we present a black-box universal adversarial perturbation (UAP) attack where the adversary has limited knowledge about both channel and transmitter input.
翻訳日:2023-01-03 21:20:22 公開日:2020-02-13
# 深層ニューラルネットワークを用いた短誘導心電図信号の心房細動分類におけるデータ拡張の効果

The Effect of Data Augmentation on Classification of Atrial Fibrillation in Short Single-Lead ECG Signals Using Deep Neural Networks ( http://arxiv.org/abs/2002.02870v2 )

ライセンス: Link先を確認
Faezeh Nejati Hatamian, Nishant Ravikumar, Sulaiman Vesal, Felix P. Kemeth, Matthias Struck, Andreas Maier(参考訳) 心臓血管疾患は世界中で最も多い死因である。 無症候期における心房細動(AF)の検出は脳卒中を防ぐのに役立つ。 また、適切な治療である抗凝固療法をタイムリーに提供することで、臨床的意思決定を改善する。 心電図(ECG)信号の早期検出の臨床的意義は近年多くの研究に影響を与えており、その多くが機械学習アルゴリズムを利用してこの課題を解決しようとしている。 しかし、AFサンプルを含むECGデータセットは通常、分類アルゴリズムのパフォーマンスに影響を及ぼす深刻なクラス不均衡に悩まされる。 データ拡張はこの問題に対処するための一般的なソリューションです。 本研究では, オーバーサンプリング, ガウス混合モデル (GMM) やGAN (Generative Adversarial Networks) といったデータ拡張アルゴリズムが, クラス不均衡問題の解決に与える影響について検討する。 これらのアルゴリズムは定量的に定性的に評価され、比較され、詳細に議論される。 その結果, 深層学習に基づくAF信号分類手法は, オーバーサンプリングよりも, GANとGMMを用いたデータ拡張の恩恵が大きいことがわかった。 さらに、GANは、f1スコアでGMMと同等に動作しながら、平均的なAF分類精度が$3\%以上向上する。

Cardiovascular diseases are the most common cause of mortality worldwide. Detection of atrial fibrillation (AF) in the asymptomatic stage can help prevent strokes. It also improves clinical decision making through the delivery of suitable treatment such as, anticoagulant therapy, in a timely manner. The clinical significance of such early detection of AF in electrocardiogram (ECG) signals has inspired numerous studies in recent years, of which many aim to solve this task by leveraging machine learning algorithms. ECG datasets containing AF samples, however, usually suffer from severe class imbalance, which if unaccounted for, affects the performance of classification algorithms. Data augmentation is a popular solution to tackle this problem. In this study, we investigate the impact of various data augmentation algorithms, e.g., oversampling, Gaussian Mixture Models (GMMs) and Generative Adversarial Networks (GANs), on solving the class imbalance problem. These algorithms are quantitatively and qualitatively evaluated, compared and discussed in detail. The results show that deep learning-based AF signal classification methods benefit more from data augmentation using GANs and GMMs, than oversampling. Furthermore, the GAN results in circa $3\%$ better AF classification accuracy in average while performing comparably to the GMM in terms of f1-score.
翻訳日:2023-01-03 04:26:54 公開日:2020-02-13
# 多数派投票とコンドルチェットの陪審理論

Majority Voting and the Condorcet's Jury Theorem ( http://arxiv.org/abs/2002.03153v2 )

ライセンス: Link先を確認
Hanan Shteingart, Eran Marom, Igor Itkin, Gil Shabat, Michael Kolomenkin, Moshe Salhov, and Liran Katzir(参考訳) There is a striking relationship between a three hundred years old Political Science theorem named "Condorcet's jury theorem" (1785), which states that majorities are more likely to choose correctly when individual votes are often correct and independent, and a modern Machine Learning concept called "Strength of Weak Learnability" (1990), which describes a method for converting a weak learning algorithm into one that achieves arbitrarily high accuracy and stands in the basis of Ensemble Learning. コンドルチェットの定理の直感的な言明にもかかわらず、古典的な機械学習のハンドブックにも出版論文にも、定理のコンパクトで単純な厳密な数学的証明が見つからなかった。 いずれにせよ、我々は理論や結果を発見または再発明するわけではない。 我々は、定理のより公開性の高い単純な導出を提供したい。 イントロダクティブ・ツー・マシン・ラーニング・コースの教師が、アンサンブル学習の動機を説明するための演習として、ここで提示した証明を使用するのを見るのが楽しみです。

There is a striking relationship between a three hundred years old Political Science theorem named "Condorcet's jury theorem" (1785), which states that majorities are more likely to choose correctly when individual votes are often correct and independent, and a modern Machine Learning concept called "Strength of Weak Learnability" (1990), which describes a method for converting a weak learning algorithm into one that achieves arbitrarily high accuracy and stands in the basis of Ensemble Learning. Albeit the intuitive statement of Condorcet's theorem, we could not find a compact and simple rigorous mathematical proof of the theorem neither in classical handbooks of Machine Learning nor in published papers. By all means we do not claim to discover or reinvent a theory nor a result. We humbly want to offer a more publicly available simple derivation of the theorem. We will find joy in seeing more teachers of introduction-to-machine-learning courses use the proof we provide here as an exercise to explain the motivation of ensemble learning.
翻訳日:2023-01-02 22:12:21 公開日:2020-02-13
# 変圧器を用いたエンドツーエンドマルチスピーカ音声認識

End-to-End Multi-speaker Speech Recognition with Transformer ( http://arxiv.org/abs/2002.03921v2 )

ライセンス: Link先を確認
Xuankai Chang, Wangyou Zhang, Yanmin Qian, Jonathan Le Roux, Shinji Watanabe(参考訳) 近年,フルリカレントニューラルネットワーク(RNN)に基づくエンド・ツー・エンドモデルは,単一チャネルとマルチチャネルの両方のシナリオにおいて,マルチ話者音声認識に有効であることが証明されている。 本稿では,2つの側面に焦点をあてて,これらのタスクに対するTransformerモデルの利用について検討する。 まず,音声認識モデルにおけるrnnベースのエンコーダデコーダをトランスフォーマアーキテクチャに置き換える。 第2に、マルチチャネルの場合、神経ビームフォーマのマスキングネットワークにおいてトランスを使用するため、計算量を減らすために、セルフアテンション成分をシーケンス全体ではなくセグメントに制限するように修正する。 モデルアーキテクチャの改善に加えて,外部の残響前処理,重み付き予測誤差(WPE)も組み込んで,残響信号の処理を可能にした。 空間化wsj1-2mixコーパスを用いた実験の結果,トランスフォーマーベースモデルでは,1チャネルおよび複数チャネルタスクでそれぞれ40.9%,25.6%,WERで12.1%,WERで6.4%,逆流の場合では41.5%,WERで16.5%,WERで13.8%,WERで16.5%,WERで6.2%と低下した。

Recently, fully recurrent neural network (RNN) based end-to-end models have been proven to be effective for multi-speaker speech recognition in both the single-channel and multi-channel scenarios. In this work, we explore the use of Transformer models for these tasks by focusing on two aspects. First, we replace the RNN-based encoder-decoder in the speech recognition model with a Transformer architecture. Second, in order to use the Transformer in the masking network of the neural beamformer in the multi-channel case, we modify the self-attention component to be restricted to a segment rather than the whole sequence in order to reduce computation. Besides the model architecture improvements, we also incorporate an external dereverberation preprocessing, the weighted prediction error (WPE), enabling our model to handle reverberated signals. Experiments on the spatialized wsj1-2mix corpus show that the Transformer-based models achieve 40.9% and 25.6% relative WER reduction, down to 12.1% and 6.4% WER, under the anechoic condition in single-channel and multi-channel tasks, respectively, while in the reverberant case, our methods achieve 41.5% and 13.8% relative WER reduction, down to 16.5% and 15.2% WER.
翻訳日:2023-01-02 09:30:30 公開日:2020-02-13
# 非自己回帰型ニューラルダイアログ生成

Non-Autoregressive Neural Dialogue Generation ( http://arxiv.org/abs/2002.04250v2 )

ライセンス: Link先を確認
Qinghong Han, Yuxian Meng, Fei Wu, Jiwei Li(参考訳) 応答(y$)とコンテキスト(x$)の双方向依存性、すなわち前方確率 $\log p(y|x)$ と後方確率 $\log p(x|y)$ をモデル化するmaximum mutual information (mmi) は、オープンドメインダイアログ生成における鈍い応答問題に対処するために \stsモデルにおいて広く使われている。 残念なことに、 \stsモデルの枠組みの下では、$\log p(y|x) + \log p(x|y)$ からの直接復号は、第2部(すなわち $p(x|y)$)が計算できる前にターゲット生成の完了を必要とするため実現不可能であり、$y$ の検索空間は巨大である。 経験的に、N-bestリストはまず$p(y|x)$と$p(x|y)$で生成され、N-bestリストを再ランクするために使用される。 本稿では,非自己回帰的(非ar)生成モデルを用いて,この非グローバル最適性問題に対処することを提案する。 ターゲットトークンは非ar世代で独立に生成されるため、各ターゲットワードに対して$p(x|y)$ が生成されるとすぐに計算でき、シーケンス全体の完了を待たなくてもよい。 これは、デコードにおける非グローバル最適問題を自然に解決する。 実験の結果,提案する非ar戦略はより多様でコヒーレントで適切な反応を示し,bleuスコアと人間の評価において有意な利益をもたらすことが示された。

Maximum Mutual information (MMI), which models the bidirectional dependency between responses ($y$) and contexts ($x$), i.e., the forward probability $\log p(y|x)$ and the backward probability $\log p(x|y)$, has been widely used as the objective in the \sts model to address the dull-response issue in open-domain dialog generation. Unfortunately, under the framework of the \sts model, direct decoding from $\log p(y|x) + \log p(x|y)$ is infeasible since the second part (i.e., $p(x|y)$) requires the completion of target generation before it can be computed, and the search space for $y$ is enormous. Empirically, an N-best list is first generated given $p(y|x)$, and $p(x|y)$ is then used to rerank the N-best list, which inevitably results in non-globally-optimal solutions. In this paper, we propose to use non-autoregressive (non-AR) generation model to address this non-global optimality issue. Since target tokens are generated independently in non-AR generation, $p(x|y)$ for each target word can be computed as soon as it's generated, and does not have to wait for the completion of the whole sequence. This naturally resolves the non-global optimal issue in decoding. Experimental results demonstrate that the proposed non-AR strategy produces more diverse, coherent, and appropriate responses, yielding substantive gains in BLEU scores and in human evaluations.
翻訳日:2023-01-02 02:24:23 公開日:2020-02-13
# プログレッシブオブジェクト転送検出

Progressive Object Transfer Detection ( http://arxiv.org/abs/2002.04741v2 )

ライセンス: Link先を確認
Hao Chen, Yali Wang, Guoyou Wang, Xiang Bai, and Yu Qiao(参考訳) 最近のオブジェクト検出の開発は、主に大規模ベンチマークによるディープラーニングに依存している。 しかし、そのような完全な注釈付きデータを収集することは、現実のアプリケーションでは困難またはコストがかかり、実際にはディープニューラルネットワークのパワーを制限する。 また、人間は注意負担の少ない新しい物体を検出できる。なぜなら、人間が事前の知識を使って、詳細な注釈のある例をほとんど持たない新しい物体を識別し、野生の画像から物体を搾取することによって、この能力を一般化するからだ。 本稿では,この学習手順に着想を得て,新しいプログレッシブオブジェクト転送検出(potd)フレームワークを提案する。 具体的には,本論文の主な貢献を3つ挙げる。 第一に、POTDは様々なドメインのオブジェクトを効果的にプログレッシブな検出手順に活用することができる。 このような人間的な学習によって、少ないアノテーションでターゲット検出タスクを促進できる。 第二に、POTDは2つの微妙な転送段階、すなわちLSTD(low-Shot Transfer Detection)とWSTD(Weakly-Supervised Transfer Detection)から構成される。 LSTDでは,ソース検出器の暗黙のオブジェクト知識を蒸留し,アノテーションの少ないターゲット検出器を強化する。 後でwstdを効果的に温めることができます。 WSTDでは、弱いラベル付き画像に注釈をつけることを学習するための繰り返しオブジェクトラベリング機構を設計する。 さらに重要なことは、LSTDからの信頼性の高いオブジェクト監視を利用して、WSTDステージにおけるターゲット検出器の堅牢性をさらに高めることができる。 最後に、異なる設定で多くの挑戦的な検出ベンチマークについて広範な実験を行う。 その結果,POTDは最近の最先端のアプローチよりも優れていることがわかった。

Recent development of object detection mainly depends on deep learning with large-scale benchmarks. However, collecting such fully-annotated data is often difficult or expensive for real-world applications, which restricts the power of deep neural networks in practice. Alternatively, humans can detect new objects with little annotation burden, since humans often use the prior knowledge to identify new objects with few elaborately-annotated examples, and subsequently generalize this capacity by exploiting objects from wild images. Inspired by this procedure of learning to detect, we propose a novel Progressive Object Transfer Detection (POTD) framework. Specifically, we make three main contributions in this paper. First, POTD can leverage various object supervision of different domains effectively into a progressive detection procedure. Via such human-like learning, one can boost a target detection task with few annotations. Second, POTD consists of two delicate transfer stages, i.e., Low-Shot Transfer Detection (LSTD), and Weakly-Supervised Transfer Detection (WSTD). In LSTD, we distill the implicit object knowledge of source detector to enhance target detector with few annotations. It can effectively warm up WSTD later on. In WSTD, we design a recurrent object labelling mechanism for learning to annotate weakly-labeled images. More importantly, we exploit the reliable object supervision from LSTD, which can further enhance the robustness of target detector in the WSTD stage. Finally, we perform extensive experiments on a number of challenging detection benchmarks with different settings. The results demonstrate that, our POTD outperforms the recent state-of-the-art approaches.
翻訳日:2023-01-01 20:15:26 公開日:2020-02-13
# DeepMutation: ニューラル・ミューテーション・ツール

DeepMutation: A Neural Mutation Tool ( http://arxiv.org/abs/2002.04760v2 )

ライセンス: Link先を確認
Michele Tufano, Jason Kimko, Shiya Wang, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Denys Poshyvanyk(参考訳) 突然変異テストは、所定のテストスイートの故障検出能力を評価するために使用できる。 この目的のためには、突然変異試験フレームワークの2つの特徴が重要である。 (i)実際の欠陥を代表する変異体を生成するべきである。 (ii) 変異体を自動生成、注入、テストできる完全なツールチェーンを提供する必要がある。 まず,本研究では,ニューラルネットワークエンコーダ・デコーダ・アーキテクチャを用いて,実際のプログラムから抽出された約787kの障害からミュータントを学習する手法を提案する。 このアプローチの実証的評価により、実際の欠陥を表す変異体を生成する能力が確認された。 本稿では,深層学習モデルを完全自動化されたツールチェーンに包み込み,実際の障害から学習したミュータントを生成し,注入し,テストするツールであるdeepmutationについて述べる。 ビデオ: https://sites.google.com/view/learning-mutation/deepmutation

Mutation testing can be used to assess the fault-detection capabilities of a given test suite. To this aim, two characteristics of mutation testing frameworks are of paramount importance: (i) they should generate mutants that are representative of real faults; and (ii) they should provide a complete tool chain able to automatically generate, inject, and test the mutants. To address the first point, we recently proposed an approach using a Recurrent Neural Network Encoder-Decoder architecture to learn mutants from ~787k faults mined from real programs. The empirical evaluation of this approach confirmed its ability to generate mutants representative of real faults. In this paper, we address the second point, presenting DeepMutation, a tool wrapping our deep learning model into a fully automated tool chain able to generate, inject, and test mutants learned from real faults. Video: https://sites.google.com/view/learning-mutation/deepmutation
翻訳日:2023-01-01 19:39:18 公開日:2020-02-13
# 深いq-networksでランク付けするlistwise learning

Listwise Learning to Rank with Deep Q-Networks ( http://arxiv.org/abs/2002.07651v1 )

ライセンス: Link先を確認
Abhishek Sharma(参考訳) ランクの学習は、与えられたクエリとの関連性に基づいて一連の文書をランク付けすることに関わる問題である。 ディープq学習は,シーケンシャルな意思決定においてエージェントを訓練するための有用な方法であることが示されている。 本稿では,q-learning to rank agentであるDeepQRankが,最先端技術と考えられる性能を示す。 線形回帰のような教師付き学習手法よりも計算効率は低いが、我々のエージェントはトレーニングや評価に利用できるデータの形式に関して制限が少ない。 我々は、MicrosoftのLETORリストワイズデータセットに対してアルゴリズムを実行し、0.5075のNDCG@1(精度 [0,1])を達成し、主要な教師付き学習モデルSVMRank (0.4958)をわずかに上回った。

Learning to Rank is the problem involved with ranking a sequence of documents based on their relevance to a given query. Deep Q-Learning has been shown to be a useful method for training an agent in sequential decision making. In this paper, we show that DeepQRank, our deep q-learning to rank agent, demonstrates performance that can be considered state-of-the-art. Though less computationally efficient than a supervised learning approach such as linear regression, our agent has fewer limitations in terms of which format of data it can use for training and evaluation. We run our algorithm against Microsoft's LETOR listwise dataset and achieve an NDCG@1 (ranking accuracy in the range [0,1]) of 0.5075, narrowly beating out the leading supervised learning model, SVMRank (0.4958).
翻訳日:2023-01-01 13:59:34 公開日:2020-02-13
# プロパティ署名によるプログラム表現の学習

Learning to Represent Programs with Property Signatures ( http://arxiv.org/abs/2002.09030v1 )

ライセンス: Link先を確認
Augustus Odena, Charles Sutton(参考訳) 本稿では,機械学習アルゴリズムが使用するプログラムやプログラム仕様の表現であるプロパティシグネチャの概念を紹介する。 入力型 $\tau_{in}$ と出力型 $\tau_{out}$ の関数が与えられたとき、プロパティは型の関数である: $(\tau_{in}, \tau_{out}) \rightarrow \texttt{bool}$ that (形式的には) 考慮中の関数のいくつかの単純な性質を記述する。 例えば、$\tau_{in}$と$\tau_{out}$がどちらも同じ型のリストである場合、1つのプロパティは「入力リストは出力リストと同じ長さか? このようなプロパティのリストがある場合、プロパティシグネチャを呼び出す出力のリストを取得するために、関数のためにそれらすべてを評価することができます。 重要なことに、関数を指定するための入出力ペアのセットのみを与えられた関数のプロパティシグネチャを ‘guess’ することができる。 プロパティシグネチャの潜在的な応用について検討し、ベースラインシンセサイザの改善に使用できることを実験的に示し、その1/10未満で2倍のプログラムを発生することを示した。

We introduce the notion of property signatures, a representation for programs and program specifications meant for consumption by machine learning algorithms. Given a function with input type $\tau_{in}$ and output type $\tau_{out}$, a property is a function of type: $(\tau_{in}, \tau_{out}) \rightarrow \texttt{Bool}$ that (informally) describes some simple property of the function under consideration. For instance, if $\tau_{in}$ and $\tau_{out}$ are both lists of the same type, one property might ask `is the input list the same length as the output list?'. If we have a list of such properties, we can evaluate them all for our function to get a list of outputs that we will call the property signature. Crucially, we can `guess' the property signature for a function given only a set of input/output pairs meant to specify that function. We discuss several potential applications of property signatures and show experimentally that they can be used to improve over a baseline synthesizer so that it emits twice as many programs in less than one-tenth of the time.
翻訳日:2023-01-01 13:59:18 公開日:2020-02-13
# 単一ディープラーニングモデルによるモバイルカメラISPのリプレース

Replacing Mobile Camera ISP with a Single Deep Learning Model ( http://arxiv.org/abs/2002.05509v1 )

ライセンス: Link先を確認
Andrey Ignatov, Luc Van Gool, Radu Timofte(参考訳) モバイル写真の人気が常に高まる中、手作りの複雑なカメラISPソリューションの構築に多くの努力が注がれている。 そこで本研究では,最先端のispパイプラインであっても,特定のデバイスで使用するセンサや光学に関する事前知識を必要とせずにトレーニングされた,エンドツーエンドのディープラーニングモデルに置き換えることができることを実証する。 そこで我々は,画像の復調,デノイジング,ホワイトバランス,色とコントラストの補正,デコレーションなど,ispのすべてのステップを暗黙的に実行するように設計された,新しいピラミッド型cnnアーキテクチャであるpynetを提案する。 このモデルは、モバイルカメラセンサーから直接得たRAW Bayerデータを、プロのハイエンドDSLRカメラで撮影した写真に変換するように訓練されており、特定のモバイルISPの実装とは独立している。 提案手法を実データで検証するために,Huawei P20カメラホン(12.3MPSony Exmor IMX380センサー)とキヤノン5D Mark IV DSLRで撮影した1万個のフル解像度RAW-RGBイメージペアからなる大規模データセットを収集した。 実験により,提案手法が組込みP20のISPパイプラインのレベルに容易に到達できることが実証された。 この論文で使用されるデータセット、事前訓練されたモデル、コードは、プロジェクトのウェブサイトで入手できる。

As the popularity of mobile photography is growing constantly, lots of efforts are being invested now into building complex hand-crafted camera ISP solutions. In this work, we demonstrate that even the most sophisticated ISP pipelines can be replaced with a single end-to-end deep learning model trained without any prior knowledge about the sensor and optics used in a particular device. For this, we present PyNET, a novel pyramidal CNN architecture designed for fine-grained image restoration that implicitly learns to perform all ISP steps such as image demosaicing, denoising, white balancing, color and contrast correction, demoireing, etc. The model is trained to convert RAW Bayer data obtained directly from mobile camera sensor into photos captured with a professional high-end DSLR camera, making the solution independent of any particular mobile ISP implementation. To validate the proposed approach on the real data, we collected a large-scale dataset consisting of 10 thousand full-resolution RAW-RGB image pairs captured in the wild with the Huawei P20 cameraphone (12.3 MP Sony Exmor IMX380 sensor) and Canon 5D Mark IV DSLR. The experiments demonstrate that the proposed solution can easily get to the level of the embedded P20's ISP pipeline that, unlike our approach, is combining the data from two (RGB + B/W) camera sensors. The dataset, pre-trained models and codes used in this paper are available on the project website.
翻訳日:2023-01-01 13:58:55 公開日:2020-02-13
# VQ-VAEを用いた神経形態保存ボリュームデータ符号化

Neuromorphologicaly-preserving Volumetric data encoding using VQ-VAE ( http://arxiv.org/abs/2002.05692v1 )

ライセンス: Link先を確認
Petru-Daniel Tudosiu and Thomas Varsavsky and Richard Shaw and Mark Graham and Parashkev Nachev and Sebastien Ourselin and Carole H. Sudre and M. Jorge Cardoso(参考訳) ディープラーニングアーキテクチャの効率性とコンパクト性の向上とハードウェアの改善により、より高解像度の医療用ボリュームデータの複雑かつ高次元モデリングが可能になった。 近年、Vector-Quantized Variational Autoencoders (VQ-VAE) は、デコードされた忠実さを保ちながら、画像の初期サイズをわずかにエンコードできる効率的な生成的教師なし学習手法として提案されている。 本稿では、vq-vaeにインスパイアされたネットワークが、フル解像度の3d脳ボリュームを効率的にエンコードし、画像の忠実性を維持しながら、元のサイズの0.825\%$に圧縮し、以前の最先端を著しく上回ることを示す。 次にvq-vae復号画像がvoxelに基づく形態と分割実験により元のデータの形態的特徴を保存できることを実証する。 最後に、バイアスを導入することなく、これらのモデルを事前学習し、異なるデータセット上で微調整できることを示します。

The increasing efficiency and compactness of deep learning architectures, together with hardware improvements, have enabled the complex and high-dimensional modelling of medical volumetric data at higher resolutions. Recently, Vector-Quantised Variational Autoencoders (VQ-VAE) have been proposed as an efficient generative unsupervised learning approach that can encode images to a small percentage of their initial size, while preserving their decoded fidelity. Here, we show a VQ-VAE inspired network can efficiently encode a full-resolution 3D brain volume, compressing the data to $0.825\%$ of the original size while maintaining image fidelity, and significantly outperforming the previous state-of-the-art. We then demonstrate that VQ-VAE decoded images preserve the morphological characteristics of the original data through voxel-based morphology and segmentation experiments. Lastly, we show that such models can be pre-trained and then fine-tuned on different datasets without the introduction of bias.
翻訳日:2023-01-01 13:58:28 公開日:2020-02-13
# 非侵襲的脳刺激のためのパーソナライズされた深部脳構造のエンドツーエンド意味セグメンテーション

End-to-end semantic segmentation of personalized deep brain structures for non-invasive brain stimulation ( http://arxiv.org/abs/2002.05487v1 )

ライセンス: Link先を確認
Essam A. Rashed, Jose Gomez-Tames, Akimasa Hirata(参考訳) 深部脳領域の電気刺激または変調は、いくつかの神経系の障害の治療に一般的に用いられる。 特に、経頭蓋直流刺激(tDCS)は、頭皮に付着した電極を介して適用される安価な臨床応用として広く用いられている。 しかし, 解剖学的複雑度と物体間変動性が高いため, 異なる脳領域における電場(EF)の量と分布を決定することは困難である。 パーソナライズされたtDCSは、正確なターゲティングのために電極モンタージュを許容するために使われる新しい臨床試験である。 この手順はMRIなどの解剖学的画像から生成された計算ヘッドモデルによって導かれる。 セグメント化ヘッドモデルにおけるEFの分布はシミュレーション研究によって計算できる。 したがって、異なる脳構造の高速で正確で実現可能なセグメンテーションは、カスタマイズされたtDCS研究により良い調整をもたらす。 本研究では,脳深部セグメンテーションのための単一エンコーダマルチデコーダ畳み込みニューラルネットワークを提案する。 提案したアーキテクチャは、T1強調MRIを用いて7つの深部脳構造をセグメント化するように訓練されている。 ネットワーク生成モデルはセミオートマチック法を用いて構築された参照モデルと比較され、特にタラモス(Dice Coefficient (DC) = 94.70%)、コーダテ(DC = 91.98%)、プータメン(DC = 90.31%)構造において高いマッチングを示す。 生成モデルと参照モデルのtdcにおける電界分布は一致し,臨床における有用性が示唆された。

Electro-stimulation or modulation of deep brain regions is commonly used in clinical procedures for the treatment of several nervous system disorders. In particular, transcranial direct current stimulation (tDCS) is widely used as an affordable clinical application that is applied through electrodes attached to the scalp. However, it is difficult to determine the amount and distribution of the electric field (EF) in the different brain regions due to anatomical complexity and high inter-subject variability. Personalized tDCS is an emerging clinical procedure that is used to tolerate electrode montage for accurate targeting. This procedure is guided by computational head models generated from anatomical images such as MRI. Distribution of the EF in segmented head models can be calculated through simulation studies. Therefore, fast, accurate, and feasible segmentation of different brain structures would lead to a better adjustment for customized tDCS studies. In this study, a single-encoder multi-decoders convolutional neural network is proposed for deep brain segmentation. The proposed architecture is trained to segment seven deep brain structures using T1-weighted MRI. Network generated models are compared with a reference model constructed using a semi-automatic method, and it presents a high matching especially in Thalamus (Dice Coefficient (DC) = 94.70%), Caudate (DC = 91.98%) and Putamen (DC = 90.31%) structures. Electric field distribution during tDCS in generated and reference models matched well each other, suggesting its potential usefulness in clinical practice.
翻訳日:2023-01-01 13:58:09 公開日:2020-02-13
# 深部強化学習に基づく低レイテンシネットワーク用ビームトラッキング

Deep Reinforcement Learning-Based Beam Tracking for Low-Latency Services in Vehicular Networks ( http://arxiv.org/abs/2002.05564v1 )

ライセンス: Link先を確認
Yan Liu, Zhiyuan Jiang, Shunqing Zhang, Shugong Xu(参考訳) ミリ波帯の車両網におけるultra-reliable and low-latency communications (urllc) サービスは、ビーム方向を常に調整する必要があるため、大きな課題となっている。 従来の手法は主に古典的な制御理論、例えばカルマンフィルタとその変種に基づいており、主に定常シナリオを扱う。 したがって、特に複雑で動的なv2xチャネルでは、厳しいアプリケーション制限が存在する。 本稿では,従来の手法である拡張カルマンフィルタ (EKF) とパーティクルフィルタ (PF) を非定常シナリオに適用し,次に,典型的な交叉シナリオにおけるURLLC要求を実現するための強化学習 (RL) に基づくアプローチを提案する。 商用光線トレーシングシミュレータによるシミュレーション結果から,EKF法とPF法が拡張されてパケット遅延が10$ms以上になるのに対し,提案手法はトレーニングデータからコンテキスト情報を抽出することにより,遅延時間を約6$msに短縮する。

Ultra-Reliable and Low-Latency Communications (URLLC) services in vehicular networks on millimeter-wave bands present a significant challenge, considering the necessity of constantly adjusting the beam directions. Conventional methods are mostly based on classical control theory, e.g., Kalman filter and its variations, which mainly deal with stationary scenarios. Therefore, severe application limitations exist, especially with complicated, dynamic Vehicle-to-Everything (V2X) channels. This paper gives a thorough study of this subject, by first modifying the classical approaches, e.g., Extended Kalman Filter (EKF) and Particle Filter (PF), for non-stationary scenarios, and then proposing a Reinforcement Learning (RL)-based approach that can achieve the URLLC requirements in a typical intersection scenario. Simulation results based on a commercial ray-tracing simulator show that enhanced EKF and PF methods achieve packet delay more than $10$ ms, whereas the proposed deep RL-based method can reduce the latency to about $6$ ms, by extracting context information from the training data.
翻訳日:2023-01-01 13:57:45 公開日:2020-02-13
# photon wizard -- 教育用機械学習コードジェネレータに向けて

The PHOTON Wizard -- Towards Educational Machine Learning Code Generators ( http://arxiv.org/abs/2002.05432v1 )

ライセンス: Link先を確認
Ramona Leenings, Nils Ralf Winter, Kelvin Sarink, Jan Ernsting, Xiaoyi Jiang, Udo Dannlowski, Tim Hahn(参考訳) 機械学習の民主化、特に応用科学における多大な努力にもかかわらず、この応用はコーディングスキルの欠如によってしばしば妨げられている。 効率的で効率的な機械学習ソリューションを構築するためのプログラム理解の鍵を考えるとき、私たちは、プログラミングスキルを応用科学のターゲットグループに伝えるグラフィカルユーザインタフェースのアクセシビリティと受け入れを基盤とした、新しい教育的アプローチを議論します。 本稿では,概念実証,オープンソース Web アプリケーション PHOTON Wizard について概説し,GUI インタラクションを Python 機械学習フレームワーク PHOTON の有効なソースコードに動的に変換する。 これにより、理論的機械学習知識を持つユーザは、モデル開発ワークフローに関する重要な洞察と、カスタム実装の直感的な理解を得ることができる。 具体的には、PHOTON Wizardは教育機械学習コードジェネレータの概念を統合し、ユーザーがカスタム機械学習パイプラインの設計、トレーニング、最適化、評価のためのコードを書く方法を教える。

Despite the tremendous efforts to democratize machine learning, especially in applied-science, the application is still often hampered by the lack of coding skills. As we consider programmatic understanding key to building effective and efficient machine learning solutions, we argue for a novel educational approach that builds upon the accessibility and acceptance of graphical user interfaces to convey programming skills to an applied-science target group. We outline a proof-of-concept, open-source web application, the PHOTON Wizard, which dynamically translates GUI interactions into valid source code for the Python machine learning framework PHOTON. Thereby, users possessing theoretical machine learning knowledge gain key insights into the model development workflow as well as an intuitive understanding of custom implementations. Specifically, the PHOTON Wizard integrates the concept of Educational Machine Learning Code Generators to teach users how to write code for designing, training, optimizing and evaluating custom machine learning pipelines.
翻訳日:2023-01-01 13:49:36 公開日:2020-02-13
# ニューラルネットワークを用いた拡張ターゲット追跡と分類

Extended Target Tracking and Classification Using Neural Networks ( http://arxiv.org/abs/2002.05462v1 )

ライセンス: Link先を確認
Bark{\i}n Tuncer, Murat Kumru, Emre \"Ozkan(参考訳) 拡張ターゲット/オブジェクト追跡(ETT)問題は、単一のセンサースキャンで複数の測定値を生成するオブジェクトを追跡することである。 最先端のETTアルゴリズムは、これらの測定で利用可能な情報を利用して、オブジェクトの動的挙動を追跡し、その形状を同時に学習することができる。 オブジェクトの形状推定が作成されれば、オブジェクトタイプの分類のような高レベルなタスクによって自然に利用することができる。 本研究では,1つの入力層と2つの隠れ層と1つの出力層から構成されるナリーディープニューラルネットワークを用いて,その形状推定について動的オブジェクトを分類する。 提案手法はシミュレーション実験におけるベイズ分類器と比較して優れた性能を示す。

Extended target/object tracking (ETT) problem involves tracking objects which potentially generate multiple measurements at a single sensor scan. State-of-the-art ETT algorithms can efficiently exploit the available information in these measurements such that they can track the dynamic behaviour of objects and learn their shapes simultaneously. Once the shape estimate of an object is formed, it can naturally be utilized by high-level tasks such as classification of the object type. In this work, we propose to use a naively deep neural network, which consists of one input, two hidden and one output layers, to classify dynamic objects regarding their shape estimates. The proposed method shows superior performance in comparison to a Bayesian classifier for simulation experiments.
翻訳日:2023-01-01 13:49:20 公開日:2020-02-13
# ストリーミングモデルにおける濃度とマトロイド制約下でのモノトンサブモジュラー関数の最大化の近似可能性

Approximability of Monotone Submodular Function Maximization under Cardinality and Matroid Constraints in the Streaming Model ( http://arxiv.org/abs/2002.05477v1 )

ライセンス: Link先を確認
Chien-Chung Huang and Naonori Kakimura and Simon Mauras and Yuichi Yoshida(参考訳) 様々な制約の下での単調部分モジュラ函数の最大化は古典的かつ集中的に研究された問題である。 しかし、入力要素が1個ずつ到着し、アルゴリズムが少数の入力要素しか格納できないシングルパスストリーミングモデルでは、文献でいくつかの近似アルゴリズムが提案されているにもかかわらず、我々の知識には大きなギャップがある。 本研究では,1-\frac{1}{e}$を1パスのストリーミングモデルで上回った濃度とマトロイドの制約に対する近似比の最初の下界を示す。 n$をストリーム内の要素の数とする。 次に、近似比 $\frac{2}{2+\sqrt{2}}+\varepsilon$ を持つ濃度制約に対する任意の(ランダム化された)ストリーミングアルゴリズムは、$\varepsilon>0$ に対して$\omega\left(\frac{n}{k^2}\right)$空間を必要とし、ここで $k$ は出力集合のサイズ制限である。 また、近似比 $\frac{k}{2k-1}+\varepsilon$ を持つ(分割された)マトロイド制約に対する任意の(ランダム化された)ストリーミングアルゴリズムは、任意の $\varepsilon>0$ に対して $\omega\left(\frac{n}{k}\right)$ space を必要とし、ここで $k$ は与えられたマトロイドのランクである。 さらに,弱いオラクルしか持たない場合,実現可能な集合上の関数値のみを評価可能なストリーミングアルゴリズムを提案する。 具体的には、近似比が$\frac{k}{2k-1}$と$\frac{1}{2}$であるような濃度とマトロイド制約に対する弱いoracleのストリーミングアルゴリズムを示し、その空間複雑性は$k$で指数関数的だが$n$とは独立である。 前者は弱オラクルモデルにおける濃度制約に対する既知の不近似結果と正確に一致する。 後者は、matroid制約に対する$\frac{k}{2k-1}$の下限にほぼ一致する。これは、空間複雑性が$n$から独立なストリーミングアルゴリズムによって得られるmatroid制約の近似比をほぼ解決するものである。

Maximizing a monotone submodular function under various constraints is a classical and intensively studied problem. However, in the single-pass streaming model, where the elements arrive one by one and an algorithm can store only a small fraction of input elements, there is much gap in our knowledge, even though several approximation algorithms have been proposed in the literature. In this work, we present the first lower bound on the approximation ratios for cardinality and matroid constraints that beat $1-\frac{1}{e}$ in the single-pass streaming model. Let $n$ be the number of elements in the stream. Then, we prove that any (randomized) streaming algorithm for a cardinality constraint with approximation ratio $\frac{2}{2+\sqrt{2}}+\varepsilon$ requires $\Omega\left(\frac{n}{K^2}\right)$ space for any $\varepsilon>0$, where $K$ is the size limit of the output set. We also prove that any (randomized) streaming algorithm for a (partition) matroid constraint with approximation ratio $\frac{K}{2K-1}+\varepsilon$ requires $\Omega\left(\frac{n}{K}\right)$ space for any $\varepsilon>0$, where $K$ is the rank of the given matroid. In addition, we give streaming algorithms when we only have a weak oracle with which we can only evaluate function values on feasible sets. Specifically, we show weak-oracle streaming algorithms for cardinality and matroid constraints with approximation ratios $\frac{K}{2K-1}$ and $\frac{1}{2}$, respectively, whose space complexity is exponential in $K$ but is independent of $n$. The former one exactly matches the known inapproximability result for a cardinality constraint in the weak oracle model. The latter one almost matches our lower bound of $\frac{K}{2K-1}$ for a matroid constraint, which almost settles the approximation ratio for a matroid constraint that can be obtained by a streaming algorithm whose space complexity is independent of $n$.
翻訳日:2023-01-01 13:48:56 公開日:2020-02-13
# 制約付き最適化による多目的ランキング

Multi-objective Ranking via Constrained Optimization ( http://arxiv.org/abs/2002.05753v1 )

ライセンス: Link先を確認
Michinari Momma, Alireza Bagheri Garakani, Nanxun Ma, Yi Sun(参考訳) 本稿では,複数の目的(MO)を探索ランク付けアルゴリズムに組み込むための拡張ラグランジアン方式を提案する。 MOを最適化することは、本番環境でランキングモデルを構築する上で必須かつ現実的な要件である。 提案手法は制約付き最適化でMOを定式化し,提案手法の新たな貢献であるBoostingフレームワークの問題を解く。 さらに,問題内のすべての最適化パラメータを設定する手順を提案する。 実験の結果,既存の手法よりもMO基準をはるかに効率的に達成できることがわかった。

In this paper, we introduce an Augmented Lagrangian based method to incorporate the multiple objectives (MO) in a search ranking algorithm. Optimizing MOs is an essential and realistic requirement for building ranking models in production. The proposed method formulates MO in constrained optimization and solves the problem in the popular Boosting framework -- a novel contribution of our work. Furthermore, we propose a procedure to set up all optimization parameters in the problem. The experimental results show that the method successfully achieves MO criteria much more efficiently than existing methods.
翻訳日:2023-01-01 13:47:40 公開日:2020-02-13
# 聞き取りを強くする:画像による失語音声の復元

Looking Enhances Listening: Recovering Missing Speech Using Images ( http://arxiv.org/abs/2002.05639v1 )

ライセンス: Link先を確認
Tejas Srinivasan, Ramon Sanabria, Florian Metze(参考訳) 音声は視覚的コンテキストを用いてよりよく理解され、そのため、自動音声認識(ASR)システムに画像を適用する試みが数多く行われている。 しかし、現在の研究によると、視覚的に適応されたASRモデルは、画像のみを正規化信号として使用し、意味的内容を完全に無視している。 本稿では,雑音条件下での視覚的モダリティの有用性を示す一連の実験について述べる。 この結果から,マルチモーダル ASR モデルでは,入力音響信号に隠蔽された単語を,視覚的表現を用いて接地することで復元できることがわかった。 視覚的なコンテキストの統合は,マスキングワードリカバリにおいて,最大35%の相対的改善をもたらす可能性がある。 これらの結果は、視覚的コンテキストを活用することで、エンドツーエンドのマルチモーダルASRシステムがノイズに対してより堅牢になることを示す。

Speech is understood better by using visual context; for this reason, there have been many attempts to use images to adapt automatic speech recognition (ASR) systems. Current work, however, has shown that visually adapted ASR models only use images as a regularization signal, while completely ignoring their semantic content. In this paper, we present a set of experiments where we show the utility of the visual modality under noisy conditions. Our results show that multimodal ASR models can recover words which are masked in the input acoustic signal, by grounding its transcriptions using the visual representations. We observe that integrating visual context can result in up to 35% relative improvement in masked word recovery. These results demonstrate that end-to-end multimodal ASR systems can become more robust to noise by leveraging the visual context.
翻訳日:2023-01-01 13:40:39 公開日:2020-02-13
# MLFcGAN:水中画像色補正のためのマルチレベル特徴フュージョンに基づく条件付きGAN

MLFcGAN: Multi-level Feature Fusion based Conditional GAN for Underwater Image Color Correction ( http://arxiv.org/abs/2002.05333v1 )

ライセンス: Link先を確認
Xiaodong Liu, Zhi Gao, and Ben M. Chen(参考訳) 水中画像の色補正は、水中のシナリオで利用可能な成熟した視覚アルゴリズムの促進に重要な役割を担っているため、関心が高まりつつある。 多くの視覚タスクにおけるディープ畳み込みニューラルネットワーク(DCNN)技術,特に複数スケールの特徴抽出における強みに着想を得て,水中画像色補正のための条件付き生成対向ネットワーク(GAN)に基づくディープマルチスケール特徴融合ネットを提案する。 ネットワークでは,まずマルチスケールの特徴を抽出し,各スケールの局所的特徴をグローバルな特徴で拡張する。 この設計は、より効率的で高速なネットワーク学習を促進するために検証され、色補正とディテール保存の両方の性能が向上した。 広範な実験を行い,最先端の手法と比較し,定量的・定性的に評価した。

Color correction for underwater images has received increasing interests, due to its critical role in facilitating available mature vision algorithms for underwater scenarios. Inspired by the stunning success of deep convolutional neural networks (DCNNs) techniques in many vision tasks, especially the strength in extracting features in multiple scales, we propose a deep multi-scale feature fusion net based on the conditional generative adversarial network (GAN) for underwater image color correction. In our network, multi-scale features are extracted first, followed by augmenting local features on each scale with global features. This design was verified to facilitate more effective and faster network learning, resulting in better performance in both color correction and detail preservation. We conducted extensive experiments and compared with the state-of-the-art approaches quantitatively and qualitatively, showing that our method achieves significant improvements.
翻訳日:2023-01-01 13:40:12 公開日:2020-02-13
# 平面グラフ上を移動する目標の協調観測と位置予測

Cooperative Observation of Targets moving over a Planar Graph with Prediction of Positions ( http://arxiv.org/abs/2002.05294v1 )

ライセンス: Link先を確認
Jos\'e E. B. Maia and Levi P. Figueredo(参考訳) ターゲットとオブザーバーという2種類のエージェントを持つチームを考える。 オブザーバー(Observer)は、地表の平面グラフを形成する経路に制限された移動で陸地を移動する目標を観測する空中UAVである。 オブザーバは限られた視野を持ち、ターゲットはオブザーバを避けない。 目的は観測区間で観測された目標数の積分を最大化することである。 短期的な目標の将来の位置が予測可能であるという事実を活かして、今回の記事では、CTO問題の新しい設定において、以前のバージョンを上回る修正された登山アルゴリズムを示す。

Consider a team with two types of agents: targets and observers. Observers are aerial UAVs that observe targets moving on land with their movements restricted to the paths that form a planar graph on the surface. Observers have limited range of vision and targets do not avoid observers. The objective is to maximize the integral of the number of targets observed in the observation interval. Taking advantage of the fact that the future positions of targets in the short term are predictable, we show in this article a modified hill climbing algorithm that surpasses its previous versions in this new setting of the CTO problem.
翻訳日:2023-01-01 13:39:36 公開日:2020-02-13
# nn-pars:並列ニューラルネットワークに基づく回路シミュレーションフレームワーク

NN-PARS: A Parallelized Neural Network Based Circuit Simulation Framework ( http://arxiv.org/abs/2002.05292v1 )

ライセンス: Link先を確認
Mohammad Saeed Abrishami, Hao Ge, Justin F. Calderon, Massoud Pedram, Shahin Nazarian(参考訳) トランジスタジオメトリの縮小と集積回路の複雑さの増大により、非線形設計の挙動は著しく悪化した。 これは設計品質と市場投入までの時間制約を満たすために正確で高速な回路シミュレーションを必要とする。 ルックアップテーブルおよび/またはクローズドフォーム式を利用する既存の回路シミュレータは、数十億のトランジスタを用いた設計の非線形挙動の解析において遅いか不正確なものである。 これらの欠点に対処するため、基礎となるGPU並列処理機能に従って、シミュレーションタスクのイベント駆動スケジューリングを最適化したニューラルネットワーク(NN)ベースの並列回路シミュレーションフレームワークであるNN-PARSを提案する。 NN-PARSは、従来の手法で要求されるメモリクエリを、並列化されたNNベースの計算タスクで置き換える。 NN-PARSは、最先端の電流ベースシミュレーション法と比較して、大容量回路における2桁以上のシミュレーション時間を短縮することを示した。 NN-PARSは信号波形計算の精度も高く、HSPICEと比較して誤差は2\%以下である。

The shrinking of transistor geometries as well as the increasing complexity of integrated circuits, significantly aggravate nonlinear design behavior. This demands accurate and fast circuit simulation to meet the design quality and time-to-market constraints. The existing circuit simulators which utilize lookup tables and/or closed-form expressions are either slow or inaccurate in analyzing the nonlinear behavior of designs with billions of transistors. To address these shortcomings, we present NN-PARS, a neural network (NN) based and parallelized circuit simulation framework with optimized event-driven scheduling of simulation tasks to maximize concurrency, according to the underlying GPU parallel processing capabilities. NN-PARS replaces the required memory queries in traditional techniques with parallelized NN-based computation tasks. Experimental results show that compared to a state-of-the-art current-based simulation method, NN-PARS reduces the simulation time by over two orders of magnitude in large circuits. NN-PARS also provides high accuracy levels in signal waveform calculations, with less than $2\%$ error compared to HSPICE.
翻訳日:2023-01-01 13:38:55 公開日:2020-02-13
# アンチジャミング通信のための高速強化学習

Fast Reinforcement Learning for Anti-jamming Communications ( http://arxiv.org/abs/2002.05364v1 )

ライセンス: Link先を確認
Pei-Gen Ye, Yuan-Gen Wang, Jin Li, Liang Xiao(参考訳) このレターは、反ジャミングコミュニケーションのための高速な強化学習アルゴリズムを示し、確率$\tau$で以前のアクションを選択し、確率$(1-\tau)$で$\epsilon$-greedyを適用する。 従来の複数の動作の平均値に基づく動的閾値を設計し、確率$\tau$を無線装置を誘導するガウス関数として定式化する。 具体的な例として,提案手法は複数のジャマーに対する無線通信システムにおいて実装されている。 実験の結果,提案アルゴリズムはQ-learing, Deep Q-networks (DQN), double DQN (DDQN), priorityd experience response based DDQN (PDDQN) を信号対干渉+雑音比と収束率で上回った。

This letter presents a fast reinforcement learning algorithm for anti-jamming communications which chooses previous action with probability $\tau$ and applies $\epsilon$-greedy with probability $(1-\tau)$. A dynamic threshold based on the average value of previous several actions is designed and probability $\tau$ is formulated as a Gaussian-like function to guide the wireless devices. As a concrete example, the proposed algorithm is implemented in a wireless communication system against multiple jammers. Experimental results demonstrate that the proposed algorithm exceeds Q-learing, deep Q-networks (DQN), double DQN (DDQN), and prioritized experience reply based DDQN (PDDQN), in terms of signal-to-interference-plus-noise ratio and convergence rate.
翻訳日:2023-01-01 13:38:36 公開日:2020-02-13
# イベントベース物体追跡のための適応時間面の非同期追従検出

Asynchronous Tracking-by-Detection on Adaptive Time Surfaces for Event-based Object Tracking ( http://arxiv.org/abs/2002.05583v1 )

ライセンス: Link先を確認
Haosheng Chen, Qiangqiang Wu, Yanjie Liang, Xinbo Gao, Hanzi Wang(参考訳) 非同期バイオインスパイアされた視覚センサであるイベントカメラは、高速モーションや低照度シーンなど、さまざまな状況において大きな可能性を示している。 しかし、イベントベースのオブジェクト追跡手法のほとんどは、コンテキストのないオブジェクトと乱雑な背景を持つシナリオ用に設計されている。 バウンディングボックスベースのオブジェクトトラッキングをサポートするイベントベースのオブジェクトトラッキングメソッドは少ない。 この作業の主なアイデアは、汎用的なバウンディングボックスベースのオブジェクトトラッキングのための非同期イベントベースのトラッキング・バイ・ディテククション(ETD)メソッドを提案することである。 この目的を達成するために、非同期網膜イベントの時空間情報を非同期かつ効果的に予測するATSLTD(Adaptive Time-Surface with Linear Time Decay)イベント・ツー・フレーム変換アルゴリズムを提案する。 本研究では,atsltdフレームのシーケンスをetd法に供給し,イベントカメラの高時間分解能特性を活かし,高精度かつ効率的な物体追跡を行う。 提案手法と,従来のカメラやイベントカメラをベースとした7種類のオブジェクト追跡手法と,ETDの2種類のバリエーションを比較した。 実験結果から,様々な難易度環境に対するETD法の有効性が示された。

Event cameras, which are asynchronous bio-inspired vision sensors, have shown great potential in a variety of situations, such as fast motion and low illumination scenes. However, most of the event-based object tracking methods are designed for scenarios with untextured objects and uncluttered backgrounds. There are few event-based object tracking methods that support bounding box-based object tracking. The main idea behind this work is to propose an asynchronous Event-based Tracking-by-Detection (ETD) method for generic bounding box-based object tracking. To achieve this goal, we present an Adaptive Time-Surface with Linear Time Decay (ATSLTD) event-to-frame conversion algorithm, which asynchronously and effectively warps the spatio-temporal information of asynchronous retinal events to a sequence of ATSLTD frames with clear object contours. We feed the sequence of ATSLTD frames to the proposed ETD method to perform accurate and efficient object tracking, which leverages the high temporal resolution property of event cameras. We compare the proposed ETD method with seven popular object tracking methods, that are based on conventional cameras or event cameras, and two variants of ETD. The experimental results show the superiority of the proposed ETD method in handling various challenging environments.
翻訳日:2023-01-01 13:31:53 公開日:2020-02-13
# ランキング統計を用いた新しい視覚カテゴリの自動発見と学習

Automatically Discovering and Learning New Visual Categories with Ranking Statistics ( http://arxiv.org/abs/2002.05714v1 )

ライセンス: Link先を確認
Kai Han and Sylvestre-Alvise Rebuffi and Sebastien Ehrhardt and Andrea Vedaldi and Andrew Zisserman(参考訳) 本稿では,他のクラスをラベル付けした画像コレクションにおける新しいクラス発見の問題に取り組む。 この設定は半教師付き学習と似ているが、新しいクラスのラベル付き例がないため、かなり難しい。 次に、課題は、ラベル付き画像に含まれる情報を利用して汎用クラスタリングモデルを学び、後者を使ってラベル付きデータの新しいクラスを識別することである。 In this work we address this problem by combining three ideas: (1) we suggest that the common approach of bootstrapping an image representation using the labeled data only introduces an unwanted bias, and that this can be avoided by using self-supervised learning to train the representation from scratch on the union of labelled and unlabelled data; (2) we use rank statistics to transfer the model's knowledge of the labelled classes to the problem of clustering the unlabelled images; and, (3) we train the data representation by optimizing a joint objective function on the labelled and unlabelled subsets of the data, improving both the supervised classification of the labelled data, and the clustering of the unlabelled data. 我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を有意差で評価した。

We tackle the problem of discovering novel classes in an image collection given labelled examples of other classes. This setting is similar to semi-supervised learning, but significantly harder because there are no labelled examples for the new classes. The challenge, then, is to leverage the information contained in the labelled images in order to learn a general-purpose clustering model and use the latter to identify the new classes in the unlabelled data. In this work we address this problem by combining three ideas: (1) we suggest that the common approach of bootstrapping an image representation using the labeled data only introduces an unwanted bias, and that this can be avoided by using self-supervised learning to train the representation from scratch on the union of labelled and unlabelled data; (2) we use rank statistics to transfer the model's knowledge of the labelled classes to the problem of clustering the unlabelled images; and, (3) we train the data representation by optimizing a joint objective function on the labelled and unlabelled subsets of the data, improving both the supervised classification of the labelled data, and the clustering of the unlabelled data. We evaluate our approach on standard classification benchmarks and outperform current methods for novel category discovery by a significant margin.
翻訳日:2023-01-01 13:31:04 公開日:2020-02-13
# アジアコレクターのシールインプリントにおける文字のセグメンテーション--古代文字書体に基づく検索の試み

Character Segmentation in Asian Collector's Seal Imprints: An Attempt to Retrieval Based on Ancient Character Typeface ( http://arxiv.org/abs/2003.00831v1 )

ライセンス: Link先を確認
Kangying Li, Biligsaikhan Batjargal, Akira Maeda(参考訳) コレクターのアザラシは、本の所有権に関する重要な手がかりを提供する。 これらは、古代資料の本質的な要素に関する多くの情報を含み、所有の詳細、本との関係、収集者のアイデンティティ、その社会的地位や富などを示す。 アジアの収集家は通常、アザラシを作るために現代のものよりも芸術的な古代の文字を使った。 所有者の名前に加えて、より深い意味を表現するために使われる言葉もいくつかある。 これらの文字を自動的に認識するシステムは、愛好家やプロがアザラシの背景情報を理解するのに役立つ。 しかし、一部のアザラシのサンプルが不足し、ほとんどが劣化した画像であるため、トレーニングデータやラベル付き画像が不足している。 このような少ないデータを完全に利用する新しい方法を見つける必要がある。 これらのデータはオンラインで入手できるが、文字の位置に関する情報は含まれていない。 本研究の目的は,多くの計算資源を消費することなく,アジアのコレクターの印字からより多くの情報を得るための検索ツールを提供することである。 本稿では,文字座標情報を含むラベル付きトレーニングデータなしで,候補文字の領域を予測するための文字分割手法を提案する。 また,アザラシ検索とマッチングを支援するために,単一文字に着目した検索ベース認識システムを提案する。 実験の結果,提案手法はアジアのコレクターのアザラシで良好に動作し,テストデータの92%が正しくセグメンテーションされていることがわかった。

Collector's seals provide important clues about the ownership of a book. They contain much information pertaining to the essential elements of ancient materials and also show the details of possession, its relation to the book, the identity of the collectors and their social status and wealth, amongst others. Asian collectors have typically used artistic ancient characters rather than modern ones to make their seals. In addition to the owner's name, several other words are used to express more profound meanings. A system that automatically recognizes these characters can help enthusiasts and professionals better understand the background information of these seals. However, there is a lack of training data and labelled images, as samples of some seals are scarce and most of them are degraded images. It is necessary to find new ways to make full use of such scarce data. While these data are available online, they do not contain information on the characters'position. The goal of this research is to provide retrieval tools assist in obtaining more information from Asian collector's seals imprints without consuming a lot of computational resources. In this paper, a character segmentation method is proposed to predict the candidate characters'area without any labelled training data that contain character coordinate information. A retrieval-based recognition system that focuses on a single character is also proposed to support seal retrieval and matching. The experimental results demonstrate that the proposed character segmentation method performs well on Asian collector's seals, with 92% of the test data being correctly segmented.
翻訳日:2023-01-01 13:30:48 公開日:2020-02-13
# 平均重み付き単語ベクトル特徴を用いた感性分析

Sentiment Analysis Using Averaged Weighted Word Vector Features ( http://arxiv.org/abs/2002.05606v1 )

ライセンス: Link先を確認
Ali Erkan and Tunga Gungor(参考訳) 人々はworld wide webを多用し、製品、サービス、旅行先などのエンティティと経験を共有している。 オンラインフィードバックをレビューやコメント形式で提供するテキストは、消費者の判断に不可欠である。 これらのコメントは、製品やサービスに関する満足度を測定するために使われる価値ある情報源を生み出します。 感性分析は、そのようなテキスト断片で表される意見を特定するタスクである。 本研究では,異なる種類の単語ベクトルを組み合わせてレビューの極性を学習し,推定する2つの手法を開発する。 我々は、単語ベクトルからの平均レビューベクトルを開発し、正および負の感度タグ付きレビューで単語周波数を用いたレビューベクトルに重みを付加する。 本手法を,感情分析の標準ベンチマークとして使用する,異なる領域の複数のデータセットに適用した。 我々は,既存の手法と技術を融合させ,文献のアプローチとの比較を行った。 その結果,我々のアプローチのパフォーマンスは最先端の成功率を上回っていることがわかった。

People use the world wide web heavily to share their experience with entities such as products, services, or travel destinations. Texts that provide online feedback in the form of reviews and comments are essential to make consumer decisions. These comments create a valuable source that may be used to measure satisfaction related to products or services. Sentiment analysis is the task of identifying opinions expressed in such text fragments. In this work, we develop two methods that combine different types of word vectors to learn and estimate polarity of reviews. We develop average review vectors from word vectors and add weights to this review vectors using word frequencies in positive and negative sensitivity-tagged reviews. We applied the methods to several datasets from different domains that are used as standard benchmarks for sentiment analysis. We ensemble the techniques with each other and existing methods, and we make a comparison with the approaches in the literature. The results show that the performances of our approaches outperform the state-of-the-art success rates.
翻訳日:2023-01-01 13:30:24 公開日:2020-02-13
# 音声言語理解システムにおけるクエリ書き換えのための事前学習

Pre-Training for Query Rewriting in A Spoken Language Understanding System ( http://arxiv.org/abs/2002.05607v1 )

ライセンス: Link先を確認
Zheng Chen, Xing Fan, Yuan Ling, Lambert Mathias, Chenlei Guo(参考訳) クエリ書き換え(QR)は、音声認識エラー、言語理解エラー、エンティティ解決エラーなどの様々なソースから発生する、音声言語理解パイプラインにおけるエラーによる顧客の摩擦を低減するための、ますます重要なテクニックである。 本研究ではまず,クエリ書き換えのためのニューラルネットワークに基づく手法を提案する。 そして、事前学習された文脈言語埋め込みの成功に触発され、またQRトレーニングデータの不足を補う手段として、音声アシスタントを用いた歴史的ユーザ会話データに対する事前学習クエリ埋め込みに対する言語モデリング(LM)に基づくアプローチを提案する。 さらに,言語理解システムによって生成されたNLU仮説を用いて事前学習を強化することを提案する。 実験では,事前学習が豊富な事前情報を提供し,qrタスクの性能向上を支援することを示した。 また,NLU仮説との併用による事前トレーニングにより,さらなるメリットが示された。 最後に、事前トレーニング後、QRモデルの微調整に十分である小さなリライトペアが、すべてのQRトレーニングデータに対する完全なトレーニングによって、強力なベースラインを上回ります。

Query rewriting (QR) is an increasingly important technique to reduce customer friction caused by errors in a spoken language understanding pipeline, where the errors originate from various sources such as speech recognition errors, language understanding errors or entity resolution errors. In this work, we first propose a neural-retrieval based approach for query rewriting. Then, inspired by the wide success of pre-trained contextual language embeddings, and also as a way to compensate for insufficient QR training data, we propose a language-modeling (LM) based approach to pre-train query embeddings on historical user conversation data with a voice assistant. In addition, we propose to use the NLU hypotheses generated by the language understanding system to augment the pre-training. Our experiments show pre-training provides rich prior information and help the QR task achieve strong performance. We also show joint pre-training with NLU hypotheses has further benefit. Finally, after pre-training, we find a small set of rewrite pairs is enough to fine-tune the QR model to outperform a strong baseline by full training on all QR training data.
翻訳日:2023-01-01 13:30:11 公開日:2020-02-13
# 粒子物理学実験における畳み込みニューラルネットワークを用いた信号背景分類

The use of Convolutional Neural Networks for signal-background classification in Particle Physics experiments ( http://arxiv.org/abs/2002.05761v1 )

ライセンス: Link先を確認
Venkitesh Ayyar, Wahid Bhimji, Lisa Gerhardt, Sally Robertson and Zahra Ronaghi(参考訳) 画像分類における畳み込みニューラルネットワーク(cnns)の成功は、粒子物理学実験で得られた画像データの分類に使用する方法の研究を促している。 本稿では,CNNを粒子物理実験から得られた2次元および3次元画像データに適用し,背景からの信号の分類を行う。 本研究では,アイスキューブニュートリノ天文台とATLAS型検出器のシミュレーションデータに基づいて,HEP分類用ユースケースの信号/背景識別を高精度に行う畳み込みニューラルネットワーク探索を提案する。 我々は、パラメータの少ないcnnを用いて、複雑なresnetアーキテクチャと同等の精度を達成できることを実証し、計算要求、トレーニング、推論時間の比較を示す。

The success of Convolutional Neural Networks (CNNs) in image classification has prompted efforts to study their use for classifying image data obtained in Particle Physics experiments. Here, we discuss our efforts to apply CNNs to 2D and 3D image data from particle physics experiments to classify signal from background. In this work we present an extensive convolutional neural architecture search, achieving high accuracy for signal/background discrimination for a HEP classification use-case based on simulated data from the Ice Cube neutrino observatory and an ATLAS-like detector. We demonstrate among other things that we can achieve the same accuracy as complex ResNet architectures with CNNs with less parameters, and present comparisons of computational requirements, training and inference times.
翻訳日:2023-01-01 13:29:31 公開日:2020-02-13
# 時間論理制約下におけるPMDPの検証可能なRNN法

Verifiable RNN-Based Policies for POMDPs Under Temporal Logic Constraints ( http://arxiv.org/abs/2002.05615v1 )

ライセンス: Link先を確認
Steven Carr, Nils Jansen and Ufuk Topcu(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルな意思決定問題における制御ポリシーの効果的な表現として登場した。 しかし、RNNベースのポリシーの適用の大きな欠点は、安全や到達可能性といった行動仕様の満足度に関する正式な保証を提供することの難しさである。 本稿では,形式的手法と機械学習の技術を統合することにより,有限状態制御器(fsc)をrnnから自動的に抽出する手法を提案する。 具体的には,メモリを用いたランダム化ポリシとしてfscを作成するために,いわゆる量子化ボトルネック挿入手法を反復的に修正する。 結果のFSCが仕様を満たすことができない場合、検証は診断情報を生成する。 我々はこの情報を利用して抽出されたFSCのメモリ量を調整するか、RNNの集中的なリトレーニングを行う。 一般に適用されるが、部分的に観察可能なマルコフ決定プロセス(POMDP)のポリシー合成の文脈において、結果として生じる反復手順について詳述する。 数値実験により,提案手法はベンチマーク値の2%以内の3桁の精度で従来のPMDP合成法より優れていることが示された。

Recurrent neural networks (RNNs) have emerged as an effective representation of control policies in sequential decision-making problems. However, a major drawback in the application of RNN-based policies is the difficulty in providing formal guarantees on the satisfaction of behavioral specifications, e.g. safety and/or reachability. By integrating techniques from formal methods and machine learning, we propose an approach to automatically extract a finite-state controller (FSC) from an RNN, which, when composed with a finite-state system model, is amenable to existing formal verification tools. Specifically, we introduce an iterative modification to the so-called quantized bottleneck insertion technique to create an FSC as a randomized policy with memory. For the cases in which the resulting FSC fails to satisfy the specification, verification generates diagnostic information. We utilize this information to either adjust the amount of memory in the extracted FSC or perform focused retraining of the RNN. While generally applicable, we detail the resulting iterative procedure in the context of policy synthesis for partially observable Markov decision processes (POMDPs), which is known to be notoriously hard. The numerical experiments show that the proposed approach outperforms traditional POMDP synthesis methods by 3 orders of magnitude within 2% of optimal benchmark values.
翻訳日:2023-01-01 13:22:21 公開日:2020-02-13
# 人間の認知の効率は計画された情報処理を反映する

The Efficiency of Human Cognition Reflects Planned Information Processing ( http://arxiv.org/abs/2002.05769v1 )

ライセンス: Link先を確認
Mark K. Ho, David Abel, Jonathan D. Cohen, Michael L. Littman, Thomas L. Griffiths(参考訳) 計画は役に立つ。 長期的な効果が期待できる行動を取ることができる。 しかし、計画作りは難しい。 計算資源や認知資源を消費する結果について考える必要がある。 したがって、アクションを計画するべきですが、アクションの計画に使用するリソースのデプロイ方法についても賢明であるべきです。 別の言い方をすれば、人々は"計画"するべきです。 ここでは,計画のこの側面をメタリゾン問題として定式化し,タスク報酬と情報理論計画コストの両方を組み込んだ再帰的ベルマン目標として定式化する。 本報告では,課題の全体構造として計画とメタプランをどう扱うべきかを定量的に予測し,人間の参加者による2つの実験で検証する。 人々の反応時間は、私たちのアカウントと一致して、計画された情報処理の使用を反映している。 この計画計画の定式化は、人間と機械の両方における階層的計画、状態抽象化、認知制御の機能に関する新たな洞察を提供する。

Planning is useful. It lets people take actions that have desirable long-term consequences. But, planning is hard. It requires thinking about consequences, which consumes limited computational and cognitive resources. Thus, people should plan their actions, but they should also be smart about how they deploy resources used for planning their actions. Put another way, people should also "plan their plans". Here, we formulate this aspect of planning as a meta-reasoning problem and formalize it in terms of a recursive Bellman objective that incorporates both task rewards and information-theoretic planning costs. Our account makes quantitative predictions about how people should plan and meta-plan as a function of the overall structure of a task, which we test in two experiments with human participants. We find that people's reaction times reflect a planned use of information processing, consistent with our account. This formulation of planning to plan provides new insight into the function of hierarchical planning, state abstraction, and cognitive control in both humans and machines.
翻訳日:2023-01-01 13:22:00 公開日:2020-02-13
# インタラクションテストにおける冗長性の遺伝的アルゴリズム

Genetic Algorithms for Redundancy in Interaction Testing ( http://arxiv.org/abs/2002.05421v1 )

ライセンス: Link先を確認
Ryan E. Dougherty(参考訳) 大規模ソフトウェアシステム内のコンポーネントが機能的に動作するかどうかをテストすることが不可欠である。 インタラクションテストは一連のテストを設計することで、少数のコンポーネントが連携している場合に障害を検出することを保証する。 このテストのコストは一般的にテスト数によってモデル化されるため、この数を減らすために多くの労力が費やされている。 ここでは、非決定論的環境でのテストを可能にするモデルに冗長性を組み込む。 これらのテストスイートを構築する既存のアルゴリズムは通常、ほとんどのテストを生成するための"高速"アルゴリズムと、テストスイートを"完了"するための"より低い"アルゴリズムを含む。 我々は、これらのアプローチを一般化する遺伝的アルゴリズムを用いて、選択したアルゴリズムの数を増やし、冗長性も含んでいる。 ステージ数を増加させることで,既存の手法に比べてテスト数を削減できるだけでなく,生成時の計算時間も大幅に削減できることを示した。

It is imperative for testing to determine if the components within large-scale software systems operate functionally. Interaction testing involves designing a suite of tests, which guarantees to detect a fault if one exists among a small number of components interacting together. The cost of this testing is typically modeled by the number of tests, and thus much effort has been taken in reducing this number. Here, we incorporate redundancy into the model, which allows for testing in non-deterministic environments. Existing algorithms for constructing these test suites usually involve one "fast" algorithm for generating most of the tests, and another "slower" algorithm to "complete" the test suite. We employ a genetic algorithm that generalizes these approaches that also incorporates redundancy by increasing the number of algorithms chosen, which we call "stages." By increasing the number of stages, we show that not only can the number of tests be reduced compared to existing techniques, but the computational time in generating them is also greatly reduced.
翻訳日:2023-01-01 13:21:45 公開日:2020-02-13
# SegVoxelNet:ポイントクラウドからの3D車両検出のためのセマンティックコンテキストと深度認識機能を探る

SegVoxelNet: Exploring Semantic Context and Depth-aware Features for 3D Vehicle Detection from Point Cloud ( http://arxiv.org/abs/2002.05316v1 )

ライセンス: Link先を確認
Hongwei Yi, Shaoshuai Shi, Mingyu Ding, Jiankai Sun, Kui Xu, Hui Zhou, Zhe Wang, Sheng Li, Guoping Wang(参考訳) ポイントクラウドに基づく3D車両検出は、自動運転のような現実世界のアプリケーションでは難しい課題である。 著しい進歩にもかかわらず、さらに改善されるのが2つの側面である。 第一に、LiDARにおける意味的文脈情報は以前の研究ではほとんど探索されず、曖昧な車両を特定するのに役立つ。 第二に、車両上の点雲の分布は深度の増加とともに連続的に変化し、単一のモデルではうまくモデル化されない。 本研究では,上記の2つの問題に対処する統合モデルSegVoxelNetを提案する。 鳥の視線における自由電荷セマンティックセグメンテーションマスクを活用するために,意味文脈エンコーダを提案する。 このモジュールによって雑音領域が抑制される間、疑わしい領域が強調される可能性がある。 異なる深度で車両をよりよく扱うために、分布差を明示的にモデル化する新しい深度認識ヘッドを設計し、深度認識ヘッドの各部分を目標検出範囲に集中させる。 KITTIデータセットの大規模な実験により,提案手法は点雲を入力のみとする精度と効率の両方で最先端の代替品よりも優れていた。

3D vehicle detection based on point cloud is a challenging task in real-world applications such as autonomous driving. Despite significant progress has been made, we observe two aspects to be further improved. First, the semantic context information in LiDAR is seldom explored in previous works, which may help identify ambiguous vehicles. Second, the distribution of point cloud on vehicles varies continuously with increasing depths, which may not be well modeled by a single model. In this work, we propose a unified model SegVoxelNet to address the above two problems. A semantic context encoder is proposed to leverage the free-of-charge semantic segmentation masks in the bird's eye view. Suspicious regions could be highlighted while noisy regions are suppressed by this module. To better deal with vehicles at different depths, a novel depth-aware head is designed to explicitly model the distribution differences and each part of the depth-aware head is made to focus on its own target detection range. Extensive experiments on the KITTI dataset show that the proposed method outperforms the state-of-the-art alternatives in both accuracy and efficiency with point cloud as input only.
翻訳日:2023-01-01 13:21:29 公開日:2020-02-13
# 正準相関解析による単眼画像の物体検出

Object Detection on Single Monocular Images through Canonical Correlation Analysis ( http://arxiv.org/abs/2002.05349v1 )

ライセンス: Link先を確認
Zifan Yu and Suya You(参考訳) 点雲や深度画像などの余分な3次元データを3次元情報として使わずに,単分子画像から3次元オブジェクト情報を検索する。 高品質な予測深度画像は単眼画像から復元され、対応する単眼画像とともに2次元オブジェクト提案ネットワークに供給される。 2ストリームの入力データを持つ既存のディープラーニングフレームワークは、常に分離したデータを結合または追加することによって融合し、機能マップのすべての部分がタスク全体に対して等しく寄与する。 しかし、データが騒がしく、情報が冗長すぎると、これらの手法は予測や分類を効率的に生成しなくなる。 本稿では,画像分類や物体検出などの基本的なコンピュータビジョンタスクにおいて,単眼画像と対応する奥行き画像とを融合させる2次元cca(canonical correlation analysis)フレームワークを提案する。 まず,画像分類タスクの性能をテストするために,一次元ccaとalexnetを用いて異なる構造を実装した。 そして、オブジェクト検出に2d-ccaを用いた構造を適用した。 これらの実験において,提案手法は,地底深度から学習したモデルを用いて,予測深度画像の入力を行う際に,よりよい振る舞いを示すことがわかった。

Without using extra 3-D data like points cloud or depth images for providing 3-D information, we retrieve the 3-D object information from single monocular images. The high-quality predicted depth images are recovered from single monocular images, and it is fed into the 2-D object proposal network with corresponding monocular images. Most existing deep learning frameworks with two-streams input data always fuse separate data by concatenating or adding, which views every part of a feature map can contribute equally to the whole task. However, when data are noisy, and too much information is redundant, these methods no longer produce predictions or classifications efficiently. In this report, we propose a two-dimensional CCA(canonical correlation analysis) framework to fuse monocular images and corresponding predicted depth images for basic computer vision tasks like image classification and object detection. Firstly, we implemented different structures with one-dimensional CCA and Alexnet to test the performance on the image classification task. And then, we applied one of these structures with 2D-CCA for object detection. During these experiments, we found that our proposed framework behaves better when taking predicted depth images as inputs with the model trained from ground truth depth.
翻訳日:2023-01-01 13:20:52 公開日:2020-02-13
# 対数極マッピングを用いたリカレントアテンションモデル : 対向攻撃に対するロバスト性

Recurrent Attention Model with Log-Polar Mapping is Robust against Adversarial Attacks ( http://arxiv.org/abs/2002.05388v1 )

ライセンス: Link先を確認
Taro Kiritani, Koji Ono(参考訳) 畳み込みニューラルネットワークは小さな$\ell^p$攻撃に弱いが、人間の視覚システムはそうではない。 目と脳のニューラルネットワークに触発された我々は、注意によって制御される対数極性視野でデータを反復的に収集する新しい人工ニューラルネットワークモデルを開発した。 本設計は,spsaおよびpgd攻撃に対する防御としての有効性を示す。 また、低遅延推論のための反射様経路、画像サイズに依存しない一定の計算量、回転とスケールの不変性など、動物の視覚系で観察される有益な性質を持つ。 実験のコードはhttps://gitlab.com/exwzd-public/kiritani_ono_2020で入手できる。

Convolutional neural networks are vulnerable to small $\ell^p$ adversarial attacks, while the human visual system is not. Inspired by neural networks in the eye and the brain, we developed a novel artificial neural network model that recurrently collects data with a log-polar field of view that is controlled by attention. We demonstrate the effectiveness of this design as a defense against SPSA and PGD adversarial attacks. It also has beneficial properties observed in the animal visual system, such as reflex-like pathways for low-latency inference, fixed amount of computation independent of image size, and rotation and scale invariance. The code for experiments is available at https://gitlab.com/exwzd-public/kiritani_ono_2020.
翻訳日:2023-01-01 13:20:34 公開日:2020-02-13
# 眼内映像の感情認識

Emotion Recognition for In-the-wild Videos ( http://arxiv.org/abs/2002.05447v1 )

ライセンス: Link先を確認
Hanyu Liu, Jiabei Zeng, Shiguang Shan and Xilin Chen(参考訳) 本稿では, IEEE International Conference on Automatic Face and Gesture Recognition (FG) 2020と共同で開催されているAffective Behavior Analysis in-the-wild competitionの7つの基本的表現分類トラックについて紹介する。 提案手法は,Deep Residual Network (ResNet) とBidirectional Long Short-Term Memory Network (BLSTM) を組み合わせることで,64.3%の精度と43.4%のファイナルメトリックスを実現する。

This paper is a brief introduction to our submission to the seven basic expression classification track of Affective Behavior Analysis in-the-wild Competition held in conjunction with the IEEE International Conference on Automatic Face and Gesture Recognition (FG) 2020. Our method combines Deep Residual Network (ResNet) and Bidirectional Long Short-Term Memory Network (BLSTM), achieving 64.3% accuracy and 43.4% final metric on the validation set.
翻訳日:2023-01-01 13:20:21 公開日:2020-02-13
# 視聴覚ダイアリゼーションのための自己教師付き学習

Self-supervised learning for audio-visual speaker diarization ( http://arxiv.org/abs/2002.05314v1 )

ライセンス: Link先を確認
Yifan Ding, Yong Xu, Shi-Xiong Zhang, Yahuan Cong and Liqiang Wang(参考訳) 特定の話者の音声セグメントを見つけるための話者ダイアリゼーションは、ビデオ会議や人間とコンピュータのインタラクションシステムのような人間中心のアプリケーションで広く使われている。 本稿では,大規模ラベリングを伴わない話者ダイアリゼーションの問題に対処する,自己教師型音声-ビデオ同期学習手法を提案する。 動的三重項損失と多項損失という2つの新しい損失関数を導入することで、従来のアプローチを改善する。 実世界の人間とコンピュータのインタラクションシステムでテストし、その結果、最良のモデルでは、ダイアリゼーション誤差率の低減とともに、8%F1スコアが顕著に向上することを示した。 最後に,中国語における音声ビデオデータセットの空白を埋めるための大規模音声ビデオコーパスを提案する。

Speaker diarization, which is to find the speech segments of specific speakers, has been widely used in human-centered applications such as video conferences or human-computer interaction systems. In this paper, we propose a self-supervised audio-video synchronization learning method to address the problem of speaker diarization without massive labeling effort. We improve the previous approaches by introducing two new loss functions: the dynamic triplet loss and the multinomial loss. We test them on a real-world human-computer interaction system and the results show our best model yields a remarkable gain of +8%F1-scoresas well as diarization error rate reduction. Finally, we introduce a new large scale audio-video corpus designed to fill the vacancy of audio-video datasets in Chinese.
翻訳日:2023-01-01 13:13:18 公開日:2020-02-13
# 分散最適化と機械学習のための勾配追従と分散低減

Gradient tracking and variance reduction for decentralized optimization and machine learning ( http://arxiv.org/abs/2002.05373v1 )

ライセンス: Link先を確認
Ran Xin, Soummya Kar, Usman A. Khan(参考訳) ノードのネットワーク上にデータが分散され、プライバシやリソースの制約のために生のデータ共有が許可されない多くの信号処理や機械学習タスクでは、有限サム最小化問題を解決する分散化手法が重要である。 本稿では,分散確率一階法を概観し,分散還元法と勾配追跡法を組み合わせた統一アルゴリズムフレームワークを提供し,ロバスト性能と高速収束を実現する。 対象関数が滑らかで強凸である場合、対応する方法の明示的な理論的保証を提供し、数値実験による非凸問題への適用性を示す。 本稿では,機械学習モデルの分散トレーニングへの応用を強調することで,適切なトレードオフや比較を行い,主技術アイデアを直感的に表現する。

Decentralized methods to solve finite-sum minimization problems are important in many signal processing and machine learning tasks where the data is distributed over a network of nodes and raw data sharing is not permitted due to privacy and/or resource constraints. In this article, we review decentralized stochastic first-order methods and provide a unified algorithmic framework that combines variance-reduction with gradient tracking to achieve both robust performance and fast convergence. We provide explicit theoretical guarantees of the corresponding methods when the objective functions are smooth and strongly-convex, and show their applicability to non-convex problems via numerical experiments. Throughout the article, we provide intuitive illustrations of the main technical ideas by casting appropriate tradeoffs and comparisons among the methods of interest and by highlighting applications to decentralized training of machine learning models.
翻訳日:2023-01-01 13:12:55 公開日:2020-02-13
# 構造分布下におけるマスアート雑音による半空間学習

Learning Halfspaces with Massart Noise Under Structured Distributions ( http://arxiv.org/abs/2002.05632v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Vasilis Kontonis, Christos Tzamos, and Nikos Zarifis(参考訳) 分布特異的pacモデルにおけるマスアートノイズを伴う半空間学習の問題について検討する。 本稿では,ログ・コンケーブ分布を含む幅広い分布群に対して,この問題に対する最初の計算効率のよいアルゴリズムを提案する。 これは、多くの先行研究で提起された開問題を解決する。 我々のアプローチは非常に単純で、この損失の任意の近似定常点が対象の半空間に近い半空間を定義するという性質で、滑らかな非凸な損失を同定する。 この構造的結果から,SGDを用いて基礎となる学習問題を解決することができる。

We study the problem of learning halfspaces with Massart noise in the distribution-specific PAC model. We give the first computationally efficient algorithm for this problem with respect to a broad family of distributions, including log-concave distributions. This resolves an open question posed in a number of prior works. Our approach is extremely simple: We identify a smooth {\em non-convex} surrogate loss with the property that any approximate stationary point of this loss defines a halfspace that is close to the target halfspace. Given this structural result, we can use SGD to solve the underlying learning problem.
翻訳日:2023-01-01 13:12:25 公開日:2020-02-13
# ランダムグラフモデルを識別するグラフ畳み込みネットワークのパワー:短いバージョン

The Power of Graph Convolutional Networks to Distinguish Random Graph Models: Short Version ( http://arxiv.org/abs/2002.05678v1 )

ライセンス: Link先を確認
Abram Magner and Mayank Baranwal and Alfred O. Hero III(参考訳) グラフ畳み込みネットワーク(gcns)は、グラフ表現学習に広く使われている手法である。 サンプルグラフの埋め込みに基づくランダムグラフモデルの違いを識別するために,GCNの層数関数としてのパワーについて検討する。 特に、私たちが考えるグラフモデルは、無限交換可能なグラフモデルの最も一般的なパラメータ化であり、密度グラフ極限の理論における研究の中心的な対象であるグラフトンから生じる。 切り離された距離の観点で十分に分離され、その深さがサンプルグラフのサイズで少なくとも対数である場合、ある広いクラスから生じる非線形活性化関数を持つgcnでは区別できないグラフの無限クラスを示す。 これらの結果は理論上、いくつかの先行研究の実証的な観察と一致する。 最後に、次数プロファイル分離特性を満たすグラフトン対に対して、非常に単純なGCNアーキテクチャが識別可能性に十分であることを示す。 結果を証明するために、グラフ上のランダムウォークへの接続を利用する。

Graph convolutional networks (GCNs) are a widely used method for graph representation learning. We investigate the power of GCNs, as a function of their number of layers, to distinguish between different random graph models on the basis of the embeddings of their sample graphs. In particular, the graph models that we consider arise from graphons, which are the most general possible parameterizations of infinite exchangeable graph models and which are the central objects of study in the theory of dense graph limits. We exhibit an infinite class of graphons that are well-separated in terms of cut distance and are indistinguishable by a GCN with nonlinear activation functions coming from a certain broad class if its depth is at least logarithmic in the size of the sample graph. These results theoretically match empirical observations of several prior works. Finally, we show a converse result that for pairs of graphons satisfying a degree profile separation property, a very simple GCN architecture suffices for distinguishability. To prove our results, we exploit a connection to random walks on graphs.
翻訳日:2023-01-01 13:12:15 公開日:2020-02-13
# Span-based Feature Representation を用いたキーワード抽出

Keyphrase Extraction with Span-based Feature Representations ( http://arxiv.org/abs/2002.05407v1 )

ライセンス: Link先を確認
Funan Mu, Zhenting Yu, LiFeng Wang, Yequan Wang, Qingyu Yin, Yibo Sun, Liqun Liu, Teng Ma, Jing Tang, Xing Zhou(参考訳) キーワードは、文書を特徴づける意味メタデータを提供し、文書の内容の概要を生成する。 キーフレーズ抽出は情報の管理,分類,検索を容易にすることができるため,近年注目されている。 キーフレーズ抽出には3つのアプローチがある。 (i)伝統的二段階ランキング方法 (ii)配列のラベリング及び (iii)ニューラルネットワークを用いた生成。 2段階のランク付けアプローチは、労働集約的かつドメイン依存的な機能エンジニアリングに基づいている。 シーケンスラベリングは重複するフレーズに対処できない。 生成法(Sequence-to-Sequence ニューラルネットワークモデル)はこれらの欠点を克服し、広く研究され、最先端の性能を得る。 しかし, 文脈情報の有効利用は不可能である。 本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。 このようにして,各キーフレーズの表現を取得し,さらに1つの文書中のキーフレーズ間の相互作用を捉え,より優れたランキング結果を得る。 さらに、トークンの助けを借りて、重なり合ったキーフレーズを抽出することができる。 ベンチマークデータセットにおける実験結果から,提案手法が既存手法を大差で上回ることがわかった。

Keyphrases are capable of providing semantic metadata characterizing documents and producing an overview of the content of a document. Since keyphrase extraction is able to facilitate the management, categorization, and retrieval of information, it has received much attention in recent years. There are three approaches to address keyphrase extraction: (i) traditional two-step ranking method, (ii) sequence labeling and (iii) generation using neural networks. Two-step ranking approach is based on feature engineering, which is labor intensive and domain dependent. Sequence labeling is not able to tackle overlapping phrases. Generation methods (i.e., Sequence-to-sequence neural network models) overcome those shortcomings, so they have been widely studied and gain state-of-the-art performance. However, generation methods can not utilize context information effectively. In this paper, we propose a novelty Span Keyphrase Extraction model that extracts span-based feature representation of keyphrase directly from all the content tokens. In this way, our model obtains representation for each keyphrase and further learns to capture the interaction between keyphrases in one document to get better ranking results. In addition, with the help of tokens, our model is able to extract overlapped keyphrases. Experimental results on the benchmark datasets show that our proposed model outperforms the existing methods by a large margin.
翻訳日:2023-01-01 13:12:00 公開日:2020-02-13
# 形態の異なるトルコ語の単語表現の比較

Comparison of Turkish Word Representations Trained on Different Morphological Forms ( http://arxiv.org/abs/2002.05417v1 )

ライセンス: Link先を確認
G\"okhan G\"uler, A. C\"uneyd Tantu\u{g}(参考訳) 異なるテキスト表現の人気が高まり、自然言語処理(NLP)タスクにも多くの改善が加えられた。 教師付きデータなしで、大きなコーパスでトレーニングされた埋め込みは、異なるnlpタスクで使用される意味のある関係を提供する。 これらのベクトルの訓練は最近の手法では比較的容易であるが、データから得られる情報はコーパス言語の構造に大きく依存する。 一般に研究されている言語は、同様の形態構造を持つため、形態学的に豊かな言語で発生する問題は、主に研究において無視されている。 形態素豊かな言語では、文脈自由語ベクターは言語の形態素構造を無視する。 本研究では,形態学的にリッチなトルコ語で形態的に異なる形態のテキストを作成し,本質的課題と外部的課題の比較を行った。 形態的構造の影響を調べるために,補題と接尾辞の扱い方が異なるテキストに対してword2vecモデルを訓練した。 また、サブワードモデルfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。

Increased popularity of different text representations has also brought many improvements in Natural Language Processing (NLP) tasks. Without need of supervised data, embeddings trained on large corpora provide us meaningful relations to be used on different NLP tasks. Even though training these vectors is relatively easy with recent methods, information gained from the data heavily depends on the structure of the corpus language. Since the popularly researched languages have a similar morphological structure, problems occurring for morphologically rich languages are mainly disregarded in studies. For morphologically rich languages, context-free word vectors ignore morphological structure of languages. In this study, we prepared texts in morphologically different forms in a morphologically rich language, Turkish, and compared the results on different intrinsic and extrinsic tasks. To see the effect of morphological structure, we trained word2vec model on texts which lemma and suffixes are treated differently. We also trained subword model fastText and compared the embeddings on word analogy, text classification, sentimental analysis, and language model tasks.
翻訳日:2023-01-01 13:11:42 公開日:2020-02-13
# 非凸最適化に対する確率勾配法の適応性

Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization ( http://arxiv.org/abs/2002.05359v1 )

ライセンス: Link先を確認
Samuel Horv\'ath, Lihua Lei, Peter Richt\'arik, Michael I. Jordan(参考訳) 適応性は現代の最適化理論において重要だが未熟な性質である。 最先端の理論と現在の実践の間のギャップは、望ましい理論的保証を持つアルゴリズムが、通常、ステップサイズスキームやバッチサイズといったハイパーパラメータの設定を、異なるレジームで大きく異なることにある。 魅力的な理論的な結果にもかかわらず、このような分割戦略は、ハイパーパラメータを微調整することなく広く機能するアルゴリズムを実践者に選択するための洞察をほとんど提供しない。 本研究では,Lei & Jordan 2016 が導入した「ゲメトリゼーション」手法と Nguyen らの \texttt{SARAH} アルゴリズムを融合し,非凸有限サムおよび確率最適化のためのGeometrized \texttt{SARAH} アルゴリズムを提案する。 本手法は, 目標精度とポリak-\l{}ojasiewicz (pl) 定数の両方に適応できることが証明された。 さらに、PL目標に対する既存のアルゴリズムよりも優れつつ、PL目標に対する最良の収束率を同時に達成する。

Adaptivity is an important yet under-studied property in modern optimization theory. The gap between the state-of-the-art theory and the current practice is striking in that algorithms with desirable theoretical guarantees typically involve drastically different settings of hyperparameters, such as step-size schemes and batch sizes, in different regimes. Despite the appealing theoretical results, such divisive strategies provide little, if any, insight to practitioners to select algorithms that work broadly without tweaking the hyperparameters. In this work, blending the "geometrization" technique introduced by Lei & Jordan 2016 and the \texttt{SARAH} algorithm of Nguyen et al., 2017, we propose the Geometrized \texttt{SARAH} algorithm for non-convex finite-sum and stochastic optimization. Our algorithm is proved to achieve adaptivity to both the magnitude of the target accuracy and the Polyak-\L{}ojasiewicz (PL) constant if present. In addition, it achieves the best-available convergence rate for non-PL objectives simultaneously while outperforming existing algorithms for PL objectives.
翻訳日:2023-01-01 13:07:36 公開日:2020-02-13
# 熱グリッドにおける熱負荷予測に対する潜在変数法

A latent variable approach to heat load prediction in thermal grids ( http://arxiv.org/abs/2002.05397v1 )

ライセンス: Link先を確認
Johan Simonsson, Khalid Tourkey Atta, Dave Zachariah, Wolfgang Birk(参考訳) 本稿では,地域エネルギーシステムにおける新しい熱負荷予測手法を提案する。 本手法は,屋外温度依存空間加熱負荷の予測に名目モデルを用い,時間依存空間加熱負荷の予測にデータ駆動潜時変動モデルを用いた。 残留熱負荷は、主に空間加熱と換気の時間依存的な操作、および家庭の温水生産から生じる。 結果のモデルをハイパーパラメータフリーな実装に基づいて再帰的に更新し,高い計算性能を実現する。 この手法はスウェーデンのルレアにある単一の集合住宅に適用され、比較的少ないモデルパラメータと容易に得られる測定値を用いて熱負荷を予測する。 提案手法は,ニューラルネットワークを用いた予測と比較し,検証ケースの予測精度が向上したことを示す。 さらに,本手法では,解釈可能な物理モデルを用いて説明可能な行動を示す。

In this paper a new method for heat load prediction in district energy systems is proposed. The method uses a nominal model for the prediction of the outdoor temperature dependent space heating load, and a data driven latent variable model to predict the time dependent residual heat load. The residual heat load arises mainly from time dependent operation of space heating and ventilation, and domestic hot water production. The resulting model is recursively updated on the basis of a hyper-parameter free implementation that results in a parsimonious model allowing for high computational performance. The approach is applied to a single multi-dwelling building in Lulea, Sweden, predicting the heat load using a relatively small number of model parameters and easily obtained measurements. The results are compared with predictions using an artificial neural network, showing that the proposed method achieves better prediction accuracy for the validation case. Additionally, the proposed methods exhibits explainable behavior through the use of an interpretable physical model.
翻訳日:2023-01-01 13:07:14 公開日:2020-02-13
# 運動学的・幾何学的・非線形特徴を用いたパーキンソン病手書き解析と評価

Analysis and Evaluation of Handwriting in Patients with Parkinson's Disease Using kinematic, Geometrical, and Non-linear Features ( http://arxiv.org/abs/2002.05411v1 )

ライセンス: Link先を確認
C. D. Rios-Urrego, J. C. V\'asquez-Correa, J. F. Vargas-Bonilla, E. N\"oth, F. Lopera, J. R. Orozco-Arroyave(参考訳) 背景と目的:パーキンソン病(英: Parkinson disease)は、運動系の調整の欠如、震え、剛性に影響を及ぼす神経疾患である。 この病気の主な症状は手書きの障害である。 手書き解析は、診断を支援し、疾患の進行を監視するのに役立つ。 本研究の目的は,パーキンソン病にともなう手書き障害のモデル化における特徴群の重要性と,パーキンソン病患者と健常者との鑑別が可能であるかを評価することである。 方法: パーキンソン病と健常者を分類するために, 運動学的, 幾何学的および非線形力学解析に基づく特徴を評価した。 k-nearest近傍、サポートベクターマシン、ランダムフォレストに基づく分類が検討された。 結果: 患者と健常者の分類において, 最大93.1\%$の精度が得られた。 特徴の関連性分析により, 速度, 加速度, 圧力に関わるものが最も判別的であることが判明した。 疾患の異なる段階の患者の自動分類では、$0.36$ から$0.44$の値が$\kappa$である。 検証目的でのみ使用される別のデータセットで、最大8,3\%$のアキュラシーが得られた。 結論: 健常者の異なるグループを検討したところ, 加齢による分類過程の悪影響が確認された。 さらに, 個別検証セットで報告された結果は, 臨床における診断プロセスを支援する自動ツールの開発に向けた一歩である。

Background and objectives: Parkinson's disease is a neurological disorder that affects the motor system producing lack of coordination, resting tremor, and rigidity. Impairments in handwriting are among the main symptoms of the disease. Handwriting analysis can help in supporting the diagnosis and in monitoring the progress of the disease. This paper aims to evaluate the importance of different groups of features to model handwriting deficits that appear due to Parkinson's disease; and how those features are able to discriminate between Parkinson's disease patients and healthy subjects. Methods: Features based on kinematic, geometrical and non-linear dynamics analyses were evaluated to classify Parkinson's disease and healthy subjects. Classifiers based on K-nearest neighbors, support vector machines, and random forest were considered. Results: Accuracies of up to $93.1\%$ were obtained in the classification of patients and healthy control subjects. A relevance analysis of the features indicated that those related to speed, acceleration, and pressure are the most discriminant. The automatic classification of patients in different stages of the disease shows $\kappa$ indexes between $0.36$ and $0.44$. Accuracies of up to $83.3\%$ were obtained in a different dataset used only for validation purposes. Conclusions: The results confirmed the negative impact of aging in the classification process when we considered different groups of healthy subjects. In addition, the results reported with the separate validation set comprise a step towards the development of automated tools to support the diagnosis process in clinical practice.
翻訳日:2023-01-01 13:07:00 公開日:2020-02-13
# パーキンソン病患者の音声・手書き・歩行評価におけるGMM-UBMとi-vectorを用いたユーザモデルの比較

Comparison of user models based on GMM-UBM and i-vectors for speech, handwriting, and gait assessment of Parkinson's disease patients ( http://arxiv.org/abs/2002.05412v1 )

ライセンス: Link先を確認
J. C. Vasquez-Correa, T. Bocklet, J. R. Orozco-Arroyave, E. N\"oth(参考訳) パーキンソン病は、異なる運動障害の存在を特徴とする神経変性疾患である。 音声・手書き・歩行信号からの情報は患者の神経学的状態を評価するために検討されてきた。 一方,gaussian mixed modeluniversal background model (gmm-ubm) とi-vectorに基づくユーザモデルは,特定の話者特性をモデル化できるため,話者照合などの生体計測応用において最先端の手法であると考えられる。 本研究は,パーキンソン病患者の言語情報,手書き情報,歩行情報を用いて,GMM-UBMとiベクターを用いて神経学的状態を評価することを提案する。 以上の結果から,各信号の異なる特徴セットが,患者の神経状態の評価において重要であることが示唆された。

Parkinson's disease is a neurodegenerative disorder characterized by the presence of different motor impairments. Information from speech, handwriting, and gait signals have been considered to evaluate the neurological state of the patients. On the other hand, user models based on Gaussian mixture models - universal background models (GMM-UBM) and i-vectors are considered the state-of-the-art in biometric applications like speaker verification because they are able to model specific speaker traits. This study introduces the use of GMM-UBM and i-vectors to evaluate the neurological state of Parkinson's patients using information from speech, handwriting, and gait. The results show the importance of different feature sets from each type of signal in the assessment of the neurological state of the patients.
翻訳日:2023-01-01 13:06:39 公開日:2020-02-13
# 不要な損失埋め込みを用いた一貫した構造予測のための一般フレームワーク

A General Framework for Consistent Structured Prediction with Implicit Loss Embeddings ( http://arxiv.org/abs/2002.05424v1 )

ライセンス: Link先を確認
Carlo Ciliberto, Lorenzo Rosasco, Alessandro Rudi(参考訳) 構造化予測のための新しい理論的およびアルゴリズム的枠組みを提案し,解析する。 これまでこの用語は離散出力空間を指してきたが、ここでは多様体や確率測度の空間のようなより一般的な設定を考える。 出力空間がベクトル構造を持たない問題として構造化予測を定義する。 問題に対して適切な幾何を暗黙的に定義する大きな損失関数のクラスを特定し,研究する。 後者は、鋭利な統計分析と効率的な計算を可能にするアルゴリズムフレームワークを開発するための鍵である。 出力空間を無限の濃度で扱うとき、推定子の適切な暗黙の定式化が重要であることが示される。

We propose and analyze a novel theoretical and algorithmic framework for structured prediction. While so far the term has referred to discrete output spaces, here we consider more general settings, such as manifolds or spaces of probability measures. We define structured prediction as a problem where the output space lacks a vectorial structure. We identify and study a large class of loss functions that implicitly defines a suitable geometry on the problem. The latter is the key to develop an algorithmic framework amenable to a sharp statistical analysis and yielding efficient computations. When dealing with output spaces with infinite cardinality, a suitable implicit formulation of the estimator is shown to be crucial.
翻訳日:2023-01-01 13:06:24 公開日:2020-02-13
# ランジュバンアルゴリズムによる確率的近似勾配降下

Stochastic Approximate Gradient Descent via the Langevin Algorithm ( http://arxiv.org/abs/2002.05519v1 )

ライセンス: Link先を確認
Yixuan Qiu and Xiao Wang(参考訳) 非偏差確率勾配が自明に得られない場合の確率勾配降下の代替として,確率近似勾配降下 (sagd) と呼ばれる新しい効率的なアルゴリズムを導入する。 このような問題の従来の方法はマルコフ連鎖モンテカルロのような汎用的なサンプリング技術に依存しており、通常はパラメータのチューニングに手動で介入する必要がある。 代わりに、SAGDはLangevinアルゴリズムを用いて有限ステップでバイアスを受けるが、漸近的に正確な確率勾配を構築することにより、SAGDの収束保証を理論的に確立することができる。 理論分析に触発されて,その実践的実施のための有用なガイドラインも提示する。 最後に、SAGDは予測最大化アルゴリズムや変分オートエンコーダなどの一般的な統計的および機械学習問題において、実験的によく機能することを示す。

We introduce a novel and efficient algorithm called the stochastic approximate gradient descent (SAGD), as an alternative to the stochastic gradient descent for cases where unbiased stochastic gradients cannot be trivially obtained. Traditional methods for such problems rely on general-purpose sampling techniques such as Markov chain Monte Carlo, which typically requires manual intervention for tuning parameters and does not work efficiently in practice. Instead, SAGD makes use of the Langevin algorithm to construct stochastic gradients that are biased in finite steps but accurate asymptotically, enabling us to theoretically establish the convergence guarantee for SAGD. Inspired by our theoretical analysis, we also provide useful guidelines for its practical implementation. Finally, we show that SAGD performs well experimentally in popular statistical and machine learning problems such as the expectation-maximization algorithm and the variational autoencoders.
翻訳日:2023-01-01 13:05:57 公開日:2020-02-13
# 最小値問題に対する最適多段確率勾配法

An Optimal Multistage Stochastic Gradient Method for Minimax Problems ( http://arxiv.org/abs/2002.05683v1 )

ライセンス: Link先を確認
Alireza Fallah, Asuman Ozdaglar, Sarath Pattathil(参考訳) 本稿では, 勾配のノイズ推定を行う場合, 滑らかかつ強凸強凹設定におけるミニマックス最適化問題について検討する。 特に,確率的勾配沈み込み法(GDA)を定常的なステップサイズで解析し,ミニマックス問題の解の近傍に収束することを示す。 我々はさらに、この地区の収束率と規模に厳密な境界を与えている。 次に,確率的GDA(M-GDA)の多段階的変種について提案する。 我々は,M-GDAが雑音特性の知識を前提とせずに,雑音依存性の観点から下限を達成することを示す。 また, m-gda は初期誤差に対する誤差の依存性に関して線形減衰率を得るが, 条件数依存性は最適でないことを示した。 この依存性を改善するため,多段機械を確率的漸進勾配降下法(ogda)法に適用し,初期誤差に対して最適線形減衰率を達成するm-ogdaアルゴリズムを提案する。 我々の知る限り、この手法は、初期誤差と条件数だけでなく、ノイズ特性への最高の依存を同時に達成する最初の方法である。

In this paper, we study the minimax optimization problem in the smooth and strongly convex-strongly concave setting when we have access to noisy estimates of gradients. In particular, we first analyze the stochastic Gradient Descent Ascent (GDA) method with constant stepsize, and show that it converges to a neighborhood of the solution of the minimax problem. We further provide tight bounds on the convergence rate and the size of this neighborhood. Next, we propose a multistage variant of stochastic GDA (M-GDA) that runs in multiple stages with a particular learning rate decay schedule and converges to the exact solution of the minimax problem. We show M-GDA achieves the lower bounds in terms of noise dependence without any assumptions on the knowledge of noise characteristics. We also show that M-GDA obtains a linear decay rate with respect to the error's dependence on the initial error, although the dependence on condition number is suboptimal. In order to improve this dependence, we apply the multistage machinery to the stochastic Optimistic Gradient Descent Ascent (OGDA) algorithm and propose the M-OGDA algorithm which also achieves the optimal linear decay rate with respect to the initial error. To the best of our knowledge, this method is the first to simultaneously achieve the best dependence on noise characteristic as well as the initial error and condition number.
翻訳日:2023-01-01 13:04:39 公開日:2020-02-13
# 構造化データのマルチメトリック学習

Multiple Metric Learning for Structured Data ( http://arxiv.org/abs/2002.05747v1 )

ライセンス: Link先を確認
Nicolo Colombo(参考訳) 構造化データからメトリクスを学習しながらグラフと特徴空間情報を融合する問題に対処する。 既存のアルゴリズムは、グラフ構造のベクトル化された要約を抽出するか、特徴空間アルゴリズムに厳しい制約を加えることによって、非対称な方法でこの問題に取り組む。 異なる経路をたどって、異なる相似行列の計量制約付き線形結合を訓練する計量回帰スキームを定義する。 入力行列は、任意の利用可能なデータ(例えばノード属性やエッジ構造)から得られる相似性測度を事前に計算することができる。 モデル入力は距離測度であるため、基礎となる特徴空間の存在を仮定する必要はない。 主な課題は、例えば線形結合の係数が負であることが許される場合、計量制約(特に正の定性および部分加法)が自動的に尊重されないことである。 正と副加法の両方の制約は線形不等式であるが、それらを与える計算複雑性は O(D3) としてスケールし、D は入力行列のサイズ(すなわちデータセットのサイズ)である。 これはDが比較的小さい場合でも急速に禁止される。 このような制約下で最適化するための新しいグラフベース手法を提案するとともに,本手法が最適化プロセスの元の計算複雑性を1桁削減できることを示す。 既存の手法とは対照的に、このスキームは任意の(おそらく凸でない)計量制約対象関数に適用できる。

We address the problem of merging graph and feature-space information while learning a metric from structured data. Existing algorithms tackle the problem in an asymmetric way, by either extracting vectorized summaries of the graph structure or adding hard constraints to feature-space algorithms. Following a different path, we define a metric regression scheme where we train metric-constrained linear combinations of dissimilarity matrices. The idea is that the input matrices can be pre-computed dissimilarity measures obtained from any kind of available data (e.g. node attributes or edge structure). As the model inputs are distance measures, we do not need to assume the existence of any underlying feature space. Main challenge is that metric constraints (especially positive-definiteness and sub-additivity), are not automatically respected if, for example, the coefficients of the linear combination are allowed to be negative. Both positive and sub-additive constraints are linear inequalities, but the computational complexity of imposing them scales as O(D3), where D is the size of the input matrices (i.e. the size of the data set). This becomes quickly prohibitive, even when D is relatively small. We propose a new graph-based technique for optimizing under such constraints and show that, in some cases, our approach may reduce the original computational complexity of the optimization process by one order of magnitude. Contrarily to existing methods, our scheme applies to any (possibly non-convex) metric-constrained objective function.
翻訳日:2023-01-01 13:04:08 公開日:2020-02-13
# 機械故障診断における畳み込みニューラルネットワークの総合的検討

A comprehensive review on convolutional neural network in machine fault diagnosis ( http://arxiv.org/abs/2002.07605v1 )

ライセンス: Link先を確認
Jinyang Jiao, Ming Zhao, Jing Lin, Kaixuan Liang(参考訳) 製造業の急速な発展に伴い、安全設備の運用と生産を確保するために機械故障の診断がますます重要になっている。 その結果、近年、知的アルゴリズムが特に急速に発展する多種多様なアプローチが探求され発展してきた。 畳み込みニューラルネットワークは、知的診断モデルの典型的な代表として、近年5年間に広く研究され応用され、学術誌や会議の手続きで大量の論文が出版されている。 しかし、これらの研究を網羅し、さらなる研究を行うための体系的なレビューは行われていない。 このギャップを埋めるため,本研究は畳み込みネットワークに基づく故障診断(cnfd)手法の開発を包括的に検討・要約する。 一般に、典型的なcnfdフレームワークは、データ収集、モデル構築、特徴学習と意思決定という、以下のステップで構成されている。 まず、いくつかの人気のあるデータセットが導入されるデータ収集プロセスを記述する。 次に、基本畳み込みニューラルネットワークからその変種までの基本理論を詳述する。 その後、CNFDの応用は3つの主流方向(分類、予測、転移診断)でレビューされる。 最後に、現在の開発の特徴、課題、今後のトレンドを指摘するために、結論と展望を示す。 最後に、この研究は、この分野の研究者にとって利便性を提供し、さらなる探索を促すものと期待されている。

With the rapid development of manufacturing industry, machine fault diagnosis has become increasingly significant to ensure safe equipment operation and production. Consequently, multifarious approaches have been explored and developed in the past years, of which intelligent algorithms develop particularly rapidly. Convolutional neural network, as a typical representative of intelligent diagnostic models, has been extensively studied and applied in recent five years, and a large amount of literature has been published in academic journals and conference proceedings. However, there has not been a systematic review to cover these studies and make a prospect for the further research. To fill in this gap, this work attempts to review and summarize the development of the Convolutional Network based Fault Diagnosis (CNFD) approaches comprehensively. Generally, a typical CNFD framework is composed of the following steps, namely, data collection, model construction, and feature learning and decision making, thus this paper is organized by following this stream. Firstly, data collection process is described, in which several popular datasets are introduced. Then, the fundamental theory from the basic convolutional neural network to its variants is elaborated. After that, the applications of CNFD are reviewed in terms of three mainstream directions, i.e. classification, prediction and transfer diagnosis. Finally, conclusions and prospects are presented to point out the characteristics of current development, facing challenges and future trends. Last but not least, it is expected that this work would provide convenience and inspire further exploration for researchers in this field.
翻訳日:2023-01-01 13:03:08 公開日:2020-02-13
# 物体選択用発振器ネットワークにおけるカオス位相同期と非同期化

Chaotic Phase Synchronization and Desynchronization in an Oscillator Network for Object Selection ( http://arxiv.org/abs/2002.05493v1 )

ライセンス: Link先を確認
Fabricio A Breve, Marcos G Quiles, Liang Zhao, and Elbert E. N. Macau(参考訳) オブジェクトの選択は、ある視覚シーンで他のオブジェクトや背景を無視しながら、興味のあるオブジェクトを抽出するメカニズムを指す。 多くのコンピュータビジョンや画像解析技術において基本的な問題であり、現在でも人工視覚システムにとって難しい課題である。 カオス位相同期は、ほぼ同一の力学系を含む場合に起こり、系間の位相差は時間とともに境界が保たれるが、それらの振幅はカオス的であり、相関しない可能性がある。 完全な同期の代わりに、位相同期は脳内の神経統合のメカニズムであると考えられている。 本稿では,オブジェクト選択モデルを提案する。 与えられたシーン内のサルエントオブジェクトを表すネットワークの発振器は位相同期されるが、バックグラウンドオブジェクトでは位相同期は発生しない。 このようにして、健全な物体を抽出することができる。 このモデルでは、あるオブジェクトから別のオブジェクトへ注意を移すためのシフト機構も導入される。 コンピュータシミュレーションは、モデルが自然視系で観測されるものと類似した結果を生み出すことを示した。

Object selection refers to the mechanism of extracting objects of interest while ignoring other objects and background in a given visual scene. It is a fundamental issue for many computer vision and image analysis techniques and it is still a challenging task to artificial visual systems. Chaotic phase synchronization takes place in cases involving almost identical dynamical systems and it means that the phase difference between the systems is kept bounded over the time, while their amplitudes remain chaotic and may be uncorrelated. Instead of complete synchronization, phase synchronization is believed to be a mechanism for neural integration in brain. In this paper, an object selection model is proposed. Oscillators in the network representing the salient object in a given scene are phase synchronized, while no phase synchronization occurs for background objects. In this way, the salient object can be extracted. In this model, a shift mechanism is also introduced to change attention from one object to another. Computer simulations show that the model produces some results similar to those observed in natural vision systems.
翻訳日:2023-01-01 10:12:18 公開日:2020-02-13
# 分類器の分類:ニューラルネットワークの重み空間の分類

Classifying the classifier: dissecting the weight space of neural networks ( http://arxiv.org/abs/2002.05688v1 )

ライセンス: Link先を確認
Gabriel Eilertsen, Daniel J\"onsson, Timo Ropinski, Jonas Unger, Anders Ynnerman(参考訳) 本稿では,ニューラルネットワークの重みに関する経験的研究を行い,各モデルを高次元空間(ニューラルウェイト空間)の一点として解釈する。 この空間の複雑な構造を探索するために、ニューラルネットワーク分類器の様々なトレーニングバリエーション(データセット、最適化手順、アーキテクチャなど)からサンプルし、重み空間を表現するために多数のモデルを訓練する。 そして、この空間から情報を分析し、抽出するために機械学習アプローチを用いる。 重み空間のフットプリントを識別することにより、トレーニング設定の異なる特性を分類することを目的として、多くの新しい深層メタ分類器を訓練する。 したがって、メタ分類器はハイパーパラメータによって引き起こされるパターンを探索するので、最適化プロセスを通じて、どの位、どこで、いつエンコードされるのかを定量化することができる。 これは説明可能なaiの新規かつ補完的な視点を提供し、ランダムに選択された連続重みの小さなサブセットのみを考慮すれば、メタ分類器がトレーニング設定と最適化に関する多くの情報を明らかにする方法を示す。 重量空間に関するさらなる研究を促進するために、我々は、16Kの個別に訓練されたディープニューラルネットワークから320Kの重量スナップショットを集めた、ニューラルネットワークデータセット(NWS)をリリースする。

This paper presents an empirical study on the weights of neural networks, where we interpret each model as a point in a high-dimensional space -- the neural weight space. To explore the complex structure of this space, we sample from a diverse selection of training variations (dataset, optimization procedure, architecture, etc.) of neural network classifiers, and train a large number of models to represent the weight space. Then, we use a machine learning approach for analyzing and extracting information from this space. Most centrally, we train a number of novel deep meta-classifiers with the objective of classifying different properties of the training setup by identifying their footprints in the weight space. Thus, the meta-classifiers probe for patterns induced by hyper-parameters, so that we can quantify how much, where, and when these are encoded through the optimization process. This provides a novel and complementary view for explainable AI, and we show how meta-classifiers can reveal a great deal of information about the training setup and optimization, by only considering a small subset of randomly selected consecutive weights. To promote further research on the weight space, we release the neural weight space (NWS) dataset -- a collection of 320K weight snapshots from 16K individually trained deep neural networks.
翻訳日:2023-01-01 10:11:51 公開日:2020-02-13
# デノミナライゼーションに関する計算論的研究

A Computational Investigation on Denominalization ( http://arxiv.org/abs/2003.04975v1 )

ライセンス: Link先を確認
Zahra Shekarchi, Yang Xu(参考訳) 言語は動的システムであり、言葉の意味は常に時代とともに変化してきた。 新しい概念や感覚が導入されるたびに、それを表現するための単語を割り当てる必要があります。 また、変化の結果が人間にとってより望ましい場合や、認知的に人間にとってより使いやすい場合など、いくつかの変化があった。 これらの変化のパターンを見つけることは興味深いことで、人間の認知進化に関するいくつかの事実を明らかにすることができる。 この問題を研究するのに十分なリソースがあるので、計算モデルを用いてこの問題に取り組むのがよい考えであり、大規模に研究することが容易かつ可能となる。 本研究では,数年前から動詞として用いられてきた名詞を名詞として研究し,それらの名詞の間に共通点を見いだしたい。 言い換えれば、この変更に必要な潜在的な要件を見つけることに興味があります。

Language has been a dynamic system and word meanings always have been changed over times. Every time a novel concept or sense is introduced, we need to assign it a word to express it. Also, some changes have happened because the result of a change can be more desirable for humans, or cognitively easier to be used by humans. Finding the patterns of these changes is interesting and can reveal some facts about human cognitive evolution. As we have enough resources for studying this problem, it is a good idea to work on the problem through computational modeling, and that can make the work easier and possible to be studied on large scale. In this work, we want to study the nouns which have been used as verbs after some years of their emergence as nouns and find some commonalities among these nouns. In other words, we are interested in finding what potential requirements are essential for this change.
翻訳日:2023-01-01 10:11:27 公開日:2020-02-13
# ソースコードモデリングと生成のためのディープラーニング:モデル、アプリケーション、挑戦

Deep Learning for Source Code Modeling and Generation: Models, Applications and Challenges ( http://arxiv.org/abs/2002.05442v1 )

ライセンス: Link先を確認
Triet H. M. Le, Hao Chen, M. Ali Babar(参考訳) 自然言語処理のためのディープラーニング(DL)技術は急速に進化してきた。 近年、言語モデリング、機械翻訳、段落理解におけるDLの進歩は、特にプログラム学習の分野では、ソフトウェア工学におけるDLの可能性を見落とせないほどに顕著である。 この分野でDLのさらなる研究と応用を容易にするため、ソースコードモデリングと生成のための既存のDLメソッドを分類・検討するための総合的なレビューを提供する。 従来のソースコードモデルの限界に対処するため,エンコーダ・デコーダ・フレームワークを用いて共通プログラム学習タスクを定式化する。 その後,このような問題を解決するための最近のdl機構を紹介する。 次に,最先端の実践を紹介し,その課題を実践者や研究者にも推奨して議論する。

Deep Learning (DL) techniques for Natural Language Processing have been evolving remarkably fast. Recently, the DL advances in language modeling, machine translation and paragraph understanding are so prominent that the potential of DL in Software Engineering cannot be overlooked, especially in the field of program learning. To facilitate further research and applications of DL in this field, we provide a comprehensive review to categorize and investigate existing DL methods for source code modeling and generation. To address the limitations of the traditional source code models, we formulate common program learning tasks under an encoder-decoder framework. After that, we introduce recent DL mechanisms suitable to solve such problems. Then, we present the state-of-the-art practices and discuss their challenges with some recommendations for practitioners and researchers as well.
翻訳日:2023-01-01 10:11:00 公開日:2020-02-13
# CSM-NN:電流源モデルに基づく論理回路シミュレーション-ニューラルネットワークによるアプローチ

CSM-NN: Current Source Model Based Logic Circuit Simulation -- A Neural Network Approach ( http://arxiv.org/abs/2002.05291v1 )

ライセンス: Link先を確認
Mohammad Saeed Abrishami, Massoud Pedram, Shahin Nazarian(参考訳) トランジスタの小型化は5nm以上となり、集積回路の複雑さが増大し、短いチャネル効果が著しく悪化し、より多くの設計コーナーやモードの需要分析と最適化が行われる。 シミュレータは非線形挙動を示す回路タイミング、電力、ノイズなどに関連する出力変数をモデル化する必要がある。 クローズドフォーム式とルックアップテーブルの組み合わせに基づく既存のシミュレーションとサインオフツールは、数十億以上のトランジスタを持つ回路を扱う場合、不正確なか遅いかのいずれかである。 本稿では,ニューラルネットワーク構造と処理アルゴリズムを最適化したスケーラブルなシミュレーションフレームワークcsm-nnを提案する。 CSM-NNは、基礎となるCPUとGPU並列処理の機能を考えると、必要なメモリクエリと計算のレイテンシを考慮してシミュレーション時間を最適化することを目的としている。 実験結果から,CSM-NNはCPU上で動作する最先端の電流源モデルベースシミュレータと比較して,最大6\times$のシミュレーション時間を短縮した。 このスピードアップは、GPU上で動作する場合、最大15\times$で改善される。 CSM-NNはまた、HSPICEと比較して2\%以下の誤差で高い精度のレベルを提供する。

The miniaturization of transistors down to 5nm and beyond, plus the increasing complexity of integrated circuits, significantly aggravate short channel effects, and demand analysis and optimization of more design corners and modes. Simulators need to model output variables related to circuit timing, power, noise, etc., which exhibit nonlinear behavior. The existing simulation and sign-off tools, based on a combination of closed-form expressions and lookup tables are either inaccurate or slow, when dealing with circuits with more than billions of transistors. In this work, we present CSM-NN, a scalable simulation framework with optimized neural network structures and processing algorithms. CSM-NN is aimed at optimizing the simulation time by accounting for the latency of the required memory query and computation, given the underlying CPU and GPU parallel processing capabilities. Experimental results show that CSM-NN reduces the simulation time by up to $6\times$ compared to a state-of-the-art current source model based simulator running on a CPU. This speedup improves by up to $15\times$ when running on a GPU. CSM-NN also provides high accuracy levels, with less than $2\%$ error, compared to HSPICE.
翻訳日:2023-01-01 10:10:28 公開日:2020-02-13
# 予想外の領域の一般化を期待することを学ぶ

Learn to Expect the Unexpected: Probably Approximately Correct Domain Generalization ( http://arxiv.org/abs/2002.05660v1 )

ライセンス: Link先を確認
Vikas K. Garg, Adam Kalai, Katrina Ligett, and Zhiwei Steven Wu(参考訳) ドメインの一般化は、トレーニングデータとテストデータが異なるデータドメインから来るときの機械学習の問題である。 本稿では,データ分布にメタ分散が存在する領域をまたいで一般化する学習の単純な理論モデルを提案する。 このモデルでは,学習アルゴリズムに与えられたトレーニングデータは,メタ分布から引き出された1つのドメインからそれぞれ複数のデータセットから構成される。 本研究では, このモデルについて, 多領域マスアート雑音設定, 決定木マルチデータセット設定, 特徴選択設定の3つの異なる問題設定で検討し, 計算効率のよい多項式サンプル領域の一般化が可能であることを確かめる。 実験により,特徴選択アルゴリズムはスプリアス相関を無視し,一般化を改善できることが示されている。

Domain generalization is the problem of machine learning when the training data and the test data come from different data domains. We present a simple theoretical model of learning to generalize across domains in which there is a meta-distribution over data distributions, and those data distributions may even have different supports. In our model, the training data given to a learning algorithm consists of multiple datasets each from a single domain drawn in turn from the meta-distribution. We study this model in three different problem settings---a multi-domain Massart noise setting, a decision tree multi-dataset setting, and a feature selection setting, and find that computationally efficient, polynomial-sample domain generalization is possible in each. Experiments demonstrate that our feature selection algorithm indeed ignores spurious correlations and improves generalization.
翻訳日:2023-01-01 10:03:17 公開日:2020-02-13
# Tree-SNE: t-SNEを用いた階層的クラスタリングと可視化

Tree-SNE: Hierarchical Clustering and Visualization Using t-SNE ( http://arxiv.org/abs/2002.05687v1 )

ライセンス: Link先を確認
Isaac Robinson, Emma Pierce-Hoffman(参考訳) t-SNEと階層クラスタリングは、特に生物学において探索的データ分析の一般的な方法である。 t-SNEの高速化と微細構造獲得の最近の進歩を基盤として,階層的なクラスタリングと可視化アルゴリズムであるtree-SNEを作成する。 また、複数のスケールにわたるクラスタ安定性に基づいて、クラスタ数の予測なしに最適なクラスタ割り当てを推奨するアルファクラスタリングも導入する。 本研究は,手書きディジットの画像,血液細胞からの大量サイトメトリー(CyTOF)データ,網膜細胞からの単細胞RNAシークエンシング(scRNA-seq)データに対するツリーSNEとアルファクラスタリングの有効性を実証した。 さらに,可視化の妥当性を示すために,複数の画像データセットにおける最先端技術に匹敵する教師なしクラスタリング結果を得るために,アルファクラスタリングを用いる。 ソフトウェアはhttps://github.com/isaacrob/treesneで入手できる。

t-SNE and hierarchical clustering are popular methods of exploratory data analysis, particularly in biology. Building on recent advances in speeding up t-SNE and obtaining finer-grained structure, we combine the two to create tree-SNE, a hierarchical clustering and visualization algorithm based on stacked one-dimensional t-SNE embeddings. We also introduce alpha-clustering, which recommends the optimal cluster assignment, without foreknowledge of the number of clusters, based off of the cluster stability across multiple scales. We demonstrate the effectiveness of tree-SNE and alpha-clustering on images of handwritten digits, mass cytometry (CyTOF) data from blood cells, and single-cell RNA-sequencing (scRNA-seq) data from retinal cells. Furthermore, to demonstrate the validity of the visualization, we use alpha-clustering to obtain unsupervised clustering results competitive with the state of the art on several image data sets. Software is available at https://github.com/isaacrob/treesne.
翻訳日:2023-01-01 10:02:34 公開日:2020-02-13
# 意味的木構造データに基づくエンドツーエンド学習フレームワーク

A Framework for End-to-End Learning on Semantic Tree-Structured Data ( http://arxiv.org/abs/2002.05707v1 )

ライセンス: Link先を確認
William Woof and Ke Chen(参考訳) 学習モデルは通常、固定次元特徴ベクトルの形で入力について研究されるが、実世界のデータは、この形式ではまれである。 従来の学習モデルの基本的な要件を満たすためには、構造データは一般に、手作りの方法で固定長ベクトルに変換する必要がある。 構造化データの一般的な形式は、JavaScript Object Notation (JSON) や eXtensible Markup Language (XML) で表されるような、リッチなセマンティック情報が構成的にエンコードされるデータに対応する「意味木構造」と呼ばれるものである。 木構造データについては、生の木構造データを直接扱えるようにいくつかの学習モデルが研究されているが、そのような学習モデルは特定の木トポロジーまたは特定の木構造データフォーマット、例えば合成構文木に限られている。 本稿では,JSON や XML などで表現されたデータなど,任意のトポロジや異種データ型の汎用的意味木構造データに対するエンドツーエンド学習のための新しいフレームワークを提案する。 再帰的および再帰的ニューラルネットワークの研究に触発され、JSONフォーマットのためのフレームワークの典型的なニューラル実装を開発しました。 筆者らは, アブレーションやデータ効率の研究を含むいくつかのUCIベンチマークデータセットと, おもちゃの強化学習タスクに対するアプローチを評価した。 実験結果から,本フレームワークは,特定の特徴ベクトルを持つ標準モデルに匹敵する性能を示し,データの構成特性が特に重要である場合に,ベースライン性能を超えていることがわかった。 フレームワークのJSONベースの実装と実験のソースコードはhttps://github.com/EndingCredits/json2vec.comからダウンロードできる。

While learning models are typically studied for inputs in the form of a fixed dimensional feature vector, real world data is rarely found in this form. In order to meet the basic requirement of traditional learning models, structural data generally have to be converted into fix-length vectors in a handcrafted manner, which is tedious and may even incur information loss. A common form of structured data is what we term "semantic tree-structures", corresponding to data where rich semantic information is encoded in a compositional manner, such as those expressed in JavaScript Object Notation (JSON) and eXtensible Markup Language (XML). For tree-structured data, several learning models have been studied to allow for working directly on raw tree-structure data, However such learning models are limited to either a specific tree-topology or a specific tree-structured data format, e.g., synthetic parse trees. In this paper, we propose a novel framework for end-to-end learning on generic semantic tree-structured data of arbitrary topology and heterogeneous data types, such as data expressed in JSON, XML and so on. Motivated by the works in recursive and recurrent neural networks, we develop exemplar neural implementations of our framework for the JSON format. We evaluate our approach on several UCI benchmark datasets, including ablation and data-efficiency studies, and on a toy reinforcement learning task. Experimental results suggest that our framework yields comparable performance to use of standard models with dedicated feature-vectors in general, and even exceeds baseline performance in cases where compositional nature of the data is particularly important. The source code for a JSON-based implementation of our framework along with experiments can be downloaded at https://github.com/EndingCredits/json2vec.
翻訳日:2023-01-01 10:02:15 公開日:2020-02-13
# knnグラフによるラベル伝搬を用いた簡易インタラクティブ画像分割

Simple Interactive Image Segmentation using Label Propagation through kNN graphs ( http://arxiv.org/abs/2002.05708v1 )

ライセンス: Link先を確認
Fabricio Aparecido Breve(参考訳) 多くのインタラクティブな画像分割技術は半教師付き学習に基づいている。 ユーザは各オブジェクトからいくつかのピクセルをラベル付けし、sslアルゴリズムはラベルのないピクセルにラベルを伝搬し、オブジェクト境界を見つける。 そこで本稿では,未ラベルノードが他のノード(ラベル付きまたはラベルなし)からのコントリビューションを受ける,非ダイレクトかつ非重み付きkNNグラフを用いたSSLグラフに基づくインタラクティブな画像セグメンテーション手法を提案する。 他の多くの技術よりもシンプルであるが、画像分割作業においてかなりの分類精度が達成されている。 コンピュータシミュレーションは、microsoft grabcutデータセットから抽出された現実世界の画像を使って行われる。 セグメンテーションの結果は,提案手法の有効性を示す。

Many interactive image segmentation techniques are based on semi-supervised learning. The user may label some pixels from each object and the SSL algorithm will propagate the labels from the labeled to the unlabeled pixels, finding object boundaries. This paper proposes a new SSL graph-based interactive image segmentation approach, using undirected and unweighted kNN graphs, from which the unlabeled nodes receive contributions from other nodes (either labeled or unlabeled). It is simpler than many other techniques, but it still achieves significant classification accuracy in the image segmentation task. Computer simulations are performed using some real-world images, extracted from the Microsoft GrabCut dataset. The segmentation results show the effectiveness of the proposed approach.
翻訳日:2023-01-01 10:01:45 公開日:2020-02-13
# 学習アルゴリズムによるRNA二次構造予測

RNA Secondary Structure Prediction By Learning Unrolled Algorithms ( http://arxiv.org/abs/2002.05810v1 )

ライセンス: Link先を確認
Xinshi Chen, Yu Li, Ramzan Umarov, Xin Gao, Le Song(参考訳) 本稿では,RNA二次構造予測のためのエンド・ツー・エンドのディープラーニングモデルE2Efoldを提案する。 E2Efoldの鍵となる考え方は、RNA塩基対行列を直接予測し、制約のないプログラミングを、制約を強制するための深いアーキテクチャのテンプレートとして使うことである。 ベンチマークデータセットの総合的な実験により、E2Efoldは従来のSOTA(特に擬似有形構造)と比較してはるかに優れた構造を予測し、推論時間の観点からは最も高速なアルゴリズムであることを示す。

In this paper, we propose an end-to-end deep learning model, called E2Efold, for RNA secondary structure prediction which can effectively take into account the inherent constraints in the problem. The key idea of E2Efold is to directly predict the RNA base-pairing matrix, and use an unrolled algorithm for constrained programming as the template for deep architectures to enforce constraints. With comprehensive experiments on benchmark datasets, we demonstrate the superior performance of E2Efold: it predicts significantly better structures compared to previous SOTA (especially for pseudoknotted structures), while being as efficient as the fastest algorithms in terms of inference time.
翻訳日:2023-01-01 10:01:13 公開日:2020-02-13
# 大規模ディープラーニングのためのスケーラブルで実用的な自然勾配

Scalable and Practical Natural Gradient for Large-Scale Deep Learning ( http://arxiv.org/abs/2002.06015v1 )

ライセンス: Link先を確認
Kazuki Osawa, Yohei Tsuji, Yuichiro Ueno, Akira Naruse, Chuan-Sheng Foo, and Rio Yokota(参考訳) ディープニューラルネットワークの大規模分散トレーニングは、効果的なミニバッチサイズの増加の結果、一般化性能が低下するモデルをもたらす。 以前のアプローチでは,エポックやレイヤの学習率やバッチサイズ,あるいはバッチ正規化のアドホックな修正などによって,この問題に対処しようと試みている。 第一次最適化法で訓練されたモデルと類似の一般化性能を達成することができるが、収束が促進されるような訓練モデルのための原理的手法である、スケーラブルで実用的な自然勾配降下法(sp-ngd)を提案する。 さらに、SP-NGDは1次法と比較して計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。 我々はSP-NGDを、画像ネット上の画像分類のためのResNet-50モデルのトレーニングとして、高度に最適化された一階法が参照可能なベンチマークタスクで評価した。 また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。

Large-scale distributed training of deep neural networks results in models with worse generalization performance as a result of the increase in the effective mini-batch size. Previous approaches attempt to address this problem by varying the learning rate and batch size over epochs and layers, or ad hoc modifications of batch normalization. We propose Scalable and Practical Natural Gradient Descent (SP-NGD), a principled approach for training models that allows them to attain similar generalization performance to models trained with first-order optimization methods, but with accelerated convergence. Furthermore, SP-NGD scales to large mini-batch sizes with a negligible computational overhead as compared to first-order methods. We evaluated SP-NGD on a benchmark task where highly optimized first-order methods are available as references: training a ResNet-50 model for image classification on ImageNet. We demonstrate convergence to a top-1 validation accuracy of 75.4% in 5.5 minutes using a mini-batch size of 32,768 with 1,024 GPUs, as well as an accuracy of 74.9% with an extremely large mini-batch size of 131,072 in 873 steps of SP-NGD.
翻訳日:2023-01-01 10:01:01 公開日:2020-02-13
# オペランドハミング距離最適化を用いたニューラルネットワーク加速器の効率改善

Improving Efficiency in Neural Network Accelerator Using Operands Hamming Distance optimization ( http://arxiv.org/abs/2002.05293v1 )

ライセンス: Link先を確認
Meng Li and Yilei Li and Pierce Chuang and Liangzhen Lai and Vikas Chandra(参考訳) ニューラルネットワークアクセラレータは、エネルギー効率が重要な指標であるオンデバイスai推論の重要な実現手段である。 データパスエネルギー(計算エネルギーと演算単位間のデータ移動エネルギーを含む)は、総加速エネルギーのかなりの部分を占めている。 演算論理回路の基本物理を再検討することにより,入力オペランドを演算単位に流す際に,入力オペランド行列のハミング距離として定義されるビットフリップとデータパスエネルギーが強く相関することを示す。 この知見に基づいて,加速器とネットワークを相乗的に共設計・共設計するための学習後最適化アルゴリズムとハミング距離対応訓練アルゴリズムを提案する。 MobileNetV2によるポストレイアウトシミュレーションに基づく実験結果は、平均2.85倍のデータパスエネルギーと最大8.51倍のデータパスエネルギーの削減を示す。

Neural network accelerator is a key enabler for the on-device AI inference, for which energy efficiency is an important metric. The data-path energy, including the computation energy and the data movement energy among the arithmetic units, claims a significant part of the total accelerator energy. By revisiting the basic physics of the arithmetic logic circuits, we show that the data-path energy is highly correlated with the bit flips when streaming the input operands into the arithmetic units, defined as the hamming distance of the input operand matrices. Based on the insight, we propose a post-training optimization algorithm and a hamming-distance-aware training algorithm to co-design and co-optimize the accelerator and the network synergistically. The experimental results based on post-layout simulation with MobileNetV2 demonstrate on average 2.85X data-path energy reduction and up to 8.51X data-path energy reduction for certain layers.
翻訳日:2023-01-01 10:00:41 公開日:2020-02-13
# 多構造幾何モデルフィッティングのためのハイパーグラフ最適化

Hypergraph Optimization for Multi-structural Geometric Model Fitting ( http://arxiv.org/abs/2002.05350v1 )

ライセンス: Link先を確認
Shuyuan Lin, Guobao Xiao, Yan Yan, David Suter, Hanzi Wang(参考訳) 近年,データポイント間の複雑な関係を表現するハイパーグラフが優れているため,コンピュータビジョンにおけるモデルフィッティングの問題に対処するためにハイパーグラフベースの手法が提案されている。 しかし、入力データが大量のデータポイント(通常ノイズや異常値で汚染される)を含んでいる場合、ハイパーグラフは極めて複雑になり、計算負荷を大幅に増加させる。 上記の問題を克服するために, 単純かつ効果的なハイパーグラフを構築するための新しいハイパーグラフ最適化モデルフィッティング法(HOMF)を提案する。 具体的には、頂点最適化のための適応的不整合推定アルゴリズムと、ハイパーエッジ最適化のための反復的ハイパーエッジ最適化アルゴリズムである。 提案手法は非常に効率的であり,数回のイテレーションで正確なモデルフィッティング結果が得られる。 さらに、HOMFはスペクトルクラスタリングを直接適用して、良好な適合性を実現することができる。 大規模な実験結果から,HOMFは合成データと実画像の両方において,特にサンプリング効率やデータ処理において,最先端のモデルフィッティング法よりも優れることがわかった。

Recently, some hypergraph-based methods have been proposed to deal with the problem of model fitting in computer vision, mainly due to the superior capability of hypergraph to represent the complex relationship between data points. However, a hypergraph becomes extremely complicated when the input data include a large number of data points (usually contaminated with noises and outliers), which will significantly increase the computational burden. In order to overcome the above problem, we propose a novel hypergraph optimization based model fitting (HOMF) method to construct a simple but effective hypergraph. Specifically, HOMF includes two main parts: an adaptive inlier estimation algorithm for vertex optimization and an iterative hyperedge optimization algorithm for hyperedge optimization. The proposed method is highly efficient, and it can obtain accurate model fitting results within a few iterations. Moreover, HOMF can then directly apply spectral clustering, to achieve good fitting performance. Extensive experimental results show that HOMF outperforms several state-of-the-art model fitting methods on both synthetic data and real images, especially in sampling efficiency and in handling data with severe outliers.
翻訳日:2023-01-01 10:00:24 公開日:2020-02-13
# CEBがモデルロバストネスを改善

CEB Improves Model Robustness ( http://arxiv.org/abs/2002.05380v1 )

ライセンス: Link先を確認
Ian Fischer and Alexander A. Alemi(参考訳) 本研究では,条件付きエントロピーボトルネック(CEB)がモデルロバスト性を向上させることを示す。 CEBは実装が容易な戦略であり、データ拡張手順と連動して動作する。 本稿は,cifar-10とimagenet-c common corruptions benchmark, imagenet-a, pgd攻撃に関する大規模対向ロバストネス調査の結果を報告する。

We demonstrate that the Conditional Entropy Bottleneck (CEB) can improve model robustness. CEB is an easy strategy to implement and works in tandem with data augmentation procedures. We report results of a large scale adversarial robustness study on CIFAR-10, as well as the ImageNet-C Common Corruptions Benchmark, ImageNet-A, and PGD attacks.
翻訳日:2023-01-01 09:53:49 公開日:2020-02-13
# agatha:自動グラフマイニングとトランスフォーマーに基づく仮説生成アプローチ

AGATHA: Automatic Graph-mining And Transformer based Hypothesis generation Approach ( http://arxiv.org/abs/2002.05635v1 )

ライセンス: Link先を確認
Justin Sybrandt, Ilya Tyagin, Michael Shtutman, Ilya Safro(参考訳) 医学研究は危険で高価である。 例えば、薬の発見は、研究者がより詳細な評価のために小さな候補に数千の潜在的なターゲットを効率的に得ることを要求する。 しかし、研究グループは中間結果を見るよりもずっと前にこの候補を決定するのに必要な実験を行うのにかなりの時間と費用を費やしている。 仮説生成システムは、入手可能な研究方向を予測するために、公開可能な科学情報の富をマイニングすることで、この問題に対処する。 agathaは,発見プロセスの早い段階でデータ駆動型洞察を導入可能な,ディープラーニング仮説生成システムである。 学習されたランキング基準により、エンティティセット間の妥当な用語ペアを迅速に優先順位付けし、新しい研究方向を推薦する。 我々は,2015年以降に前もって公表されたデータを用いて接続を最初に予測する時間的ホールドアウトを用いて,システムを大規模に検証した。 さらに,生体医学的なサブドメインを探索し,アガサの最も人気のある関係タイプ20種における予測能力を示す。 本システムは,確立したベンチマークで最高のクラス性能を示し,サブドメイン間で高いレコメンデーションスコアを示す。 再現性: sybrandt.com/2020/agatha のすべてのコード、実験データ、事前訓練済みモデルがオンラインで利用可能である。

Medical research is risky and expensive. Drug discovery, as an example, requires that researchers efficiently winnow thousands of potential targets to a small candidate set for more thorough evaluation. However, research groups spend significant time and money to perform the experiments necessary to determine this candidate set long before seeing intermediate results. Hypothesis generation systems address this challenge by mining the wealth of publicly available scientific information to predict plausible research directions. We present AGATHA, a deep-learning hypothesis generation system that can introduce data-driven insights earlier in the discovery process. Through a learned ranking criteria, this system quickly prioritizes plausible term-pairs among entity sets, allowing us to recommend new research directions. We massively validate our system with a temporal holdout wherein we predict connections first introduced after 2015 using data published beforehand. We additionally explore biomedical sub-domains, and demonstrate AGATHA's predictive capacity across the twenty most popular relationship types. This system achieves best-in-class performance on an established benchmark, and demonstrates high recommendation scores across subdomains. Reproducibility: All code, experimental data, and pre-trained models are available online: sybrandt.com/2020/agatha
翻訳日:2023-01-01 09:51:41 公開日:2020-02-13
# CBAG: 条件付きバイオメディカル抽象生成

CBAG: Conditional Biomedical Abstract Generation ( http://arxiv.org/abs/2002.05637v1 )

ライセンス: Link先を確認
Justin Sybrandt, Ilya Safro(参考訳) 医学的な研究論文では、典型的な英語のテキストと比較して言語と用語がかなり異なるため、この領域で事前訓練されたNLPモデルの実用性が低下する。 一方、バイオメディカル抽象化のデータベースであるMedlineは、年間100万近い新しいドキュメントを導入している。 科学的な記述アシスタント、チャットボット、記述的仮説生成システムといった、この豊富な公開情報を理解する利点を享受できるアプリケーションは、新しいドメイン中心のアプローチを必要とする。 条件付き言語モデルは、いくつかの事前基準が与えられた単語の確率を学習するものであり、そのような多くのアプリケーションにおいて基本的な構成要素である。 本稿では,浅いエンコーダ"条件"スタックと,マルチヘッドアテンションブロックの深い"言語モデル"スタックを備えたトランスフォーマティブベースの条件言語モデルを提案する。 条件スタックは、言語モデルスタックの出力確率分布を変更するために使用されるメタデータを符号化する。 この分布をサンプル化し,提案されたタイトル,意図する出版年,キーワードセットのみをバイオメディカルな要約として生成する。 典型的な自然言語生成指標を用いて,1.5BパラメータGPT-2言語モデルよりも抽象体内で非自明な実体を生成できることを示す。

Biomedical research papers use significantly different language and jargon when compared to typical English text, which reduces the utility of pre-trained NLP models in this domain. Meanwhile Medline, a database of biomedical abstracts, introduces nearly a million new documents per-year. Applications that could benefit from understanding this wealth of publicly available information, such as scientific writing assistants, chat-bots, or descriptive hypothesis generation systems, require new domain-centered approaches. A conditional language model, one that learns the probability of words given some a priori criteria, is a fundamental building block in many such applications. We propose a transformer-based conditional language model with a shallow encoder "condition" stack, and a deep "language model" stack of multi-headed attention blocks. The condition stack encodes metadata used to alter the output probability distribution of the language model stack. We sample this distribution in order to generate biomedical abstracts given only a proposed title, an intended publication year, and a set of keywords. Using typical natural language generation metrics, we demonstrate that this proposed approach is more capable of producing non-trivial relevant entities within the abstract body than the 1.5B parameter GPT-2 language model.
翻訳日:2023-01-01 09:51:22 公開日:2020-02-13
# 弱教師付き局在を用いた高分解能乳癌検診画像の解釈可能な分類法

An interpretable classifier for high-resolution breast cancer screening images utilizing weakly supervised localization ( http://arxiv.org/abs/2002.07613v1 )

ライセンス: Link先を確認
Yiqiu Shen, Nan Wu, Jason Phang, Jungkyu Park, Kangning Liu, Sudarshini Tyagi, Laura Heacock, S. Gene Kim, Linda Moy, Kyunghyun Cho, Krzysztof J. Geras(参考訳) 医療画像は、非常に高い解像度とより小さな関心領域で自然画像と異なる。 これらの違いから、自然画像によく機能するニューラルネットワークアーキテクチャは、医療画像解析には適用できない可能性がある。 本稿では,医療画像のユニークな特性に対処するために提案するフレームワークであるグローバルアウェアマルチインスタンス分類器を拡張した。 このモデルはまず、画像全体に低容量だがメモリ効率のネットワークを使用し、最も情報性の高い領域を特定する。 その後、別の高容量ネットワークを適用し、選択された地域から詳細を収集する。 最後に、グローバルおよびローカル情報を集約して最終的な予測を行う融合モジュールを使用する。 既存の手法では,訓練中に病変のセグメンテーションを必要とすることが多いが,画像レベルのラベルだけで訓練し,悪性所見を示す画素レベルのサリエンシマップを生成することができる。 本モデルは,良性および悪性病変の有無を予測できるマンモグラフィ解析のスクリーニングに応用する。 The NYU Breast Cancer Screening Dataset(100万枚以上の画像からなる)では、悪性所見、ResNet-34およびFaster R-CNNより優れている乳房のAUCが0.93である。 ResNet-34と比較して、我々のモデルは推論よりも4.1倍速く、GPUメモリは78.4%少ない。 さらに,本モデルが放射線科レベルのAUCを0.11のマージンで上回っていることを示す。 提案モデルは、https://github.com/nyukat/gmic。

Medical images differ from natural images in significantly higher resolutions and smaller regions of interest. Because of these differences, neural network architectures that work well for natural images might not be applicable to medical image analysis. In this work, we extend the globally-aware multiple instance classifier, a framework we proposed to address these unique properties of medical images. This model first uses a low-capacity, yet memory-efficient, network on the whole image to identify the most informative regions. It then applies another higher-capacity network to collect details from chosen regions. Finally, it employs a fusion module that aggregates global and local information to make a final prediction. While existing methods often require lesion segmentation during training, our model is trained with only image-level labels and can generate pixel-level saliency maps indicating possible malignant findings. We apply the model to screening mammography interpretation: predicting the presence or absence of benign and malignant lesions. On the NYU Breast Cancer Screening Dataset, consisting of more than one million images, our model achieves an AUC of 0.93 in classifying breasts with malignant findings, outperforming ResNet-34 and Faster R-CNN. Compared to ResNet-34, our model is 4.1x faster for inference while using 78.4% less GPU memory. Furthermore, we demonstrate, in a reader study, that our model surpasses radiologist-level AUC by a margin of 0.11. The proposed model is available online: https://github.com/nyukat/GMIC.
翻訳日:2023-01-01 09:45:21 公開日:2020-02-13
# 深層学習に基づくCBIR

CBIR using features derived by Deep Learning ( http://arxiv.org/abs/2002.07877v1 )

ライセンス: Link先を確認
Subhadip Maji and Smarajit Bose(参考訳) CBIR(Content Based Image Retrieval)システムでは、クエリ画像が与えられた大きなデータベースから同様の画像を検索する。 通常、クエリ画像からいくつかの有用な特徴を抽出し、類似した特徴セットを持つ画像を取得する。 この目的のために適切な類似度尺度が選択され、類似度スコアの高い画像が検索される。 当然、これらの機能の選択は、このシステムの成功において非常に重要な役割を果たす。 本稿では,大規模な画像分類問題に対して学習したディープラーニング畳み込みネットワークから,事前学習ネットワークモデルから派生した特徴を利用する。 このアプローチは様々なデータベースに対して非常に優れた結果をもたらし、現代のCBIRシステムよりも優れています。 そこで本研究では,本手法の検索時間を解析し,上述の特徴に基づくデータベースの事前クラスタ化を提案する。

In a Content Based Image Retrieval (CBIR) System, the task is to retrieve similar images from a large database given a query image. The usual procedure is to extract some useful features from the query image, and retrieve images which have similar set of features. For this purpose, a suitable similarity measure is chosen, and images with high similarity scores are retrieved. Naturally the choice of these features play a very important role in the success of this system, and high level features are required to reduce the semantic gap. In this paper, we propose to use features derived from pre-trained network models from a deep-learning convolution network trained for a large image classification problem. This approach appears to produce vastly superior results for a variety of databases, and it outperforms many contemporary CBIR systems. We analyse the retrieval time of the method, and also propose a pre-clustering of the database based on the above-mentioned features which yields comparable results in a much shorter time in most of the cases.
翻訳日:2023-01-01 09:44:57 公開日:2020-02-13
# MODRL/D-AM:多目的最適化のための分解と注意モデルを用いた多目的深部強化学習アルゴリズム

MODRL/D-AM: Multiobjective Deep Reinforcement Learning Algorithm Using Decomposition and Attention Model for Multiobjective Optimization ( http://arxiv.org/abs/2002.05484v1 )

ライセンス: Link先を確認
Hong Wu, Jiahai Wang and Zizhen Zhang(参考訳) 近年,多目的最適化問題の解法として深層強化学習法が提案されている。 本手法では,多目的最適化問題を複数の単目的最適化サブプロブレムに分解し,全てのサブプロブレムを協調的に最適化する。 各サブプロブレムはポインタネットワークでモデル化され、モデルは強化学習で訓練される。 しかし、ポインタネットワークがインスタンスの特徴を抽出すると、入力ノードの基盤となる構造情報を無視する。 本稿では,多目的最適化問題を解くために,分解と注意モデルを用いた多目的深層強化学習手法を提案する。 本手法では,各サブプロブレムをアテンションモデルにより解き,入力ノードの構造的特徴とノード的特徴を利用することができる。 多目的旅行セールスマン問題に対する実験結果から,提案アルゴリズムは従来手法よりも優れた性能を示す。

Recently, a deep reinforcement learning method is proposed to solve multiobjective optimization problem. In this method, the multiobjective optimization problem is decomposed to a number of single-objective optimization subproblems and all the subproblems are optimized in a collaborative manner. Each subproblem is modeled with a pointer network and the model is trained with reinforcement learning. However, when pointer network extracts the features of an instance, it ignores the underlying structure information of the input nodes. Thus, this paper proposes a multiobjective deep reinforcement learning method using decomposition and attention model to solve multiobjective optimization problem. In our method, each subproblem is solved by an attention model, which can exploit the structure features as well as node features of input nodes. The experiment results on multiobjective travelling salesman problem show the proposed algorithm achieves better performance compared with the previous method.
翻訳日:2023-01-01 09:43:52 公開日:2020-02-13
# マルチスケール非定常確率帯域

Multiscale Non-stationary Stochastic Bandits ( http://arxiv.org/abs/2002.05289v1 )

ライセンス: Link先を確認
Qin Ding, Cho-Jui Hsieh, James Sharpnack(参考訳) LinUCBのような線形モデルの古典的文脈帯域アルゴリズムは、アームの報酬分布は定常線形回帰によってモデル化されると仮定する。 線形回帰モデルが非定常である場合、linucbの後悔は時間とともに線形にスケールすることができる。 本稿では,変化環境に積極的に適応するマルチスケールlinucbと呼ばれる非定常線形バンディット問題のマルチスケール変化点検出手法を提案する。 また,Multiscale-LinUCBアルゴリズムに対する後悔境界の理論解析を行った。 実験結果から,提案手法は非定常環境における他の最先端アルゴリズムよりも優れていた。

Classic contextual bandit algorithms for linear models, such as LinUCB, assume that the reward distribution for an arm is modeled by a stationary linear regression. When the linear regression model is non-stationary over time, the regret of LinUCB can scale linearly with time. In this paper, we propose a novel multiscale changepoint detection method for the non-stationary linear bandit problems, called Multiscale-LinUCB, which actively adapts to the changing environment. We also provide theoretical analysis of regret bound for Multiscale-LinUCB algorithm. Experimental results show that our proposed Multiscale-LinUCB algorithm outperforms other state-of-the-art algorithms in non-stationary contextual environments.
翻訳日:2023-01-01 09:43:21 公開日:2020-02-13
# ランダム摂動下における近接近傍アルゴリズムの予測力

Predictive Power of Nearest Neighbors Algorithm under Random Perturbation ( http://arxiv.org/abs/2002.05304v1 )

ライセンス: Link先を確認
Yue Xing, Qifan Song, Guang Cheng(参考訳) 我々は、古典的な$k$Nearest Neighbors(k$-NN)アルゴリズムにおけるデータ破損シナリオ、すなわち、テストデータがランダムに摂動していると考えている。 このようなシナリオでは、腐敗レベルが漸近的な後悔に与える影響を慎重に特徴付ける。 特に、我々の理論的分析により、腐敗レベル$\omega$が臨界次数以下(すなわち、小さな$\omega$レジーム)である場合、漸近的後悔は、同じであり、その次数を超えた場合(すなわち、大きな$\omega$レジーム)、漸近的後悔は多項式的に低下する相転移現象が明らかとなる。 意外なことに、古典的なノイズ注入アプローチは、漸近的後悔の乗法定数のレベルであっても、大口$\omega$体制の初期段階での試験性能を改善するには役立たないという否定的な結果が得られる。 技術的な副産物として、異なるモデル仮定の下で、 \cite{xue2017achieving} で提案されている事前処理された 1-nn は、前処理ステップで $k$ が最適に選択されたとしても、データ次元 $d>4$ が最大に最適となることを証明する。

We consider a data corruption scenario in the classical $k$ Nearest Neighbors ($k$-NN) algorithm, that is, the testing data are randomly perturbed. Under such a scenario, the impact of corruption level on the asymptotic regret is carefully characterized. In particular, our theoretical analysis reveals a phase transition phenomenon that, when the corruption level $\omega$ is below a critical order (i.e., small-$\omega$ regime), the asymptotic regret remains the same; when it is beyond that order (i.e., large-$\omega$ regime), the asymptotic regret deteriorates polynomially. Surprisingly, we obtain a negative result that the classical noise-injection approach will not help improve the testing performance in the beginning stage of the large-$\omega$ regime, even in the level of the multiplicative constant of asymptotic regret. As a technical by-product, we prove that under different model assumptions, the pre-processed 1-NN proposed in \cite{xue2017achieving} will at most achieve a sub-optimal rate when the data dimension $d>4$ even if $k$ is chosen optimally in the pre-processing step.
翻訳日:2023-01-01 09:43:12 公開日:2020-02-13
# 条件付きエントロピーボトルネック

The Conditional Entropy Bottleneck ( http://arxiv.org/abs/2002.05379v1 )

ライセンス: Link先を確認
Ian Fischer(参考訳) 機械学習の分野の多くは、悪意のある例への脆弱性、お粗末な分散(ood)検出、ミスキャリブレーション、データセットのランダムなラベルを記憶する意欲など、注目すべき障害モードを示している。 従来の一般化の尺度をホールドアウト集合上の精度または関連する指標として拡張するロバスト一般化の失敗を特徴付ける。 これらの失敗は、学習システムがトレーニングデータに関する情報を過剰に保持しているためである、という仮説を立てる。 この仮説を検証するために,モデルの品質を評価するために,最小必要情報(MNI)基準を提案する。 MNI基準に関して良好に機能するモデルを訓練するために,情報ボトルネック (IB) と密接に関連する新たな目的関数である条件エントロピーボトルネック (CEB) を提案する。 我々は, CEBモデルと決定論的モデルと, 様々なデータセットとロバスト性課題に関する変動情報ボトルネックモデルとを比較して, 仮説を実験的に検証した。 我々は、MNIモデルがロバスト一般化のこれらの問題を改善するという仮説を支持する強い経験的証拠を見出した。

Much of the field of Machine Learning exhibits a prominent set of failure modes, including vulnerability to adversarial examples, poor out-of-distribution (OoD) detection, miscalibration, and willingness to memorize random labelings of datasets. We characterize these as failures of robust generalization, which extends the traditional measure of generalization as accuracy or related metrics on a held-out set. We hypothesize that these failures to robustly generalize are due to the learning systems retaining too much information about the training data. To test this hypothesis, we propose the Minimum Necessary Information (MNI) criterion for evaluating the quality of a model. In order to train models that perform well with respect to the MNI criterion, we present a new objective function, the Conditional Entropy Bottleneck (CEB), which is closely related to the Information Bottleneck (IB). We experimentally test our hypothesis by comparing the performance of CEB models with deterministic models and Variational Information Bottleneck (VIB) models on a variety of different datasets and robustness challenges. We find strong empirical evidence supporting our hypothesis that MNI models improve on these problems of robust generalization.
翻訳日:2023-01-01 09:42:28 公開日:2020-02-13
# 経験リプレイによるXCS分類システム

XCS Classifier System with Experience Replay ( http://arxiv.org/abs/2002.05628v1 )

ライセンス: Link先を確認
Anthony Stein, Roland Maier, Lukas Rosenbauer, J\"org H\"ahner(参考訳) XCSは現在最も深く研究されている分類器システムである。 強力なポテンシャルを持ち、さまざまな学習タスクをマスターする固有の能力を備えている。 様々な分類や回帰タスクで顕著な成功に加えて、xcsは強化学習の領域から特定の多段階環境において非常に効果的であることが証明された。 特に後者の領域では、最近の進歩は、ディープニューラルネットワークに基づいたポリシーをモデル化するアルゴリズムによって主に推進されている。 Experience Replay(ER)は、ニューラルネットワークベースのQ関数近似器の安定的なトレーニングを促進するため、DQNの成功の重要な要因の1つである。 驚くべきことに、XCSは、これまで遭遇した記憶された生の体験を活用する類似のメカニズムをほとんど利用していない。 本稿では,このギャップを埋めるために,ERによるXCS拡張の利点について検討する。 一方, 単段階作業においては, ERがサンプル効率の面で大きな改善をもたらすことが実証された。 しかし, シェーディ側では, ER の使用により, XCS の長鎖要求の逐次決定問題に適用した場合, 未解決の問題がさらに増大する可能性が示唆された。

XCS constitutes the most deeply investigated classifier system today. It bears strong potentials and comes with inherent capabilities for mastering a variety of different learning tasks. Besides outstanding successes in various classification and regression tasks, XCS also proved very effective in certain multi-step environments from the domain of reinforcement learning. Especially in the latter domain, recent advances have been mainly driven by algorithms which model their policies based on deep neural networks -- among which the Deep-Q-Network (DQN) is a prominent representative. Experience Replay (ER) constitutes one of the crucial factors for the DQN's successes, since it facilitates stabilized training of the neural network-based Q-function approximators. Surprisingly, XCS barely takes advantage of similar mechanisms that leverage stored raw experiences encountered so far. To bridge this gap, this paper investigates the benefits of extending XCS with ER. On the one hand, we demonstrate that for single-step tasks ER bears massive potential for improvements in terms of sample efficiency. On the shady side, however, we reveal that the use of ER might further aggravate well-studied issues not yet solved for XCS when applied to sequential decision problems demanding for long-action-chains.
翻訳日:2023-01-01 09:35:26 公開日:2020-02-13