このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210213となっている論文です。

PDF登録状況(公開日: 20210213)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子流体力学への経路積分的アプローチ

A Path Integral approach to Quantum Fluid Dynamics ( http://arxiv.org/abs/2002.00255v3 )

ライセンス: Link先を確認
Sagnik Ghosh, Swapan K. Ghosh(参考訳) 本研究では、経路積分法を用いて量子軌道の解の代替手法を考案する。 この分野の最先端技術は、非線形結合偏微分方程式(PDE)の集合を同時に解くことである。 私たちは根本的に異なるルートを選択します。 まず、対応する古典パスの関数として、任意の一般ポテンシャルに対して有効なパス積分プロパゲータの一般閉形式式を導出する。 この方法は正確であり、多粒子の場合と同様に多次元にも適用できる。 これを使って量子ポテンシャル(QP)を計算し、量子軌道を生成する。 閉形式解が不可能な場合、この問題は境界値問題として古典的な経路を解くために公式に定式化される。 この研究は、Path積分アプローチを量子流体力学で正式に橋渡しする。 本手法をモデル化するためのモデルとして,古典経路の境界値問題を摂動的に計算した2重井戸ポテンシャルの玩具モデルビズを考案するが,量子部分は正確には残っていない。 これを用いて、量子トンネルに関する長期にわたる議論の1つについて、洞察を求める。

In this work we develop an alternative approach for solution of Quantum Trajectories using the Path Integral method. The state-of-the-art technique in the field is to solve a set of non-linear, coupled partial differential equations (PDEs) simultaneously. We opt for a fundamentally different route. We first derive a general closed form expression for the Path Integral propagator valid for any general potential as a functional of the corresponding classical path. The method is exact and is applicable in many dimensions as well as multi-particle cases. This, then, is used to compute the Quantum Potential (QP), which, in turn, can generate the Quantum Trajectories. For cases, where closed form solution is not possible, the problem is formally boiled down to solving the classical path as a boundary value problem. The work formally bridges the Path Integral approach with Quantum Fluid Dynamics. As a model application to illustrate the method, we work out a toy model viz. the double-well potential, where the boundary value problem for the classical path has been computed perturbatively, but the Quantum part is left exact. Using this we delve into seeking insight in one of the long standing debates with regard to Quantum Tunneling.
翻訳日:2023-06-05 00:26:53 公開日:2021-02-13
# 量子集合論:転送原理とド・モーガンの法則

Quantum Set Theory: Transfer Principle and De Morgan's Laws ( http://arxiv.org/abs/2002.06692v4 )

ライセンス: Link先を確認
Masanao Ozawa(参考訳) バーコフとフォン・ノイマンによって導入された量子論理学において、ド・モーガンの法則は量子力学における観測命題の射影値真理値割当てにおいて重要な役割を果たす。 タクーティの量子集合論は、この割り当てを量子集合の宇宙上のすべての集合論的ステートメントに拡張する。 しかし、タケウティの量子集合論は、デ・モーガンの法則が普遍的および存在的有界な量子化器の間を保たないという問題を持っている。 ここでは、ド・モーガンの法則を満たす有界量化器に対する新しい真理値代入を導入することで、この問題を解決する。 新しい割り当てを正当化するために、転送原理を証明し、任意の有界なzfc定理に対する真理値の割り当ては、その公式における定数の射影値の次数である可換子によって決定される下限を持つことを示す。 我々は、真理値割り当ての最も一般的なクラスを研究し、転送原理を満たし、ド・モーガンの法則を満たし、両方の条件を満たすために必要な十分な条件を得る。 多項式で定義可能な論理演算を持つ代入のクラスに対して、転送原理を満たす36個の代入と、転送原理とド・モーガンの法則の両方を満たす6個の代入を決定する。

In quantum logic, introduced by Birkhoff and von Neumann, De Morgan's Laws play an important role in the projection-valued truth value assignment of observational propositions in quantum mechanics. Takeuti's quantum set theory extends this assignment to all the set-theoretical statements on the universe of quantum sets. However, Takeuti's quantum set theory has a problem in that De Morgan's Laws do not hold between universal and existential bounded quantifiers. Here, we solve this problem by introducing a new truth value assignment for bounded quantifiers that satisfies De Morgan's Laws. To justify the new assignment, we prove the Transfer Principle, showing that this assignment of a truth value to every bounded ZFC theorem has a lower bound determined by the commutator, a projection-valued degree of commutativity, of constants in the formula. We study the most general class of truth value assignments and obtain necessary and sufficient conditions for them to satisfy the Transfer Principle, to satisfy De Morgan's Laws, and to satisfy both. For the class of assignments with polynomially definable logical operations, we determine exactly 36 assignments that satisfy the Transfer Principle and exactly 6 assignments that satisfy both the Transfer Principle and De Morgan's Laws.
翻訳日:2023-06-03 13:09:53 公開日:2021-02-13
# 雑音量子マシンにおける非ネイティブ立方体相互作用のシミュレーション

Simulating nonnative cubic interactions on noisy quantum machines ( http://arxiv.org/abs/2004.06885v3 )

ライセンス: Link先を確認
Yuan Shi, Alessandro R. Castelli, Xian Wu, Ilon Joseph, Vasily Geyko, Frank R. Graziani, Stephen B. Libby, Jeffrey B. Parker, Yaniv J. Rosen, Luis A. Martinez, Jonathan L DuBois(参考訳) 汎用コンピューティングマシンのマイルストーンとして,量子プロセッサをプログラムして,ハードウェアに固有ではないダイナミクスを効率的にシミュレートできることを実証する。 さらに,誤差補正のないノイズのあるデバイスでは,量子プログラムが標準ゲートの制限セットではなくモジュールゲートを用いてコンパイルされると,シミュレーション結果が大幅に改善されることを示す。 本稿では, 非線形光学, ゲージ理論, プラズマ, 流体力学に現れる3次相互作用問題を解くことで, 一般的な手法を実証する。 非ネイティブハミルトニアン進化を符号化するために、ヒルベルト空間を、非線形問題を有限次元ハミルトニアンシミュレーション問題に写像する不変部分空間の直和に分解する。 3状態の例では、結果のユニタリ進化は20個の標準ゲートの積によって実現され、その結果がデコヒーレンスによって破壊される前に、最先端の量子ハードウェア上で10個のシミュレーションステップを実行することができる。 比較すると、単一立方体ゲートとしてユニタリ進化が実現された場合、シミュレーション深度は桁違いに改善され、最適な制御で直接コンパイルされる。 あるいは、パラメトリックゲートは制御パルスを補間してコンパイルすることもできる。 モジュラーゲートは量子ハミルトニアンシミュレーションのための高忠実度なビルディングブロックを提供する。

As a milestone for general-purpose computing machines, we demonstrate that quantum processors can be programmed to efficiently simulate dynamics that are not native to the hardware. Moreover, on noisy devices without error correction, we show that simulation results are significantly improved when the quantum program is compiled using modular gates instead of a restricted set of standard gates. We demonstrate the general methodology by solving a cubic interaction problem, which appears in nonlinear optics, gauge theories, as well as plasma and fluid dynamics. To encode the nonnative Hamiltonian evolution, we decompose the Hilbert space into a direct sum of invariant subspaces in which the nonlinear problem is mapped to a finite-dimensional Hamiltonian simulation problem. In a three-states example, the resultant unitary evolution is realized by a product of ~20 standard gates, using which ~10 simulation steps can be carried out on state-of-the-art quantum hardware before results are corrupted by decoherence. In comparison, the simulation depth is improved by more than an order of magnitude when the unitary evolution is realized as a single cubic gate, which is compiled directly using optimal control. Alternatively, parametric gates may also be compiled by interpolating control pulses. Modular gates thus obtained provide high-fidelity building blocks for quantum Hamiltonian simulations.
翻訳日:2023-05-23 11:40:01 公開日:2021-02-13
# 感染症に対するiotベースのコンタクトトレーシングシステム:アーキテクチャと分析

IoT-based Contact Tracing Systems for Infectious Diseases: Architecture and Analysis ( http://arxiv.org/abs/2009.01902v2 )

ライセンス: Link先を確認
Peng Hu(参考訳) 新型コロナウイルスのパンデミックは、人間の健康と健康にとって大きな脅威となっている。 接触追跡ソリューションなどの非薬剤的介入は、新型コロナウイルスのような感染症の拡散を抑えるために重要である。 しかし、現在のコンタクトトレーシングソリューションは、センシング技術の限られた使用によって断片化されており、有効性を評価する分析フレームワークなしで個人間のインタラクションを監視することに集中している。 したがって、私たちはまず、幅広い応用可能なセンサーに基づいて、今日のIoT(Internet of Things)テクノロジのコンテキストにおいて、コンタクトトレースのための汎用アーキテクチャを探求する必要があります。 接触追跡のためのIoTベースの新しいソリューションアーキテクチャを提案し,従来の疫学モデルに基づいて,その総合的な疾患封じ込めの有効性をシミュレーションにより分析した。 提案する研究は,iotベースのコンタクトトレーシングソリューションの今後の設計と評価を支援するフレームワークの提供と,現在および将来の感染症対策におけるデータ駆動型集団的取り組みの実現を目的とする。

The recent COVID-19 pandemic has become a major threat to human health and well-being. Non-pharmaceutical interventions such as contact tracing solutions are important to contain the spreads of COVID-19-like infectious diseases. However, current contact tracing solutions are fragmented with limited use of sensing technologies and centered on monitoring the interactions between individuals without an analytical framework for evaluating effectiveness. Therefore, we need to first explore generic architecture for contact tracing in the context of today's Internet of Things (IoT) technologies based on a broad range of applicable sensors. A new architecture for IoT based solutions to contact tracing is proposed and its overall effectiveness for disease containment is analyzed based on the traditional epidemiological models with the simulation results. The proposed work aims to provide a framework for assisting future designs and evaluation of IoT-based contact tracing solutions and to enable data-driven collective efforts on combating current and future infectious diseases.
翻訳日:2023-05-03 22:45:32 公開日:2021-02-13
# 歴史の絡み合いエントロピー

History entanglement entropy ( http://arxiv.org/abs/2009.02331v3 )

ライセンス: Link先を確認
Leonardo Castellani(参考訳) エンタングルド量子ヒストリーとそのエントロピーを記述する形式論が提案されている。 我々は、許容される履歴に対応する基底要素を持つテンソル空間、すなわち非有界な振幅を持つ履歴空間に存在する歴史ベクトルを定義する。 振幅は履歴ベクトルの成分であり、動的情報を含む。 測定列の確率と結果として生じる崩壊は、一般化されたボルン規則によって与えられる:それらはすべて、歴史ベクトルを含む射影やスカラー積によって表現される。 絡み合った履歴状態が導入され、履歴密度行列は履歴ベクトルのアンサンブルによって定義される。 対応するヒストリエントロピー(および複合システムのヒストリエンタングルメントエントロピー)は、量子計算回路から取られた2つの例で明示的に計算される。

A formalism is proposed to describe entangled quantum histories, and their entanglement entropy. We define a history vector, living in a tensor space with basis elements corresponding to the allowed histories, i.e. histories with nonvanishing amplitudes. The amplitudes are the components of the history vector, and contain the dynamical information. Probabilities of measurement sequences, and resulting collapse, are given by generalized Born rules: they are all expressed by means of projections and scalar products involving the history vector. Entangled history states are introduced, and a history density matrix is defined in terms of ensembles of history vectors. The corresponding history entropies (and history entanglement entropies for composite systems) are explicitly computed in two examples taken from quantum computation circuits.
翻訳日:2023-05-03 20:45:55 公開日:2021-02-13
# 中心拡大再訪を伴うユークリッド対称性からのランダウ準位の無限縮退

Infinite degeneracy of Landau levels from the Euclidean symmetry with central extension revisited ( http://arxiv.org/abs/2011.06091v2 )

ライセンス: Link先を確認
Rajan Murgan(参考訳) 平面に垂直な均一磁場を持つ平面における荷電粒子の量子力学的運動を記述する平面ランダウ系は、初期卒業レベルを目標とした教育的設定の中で探索される。 この系は中心展開 $\bar{E}(2)$ の2次元でユークリッド対称性を持つことが知られている。 本稿では、関連する $\bar{e}(2)$ symmetry algebra を利用して、ランダウ準位として知られる系のよく知られたエネルギー固有値を再検討する。 具体的には、casimir演算子と$\bar{e}(2)$群のジェネレータの交換関係を利用する。 さらに重要なことに、シュウィンガーの角運動量振動子モデルに基づく代数的形式主義も提示される。 ここで、$\bar{e}(2)$ 群の既約表現の次元と、ランダウ準位の退化に対するそれらの影響について論じる。

The planar Landau system which describes the quantum mechanical motion of a charged particle in a plane with a uniform magnetic field perpendicular to the plane, is explored within pedagogical settings aimed at the beginning graduate level. The system is known to possess the Euclidean symmetry in two dimensions with central extension $\bar{E}(2)$. In this paper, we revisit the well-known energy eigenvalues of the system, known as the Landau levels, by exploiting the related $\bar{e}(2)$ symmetry algebra. Specifically, we utilize the Casimir operator and the commutation relations of the generators of the $\bar{E}(2)$ group. More importantly, an algebraic formalism on this topic based on Schwinger's oscillator model of angular momentum is also presented. The dimensions of irreducible representations of the $\bar{E}(2)$ group and their implications on the degeneracy of Landau levels is discussed.
翻訳日:2023-04-27 00:19:17 公開日:2021-02-13
# 新型コロナウイルスによる選択的画像暗号化の最近の進歩とその必然性

Recent Advances in Selective Image Encryption and its Indispensability due to COVID-19 ( http://arxiv.org/abs/2011.13740v3 )

ライセンス: Link先を確認
Aditya Jyoti Paul(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、これらのアウトブレイクの予期せぬ性質を思い起こさせ、さまざまな分野でユニークな研究課題を生み出します。 世界中の人々がこの新しい「普通」に適応し、ほとんどの職場で企業から教育機関がオンラインに移行するにつれ、画像やビデオの送信が急増し、インターネットのバックボーンに記録的なストレスが生じた。 同時に、ユーザのデータのプライバシーとセキュリティを維持することが非常に重要であり、高速で効率的な画像暗号化アルゴリズムが重要な役割を果たしている。 本稿では,パンデミックが世界人口に与える影響と,そのマルチメディア消費の変化が,セキュアで高速な画像暗号化,特に選択的画像暗号化技術の開発と展開を急務に必要としてきたことについて論じる。 この分野での最新の進歩を慎重に調査し、実際の影響を議論し、最終的に今後の研究の道を探り、急激な救済とパンデミックの悲惨な影響から回復する。

The COVID-19 pandemic serves as a grim reminder of the unexpected nature of these outbreaks and gives rise to a unique set of research challenges in a variety of fields. As people all over the world adjust to this new 'normal', with most workplaces, from companies to educational institutions shifting online, enormous surges in the transmission of images and videos have been observed, creating record-breaking stresses on the internet backbone. At the same time, maintaining the privacy and security of the users' data is of immense importance, this is where fast and efficient image encryption algorithms play a vital role. This paper discusses the calamitous effects of the pandemic on the world population and how their changes in multimedia consumption have led to an urgent need for the development and deployment of secure and fast image encryption, especially selective image encryption techniques. It carefully surveys the most recent advances in this field, discusses their real-world effects and finally explores some future research avenues, to provide swift relief and recover from the disastrous effects of the pandemic.
翻訳日:2023-04-22 20:37:25 公開日:2021-02-13
# 量子強化位相識別のためのフォック状態干渉法

Fock state interferometry for quantum enhanced phase discrimination ( http://arxiv.org/abs/2102.05772v2 )

ライセンス: Link先を確認
Reihaneh Shahrokhshahi, Saikat Guha, Olivier Pfister(参考訳) 2つのフォック状態入力を持つマッハ・ツェンダー干渉計と2つの出力における光子数分解検出からなるフォック状態干渉法について検討した。 平均光子数制約の下での古典的手法で実現可能な誤差よりも低い誤差確率で、アプリオリ既知の光位相シフトの離散数を判別できることが示される。 m-ary位相識別のための最適な量子プローブと性能を比較するが、本プローブと異なり準備が困難である。 さらに,従来のプローブ光では実現できないような理想条件下で,誤差のゼロの確率で,より小さな位相シフトからヌル位相シフトを識別する手法も提案した。 最後に,2相符号化メモリ画素を用いた量子読み取りへの応用について述べる。

We study Fock state interferometry, consisting of a Mach-Zehnder Interferometer with two Fock state inputs and photon-number-resolved detection at the two outputs. We show that it allows discrimination of a discrete number of apriori-known optical phase shifts with an error probability lower than what is feasible with classical techniques under a mean photon number constraint. We compare its performance with the optimal quantum probe for M-ary phase discrimination, which unlike our probe, is difficult to prepare. Our technique further allows discriminating a null phase shift from an increasingly small one at zero probability of error under ideal conditions, a feature impossible to attain using classical probe light. Finally, we describe one application to quantum reading with binary phase-encoded memory pixels.
翻訳日:2023-04-12 00:31:25 公開日:2021-02-13
# 局所和不確かさ関係に基づく真の多成分絡み合いの検出

Detection of genuine multipartite entanglement based on local sum uncertainty relations ( http://arxiv.org/abs/2102.06865v1 )

ライセンス: Link先を確認
Jun Li and Lin Chen(参考訳) Genuine multipartite entanglement (GME) は量子情報において、エンタングルメントと比較してより大きな利点をもたらす。 本稿では,サブシステムの選択可観測値に対する局所和不確実性関係に基づくgme検出のための十分な基準を提案する。 n = 3, 4, 5$, 6,$ のとき、$n$-partite W 状態の GME 特性を検出するためにこの基準を適用し、$n$ が 4 から 6 のとき、よりノイズの多い W 状態を検出することができる。 さらに、この基準は真の3$-qutrit状態の絡みを検出するためにも用いられる。 その結果, GME のコンカレンスや漁業情報に基づいて, より強い結果が得られた。

Genuine multipartite entanglement (GME) offers more significant advantages in quantum information compared with entanglement. We propose a sufficient criterion for the detection of GME based on local sum uncertainty relations for chosen observables of subsystems. We apply the criterion to detect the GME properties of noisy $n$-partite W state when $n = 3, 4, 5$ and $6$, and find that the criterion can detect more noisy W states when $n$ ranges from 4 to 6. Moreover, the criterion is also used to detect the genuine entanglement of $3$-qutrit state. The result is stronger than that based on GME concurrence and fisher information.
翻訳日:2023-04-11 06:14:59 公開日:2021-02-13
# $q$変形非相対論的粒子の保存則

Conservation laws for a $q$-deformed nonrelativistic particle ( http://arxiv.org/abs/2103.03356v1 )

ライセンス: Link先を確認
Hartmut Wachter(参考訳) 我々は、グリーンの定理の$q$-versionsを、$q$ 変形ユークリッド空間に対する部分微分のライプニッツ則から導出する。 これらの結果と、q$変形非相対論的粒子に対するschr\"{o}dinger方程式を用いて、q$変形非相対論的粒子の確率密度、エネルギー密度、運動量密度の連続性方程式を導出する。

We derive $q$-versions of Green's theorem from the Leibniz rules of partial derivatives for the $q$-deformed Euclidean space. Using these results and the Schr\"{o}dinger equations for a $q$-deformed nonrelativistic particle, we derive continuity equations for the probability density, the energy density, and the momentum density of a $q$-deformed nonrelativistic particle.
翻訳日:2023-04-11 06:09:21 公開日:2021-02-13
# スマートコントラクトを用いた信頼性・透明なワクチン第III相臨床試験に向けて

Towards reliable and transparent vaccine phase III trials with smart contracts ( http://arxiv.org/abs/2102.07022v1 )

ライセンス: Link先を確認
Ivan da Silva Sendin and Rodrigo Sanches Miani(参考訳) ワクチンの概念を本物のワクチン製品に変換するのは複雑なプロセスであり、適切な抗原や規制、技術、製造上の障害を見つけることを含む。 この範囲内で関連する問題は臨床試験プロセスである。 従来のシステムを使った試行データの整合性の監視と保証は、必ずしも実現可能ではありません。 sars-cov-2に対するワクチンの探索は、この状況を示している。 いくつかのワクチンの臨床試験から得られた知見の科学的信頼性は、薬物の利益とリスクに関する歪んだ認識につながった。 このシナリオは、医療問題にブロックチェーンやスマートコントラクトなどのテクノロジを適用するのに理想的です。 本稿では,ワクチン実験の第iii相への透明性,会計,機密性を実現するために,vaccscというスマートコントラクトに基づくプロトコルを提案する。 このプロトコルはソリディティ言語で実装されており、vaccscは不正な参加者が存在する場合でも、二重盲検、ランダム化、臨床データの監査を可能にしている。

Transforming a vaccine concept into a real vaccine product is a complicated process and includes finding suitable antigens and regulatory, technical, and manufacturing obstacles. A relevant issue within this scope is the clinical trial process. Monitoring and ensuring the integrity of trial data using the traditional system is not always feasible. The search for a vaccine against the coronavirus SARS-CoV-2 illustrates this situation. The scientific credibility of findings from several vaccines' clinical trials contributed to distorted perceptions concerning the benefits and risks of the drug. This scenario is ideal for applying technologies such as Blockchain and Smart Contracts in healthcare issues. This paper proposes a protocol based on Smart Contracts, named VaccSC, to enable transparency, accounting, and confidentiality to Phase III of vaccine experiments. The protocol was implemented in Solidity language, and results show that the VaccSC enables double-blindness, randomization, and the auditability of clinical data, even in the presence of dishonest participants.
翻訳日:2023-04-11 06:08:51 公開日:2021-02-13
# 基本段階への因子化時間進化

Factorizing time evolution into elementary steps ( http://arxiv.org/abs/2102.07018v1 )

ライセンス: Link先を確認
David Edward Bruschi(参考訳) 量子系の時間発展演算子を時間順序付けされた基本演算の(有限の)シーケンスを通して分解する手法を提案する。 提案手法は,リー代数法や他の因子分解法に基づく従来の手法から借用し,最終的な結果を提供する最適化演算セットを必要とする。 具体的には、各ステップ3の最適量(所望のユニタリ操作の最適持続時間、最適時間に対する駆動関数の最適機能依存性、追加のユニタリ操作を実施させる最適初等エルミート演算)を生成する。 このように得られるユニタリ操作のシーケンスは、時間とともにシーケンシャルである。 提案手法を既存の手法と比較し,実装を緩和できる重要な仮定を強調する。

We propose an approach to factorize the time-evolution operator of a quantum system through a (finite) sequence of elementary operations that are time-ordered. Our proposal borrows from previous approaches based on Lie algebra techniques and other factorization procedures, and requires a set of optimization operations that provide the final result. Concretely, the algorithm produces at each step three optimal quantities, namely the optimal duration of the desired unitary operation, the optimal functional dependence of the driving function on the optimal time, and the optimal elementary Hermitian operation that induces the additional unitary operation to be implemented. The resulting sequence of unitary operations that is obtained this way is sequential with time. We compare our proposal with existing approaches, and highlight which key assumptions can be relaxed for practical implementations.
翻訳日:2023-04-11 06:08:36 公開日:2021-02-13
# フロック工学による量子ガスのテーラー化

Tailoring quantum gases by Floquet engineering ( http://arxiv.org/abs/2102.07009v1 )

ライセンス: Link先を確認
Christof Weitenberg, Juliette Simonet(参考訳) フロッケエンジニアリング(Floquet engineering)は、周期駆動によるシステムを調整する概念である。 人工ゲージ場、トポロジカルバンド構造、密度依存トンネルなどの光学格子における超低温原子の研究に、ハミルトニアンの新しいクラスを開くことに非常に成功している。 さらに、駆動システムは、異常なフロケトポロジカル絶縁体のような静的な問題のない新しい物理を提供する。 本稿では,この分野におけるエキサイティングな発展の概要と,現在の課題と展望について述べる。

Floquet engineering is the concept of tailoring a system by a periodic drive. It has been very successful in opening new classes of Hamiltonians to the study with ultracold atoms in optical lattices, such as artificial gauge fields, topological band structures and density-dependent tunneling. Furthermore, driven systems provide new physics without static counterpart such as anomalous Floquet topological insulators. In this review article, we provide an overview of the exciting developments in the field and discuss the current challenges and perspectives.
翻訳日:2023-04-11 06:08:24 公開日:2021-02-13
# 量子原子光学のための物質波位相作用素:実験的検証の可能性について

Matter-wave phase operators for quantum atom optics: On the possibility of experimental verification ( http://arxiv.org/abs/2102.06978v1 )

ライセンス: Link先を確認
Kingshuk Adhikary, Subhanka Mal, Abhik Kr. Saha, Bimalendu Deb(参考訳) 90年代初頭、マンデルと同僚は、2つの光学場間の位相を測定することによって量子位相作用素の意義を調べる実験を行った。 このタイプの量子力学的位相測定は、二重井戸内の超低温原子の物質波に対して可能であることを示す。 低原子数の極限では、量子相と古典相は大きく異なる。 しかし、大きな粒子数制限では、それらは非常によく似ている。 我々は、実験の物質波の対は、原子光学の発展技術によって実現可能であると主張する。

In early 90's Mandel and coworkers performed an experiment \cite{mandel} to examine the significance of quantum phase operators by measuring the phase between two optical fields. We show that this type of quantum mechanical phase measurement is possible for matter-waves of ultracold atoms in a double well. In the limit of low number of atoms quantum and classical phases are drastically different. However, in the large particle number limit, they are quite similar. We assert that the matter-wave counterpart of the experiment \cite{mandel} is realizable with the evolving technology of atom optics.
翻訳日:2023-04-11 06:08:17 公開日:2021-02-13
# 周期的に駆動されるトラップイオンからのリーマン零点

Riemann zeros from a periodically-driven trapped ion ( http://arxiv.org/abs/2102.06936v1 )

ライセンス: Link先を確認
Ran He, Ming-Zhong Ai, Jin-Ming Cui, Yun-Feng Huang, Yong-Jian Han, Chuan-Feng Li, Guang-Can Guo, G.Sierra, and C.E. Creffield(参考訳) リーマンゼータ函数の非自明な零点は、数論における中心的な対象である。 特に、素数を再現することができる。 彼らはまた、何十年にもわたってランダム行列理論や量子カオスに携わる物理学者の注目を集めてきた。 ここでは、ポールトラップに閉じ込められたイオン量子ビットを用いて、マイクロ波で周期的に駆動される最小非自明リーマン零点を実験的に観察する。 駆動の波形は、駆動パラメータがゼータ関数の実成分の零点と一致するときに、イオンのダイナミクスが凍結するように設計される。 駆動振幅を走査することで、リーマン零点の位置を高い精度で実験的に測定することができ、量子領域におけるこれらの魅力的な数学的対象の物理的具体化を提供する。

The non-trivial zeros of the Riemann zeta function are central objects in number theory. In particular, they enable one to reproduce the prime numbers. They have also attracted the attention of physicists working in Random Matrix Theory and Quantum Chaos for decades. Here we present an experimental observation of the lowest non-trivial Riemann zeros by using a trapped ion qubit in a Paul trap, periodically driven with microwave fields. The waveform of the driving is engineered such that the dynamics of the ion is frozen when the driving parameters coincide with a zero of the real component of the zeta function. Scanning over the driving amplitude thus enables the locations of the Riemann zeros to be measured experimentally to a high degree of accuracy, providing a physical embodiment of these fascinating mathematical objects in the quantum realm.
翻訳日:2023-04-11 06:07:31 公開日:2021-02-13
# 階層グラフによるニュース指向異種情報ネットワーク上の偽ニュース検出

Fake News Detection on News-Oriented Heterogeneous Information Networks through Hierarchical Graph Attention ( http://arxiv.org/abs/2002.04397v2 )

ライセンス: Link先を確認
Yuxiang Ren, Jiawei Zhang(参考訳) フェイクニュースの拡散が社会に大きな害を与え、フェイクニュース検出が緊急の課題となった。 現在の偽ニュース検出方法は、抽出したニュースコンテンツや内部知識の書き方を学ぶことによって、テキスト情報に大きく依存している。 しかし、意図的な噂は、書き込みスタイルを隠蔽し、言語モデルをバイパスし、単純なテキストベースのモデルを無効にする。 実際、ニュース記事やその他の関連コンポーネント(ニュース作成者やニューストピックなど)は、異種情報ネットワーク(略してHIN)としてモデル化することができる。 本稿では,HINでノード表現学習を行うための新しい階層的注意機構を用いて,ニュース記事ノードを分類してフェイクニュースを検出する,新しいフェイクニュース検出フレームワークである階層的グラフ注意ネットワーク(HGAT)を提案する。 2つの実世界のフェイクニュースデータセットの実験は、HGATがテキストベースのモデルや他のネットワークベースのモデルより優れていることを示している。 さらに,不均一グラフにおけるグラフ表現学習および他のノード分類関連応用のための拡張性と一般化性を示した。

The viral spread of fake news has caused great social harm, making fake news detection an urgent task. Current fake news detection methods rely heavily on text information by learning the extracted news content or writing style of internal knowledge. However, deliberate rumors can mask writing style, bypassing language models and invalidating simple text-based models. In fact, news articles and other related components (such as news creators and news topics) can be modeled as a heterogeneous information network (HIN for short). In this paper, we propose a novel fake news detection framework, namely Hierarchical Graph Attention Network(HGAT), which uses a novel hierarchical attention mechanism to perform node representation learning in HIN, and then detects fake news by classifying news article nodes. Experiments on two real-world fake news datasets show that HGAT can outperform text-based models and other network-based models. In addition, the experiment proved the expandability and generalizability of our for graph representation learning and other node classification related applications in heterogeneous graphs.
翻訳日:2023-01-03 20:43:57 公開日:2021-02-13
# 深部ニューラルネットワーク学習のための分節モーメント保存初期化手法

Fractional moment-preserving initialization schemes for training deep neural networks ( http://arxiv.org/abs/2005.11878v5 )

ライセンス: Link先を確認
Mert Gurbuzbalaban, Yuanhan Hu(参考訳) ディープニューラルネットワーク(DNN)の初期化に対する従来のアプローチは、プレアクティベーションの分散を保存するためにランダムにネットワーク重みをサンプリングすることである。 一方, トレーニング過程において, 確率勾配の分布は特に小バッチサイズの場合, 重み付け可能であることがいくつかの研究で示されている。 この場合、重みやプレアクティベーションは無限の分散を持つが、位数$s$と$s<2$の有限な(非整数的な)分数モーメントを持つ重み付き分布でモデル化することができる。 この事実を動機として、ReLU、Leaky ReLU、Randomized Leaky ReLU、線形アクティベーションを含む一連のアクティベーションのクラスに対して、オーダー$s \in (0, 2]$の任意の特定のモーメントを確実に保存できる完全連結フィードフォワードネットワークの初期化スキームを開発した。 これらの一般化スキームは、極限 $s \to 2$ で従来の初期化スキームを復元し、初期化の原理理論の一部として機能する。 これらすべてのスキームについて、ネットワーク出力は層数の増加に伴って有限に確実に制限され、いくつかの設定では制限は重み付けされることを示す。 これは、DNNにおける信号伝達中の重尾の起源にさらに光を当てる。 ネットワーク出力のノルムの対数は、適切にスケールすれば、使用したアクティベーション、選択したsの値、ネットワーク幅に応じて、明示的な平均と分散でガウス分布に収束することを示す。 また、我々の初期化スキームは従来のアプローチよりもネットワーク出力の小さな値がより頻繁に避けられることを証明します。 さらに,提案した初期化戦略はトレーニング期間中に余分なコストを伴わない。 数値実験を通して初期化がトレーニングとテストのパフォーマンスを向上させることを示した。

A traditional approach to initialization in deep neural networks (DNNs) is to sample the network weights randomly for preserving the variance of pre-activations. On the other hand, several studies show that during the training process, the distribution of stochastic gradients can be heavy-tailed especially for small batch sizes. In this case, weights and therefore pre-activations can be modeled with a heavy-tailed distribution that has an infinite variance but has a finite (non-integer) fractional moment of order $s$ with $s<2$. Motivated by this fact, we develop initialization schemes for fully connected feed-forward networks that can provably preserve any given moment of order $s \in (0, 2]$ over the layers for a class of activations including ReLU, Leaky ReLU, Randomized Leaky ReLU, and linear activations. These generalized schemes recover traditional initialization schemes in the limit $s \to 2$ and serve as part of a principled theory for initialization. For all these schemes, we show that the network output admits a finite almost sure limit as the number of layers grows, and the limit is heavy-tailed in some settings. This sheds further light into the origins of heavy tail during signal propagation in DNNs. We prove that the logarithm of the norm of the network outputs, if properly scaled, will converge to a Gaussian distribution with an explicit mean and variance we can compute depending on the activation used, the value of s chosen and the network width. We also prove that our initialization scheme avoids small network output values more frequently compared to traditional approaches. Furthermore, the proposed initialization strategy does not have an extra cost during the training procedure. We show through numerical experiments that our initialization can improve the training and test performance.
翻訳日:2022-11-29 05:46:43 公開日:2021-02-13
# 産業応用における公正な統合に向けて

Towards Integrating Fairness Transparently in Industrial Applications ( http://arxiv.org/abs/2006.06082v3 )

ライセンス: Link先を確認
Emily Dodwell, Cheryl Flynn, Balachander Krishnamurthy, Subhabrata Majumdar, Ritwik Mitra(参考訳) 近年の機械学習(ML)のバイアス関連障害は、企業がMLライフサイクルに透明性と説明責任の側面をどのように取り入れるかを精査している。 企業は、バイアスのためにmlプロセスを監視し、検出されたバイアスを軽減し、ビジネスプロダクトの完全性を確保し、顧客の忠誠を守り、ブランドイメージを保護する責任がある。 業界MLプロジェクトに特有の課題は、原則化されたドキュメント、人間の監視、情報の再利用とコスト効率の向上を可能にするメカニズムの必要性に広く分類することができる。 我々は,特定の道路ブロックを強調し,ML実践者や組織分野の専門家を対象に,カテゴリごとの概念的ソリューションを提案する。 私たちの体系的なアプローチは、MLライフサイクルのさまざまな段階におけるプロジェクトのバイアス検出、緩和、ドキュメントに、機械的および人為的コンポーネントを統合することで、これらの課題に取り組みます。 sift(system to integrate fairness transparently)システムの実装を動機付けるために,我々は,その構造的プリミティブを,潜在的なバイアスを特定し,適切な緩和戦略を参加的な方法で決定するためにどのように使用できるかという実例で提示する。

Numerous Machine Learning (ML) bias-related failures in recent years have led to scrutiny of how companies incorporate aspects of transparency and accountability in their ML lifecycles. Companies have a responsibility to monitor ML processes for bias and mitigate any bias detected, ensure business product integrity, preserve customer loyalty, and protect brand image. Challenges specific to industry ML projects can be broadly categorized into principled documentation, human oversight, and need for mechanisms that enable information reuse and improve cost efficiency. We highlight specific roadblocks and propose conceptual solutions on a per-category basis for ML practitioners and organizational subject matter experts. Our systematic approach tackles these challenges by integrating mechanized and human-in-the-loop components in bias detection, mitigation, and documentation of projects at various stages of the ML lifecycle. To motivate the implementation of our system -- SIFT (System to Integrate Fairness Transparently) -- we present its structural primitives with an example real-world use case on how it can be used to identify potential biases and determine appropriate mitigation strategies in a participatory manner.
翻訳日:2022-11-23 04:56:46 公開日:2021-02-13
# 自律型ミニ車両のためのtinymlモデルのロバスト化

Robustifying the Deployment of tinyML Models for Autonomous mini-vehicles ( http://arxiv.org/abs/2007.00302v2 )

ライセンス: Link先を確認
Miguel de Prado, Manuele Rusci, Romain Donze, Alessandro Capotondi, Serge Monnerat, Luca Benini and, Nuria Pazos(参考訳) ディープラーニングの進歩により、標準サイズの自律ナビゲーション車両は急速に改善されている。 しかしながら、動的環境にデプロイされた低消費電力システムへの自律運転のスケーリングは、採用を妨げるいくつかの課題を引き起こす。 そこで本研究では,対象環境を含む自動運転ミニ車両のためのクローズドループ学習フローを提案する。 我々は、小型で高スループットの小型CNNのファミリーを活用し、コンピュータビジョンアルゴリズム、すなわち専門家を模倣してターゲット環境で学習するミニ車両を制御する。 そのため、小型CNNはオンボードの高速レートのリニアカメラにしかアクセスできないため、照明条件の堅牢性を高め、時間とともに改善する。 さらに、並列超低消費電力RISC-V SoCであるGAP8を用いて、推論要求を満たす。 STM32L4とNXP k64f(Cortex-M4)の他の実装よりも優れており、レイテンシを13倍以上削減し、エネルギー消費を92%削減しています。

Standard-size autonomous navigation vehicles have rapidly improved thanks to the breakthroughs of deep learning. However, scaling autonomous driving to low-power systems deployed on dynamic environments poses several challenges that prevent their adoption. To address them, we propose a closed-loop learning flow for autonomous driving mini-vehicles that includes the target environment in-the-loop. We leverage a family of compact and high-throughput tinyCNNs to control the mini-vehicle, which learn in the target environment by imitating a computer vision algorithm, i.e., the expert. Thus, the tinyCNNs, having only access to an on-board fast-rate linear camera, gain robustness to lighting conditions and improve over time. Further, we leverage GAP8, a parallel ultra-low-power RISC-V SoC, to meet the inference requirements. When running the family of CNNs, our GAP8's solution outperforms any other implementation on the STM32L4 and NXP k64f (Cortex-M4), reducing the latency by over 13x and the energy consummation by 92%.
翻訳日:2022-11-14 23:12:32 公開日:2021-02-13
# テンソルPCAにおける統計的問合せ下界

Statistical Query Lower Bounds for Tensor PCA ( http://arxiv.org/abs/2008.04101v2 )

ライセンス: Link先を確認
Rishabh Dudeja and Daniel Hsu(参考訳) Richard and Montanari (2014) が導入したTensor PCA問題では、$n$サンプル$\mathbf{T}_{1:n}$、すなわち$k$のガウステンソル$と、$\mathbb{E}\mathbf{T}_1$がランク1テンソルおよび$\|\mathbb{E} \mathbf{T}_1\| = 1$からなるデータセットが与えられる。 目標は$\mathbb{E} \mathbf{T}_1$を見積もることである。 この問題は、$k>2$:$d \lesssim n \ll d^{\frac{k}{2}}$が$\mathbb{E} \mathbf{T}_1$を推定することは理論上可能な情報であるが、多項式時間推定器は知られていない。 統計的クエリーモデル(SQ)モデルにおける最適なサンプル複雑性を鋭く分析し、多項式クエリ複雑性を持つSQアルゴリズムが予測されたハードフェーズでテンソルPCAを解くことに失敗するだけでなく、リチャード・モンタナリスペクトル推定器のような多項式時間推定器と比較して、厳密なサンプル複雑性を持つことを示す。 解析により、SQモデルの最適なサンプル複雑性は、$\mathbb{E} \mathbf{T}_1$ が対称であるか否かに依存することが明らかになった。 対称な順序テンソルに対しても、$\mathbb{E} \mathbf{T}_1 = \mathbf{0}$ または$\mathbb{E}\mathbf{T}_1 \neq \mathbf{0}$ が多項式的に多くのクエリを持つが$\mathbb{E}\mathbf{T}_1$ を推定しない場合、検定可能なサンプルサイズ規則も分離する。 我々の証明は、鋭いSQ下界を証明するために、Feldman, Perkins and Vempala (2018) のフーリエ解析的アプローチに依存している。

In the Tensor PCA problem introduced by Richard and Montanari (2014), one is given a dataset consisting of $n$ samples $\mathbf{T}_{1:n}$ of i.i.d. Gaussian tensors of order $k$ with the promise that $\mathbb{E}\mathbf{T}_1$ is a rank-1 tensor and $\|\mathbb{E} \mathbf{T}_1\| = 1$. The goal is to estimate $\mathbb{E} \mathbf{T}_1$. This problem exhibits a large conjectured hard phase when $k>2$: When $d \lesssim n \ll d^{\frac{k}{2}}$ it is information theoretically possible to estimate $\mathbb{E} \mathbf{T}_1$, but no polynomial time estimator is known. We provide a sharp analysis of the optimal sample complexity in the Statistical Query (SQ) model and show that SQ algorithms with polynomial query complexity not only fail to solve Tensor PCA in the conjectured hard phase, but also have a strictly sub-optimal sample complexity compared to some polynomial time estimators such as the Richard-Montanari spectral estimator. Our analysis reveals that the optimal sample complexity in the SQ model depends on whether $\mathbb{E} \mathbf{T}_1$ is symmetric or not. For symmetric, even order tensors, we also isolate a sample size regime in which it is possible to test if $\mathbb{E} \mathbf{T}_1 = \mathbf{0}$ or $\mathbb{E}\mathbf{T}_1 \neq \mathbf{0}$ with polynomially many queries but not estimate $\mathbb{E}\mathbf{T}_1$. Our proofs rely on the Fourier analytic approach of Feldman, Perkins and Vempala (2018) to prove sharp SQ lower bounds.
翻訳日:2022-10-31 23:32:00 公開日:2021-02-13
# Inductive Heterogeneous Graph Convolutional Networks によるオンライン疾患自己診断

Online Disease Self-diagnosis with Inductive Heterogeneous Graph Convolutional Networks ( http://arxiv.org/abs/2009.02625v2 )

ライセンス: Link先を確認
Zifeng Wang and Rui Wen and Xi Chen and Shilei Cao and Shao-Lun Huang and Buyue Qian and Yefeng Zheng(参考訳) 我々は,電子医療記録(EHR)に基づくオンラインユーザに対して,疾病自己診断サービスを提供するためのHealGCN(Healcare Graph Convolutional Network)を提案する。 オンライン疾患診断において,(1)グラフ畳み込みネットワークによるコールドスタートユーザ提供,(2)症状検索システムによる臨床記述不足の対応という2つの課題に焦点を当てた。 そこで本研究では,ehrデータを,ユーザと症状と疾患の複雑な相互作用をモデル化し,インダクティブ学習パラダイムを用いて疾患診断に向けてグラフ表現学習を調整可能な不均一グラフに整理する。 そこで我々は,EMHグラフに基づく症状検索システム(GraphRet)を用いた自己診断システムを構築した。 GraphRetは、EHRグラフを通じて設定されたシード症状を、少ない記述でユーザと対向させるのに役立つため、診断精度が向上する。 最後に、大規模eerrデータセット上で、モデルの優越性を検証する。

We propose a Healthcare Graph Convolutional Network (HealGCN) to offer disease self-diagnosis service for online users based on Electronic Healthcare Records (EHRs). Two main challenges are focused in this paper for online disease diagnosis: (1) serving cold-start users via graph convolutional networks and (2) handling scarce clinical description via a symptom retrieval system. To this end, we first organize the EHR data into a heterogeneous graph that is capable of modeling complex interactions among users, symptoms and diseases, and tailor the graph representation learning towards disease diagnosis with an inductive learning paradigm. Then, we build a disease self-diagnosis system with a corresponding EHR Graph-based Symptom Retrieval System (GraphRet) that can search and provide a list of relevant alternative symptoms by tracing the predefined meta-paths. GraphRet helps enrich the seed symptom set through the EHR graph when confronting users with scarce descriptions, hence yield better diagnosis accuracy. At last, we validate the superiority of our model on a large-scale EHR dataset.
翻訳日:2022-10-21 08:02:50 公開日:2021-02-13
# 深い強化学習を説明するための行動の再構築

Reconstructing Actions To Explain Deep Reinforcement Learning ( http://arxiv.org/abs/2009.08507v3 )

ライセンス: Link先を確認
Xuan Chen, Zifan Wang, Yucai Fan, Bonan Jin, Piotr Mardziel, Carlee Joe-Wong, Anupam Datta(参考訳) 特徴属性は、ディープニューラルネットワーク(DNN)を用いた教師あり学習における入力特徴の重要性を説明するための基礎的な構成要素であるが、ディープ強化学習(RL)に適用した場合、新たな課題に直面している。 本稿では,深部RLにおけるネットワークの振舞いを模倣する関数のクラスを定義することにより,深部RLの動作を説明する新しい手法を提案する。 このアプローチにより、アクションレコンストラクションを構築する際に、dnnアトリビューションメソッドを直接適用することよりも、より複雑な説明可能性の質問に答えることができる。 また、メソッドの説明可能性を定量的に評価する指標であるemph{agreement}を定義することもできる。 各種のアタリゲームにおける実験から, 摂動型帰属法は, 代替的帰属法よりも深部RLエージェントの説明に適しており, 注意力を利用した説明可能性の向上が示唆された。 さらに、アクション再構成により、ディープエージェントがパックマンゲームをする方法を実演できることを示す。

Feature attribution has been a foundational building block for explaining the input feature importance in supervised learning with Deep Neural Network (DNNs), but face new challenges when applied to deep Reinforcement Learning (RL).We propose a new approach to explaining deep RL actions by defining a class of \emph{action reconstruction} functions that mimic the behavior of a network in deep RL. This approach allows us to answer more complex explainability questions than direct application of DNN attribution methods, which we adapt to \emph{behavior-level attributions} in building our action reconstructions. It also allows us to define \emph{agreement}, a metric for quantitatively evaluating the explainability of our methods. Our experiments on a variety of Atari games suggest that perturbation-based attribution methods are significantly more suitable in reconstructing actions to explain the deep RL agent than alternative attribution methods, and show greater \emph{agreement} than existing explainability work utilizing attention. We further show that action reconstruction allows us to demonstrate how a deep agent learns to play Pac-Man game.
翻訳日:2022-10-17 08:25:59 公開日:2021-02-13
# 多段階学習による知識認識手続きテキスト理解

Knowledge-Aware Procedural Text Understanding with Multi-Stage Training ( http://arxiv.org/abs/2009.13199v2 )

ライセンス: Link先を確認
Zhihan Zhang, Xiubo Geng, Tao Qin, Yunfang Wu, Daxin Jiang(参考訳) 手続き的テキストは、ステップバイステップの自然過程(例えば光合成)における動的状態変化を記述する。 本研究では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点を当てる。 近年のアプローチは大きな進歩を遂げているが、その成果は人間のパフォーマンスをはるかに遅れている。 常識推論の難しさとデータ不足という2つの課題はまだ未解決のままであり、外部の知識ベースを組み込む必要がある。 外部知識注入に関するこれまでの研究は、通常、ノイズの多いWebマイニングツールや、限定可能なシナリオを持つヒューリスティックルールに依存しています。 本稿では,複数の外部知識を効果的に活用するKnOwledge-Aware ProceduraL text understAnding(KOALA)モデルを提案する。 具体的には,概念ネットから情報知識の3倍を抽出し,エンティティを追跡しながら知識認識推論を行う。 さらに、ウィキペディアから収集したラベルなしデータに対してBERTモデルを微調整し、最終モデルでさらに微調整するマルチステージトレーニングスキーマを採用している。 提案手法の有効性を検証するために,propara と recipe の2つの手続き型テキストデータセットを用いた実験を行った。

Procedural text describes dynamic state changes during a step-by-step natural process (e.g., photosynthesis). In this work, we focus on the task of procedural text understanding, which aims to comprehend such documents and track entities' states and locations during a process. Although recent approaches have achieved substantial progress, their results are far behind human performance. Two challenges, the difficulty of commonsense reasoning and data insufficiency, still remain unsolved, which require the incorporation of external knowledge bases. Previous works on external knowledge injection usually rely on noisy web mining tools and heuristic rules with limited applicable scenarios. In this paper, we propose a novel KnOwledge-Aware proceduraL text understAnding (KOALA) model, which effectively leverages multiple forms of external knowledge in this task. Specifically, we retrieve informative knowledge triples from ConceptNet and perform knowledge-aware reasoning while tracking the entities. Besides, we employ a multi-stage training schema which fine-tunes the BERT model over unlabeled data collected from Wikipedia before further fine-tuning it on the final model. Experimental results on two procedural text datasets, ProPara and Recipes, verify the effectiveness of the proposed methods, in which our model achieves state-of-the-art performance in comparison to various baselines.
翻訳日:2022-10-13 20:47:53 公開日:2021-02-13
# ランダム凸ポリトープによる幾何学的歪み

Geometric Disentanglement by Random Convex Polytopes ( http://arxiv.org/abs/2009.13987v2 )

ライセンス: Link先を確認
Michael Joswig, Marek Kaluba, Lukas Ruff(参考訳) 深層学習から得られた表現の質を測定するための新しい幾何学的手法を提案する。 ランダムポリトープディスクリプタ(random polytope descriptor)と呼ばれるこのアプローチは、ランダム凸ポリトープの構成に基づくデータポイントの効率的な記述を提供する。 古典的および正規化されたオートエンコーダの挙動を定性的に比較することにより,本手法の応用を実証する。 これにより、オートエンコーダネットワークに正規化を適用すると、潜在空間における分散検出性能が低下する可能性がある。 我々の手法は、$k$-meansクラスタリングと精神的には似ているが、自動符号化データセット上のクラスタリングタスクにおいて、偽陽性/負のバランスを著しく改善する。

We propose a new geometric method for measuring the quality of representations obtained from deep learning. Our approach, called Random Polytope Descriptor, provides an efficient description of data points based on the construction of random convex polytopes. We demonstrate the use of our technique by qualitatively comparing the behavior of classic and regularized autoencoders. This reveals that applying regularization to autoencoder networks may decrease the out-of-distribution detection performance in latent space. While our technique is similar in spirit to $k$-means clustering, we achieve significantly better false positive/negative balance in clustering tasks on autoencoded datasets.
翻訳日:2022-10-13 06:03:34 公開日:2021-02-13
# 画像インペイントのためのテクスチャ対応マルチGAN

Efficient texture-aware multi-GAN for image inpainting ( http://arxiv.org/abs/2009.14721v2 )

ライセンス: Link先を確認
Mohamed Abbas Hedjazi, Yakup Genc(参考訳) 近年のGAN (Generative Adversarial Network) インペイント手法は,多段ネットワークやコンテキストアテンションモジュール(CAM)を用いて,顕著な改善と可塑性画像の生成を実現している。 しかし、これらの技術は低リソース環境でのアプリケーションを制限するモデルの複雑さを増大させる。 さらに,gan安定性問題により,テクスチャ詳細の現実的な高分解能画像の生成に失敗している。 これらの観測により,性能とレンダリング効率を両立させるマルチGANアーキテクチャを提案する。 当社のトレーニングスキーマは,4つのプログレッシブ効率的なジェネレータと識別器のパラメータをエンドツーエンドで最適化する。 低解像度画像の充填は、小さな次元空間のため、gansにとって難しくない。 一方、画像のグローバルな構造整合性を学ぶために高解像度ジェネレータを誘導する。 塗装作業の制約ときめ細かいテクスチャの確保のために, LBPに基づく損失関数を適用し, 生成した真実テクスチャと接地真実テクスチャの差を最小限に抑える。 我々はplaces2とcelebhqデータセットで実験を行う。 定性的かつ定量的な結果は,提案手法が最先端のアルゴリズムに対して良好に動作するだけでなく,推論時間を短縮することを示している。

Recent GAN-based (Generative adversarial networks) inpainting methods show remarkable improvements and generate plausible images using multi-stage networks or Contextual Attention Modules (CAM). However, these techniques increase the model complexity limiting their application in low-resource environments. Furthermore, they fail in generating high-resolution images with realistic texture details due to the GAN stability problem. Motivated by these observations, we propose a multi-GAN architecture improving both the performance and rendering efficiency. Our training schema optimizes the parameters of four progressive efficient generators and discriminators in an end-to-end manner. Filling in low-resolution images is less challenging for GANs due to the small dimensional space. Meanwhile, it guides higher resolution generators to learn the global structure consistency of the image. To constrain the inpainting task and ensure fine-grained textures, we adopt an LBP-based loss function to minimize the difference between the generated and the ground truth textures. We conduct our experiments on Places2 and CelebHQ datasets. Qualitative and quantitative results show that the proposed method not only performs favorably against state-of-the-art algorithms but also speeds up the inference time.
翻訳日:2022-10-13 00:04:16 公開日:2021-02-13
# インストゥルメンタル変数回帰における最大モーメント制限

Maximum Moment Restriction for Instrumental Variable Regression ( http://arxiv.org/abs/2010.07684v3 )

ライセンス: Link先を確認
Rui Zhang, Masaaki Imaizumi, Bernhard Sch\"olkopf, Krikamol Muandet(参考訳) 本稿では,最大モーメント制限(MMR)として知られるカーネル化条件モーメント制限(CMR)に基づく非線形機器変数(IV)回帰のための簡単なフレームワークを提案する。 MMRは、再生カーネルヒルベルト空間(RKHS)において、残留物と単位球に属する機器との相互作用を最大化する。 mmr は iv 回帰を単段階経験的リスク最小化問題として再構成し、リスクは機器上の再生核に依存し、u-統計または v-統計によって推定できる。 この単純化は、パラメトリック設定と非パラメトリック設定の両方における一貫性と漸近正規性の証明を緩和するだけでなく、効率的なハイパーパラメータ選択手順で使いやすいアルゴリズムをもたらす。 我々は,合成データと実世界のデータの両方を用いた実験により,既存のフレームワークよりもフレームワークの利点を実証する。

We propose a simple framework for nonlinear instrumental variable (IV) regression based on a kernelized conditional moment restriction (CMR) known as a maximum moment restriction (MMR). The MMR is formulated by maximizing the interaction between the residual and the instruments belonging to a unit ball in a reproducing kernel Hilbert space (RKHS). The MMR allows us to reformulate the IV regression as a single-step empirical risk minimization problem, where the risk depends on the reproducing kernel on the instrument and can be estimated by a U-statistic or V-statistic. This simplification not only eases the proofs of consistency and asymptotic normality in both parametric and non-parametric settings, but also results in easy-to-use algorithms with an efficient hyper-parameter selection procedure. We demonstrate the advantages of our framework over existing ones using experiments on both synthetic and real-world data.
翻訳日:2022-10-07 04:47:00 公開日:2021-02-13
# Res2netアーキテクチャによる再生合成音声検出

Replay and Synthetic Speech Detection with Res2net Architecture ( http://arxiv.org/abs/2010.15006v3 )

ライセンス: Link先を確認
Xu Li, Na Li, Chao Weng, Xunying Liu, Dan Su, Dong Yu, Helen Meng(参考訳) リプレイと合成音声検出の既存のアプローチは、いまだにスプーフィング攻撃の一般化を欠いている。 本研究は,新たなモデル構造であるres2netを活用して,防汚対策の汎用性を向上させることを提案する。 Res2Netは主にResNetブロックを変更し、複数の機能スケールを有効にする。 具体的には、1つのブロック内のフィーチャーマップを複数のチャネルグループに分割し、異なるチャネルグループにまたがる残留的な接続を設計する。 このような接続は、可能な受容フィールドを増加させ、複数の機能スケールをもたらす。 この多重スケーリング機構は、スプーフィング攻撃に対する対策の一般化性を著しく改善する。 また、ResNetベースのモデルに比べてモデルサイズも小さくなる。 実験の結果、Res2Netモデルは、ASVspoof 2019コーパスの物理アクセス(PA)と論理アクセス(LA)の両方において、ResNet34とResNet50を一貫して上回っていることがわかった。 さらに、圧縮励起(SE)ブロックとの統合により、さらなる性能向上が可能となる。 特徴工学において,Res2Netと異なる音響特性を組み合わせた一般化可能性について検討し,定数Q変換(CQT)がPAおよびLAのシナリオにおいて最も有望な性能を達成することを観察する。 私たちの最高のシングルシステムは、ASVspoof 2019コーパスのPAとLAにおいて、最先端のシステムよりも優れています。

Existing approaches for replay and synthetic speech detection still lack generalizability to unseen spoofing attacks. This work proposes to leverage a novel model structure, so-called Res2Net, to improve the anti-spoofing countermeasure's generalizability. Res2Net mainly modifies the ResNet block to enable multiple feature scales. Specifically, it splits the feature maps within one block into multiple channel groups and designs a residual-like connection across different channel groups. Such connection increases the possible receptive fields, resulting in multiple feature scales. This multiple scaling mechanism significantly improves the countermeasure's generalizability to unseen spoofing attacks. It also decreases the model size compared to ResNet-based models. Experimental results show that the Res2Net model consistently outperforms ResNet34 and ResNet50 by a large margin in both physical access (PA) and logical access (LA) of the ASVspoof 2019 corpus. Moreover, integration with the squeeze-and-excitation (SE) block can further enhance performance. For feature engineering, we investigate the generalizability of Res2Net combined with different acoustic features, and observe that the constant-Q transform (CQT) achieves the most promising performance in both PA and LA scenarios. Our best single system outperforms other state-of-the-art single systems in both PA and LA of the ASVspoof 2019 corpus.
翻訳日:2022-10-02 05:57:09 公開日:2021-02-13
# ASRにおけるCPCとCTCの併用訓練

Joint Masked CPC and CTC Training for ASR ( http://arxiv.org/abs/2011.00093v2 )

ライセンス: Link先を確認
Chaitanya Talnikar, Tatiana Likhomanenko, Ronan Collobert, Gabriel Synnaeve(参考訳) 自己教師付き学習(SSL)は自動音声認識(ASR)に有用な音声の学習表現において有望であることを示す。 しかし、wav2vec~2.0のようなSSLモデルのトレーニングには、2段階のパイプラインが必要です。 本稿では,ラベル付きデータとラベル付きデータの両方を活用可能なASRモデルの単一ステージトレーニングについて述べる。 トレーニング中は、教師なしマスク付きコントラスト予測符号化(CPC)損失と教師付き音声-テキストアライメント損失(CTC)の2つの損失を交互に最小化する。 この共同学習手法は, 教師なしデータを用いた下流ASRタスクの性能を直接最適化し, 類似の単語誤り率をLibrispeech 100時間データセット上でwav2vec~2.0に設定する。 最後に、コントラストタスクの解決は教師付きctc損失の正規化であると仮定する。

Self-supervised learning (SSL) has shown promise in learning representations of audio that are useful for automatic speech recognition (ASR). But, training SSL models like wav2vec~2.0 requires a two-stage pipeline. In this paper we demonstrate a single-stage training of ASR models that can utilize both unlabeled and labeled data. During training, we alternately minimize two losses: an unsupervised masked Contrastive Predictive Coding (CPC) loss and the supervised audio-to-text alignment loss Connectionist Temporal Classification (CTC). We show that this joint training method directly optimizes performance for the downstream ASR task using unsupervised data while achieving similar word error rates to wav2vec~2.0 on the Librispeech 100-hour dataset. Finally, we postulate that solving the contrastive task is a regularization for the supervised CTC loss.
翻訳日:2022-10-01 16:28:46 公開日:2021-02-13
# 効率の良いペアワイズ配列アライメントのためのランクワンモデルの適応学習

Adaptive Learning of Rank-One Models for Efficient Pairwise Sequence Alignment ( http://arxiv.org/abs/2011.04832v2 )

ライセンス: Link先を確認
Govinda M. Kamath and Tavor Z. Baharav and Ilan Shomorony(参考訳) DNAシークエンシングデータのペアワイズアライメントはバイオインフォマティクスにおいてユビキタスなタスクであり、典型的には計算負荷が大きい。 このタスクをスピードアップするための最先端のアプローチでは、リードのペアで共有される短いセグメント(k-mer)をハッシュ化することで、アライメントスコアの見積に使用することができる。 しかし、読み取り数が大きければ、すべてのペアのアライメントスコアを正確に見積もることは依然として非常にコストがかかる。 さらに、実際には、大きなアライメントスコアを持つ読み手のペアを識別することだけに関心がある。 そこで本研究では,2つの鍵となる新しい成分に基づくペアアライメント推定手法を提案する。 第1の要素は、労働者の応答がk-merハッシュ衝突に対応するランクワンクラウドソーシングモデルの一般的な枠組みの下で、ペアアライメント推定の問題をキャストすることである。 これらのモデルは応答行列のスペクトル分解によって正確に解くことができる。 第2の要素は、このスペクトル推定器を適応的に洗練するために、多武装のバンディットアルゴリズムを利用することである。 結果のアルゴリズムは、リードペアの適応的に選択されたサブセットに対する応答行列のスペクトル分解を反復的に行う。

Pairwise alignment of DNA sequencing data is a ubiquitous task in bioinformatics and typically represents a heavy computational burden. State-of-the-art approaches to speed up this task use hashing to identify short segments (k-mers) that are shared by pairs of reads, which can then be used to estimate alignment scores. However, when the number of reads is large, accurately estimating alignment scores for all pairs is still very costly. Moreover, in practice, one is only interested in identifying pairs of reads with large alignment scores. In this work, we propose a new approach to pairwise alignment estimation based on two key new ingredients. The first ingredient is to cast the problem of pairwise alignment estimation under a general framework of rank-one crowdsourcing models, where the workers' responses correspond to k-mer hash collisions. These models can be accurately solved via a spectral decomposition of the response matrix. The second ingredient is to utilise a multi-armed bandit algorithm to adaptively refine this spectral estimator only for read pairs that are likely to have large alignments. The resulting algorithm iteratively performs a spectral decomposition of the response matrix for adaptively chosen subsets of the read pairs.
翻訳日:2022-09-28 00:51:11 公開日:2021-02-13
# Anonymous Over-the-Air Computationを用いたプライベートワイヤレスフェデレーションラーニング

Private Wireless Federated Learning with Anonymous Over-the-Air Computation ( http://arxiv.org/abs/2011.08579v2 )

ライセンス: Link先を確認
Burak Hasircioglu, Deniz Gunduz(参考訳) 従来のフェデレーション学習(FL)では、パラメータサーバ(PS)に送信する前にローカルモデル更新に付加ノイズを注入することで、差分プライバシー(DP)保証を得ることができる。 無線flのシナリオでは,oac(over-the-air computation)を活用し,送信装置を匿名化することにより,システムのプライバシーを向上できることを示す。 oacでは、デバイスがモデル更新を同時かつ非コード形式で送信することで、利用可能なスペクトルをより効率的に利用することができる。 我々はさらにOACを利用して送信装置の匿名性を提供する。 提案手法は、入射するノイズの量を減らすことにより、プライベート無線FLの性能を向上させる。

In conventional federated learning (FL), differential privacy (DP) guarantees can be obtained by injecting additional noise to local model updates before transmitting to the parameter server (PS). In the wireless FL scenario, we show that the privacy of the system can be boosted by exploiting over-the-air computation (OAC) and anonymizing the transmitting devices. In OAC, devices transmit their model updates simultaneously and in an uncoded fashion, resulting in a much more efficient use of the available spectrum. We further exploit OAC to provide anonymity for the transmitting devices. The proposed approach improves the performance of private wireless FL by reducing the amount of noise that must be injected.
翻訳日:2022-09-24 17:50:49 公開日:2021-02-13
# 極端にメモリフットプリントの少ないエッジデバイスにおけるアメリカ手話予測の一般化

Rethinking Generalization in American Sign Language Prediction for Edge Devices with Extremely Low Memory Footprint ( http://arxiv.org/abs/2011.13741v2 )

ライセンス: Link先を確認
Aditya Jyoti Paul, Puranjay Mohan, Stuti Sehgal(参考訳) ここ数年の技術計算のブームにより、世界は様々な現実世界の問題を解決する人工知能システムにおいて大きな進歩を遂げてきた。 しかし、これらのモデルがユビキタスに受け入れられる大きな障害は、計算の複雑さとメモリフットプリントである。 したがって、極めて低いリソース推論エンドポイントへのデプロイには、効率的なアーキテクチャとトレーニング技術が必要である。 本稿では,496KBのフレームバッファRAMを持つARM Cortex-M7マイクロコントローラ上でのAmerican Sign Languageのアルファベット検出アーキテクチャを提案する。 パラメータ量子化の活用は、テスト精度の様々な低下を引き起こす可能性のある一般的なテクニックである。 本稿では,提案手法の補間を他の手法の補間として用いることで,この損失を低減する手法を提案する。 提案モデルは計算後約185kbで,推論速度は毎秒20フレームである。

Due to the boom in technical compute in the last few years, the world has seen massive advances in artificially intelligent systems solving diverse real-world problems. But a major roadblock in the ubiquitous acceptance of these models is their enormous computational complexity and memory footprint. Hence efficient architectures and training techniques are required for deployment on extremely low resource inference endpoints. This paper proposes an architecture for detection of alphabets in American Sign Language on an ARM Cortex-M7 microcontroller having just 496 KB of framebuffer RAM. Leveraging parameter quantization is a common technique that might cause varying drops in test accuracy. This paper proposes using interpolation as augmentation amongst other techniques as an efficient method of reducing this drop, which also helps the model generalize well to previously unseen noisy data. The proposed model is about 185 KB post-quantization and inference speed is 20 frames per second.
翻訳日:2022-09-20 01:21:21 公開日:2021-02-13
# (参考訳) 機械学習によるマンモグラム画像解析の自動化

Using Machine Learning to Automate Mammogram Images Analysis ( http://arxiv.org/abs/2012.03151v2 )

ライセンス: CC0 1.0
Xuejiao Tang, Liuhua Zhang, Wenbin Zhang, Xin Huang, Vasileios Iosifidis, Zhen Liu, Mingli Zhang, Enza Messina and Ji Zhang(参考訳) 乳癌は、女性における肺癌の2番目の死因である。 X線マンモグラフィーによる乳癌の早期発見は死亡率を効果的に低下させたと考えられている。 しかし、比較的高い偽陽性率と、マンモグラフィ技術の特異性は依然として残っている。 本研究では,コンピュータ支援によるマンモグラム自動解析システムを提案し,マンモグラム画像を3つの連続画像処理,特徴選択,画像分類段階からなる正常または癌のいずれかとして自動的に識別する。 システムの設計において、離散ウェーブレット変換 (daubechies 2, daubechies 4, biorthogonal 6.8) とフーリエコサイン変換 (fourier cosine transform) は、最初にマンモグラム画像を解析し、統計的特徴を抽出するために用いられた。 次に,エントロピーに基づく特徴選択手法を実装し,特徴量を削減する。 最後に,異なるパターン認識手法(バックプロパゲーションネットワーク,線形判別分析,ナイーブベイズ分類器を含む)と投票分類方式を採用した。 各分類戦略の性能は感度,特異性,精度,および受信器操作曲線を用いた一般性能について評価した。 本手法は,カナダ・ニューファンドランド州東部保健部とラブラドール州のデータセットを用いて検証した。 実験の結果,提案したマンモグラム自動解析システムは分類性能を効果的に向上できることが示された。

Breast cancer is the second leading cause of cancer-related death after lung cancer in women. Early detection of breast cancer in X-ray mammography is believed to have effectively reduced the mortality rate. However, a relatively high false positive rate and a low specificity in mammography technology still exist. In this work, a computer-aided automatic mammogram analysis system is proposed to process the mammogram images and automatically discriminate them as either normal or cancerous, consisting of three consecutive image processing, feature selection, and image classification stages. In designing the system, the discrete wavelet transforms (Daubechies 2, Daubechies 4, and Biorthogonal 6.8) and the Fourier cosine transform were first used to parse the mammogram images and extract statistical features. Then, an entropy-based feature selection method was implemented to reduce the number of features. Finally, different pattern recognition methods (including the Back-propagation Network, the Linear Discriminant Analysis, and the Naive Bayes Classifier) and a voting classification scheme were employed. The performance of each classification strategy was evaluated for sensitivity, specificity, and accuracy and for general performance using the Receiver Operating Curve. Our method is validated on the dataset from the Eastern Health in Newfoundland and Labrador of Canada. The experimental results demonstrated that the proposed automatic mammogram analysis system could effectively improve the classification performances.
翻訳日:2021-05-22 10:09:08 公開日:2021-02-13
# (参考訳) クラスタリング問題に対する説明可能性の価格について

On the price of explainability for some clustering problems ( http://arxiv.org/abs/2101.01576v2 )

ライセンス: CC BY-SA 4.0
Eduardo Laber, Lucas Murtinho(参考訳) クラスタリングタスクの説明可能性の価格は、目的関数の観点から、最終的な分割を説明可能に強制した場合、避けられない損失と定義できる。 ここでは、k$-means、k$-medians、k$-centers、maximum-spacingといったクラスタ問題に対するこの価格を調査します。 我々は,決定木を用いて説明可能性を実現する自然モデルに対して,上下境界を提供する。 k$-means と $k$-medians の問題に対して、上限は [moshkovitz et.] によって得られる問題を改善する。 al, icml 20]低次元の場合。 もう1つの貢献は、$k$-means問題に対する説明可能なクラスタリングを構築するための単純で効率的なアルゴリズムである。 我々は,その性能が決定木に基づく説明可能なクラスタリング技術の現状よりも優れているという実証的な証拠を提供する。

The price of explainability for a clustering task can be defined as the unavoidable loss,in terms of the objective function, if we force the final partition to be explainable. Here, we study this price for the following clustering problems: $k$-means, $k$-medians, $k$-centers and maximum-spacing. We provide upper and lower bounds for a natural model where explainability is achieved via decision trees. For the $k$-means and $k$-medians problems our upper bounds improve those obtained by [Moshkovitz et. al, ICML 20] for low dimensions. Another contribution is a simple and efficient algorithm for building explainable clusterings for the $k$-means problem. We provide empirical evidence that its performance is better than the current state of the art for decision-tree based explainable clustering.
翻訳日:2021-04-11 15:23:22 公開日:2021-02-13
# 陰影検出・除去のための合成影からの学習

Learning from Synthetic Shadows for Shadow Detection and Removal ( http://arxiv.org/abs/2101.01713v2 )

ライセンス: Link先を確認
Naoto Inoue, Toshihiko Yamasaki(参考訳) シャドウ除去はコンピュータビジョンとコンピュータグラフィックスにおいて重要な課題である。 最近のシャドウ除去は、実対のシャドウ/シャドウフリーまたはシャドウ/シャドウ/マスクイメージデータセット上のすべてのトレイン畳み込みニューラルネットワーク(CNN)にアプローチしている。 しかし、大規模で多様で正確なデータセットを得ることは大きな課題であり、未知の形状/強度を持つ影画像上の学習モデルの性能を制限する。 この課題を克服するために,synshadowという,新しい大規模合成シャドウ・シャドウフリー・マット画像トリプレットデータセットと合成パイプラインを提案する。 物理的に接地した影照明モデルを拡張し、影のない画像、マット画像、影減衰パラメータを任意に組み合わせた影画像を合成する。 SynShadowの多様性,量,品質から,SynShadowで訓練されたシャドウ除去モデルが,様々な形状や強度のシャドウ除去に有効であることを示す。 さらに,synshadow-pre-trainedモデルからの微調整だけで,既存のシャドウ検出と削除モデルが改善されることを示す。 コードはhttps://github.com/naoto0804/SynShadowで公開されている。

Shadow removal is an essential task in computer vision and computer graphics. Recent shadow removal approaches all train convolutional neural networks (CNN) on real paired shadow/shadow-free or shadow/shadow-free/mask image datasets. However, obtaining a large-scale, diverse, and accurate dataset has been a big challenge, and it limits the performance of the learned models on shadow images with unseen shapes/intensities. To overcome this challenge, we present SynShadow, a novel large-scale synthetic shadow/shadow-free/matte image triplets dataset and a pipeline to synthesize it. We extend a physically-grounded shadow illumination model and synthesize a shadow image given an arbitrary combination of a shadow-free image, a matte image, and shadow attenuation parameters. Owing to the diversity, quantity, and quality of SynShadow, we demonstrate that shadow removal models trained on SynShadow perform well in removing shadows with diverse shapes and intensities on some challenging benchmarks. Furthermore, we show that merely fine-tuning from a SynShadow-pre-trained model improves existing shadow detection and removal models. Codes are publicly available at https://github.com/naoto0804/SynShadow.
翻訳日:2021-04-11 11:33:21 公開日:2021-02-13
# (参考訳) Max-Affine Spline Insights in Deep Network Pruning

Max-Affine Spline Insights Into Deep Network Pruning ( http://arxiv.org/abs/2101.02338v2 )

ライセンス: CC BY 4.0
Randall Balestriero, Haoran You, Zhihan Lu, Yutong Kou, Huihong Shi, Yingyan Lin, Richard Baraniuk(参考訳) 本稿では,Deep Networks (DNs) におけるプルーニングの重要性と,(1) ランダム初期化から訓練された高度にパラメータ化されたDNのプルーニングと(2) 初期化された小さなDNのトレーニングの関係について検討する。 多くの場合、実践者はランダムな初期化のみに頼ることができるため、dnのプラニングを基礎的に理解する必要がある。 現在の文献は、プルーニングがDNsの意思決定境界に与える影響、プルーニングの解釈方法、およびそれに対応するプルーニング技術の設計方法に関する理論的理解を欠いている。 これらの問題に対処するため,我々はCPA(Continuous Piecewise Affine)DNの理論的解析に最近の進歩を採用することを提案する。 この観点から、アーリーバード(EB)チケット現象を検出し、現在のプルーニング技術に対する解釈可能性を提供し、原則的プルーニング戦略を開発することができる。 研究の各段階において,我々はクレームと結果を裏付ける広範囲な実験を行い,新たなプルーニング法ではなくDNプルーニングに対する現在の理解を高めることを目的としている一方で,我々はスプラインプルーニング基準をレイヤーワイドで,グローバルプルーニング基準は最先端プルーニング法と同程度あるいはそれ以上に向上する。

In this paper, we study the importance of pruning in Deep Networks (DNs) and the yin & yang relationship between (1) pruning highly overparametrized DNs that have been trained from random initialization and (2) training small DNs that have been "cleverly" initialized. As in most cases practitioners can only resort to random initialization, there is a strong need to develop a grounded understanding of DN pruning. Current literature remains largely empirical, lacking a theoretical understanding of how pruning affects DNs' decision boundary, how to interpret pruning, and how to design corresponding principled pruning techniques. To tackle those questions, we propose to employ recent advances in the theoretical analysis of Continuous Piecewise Affine (CPA) DNs. From this perspective, we will be able to detect the early-bird (EB) ticket phenomenon, provide interpretability into current pruning techniques, and develop a principled pruning strategy. In each step of our study, we conduct extensive experiments supporting our claims and results; while our main goal is to enhance the current understanding towards DN pruning instead of developing a new pruning method, our spline pruning criteria in terms of layerwise and global pruning is on par with or even outperforms state-of-the-art pruning methods.
翻訳日:2021-04-10 21:57:51 公開日:2021-02-13
# (参考訳) 連続時間リカレントニューラルネットワークの波動関数

The Wavefunction of Continuous-Time Recurrent Neural Networks ( http://arxiv.org/abs/2102.09399v1 )

ライセンス: CC BY 4.0
Ikjyot Singh Kohli and Michael C. Haslam(参考訳) 本稿では,連続時間リカレントニューラルネットワーク(CTRNN)における量子波動関数の導出の可能性を検討する。 まず、連続時間リカレントニューラルネットワークの古典力学を記述した2次元力学系から始め、それからハミルトニアンを導出した。 その後、ワイル量子化を用いてヒルベルト空間 $\mathbb{H} = L^2(\mathbb{R})$ でこのハミルトニアンを量子化する。 次に,神経回路構造に対応するkummerの合流超幾何関数を用いて波動関数を与えるschrodinger方程式を解いた。 infinityで空間境界条件を適用することで、ニューラルネットワークの重みとハイパーパラメータの条件/制約を導出することができ、それによって、そのニューラルネットワークの最適な重みを見出す性質に関する洞察が得られる可能性がある。

In this paper, we explore the possibility of deriving a quantum wavefunction for continuous-time recurrent neural network (CTRNN). We did this by first starting with a two-dimensional dynamical system that describes the classical dynamics of a continuous-time recurrent neural network, and then deriving a Hamiltonian. After this, we quantized this Hamiltonian on a Hilbert space $\mathbb{H} = L^2(\mathbb{R})$ using Weyl quantization. We then solved the Schrodinger equation which gave us the wavefunction in terms of Kummer's confluent hypergeometric function corresponding to the neural network structure. Upon applying spatial boundary conditions at infinity, we were able to derive conditions/restrictions on the weights and hyperparameters of the neural network, which could potentially give insights on the the nature of finding optimal weights of said neural networks.
翻訳日:2021-04-06 05:09:53 公開日:2021-02-13
# データ駆動地球物理予測:カーネル法によるシンプルで低コストで正確なベースライン

Data-driven geophysical forecasting: Simple, low-cost, and accurate baselines with kernel methods ( http://arxiv.org/abs/2103.10935v1 )

ライセンス: Link先を確認
Boumediene Hamzi, Romit Maulik, Houman Owhadi(参考訳) 物理系を力学系としてモデル化し、データからベクトル場を回帰することは、そのような系のエミュレータを学ぶ簡単な方法である。 これらのエミュレータのカーネルもデータ(クロスバリデーションの変種であるカーネルフローを使用)から学習されると、結果のデータ駆動モデルは方程式ベースのモデルよりも高速であるだけでなく、長い短期記憶ニューラルネットワークのようなニューラルネットワークよりも訓練が容易であることを示す。 さらに、それらは後者よりも正確で予測的です。 大域海面温度の観測データに基づいて訓練すると,予測計算コストと精度の点で古典的偏微分方程式モデルと比較して,かなりの利得が得られた。 北米大陸の気温に関する公的に利用可能な再分析データをトレーニングすると、気候学や持続性に基づく予測技術よりも大幅に改善が見られた。

Modeling geophysical systems as dynamical systems and regressing their vector field from data is a simple way to learn emulators for such systems. We show that when the kernel of these emulators is also learned from data (using kernel flows, a variant of cross-validation), then the resulting data-driven models are not only faster than equation-based models but are easier to train than neural networks such as the long short-term memory neural network. In addition, they are also more accurate and predictive than the latter. When trained on observational data for the global sea-surface temperature, considerable gains are observed by the proposed technique in comparison to classical partial differential equation-based models in terms of forecast computational cost and accuracy. When trained on publicly available re-analysis data for temperatures in the North-American continent, we see significant improvements over climatology and persistence based forecast techniques.
翻訳日:2021-04-05 00:36:08 公開日:2021-02-13
# 光薄膜設計のための強化学習法

A Reinforcement learning method for Optical Thin-Film Design ( http://arxiv.org/abs/2102.09398v1 )

ライセンス: Link先を確認
Anqing Jiang, Liangyao Chen, Osamu Yoshie(参考訳) 機械学習、特にディープラーニングは、光学薄膜逆設計に関連する手法を劇的に変えている。 この研究の大部分は、光学薄膜のパラメータ最適化(層厚、構造サイズ)に焦点を当てている。 問題となるのは、自動的な素材検索である。 本研究では,光薄膜逆設計のための新しいエンドツーエンドアルゴリズムを提案する。 この方法は、教師なし学習、強化学習(RL)の能力を組み合わせ、人間の介入なしに光学薄膜を設計するための遺伝的アルゴリズムを含む。 さらに,いくつかの具体例を用いて,この手法を用いて多層太陽吸収素子のスペクトルを最適化する方法を示した。

Machine learning, especially deep learning, is dramatically changing the methods associated with optical thin-film inverse design. The vast majority of this research has focused on the parameter optimization (layer thickness, and structure size) of optical thin-films. A challenging problem that arises is an automated material search. In this work, we propose a new end-to-end algorithm for optical thin-film inverse design. This method combines the ability of unsupervised learning, reinforcement learning(RL) and includes a genetic algorithm to design an optical thin-film without any human intervention. Furthermore, with several concrete examples, we have shown how one can use this technique to optimize the spectra of a multi-layer solar absorber device.
翻訳日:2021-04-05 00:35:52 公開日:2021-02-13
# (参考訳) WER-BERT:バランスの取れた正規分類パラダイムにおけるBERTによるWERの自動推定

WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal Classification Paradigm ( http://arxiv.org/abs/2101.05478v2 )

ライセンス: CC BY 4.0
Akshay Krishna Sheshadri, Anvesh Rao Vijjini, Sukhdeep Kharbanda(参考訳) 単語誤り率(WER)を用いて自動音声認識(ASR)システムを評価する。 しかし、この計算では、音声信号を手動で書き起こして、基礎的な真理を得る必要がある。 音声信号の書き起こしはコストがかかるプロセスであるため,音声信号の書き起こしと音声信号の特徴のみを頼りに,音声システムのWERを自動的に予測する自動WER評価法が開発されている。 WERは連続変数であるが、以前の研究では、e-WERを分類問題として仮定することは回帰よりも効果的であることが示されている。 しかし、分類設定に変換する一方で、これらのアプローチは重いクラス不均衡に苦しむ。 本稿では,e-werの分類における新しいバランスのとれたパラダイムを提案する。 このパラダイム内では、E-WERのための音声機能を備えたBERTベースのアーキテクチャであるWER-BERTも提案する。 さらに,e-WER分類の順序性に取り組むために,距離損失関数を導入する。 提案手法とパラダイムは,Google CloudのSpeech-to-Text APIである,Librispeechデータセットと商用(ブラックボックス)ASRシステムに基づいて評価される。 結果と実験により,WER-BERTは自動WER推定において新たな最先端技術を確立していることが示された。

Automatic Speech Recognition (ASR) systems are evaluated using Word Error Rate (WER), which is calculated by comparing the number of errors between the ground truth and the transcription of the ASR system. This calculation, however, requires manual transcription of the speech signal to obtain the ground truth. Since transcribing audio signals is a costly process, Automatic WER Evaluation (e-WER) methods have been developed to automatically predict the WER of a speech system by only relying on the transcription and the speech signal features. While WER is a continuous variable, previous works have shown that positing e-WER as a classification problem is more effective than regression. However, while converting to a classification setting, these approaches suffer from heavy class imbalance. In this paper, we propose a new balanced paradigm for e-WER in a classification setting. Within this paradigm, we also propose WER-BERT, a BERT based architecture with speech features for e-WER. Furthermore, we introduce a distance loss function to tackle the ordinal nature of e-WER classification. The proposed approach and paradigm are evaluated on the Librispeech dataset and a commercial (black box) ASR system, Google Cloud's Speech-to-Text API. The results and experiments demonstrate that WER-BERT establishes a new state-of-the-art in automatic WER estimation.
翻訳日:2021-03-29 08:45:26 公開日:2021-02-13
# 異種GNNを用いた知識保存型インクリメンタルソーシャルイベント検出

Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs ( http://arxiv.org/abs/2101.08747v2 )

ライセンス: Link先を確認
Yuwei Cao, Hao Peng, Jia Wu, Yingtong Dou, Jianxin Li, Philip S. Yu(参考訳) 社会イベントは集団の社会的行動や公共の関心事に対する貴重な洞察を与え、製品レコメンデーションや危機管理といった分野に多くの応用をもたらす。 ソーシャルメッセージの複雑さとストリーミング性は、知識の獲得、保存、拡張が重要な関心事であるインクリメンタルな学習環境において、ソーシャルイベント検出にアピールする。 インクリメンタルクラスタリングやコミュニティ検出に基づく手法を含む既存の手法は、ソーシャルデータに含まれる豊富なセマンティクスや構造情報を無視して、限られた量の知識を学習する。 また、それまでの知識を記憶することはできない。 本稿では,社会的事象を段階的に検出するための知識保存型不均一グラフニューラルネットワーク(KPGNN)を提案する。 より詳しい知識を得るために、KPGNNは複雑なソーシャルメッセージを統一されたソーシャルグラフにモデル化し、データ利用を促進し、知識抽出のためのGNNの表現力を探る。 着信データに継続的に適応するために、kpgnnはイベントクラスの変化に対応する対比的損失項を採用する。 また、GNNの帰納学習能力を活用して、イベントを効率的に検出し、これまで見つからなかったデータからその知識を拡張する。 大規模なソーシャルストリームを扱うため、KPGNNはスケーラブルなトレーニングのためにミニバッチサブグラフサンプリング戦略を採用し、動的埋め込み空間を維持するために定期的に古いデータを削除している。 KPGNNは機能エンジニアリングを必要とせず、チューニングするハイパーパラメータも少ない。 実験結果から, KPGNNの各種ベースラインに対する優位性が示された。

Social events provide valuable insights into group social behaviors and public concerns and therefore have many applications in fields such as product recommendation and crisis management. The complexity and streaming nature of social messages make it appealing to address social event detection in an incremental learning setting, where acquiring, preserving, and extending knowledge are major concerns. Most existing methods, including those based on incremental clustering and community detection, learn limited amounts of knowledge as they ignore the rich semantics and structural information contained in social data. Moreover, they cannot memorize previously acquired knowledge. In this paper, we propose a novel Knowledge-Preserving Incremental Heterogeneous Graph Neural Network (KPGNN) for incremental social event detection. To acquire more knowledge, KPGNN models complex social messages into unified social graphs to facilitate data utilization and explores the expressive power of GNNs for knowledge extraction. To continuously adapt to the incoming data, KPGNN adopts contrastive loss terms that cope with a changing number of event classes. It also leverages the inductive learning ability of GNNs to efficiently detect events and extends its knowledge from previously unseen data. To deal with large social streams, KPGNN adopts a mini-batch subgraph sampling strategy for scalable training, and periodically removes obsolete data to maintain a dynamic embedding space. KPGNN requires no feature engineering and has few hyperparameters to tune. Extensive experiment results demonstrate the superiority of KPGNN over various baselines.
翻訳日:2021-03-21 07:52:17 公開日:2021-02-13
# (参考訳) パレートフロント抽出のためのハイブリッド2段階ニューラル最適化

A Hybrid 2-stage Neural Optimization for Pareto Front Extraction ( http://arxiv.org/abs/2101.11684v2 )

ライセンス: CC BY 4.0
Gurpreet Singh, Soumyajit Gupta, Matthew Lease, Clint Dawson(参考訳) 分類、推薦、ランキングの問題は、しばしば追加の制約(例えば公平さや多様性の基準を満たすために)を伴う競合目標を伴う。 このような最適化問題は極めて困難であり、しばしば非凸関数とユーザの好みを考慮することでトレードオフのバランスをとる。 Paretoソリューションは、複数の競合目標を共同で最適化するための最適なフロンティアを表します。 頻繁に使用される線形スカラー化戦略の大きな障害は、結果の最適化問題が必ずしも大域的最適に収束するとは限らないことである。 さらに、そのようなメソッドは実行時に1つのソリューションポイントだけを返す。 Paretoソリューションセットは、異なるトレードオフ選択のための複数の実行上のそのようなグローバルオプティマイマのすべてのサブセットです。 したがって、パレートフロントは線形スカラー化問題の複数の実行でのみ保証され、全ての実行はそれぞれの大域的最適に収束する。 したがって、現実的な問題に対するParetoフロントの抽出は、かなりの計算オーバーヘッド、スケーラビリティの制限、精度の低下など、計算的に困難である。 本論文では,データ次元による精度とスケール(空間と時間),機能や制約の数を特徴とする,堅牢で低コスト,二段階,ハイブリッドなニューラルパレート最適化手法を提案する。 第1段階(ニューラルネットワーク)は、目標や制約に対する凸性の仮定なしに、フリッツ・ジョン条件を判別器として、弱いパレートフロントを効率的に抽出する。 第2段階(効率の良いパレートフィルタ)は、ステージ1から弱い前面を与えられた強いパレート最適部分集合を抽出する。 fritz-john条件は、true と network extract weak pareto front の間の近似誤差の理論的境界を与える。 数値実験は、標準的なベンチマーク問題と事前の作業からの公正度最適化タスクの精度と効率を実証する。

Classification, recommendation, and ranking problems often involve competing goals with additional constraints (e.g., to satisfy fairness or diversity criteria). Such optimization problems are quite challenging, often involving non-convex functions along with considerations of user preferences in balancing trade-offs. Pareto solutions represent optimal frontiers for jointly optimizing multiple competing objectives. A major obstacle for frequently used linear-scalarization strategies is that the resulting optimization problem might not always converge to a global optimum. Furthermore, such methods only return one solution point per run. A Pareto solution set is a subset of all such global optima over multiple runs for different trade-off choices. Therefore, a Pareto front can only be guaranteed with multiple runs of the linear-scalarization problem, where all runs converge to their respective global optima. Consequently, extracting a Pareto front for practical problems is computationally intractable with substantial computational overheads, limited scalability, and reduced accuracy. We propose a robust, low cost, two-stage, hybrid neural Pareto optimization approach that is accurate and scales (compute space and time) with data dimensions, as well as number of functions and constraints. The first stage (neural network) efficiently extracts a weak Pareto front, using Fritz-John conditions as the discriminator, with no assumptions of convexity on the objectives or constraints. The second stage (efficient Pareto filter) extracts the strong Pareto optimal subset given the weak front from stage 1. Fritz-John conditions provide us with theoretical bounds on approximation error between the true and network extracted weak Pareto front. Numerical experiments demonstrates the accuracy and efficiency on a canonical set of benchmark problems and a fairness optimization task from prior works.
翻訳日:2021-03-13 20:53:11 公開日:2021-02-13
# (参考訳) ant lionによる多層パーセプトロンネットワークの合成, 生物地理学に基づくdragonflyアルゴリズムによる進化戦略 侵襲的雑草とリーグチャンピオン最適化ハイブリッドアルゴリズムによる住宅の暖房負荷予測

Synthesizing multi-layer perceptron network with ant lion, biogeography-based dragonfly algorithm evolutionary strategy invasive weed and league champion optimization hybrid algorithms in predicting heating load in residential buildings ( http://arxiv.org/abs/2102.08928v1 )

ライセンス: CC BY 4.0
Hossein Moayedi, Amir Mosavi(参考訳) 熱負荷(hl)の正確な近似の意義は、複数の神経-メタヒューリスティックモデルの中で最も効率的な予測モデルを識別するための研究の第一の動機である。 提案モデルは,多層パーセプトロンネットワーク(MLP)をアリライオン最適化(ALO),生物地理学に基づく最適化(BBO),トンボアルゴリズム(DA),進化戦略(ES),侵入雑草最適化(IWO),リーグチャンピオン最適化(LCA)ハイブリッドアルゴリズムで合成する。 各アンサンブルは運用人口の観点で最適化されている。 その結果, ALO-MLP, BBO-MLP, DA-MLP, ES-MLP, IWO-MLP, LCA-MLPはそれぞれ350, 400, 200, 500, 50, 300の人口に対して最高の成績を示した。 比較はランキングシステムによって行われた。 得られた総合スコア (OS) に基づいて、BBO (OS = 36) は最も有能な最適化手法として機能し、ALO (OS = 27) とES (OS = 20) が続く。 これらのアルゴリズムの効率的な性能のため、対応するMLPはHL解析に使用される従来の手法の代替として有望である。

The significance of heating load (HL) accurate approximation is the primary motivation of this research to distinguish the most efficient predictive model among several neural-metaheuristic models. The proposed models are through synthesizing multi-layer perceptron network (MLP) with ant lion optimization (ALO), biogeography-based optimization (BBO), dragonfly algorithm (DA), evolutionary strategy (ES), invasive weed optimization (IWO), and league champion optimization (LCA) hybrid algorithms. Each ensemble is optimized in terms of the operating population. Accordingly, the ALO-MLP, BBO-MLP, DA-MLP, ES-MLP, IWO-MLP, and LCA-MLP presented their best performance for population sizes of 350, 400, 200, 500, 50, and 300, respectively. The comparison was carried out by implementing a ranking system. Based on the obtained overall scores (OSs), the BBO (OS = 36) featured as the most capable optimization technique, followed by ALO (OS = 27) and ES (OS = 20). Due to the efficient performance of these algorithms, the corresponding MLPs can be promising substitutes for traditional methods used for HL analysis.
翻訳日:2021-02-18 23:45:30 公開日:2021-02-13
# (参考訳) 深層学習による暗号通貨価格分類における技術取引とソーシャルメディア指標について

On Technical Trading and Social Media Indicators in Cryptocurrencies' Price Classification Through Deep Learning ( http://arxiv.org/abs/2102.08189v1 )

ライセンス: CC BY 4.0
Marco Ortu, Nicola Uras, Claudio Conversano, Giuseppe Destefanis, Silvia Bartolucci(参考訳) 深層学習アルゴリズムを用いて、2017年1月から2021年1月までの時間別および日次データの暗号通貨価格変動の予測可能性を分析することを目的としている。 実験では,技術指標,取引指標,ソーシャルメディア指標の3つの特徴を用いて,技術指標のみの \textit{restricted model} と技術指標,取引指標,ソーシャルメディア指標の \textit{unrestricted model} を検討した。 取引・ソーシャルメディア指標の考慮が、古典的な技術的変数(価格のリターンなど)とともに、暗号通貨価格の変化の予測に顕著な改善をもたらすかどうかを検証した。 我々は、bitcoinとethereumの2つの暗号通貨の量と価値(この研究の時点で)について調査を行った。 時系列分類問題で使用される4つの異なる機械学習アルゴリズムを実装した: \textit{Multi Layers Perceptron (MLP)}、 \textit{Convolutional Neural Network (CNN)}、 \textit{Long Short Term Memory (LSTM) ニューラルネットワーク}、および \textit{Attention Long Short Term Memory (ALSTM)}。 テスト試料の分散問題を検討するために, 高度なブートストラップ法を用いて実験を考案し, より信頼性の高いモデルの性能評価を可能にした。 さらに、実装アルゴリズムごとに最高の \textit{hyperparameters} 値を見つけるために \textit{grid search} テクニックが使われた。 この研究は、時間ごとの結果に基づいて、制限のないモデルが制限されたモデルを上回ることを示している。 古典的な技術指標への取引指標の追加は、制限モデルのための51-55\%の範囲から制限なしモデルのための67-84\%への精度の増加とともに、ビットコインとイーサリアム価格の変更予測の精度を向上させます。

This work aims to analyse the predictability of price movements of cryptocurrencies on both hourly and daily data observed from January 2017 to January 2021, using deep learning algorithms. For our experiments, we used three sets of features: technical, trading and social media indicators, considering a \textit{restricted model} of only technical indicators and an \textit{unrestricted model} with technical, trading and social media indicators. We verified whether the consideration of trading and social media indicators, along with the classic technical variables (such as price's returns), leads to a significative improvement in the prediction of cryptocurrencies price's changes. We conducted the study on the two highest cryptocurrencies in volume and value (at the time of the study): Bitcoin and Ethereum. We implemented four different machine learning algorithms typically used in time-series classification problems: \textit{Multi Layers Perceptron (MLP)}, \textit{Convolutional Neural Network (CNN)}, \textit{Long Short Term Memory (LSTM) neural network} and \textit{Attention Long Short Term Memory (ALSTM)}. We devised the experiments using the advanced bootstrap technique to consider the variance problem on test samples, which allowed us to evaluate a more reliable estimate of the model's performance. Furthermore, the \textit{Grid Search} technique was used to find the best \textit{hyperparameters} values for each implemented algorithm. The study shows that, based on the hourly frequency results, the unrestricted model outperforms the restricted one. The addition of the trading indicators to the classic technical indicators improves the accuracy of Bitcoin and Ethereum price's changes prediction, with an increase of accuracy from a range of 51-55\% for the restricted model, to 67-84\% for the unrestricted model.
翻訳日:2021-02-18 07:53:29 公開日:2021-02-13
# (参考訳) アクティビティ記述からのインタラクティブ学習

Interactive Learning from Activity Description ( http://arxiv.org/abs/2102.07024v1 )

ライセンス: CC BY 4.0
Khanh Nguyen, Dipendra Misra, Robert Schapire, Miro Dud\'ik, Patrick Shafto(参考訳) 本稿では,要求充足エージェントを言語的に記述することで,要求充足エージェントの訓練を可能にする対話型学習プロトコルを提案する。 我々のプロトコルは、模倣学習(IL)や強化学習(RL)といった従来のアルゴリズムと相補的な利点を提供する対話型学習アルゴリズムの新たなファミリーを生み出します。 我々は,このプロトコルを実践的に実装し,純粋に言語記述フィードバックを用いた2つの要求充足問題をエージェントに訓練するアルゴリズムを開発した。 RLベースラインと比較してサンプル効率が良く,ILベースラインと比較して,フィードバックプロバイダにエージェント固有の専門知識を必要とせず,競争的な成功率を達成した。 また,教師と環境に対する一定の仮定の下でのアルゴリズムの理論的保証も提供する。

We present a novel interactive learning protocol that enables training request-fulfilling agents by verbally describing their activities. Our protocol gives rise to a new family of interactive learning algorithms that offer complementary advantages against traditional algorithms like imitation learning (IL) and reinforcement learning (RL). We develop an algorithm that practically implements this protocol and employ it to train agents in two challenging request-fulfilling problems using purely language-description feedback. Empirical results demonstrate the strengths of our algorithm: compared to RL baselines, it is more sample-efficient; compared to IL baselines, it achieves competitive success rates while not requiring feedback providers to have agent-specific expertise. We also provide theoretical guarantees of the algorithm under certain assumptions on the teacher and the environment.
翻訳日:2021-02-17 19:33:30 公開日:2021-02-13
# (参考訳) ディープRA:CNNによる放射線障害の予知に留意

DeepRA: Predicting Joint Damage From Radiographs Using CNN with Attention ( http://arxiv.org/abs/2102.06982v1 )

ライセンス: CC BY 4.0
Neelambuj Chaturvedi(参考訳) 関節リウマチ(RA)の関節損傷は手動による手足のX線検査により評価した。 これは退屈な作業であり、主観的評価が低いレート間合意につながる訓練された専門家を必要とする。 手や足の関節レベルの損傷を自動的に予測するアルゴリズムは、このプロセスを最適化するのに役立つ。 本稿では,対象物検出と畳み込みニューラルネットワークに注意を向けた2段階のアプローチを提案する。 このアプローチはra患者の手足x線写真を用いて評価されており、svhスコアに対して31%と19%の改善率である関節レベルの狭化とエロージョンシャープファンデルハイデ(svh)スコアの予測において、重み付き根平均二乗誤差(rmse)が1.358と1.404である。 提案手法は, 重み付き絶対誤差が1.456で, 平均値と比較して79%改善した患者に対する手足x線撮影の全体的な損傷を予測した。 また,本手法は,注意重みを用いたモデル予測について,深層学習モデルのブラックボックス性を考える上で欠かせない説明を提供する。 提案されたアプローチは、ドリームチャレンジが主催するRA2ドリームチャレンジで開発され、ラジオグラフからの全体および関節レベルの狭くおよび浸食SvHスコアを予測する第4および第8の位置を確保しました。

Joint damage in Rheumatoid Arthritis (RA) is assessed by manually inspecting and grading radiographs of hands and feet. This is a tedious task which requires trained experts whose subjective assessment leads to low inter-rater agreement. An algorithm which can automatically predict the joint level damage in hands and feet can help optimize this process, which will eventually aid the doctors in better patient care and research. In this paper, we propose a two-staged approach which amalgamates object detection and convolution neural networks with attention which can efficiently and accurately predict the overall and joint level narrowing and erosion from patients radiographs. This approach has been evaluated on hands and feet radiographs of patients suffering from RA and has achieved a weighted root mean squared error (RMSE) of 1.358 and 1.404 in predicting joint level narrowing and erosion Sharp van der Heijde (SvH) scores which is 31% and 19% improvement with respect to the baseline SvH scores, respectively. The proposed approach achieved a weighted absolute error of 1.456 in predicting the overall damage in hands and feet radiographs for the patients which is a 79% improvement as compared to the baseline. Our method also provides an inherent capability to provide explanations for model predictions using attention weights, which is essential given the black box nature of deep learning models. The proposed approach was developed during the RA2 Dream Challenge hosted by Dream Challenges and secured 4th and 8th position in predicting overall and joint level narrowing and erosion SvH scores from radiographs.
翻訳日:2021-02-17 17:46:47 公開日:2021-02-13
# (参考訳) 半監督画像分類のためのマルチクラスジェネラティブ・アドバーサリー・ネット

Multi-class Generative Adversarial Nets for Semi-supervised Image Classification ( http://arxiv.org/abs/2102.06944v1 )

ライセンス: CC BY 4.0
Saman Motamed and Farzad Khalvati(参考訳) 目に見えない画像の生成からドメイン適応まで、GAN(Generative Adversarial Networks)の応用は、視覚とグラフィックの問題の分野で広く広がっています。 特定のクラスの分布を学習し画像を生成するganの顕著な能力により、半教師付き分類タスクに使用できる。 しかし、画像の2つのクラスが類似した特性を持つ場合、ganは2つのクラスの分類を一般化し妨げることを学ぶかもしれない。 本稿では,MNIST と Fashion-MNIST のデータセットから得られた様々な画像を用いて,GAN の一般化を図っている。 半教師付き学習フレームワークにおいて、画像の類似クラスにおけるマルチクラス分類を改善するため、GANの従来の訓練の修正を提案する。

From generating never-before-seen images to domain adaptation, applications of Generative Adversarial Networks (GANs) spread wide in the domain of vision and graphics problems. With the remarkable ability of GANs in learning the distribution and generating images of a particular class, they can be used for semi-supervised classification tasks. However, the problem is that if two classes of images share similar characteristics, the GAN might learn to generalize and hinder the classification of the two classes. In this paper, we use various images from MNIST and Fashion-MNIST datasets to illustrate how similar images cause the GAN to generalize, leading to the poor classification of images. We propose a modification to the traditional training of GANs that allows for improved multi-class classification in similar classes of images in a semi-supervised learning framework.
翻訳日:2021-02-17 16:57:44 公開日:2021-02-13
# (参考訳) リモートセンシングにおける深層学習アルゴリズムの重み付け初期化技術:最新動向と今後の展望

Weight Initialization Techniques for Deep Learning Algorithms in Remote Sensing: Recent Trends and Future Perspectives ( http://arxiv.org/abs/2102.07004v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Maha Driss, Mohamed Al-Sarem, Faisal Saeed, Moez Krichen(参考訳) 過去10年間に、多くのアプリケーション分野において、新しいディープラーニング手法を提供することに焦点が当てられた研究がいくつかある。 しかし,深層学習における重み初期化プロセスについて検討した例はほとんどないが,その重要性は深層学習性能の向上に向けられている。 これは、この有望な研究分野に新しい技術を提案する上での技術的困難によって正当化できる。 本稿では,リモートセンシングにおける深層アルゴリズムの重み初期化技術に関する調査を行う。 この調査は、実践者がこの有望な分野でさらなる研究を進めるのに役立つだろう。 本論文は,深層学習モデルにおける重み初期化に着目した最初の調査である。

During the last decade, several research works have focused on providing novel deep learning methods in many application fields. However, few of them have investigated the weight initialization process for deep learning, although its importance is revealed in improving deep learning performance. This can be justified by the technical difficulties in proposing new techniques for this promising research field. In this paper, a survey related to weight initialization techniques for deep algorithms in remote sensing is conducted. This survey will help practitioners to drive further research in this promising field. To the best of our knowledge, this paper constitutes the first survey focusing on weight initialization for deep learning models.
翻訳日:2021-02-17 16:06:02 公開日:2021-02-13
# 可変重要度スコア

Variable importance scores ( http://arxiv.org/abs/2102.07765v1 )

ライセンス: Link先を確認
Wei-Yin Loh and Peigen Zhou(参考訳) 応答を予測することの重要性に対する変数のスコア付けは、不明確な概念である。 いくつかの方法が提案されているが、その性能はほとんど知られていない。 本稿では,GUIDEアルゴリズムに基づく11手法の比較評価と更新手法を用いて,そのギャップを埋める。 欠落した値のないデータに対しては、8つのメソッドのバイアスが示され、それぞれが応答から独立している場合でも、異なるタイプの変数に対して高いスコアまたは低いスコアを与える。 残りの4つのメソッドのうち、2つだけが欠落した値を持つデータに適用可能であり、GUIDEだけがバイアスのないデータである。 ガイドは、他のスコア脱バイアス方法に適用可能な自己調整ステップを使用することで、偏りを解消する。 GUIDEはまた、95および99%の信頼性レベルで重要でない変数と重要な変数を区別するためのしきい値を生成します。 最後に,3つのデータセットにおけるスコアと予測力の関係について検討した。 その結果,多くの手法のスコアは条件付き予測力よりも限界予測力と一致していることがわかった。

Scoring of variables for importance in predicting a response is an ill-defined concept. Several methods have been proposed but little is known of their performance. This paper fills the gap with a comparative evaluation of eleven methods and an updated one based on the GUIDE algorithm. For data without missing values, eight of the methods are shown to be biased in that they give higher or lower scores to different types of variables, even when all are independent of the response. Of the remaining four methods, only two are applicable to data with missing values, with GUIDE the only unbiased one. GUIDE achieves unbiasedness by using a self-calibrating step that is applicable to other methods for score de-biasing. GUIDE also yields a threshold for distinguishing important from unimportant variables at 95 and 99 percent confidence levels; the technique is applicable to other methods as well. Finally, the paper studies the relationship of the scores to predictive power in three data sets. It is found that the scores of many methods are more consistent with marginal predictive power than conditional predictive power.
翻訳日:2021-02-17 15:02:26 公開日:2021-02-13
# (参考訳) クラスタリング 左チャージ型多変量時系列

Clustering Left-Censored Multivariate Time-Series ( http://arxiv.org/abs/2102.07005v1 )

ライセンス: CC BY 4.0
Irene Y. Chen, Rahul G. Krishnan, David Sontag(参考訳) 教師なし学習は、データのパターンを明らかにする。 しかし、異なる種類のノイズは、実世界の時系列データから有用なサブ構造の発見を妨げる可能性がある。 本研究では,クラスタリング作業における左検閲の干渉を軽減することに焦点を当てる。 クラスタと左検閲が特定できる条件を提供し、その結果、検閲時間を修正しながらクラスタ化された時系列データの深い生成的連続時間モデルを開発する。 複数のベンチマークを上回っている合成データに対して,正確,安定,かつ解釈可能な結果を示す。 本研究は,現実世界の問題に対するフレームワークの有用性を示すために,左検閲が疾患表現型付けの課題にどのように悪影響を及ぼすかを検討した。 実際には、診断時の患者は病気の異なる段階にある ― 患者が医療を求める時期の違いのために、遅かれ早かれ、そのような不一致は教師なしの学習アルゴリズムを組み合わせることができる。 2つの臨床データセットでは、この形態の検閲を修正し、既知の臨床サブタイプを回復する。

Unsupervised learning seeks to uncover patterns in data. However, different kinds of noise may impede the discovery of useful substructure from real-world time-series data. In this work, we focus on mitigating the interference of left-censorship in the task of clustering. We provide conditions under which clusters and left-censorship may be identified; motivated by this result, we develop a deep generative, continuous-time model of time-series data that clusters while correcting for censorship time. We demonstrate accurate, stable, and interpretable results on synthetic data that outperform several benchmarks. To showcase the utility of our framework on real-world problems, we study how left-censorship can adversely affect the task of disease phenotyping, resulting in the often incorrect assumption that longitudinal patient data are aligned by disease stage. In reality, patients at the time of diagnosis are at different stages of the disease -- both late and early due to differences in when patients seek medical care and such discrepancy can confound unsupervised learning algorithms. On two clinical datasets, our model corrects for this form of censorship and recovers known clinical subtypes.
翻訳日:2021-02-17 13:40:42 公開日:2021-02-13
# (参考訳) ガウスノイズ注入における非対称重機とインシシットバイアス

Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections ( http://arxiv.org/abs/2102.07006v1 )

ライセンス: CC BY 4.0
Alexander Camuto, Xiaoyu Wang, Lingjiong Zhu, Chris Holmes, Mert G\"urb\"uzbalaban, Umut \c{S}im\c{s}ekli(参考訳) ガウスノイズインジェクション(ガウスノイズインジェクション、英: Gaussian noise Injections、GNI)は、ニューラルネットワークをトレーニングするための単純で広く使われている正規化手法のファミリーであり、最適化アルゴリズムの反復毎に加法的あるいは乗法的ガウスノイズをネットワークアクティベーションに注入する。 本稿では,sgdのダイナミクスに対する注入ノイズの影響であるgnisのいわゆる「インプリシット効果」に着目した。 この効果はSGD勾配更新において非対称な重み付き雑音を引き起こすことを示す。 この修正力学をモデル化するために、まず、非対称重み付き雑音の一般族によって駆動されるランゲヴィン型確率微分方程式を開発する。 このモデルを用いて、GNIが尾の重みと非対称性のレベルによって異なる「単純バイアス」を誘導することを正式に証明する。 実験の結果,gnisで訓練されたニューラルネットワークの異なるタイプは,提案するダイナミクスによくモデル化されており,これらのインジェクションの暗黙的効果は,ネットワークの性能を低下させるバイアスを引き起こすことが明らかとなった。

Gaussian noise injections (GNIs) are a family of simple and widely-used regularisation methods for training neural networks, where one injects additive or multiplicative Gaussian noise to the network activations at every iteration of the optimisation algorithm, which is typically chosen as stochastic gradient descent (SGD). In this paper we focus on the so-called `implicit effect' of GNIs, which is the effect of the injected noise on the dynamics of SGD. We show that this effect induces an asymmetric heavy-tailed noise on SGD gradient updates. In order to model this modified dynamics, we first develop a Langevin-like stochastic differential equation that is driven by a general family of asymmetric heavy-tailed noise. Using this model we then formally prove that GNIs induce an `implicit bias', which varies depending on the heaviness of the tails and the level of asymmetry. Our empirical results confirm that different types of neural networks trained with GNIs are well-modelled by the proposed dynamics and that the implicit effect of these injections induces a bias that degrades the performance of networks.
翻訳日:2021-02-17 13:16:15 公開日:2021-02-13
# (参考訳) Saliency-Aware Class Agnostic Food Image Segmentation

Saliency-Aware Class-Agnostic Food Image Segmentation ( http://arxiv.org/abs/2102.06882v1 )

ライセンス: CC BY 4.0
Sri Kalyan Yarlagadda, Daniel Mas Montserrat, David Guerra, Carol J. Boushey, Deborah A. Kerr, Fengqing Zhu(参考訳) 画像に基づく食事アセスメント手法の進歩により、栄養専門家や研究者は、スマートフォンやウェアラブルデバイスで消費される食品の画像を取得する食事アセスメントの精度を向上させることができた。 これらの画像はコンピュータビジョンを用いて分析され、食品のエネルギーと栄養分を推定する。 食品が位置する画像の領域を決定する食品画像分割は、このプロセスにおいて重要な役割を果たします。 現在のメソッドはデータに依存しており、異なる種類の食品ではうまく一般化できない。 そこで本研究では,クラス別食品画像分割手法を提案する。 本手法では,食事開始前と食事後とで,一対の食事シーン画像を使用する。 画像の前と後の両方からの情報を使用して、食品のクラスに関する事前の情報なしで、過度の欠落したオブジェクトを見つけることで、食品イメージをセグメント化できます。 そこで我々は,人間の視覚システム(HVS)の注目を導くトップダウンサリエンシー(topdown saliency)のパラダイムを,一対の画像中のサリエント欠落オブジェクトを見つけるタスクに基づいてモデル化する。 本手法は,食餌研究から得られた食品画像から検証し,有望な結果を得た。

Advances in image-based dietary assessment methods have allowed nutrition professionals and researchers to improve the accuracy of dietary assessment, where images of food consumed are captured using smartphones or wearable devices. These images are then analyzed using computer vision methods to estimate energy and nutrition content of the foods. Food image segmentation, which determines the regions in an image where foods are located, plays an important role in this process. Current methods are data dependent, thus cannot generalize well for different food types. To address this problem, we propose a class-agnostic food image segmentation method. Our method uses a pair of eating scene images, one before start eating and one after eating is completed. Using information from both the before and after eating images, we can segment food images by finding the salient missing objects without any prior information about the food class. We model a paradigm of top down saliency which guides the attention of the human visual system (HVS) based on a task to find the salient missing objects in a pair of images. Our method is validated on food images collected from a dietary study which showed promising results.
翻訳日:2021-02-17 10:14:17 公開日:2021-02-13
# (参考訳) LTL2Action:マルチタスクRLのためのLTL命令の一般化

LTL2Action: Generalizing LTL Instructions for Multi-Task RL ( http://arxiv.org/abs/2102.06858v1 )

ライセンス: CC BY 4.0
Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte, Sheila McIlraith(参考訳) 我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。 我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。 LTLの構成構文とセマンティクスを活用する新しい学習アプローチを提案し、RLエージェントはトレーニング中に観察されない新しい指示に一般化するタスクコンディショニングポリシーを学ぶことができます。 LTLの表現力は、条件や代替実現を含む複雑な時間的拡張行動の多様性の仕様をサポートする。 離散的かつ連続的な領域の実験は、LTL命令が与えられた場合の(目に見えない)タスクを学習する際のアプローチの強みを実証する。

We address the problem of teaching a deep reinforcement learning (RL) agent to follow instructions in multi-task environments. We employ a well-known formal language -- linear temporal logic (LTL) -- to specify instructions, using a domain-specific vocabulary. We propose a novel approach to learning that exploits the compositional syntax and the semantics of LTL, enabling our RL agent to learn task-conditioned policies that generalize to new instructions, not observed during training. The expressive power of LTL supports the specification of a diversity of complex temporally extended behaviours that include conditionals and alternative realizations. Experiments on discrete and continuous domains demonstrate the strength of our approach in learning to solve (unseen) tasks, given LTL instructions.
翻訳日:2021-02-17 09:27:51 公開日:2021-02-13
# (参考訳) フレームレットによるグラフニューラルネットワークの強化

How Framelets Enhance Graph Neural Networks ( http://arxiv.org/abs/2102.06986v1 )

ライセンス: CC BY 4.0
Xuebin Zheng, Bingxin Zhou, Junbin Gao, Yu Guang Wang, Pietro Lio, Ming Li, Guido Montufar(参考訳) 本稿では,フレームレット変換に基づくグラフニューラルネットワークの組み立て手法を提案する。 後者はグラフ構造化データのマルチスケール表現を提供する。 フレームレットシステムでは,グラフ特徴を低域と高域の周波数に分解してネットワークトレーニングの抽出を行い,フレームレットに基づくグラフ畳み込みを定義する。 フレームレット分解はグラフ特徴を低域と高域のスペクトルに集約することでグラフプール戦略を自然に誘導し、グラフデータの特徴値と幾何の両方を考慮し、合計情報を保存する。 提案するフレームレット畳み込みとプーリングを用いたグラフニューラルネットワークは,様々なノードおよびグラフ予測タスクにおいて最先端のパフォーマンスを実現する。 さらに,フレームレット畳み込みのための新しいアクティベーションとして,異なるスケールで高周波情報をしきい値として縮小を提案する。 reluと比較して、フレームレット畳み込みの縮小は、デノイジングと信号圧縮の観点からグラフニューラルネットワークモデルを改善する: フレームレット分解から高パス係数を正確に切り離すことで、ノードと構造の両方のノイズを大幅に削減することができ、信号は予測性能が良く保存されたまま元の半分以下のサイズに圧縮することができる。

This paper presents a new approach for assembling graph neural networks based on framelet transforms. The latter provides a multi-scale representation for graph-structured data. With the framelet system, we can decompose the graph feature into low-pass and high-pass frequencies as extracted features for network training, which then defines a framelet-based graph convolution. The framelet decomposition naturally induces a graph pooling strategy by aggregating the graph feature into low-pass and high-pass spectra, which considers both the feature values and geometry of the graph data and conserves the total information. The graph neural networks with the proposed framelet convolution and pooling achieve state-of-the-art performance in many types of node and graph prediction tasks. Moreover, we propose shrinkage as a new activation for the framelet convolution, which thresholds the high-frequency information at different scales. Compared to ReLU, shrinkage in framelet convolution improves the graph neural network model in terms of denoising and signal compression: noises in both node and structure can be significantly reduced by accurately cutting off the high-pass coefficients from framelet decomposition, and the signal can be compressed to less than half its original size with the prediction performance well preserved.
翻訳日:2021-02-17 08:44:15 公開日:2021-02-13
# (参考訳) ロバスト最適輸送について:計算複雑性、低ランク近似、バリセンター計算

On Robust Optimal Transport: Computational Complexity, Low-rank Approximation, and Barycenter Computation ( http://arxiv.org/abs/2102.06857v1 )

ライセンス: CC BY 4.0
Khang Le, Huy Nguyen, Quang Nguyen, Nhat Ho, Tung Pham, Hung Bui(参考訳) 我々は, 限界制約をkullback-leiblerダイバージェンスで緩和することにより定式化した, 最適輸送の2つの頑健なバージョン, $\textit{robust semi-constrained optimal transport}$ (rsot) と $\textit{robust unconstrained optimal transport}$ (rot) を考える。 離散設定における両方の問題に対して、$n$ が確率分布のサポート数である $\widetilde{\mathcal{O}}(\frac{n^2}{\varepsilon})$ で RSOT と ROT の $\varepsilon$-近似を生成する Sinkhorn ベースのアルゴリズムを提案する。 さらに、n$ に対するシンクホーンベースのアルゴリズムの複雑さの依存性を減らすために、これらのシンクホーンベースのアルゴリズムに渡す前に、rsot と rot の両方のカーネル行列をランク $r$ の行列で近似するために nystr\"{o}m 法を適用する。 これらの新しいアルゴリズムは $\widetilde{\mathcal{O}}(n r^2 + \frac{nr}{\varepsilon})$ランタイムを持ち、RSOT と ROT $\varepsilon$-approximations を得る。 最後に、RSOT に基づくバリセンタ問題である $\textit{Robust Semi-Constrained Barycenter}$ problem (RSBP) を検討し、確率分布の離散的な設定で RSBP を解くために、 $\textbf{Normalized-RobustIBP}$ algorithm と呼ばれる堅牢な反復的ブレグマン射影アルゴリズムを開発する。 RSBPの$\varepsilon$-approximated solutionは、$\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon})$ time using $\textbf{Normalized-RobustIBP}$ algorithm when $m = 2$, than the previous complexity $\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon^2})$ of IBP algorithm for approximating the Wasserstein barycenter(英語版)$で実現できることを示した。 広範な実験は我々の理論結果を確認する。

We consider two robust versions of optimal transport, named $\textit{Robust Semi-constrained Optimal Transport}$ (RSOT) and $\textit{Robust Unconstrained Optimal Transport}$ (ROT), formulated by relaxing the marginal constraints with Kullback-Leibler divergence. For both problems in the discrete settings, we propose Sinkhorn-based algorithms that produce $\varepsilon$-approximations of RSOT and ROT in $\widetilde{\mathcal{O}}(\frac{n^2}{\varepsilon})$ time, where $n$ is the number of supports of the probability distributions. Furthermore, to reduce the dependency of the complexity of the Sinkhorn-based algorithms on $n$, we apply Nystr\"{o}m method to approximate the kernel matrix in both RSOT and ROT by a matrix of rank $r$ before passing it to these Sinkhorn-based algorithms. We demonstrate that these new algorithms have $\widetilde{\mathcal{O}}(n r^2 + \frac{nr}{\varepsilon})$ runtime to obtain the RSOT and ROT $\varepsilon$-approximations. Finally, we consider a barycenter problem based on RSOT, named $\textit{Robust Semi-Constrained Barycenter}$ problem (RSBP), and develop a robust iterative Bregman projection algorithm, called $\textbf{Normalized-RobustIBP}$ algorithm, to solve the RSBP in the discrete settings of probability distributions. We show that an $\varepsilon$-approximated solution of the RSBP can be achieved in $\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon})$ time using $\textbf{Normalized-RobustIBP}$ algorithm when $m = 2$, which is better than the previous complexity $\widetilde{\mathcal{O}}(\frac{mn^2}{\varepsilon^2})$ of IBP algorithm for approximating the Wasserstein barycenter. Extensive experiments confirm our theoretical results.
翻訳日:2021-02-17 07:24:37 公開日:2021-02-13
# (参考訳) ネットワークにおける低位潜時メソスケール構造の学習

Learning low-rank latent mesoscale structures in networks ( http://arxiv.org/abs/2102.06984v1 )

ライセンス: CC BY 4.0
Hanbaek Lyu, Yacoub H. Kureh, Joshua Vendrow, Mason A. Porter(参考訳) ネットワークを用いて、物理的、生物学的、社会的、情報科学の複雑なシステムにおけるエンティティ間の相互作用のアーキテクチャを符号化することが一般的である。 さらに、複雑なシステムの大規模挙動を研究するには、ネットワーク内のメソスケール構造をそのような行動に影響を与えるビルディングブロックとして研究することが重要である。 本稿では,ネットワークにおける低ランクメソスケール構造を記述するための新しいアプローチを提案し,いくつかの合成ネットワークモデルと経験的友情,協調,タンパク質-タンパク質相互作用(PPI)ネットワークを用いたアプローチについて述べる。 これらのネットワークは比較的少数の「相対的モチーフ」を持ち、固定メソスケールでほとんどのサブネットワークを近似することができる。 我々は、ネットワークサンプリング法と非負行列分解法を組み合わせた「ネットワーク辞書学習」(NDL)と呼ばれるアルゴリズムを用いて、与えられたネットワークの潜在モチーフを学習する。 潜在モチーフの集合を用いてネットワークをエンコードする能力は、比較、デノイング、エッジ推論といったネットワーク分析タスクに幅広い応用がある。 さらに、新しいネットワークデノイジングと再構築(NDR)アルゴリズムを使用して、破損したネットワークから直接学習する潜在的なモチーフのみを使用して、破損したネットワークをデノイズする方法を実証します。

It is common to use networks to encode the architecture of interactions between entities in complex systems in the physical, biological, social, and information sciences. Moreover, to study the large-scale behavior of complex systems, it is important to study mesoscale structures in networks as building blocks that influence such behavior. In this paper, we present a new approach for describing low-rank mesoscale structure in networks, and we illustrate our approach using several synthetic network models and empirical friendship, collaboration, and protein--protein interaction (PPI) networks. We find that these networks possess a relatively small number of `latent motifs' that together can successfully approximate most subnetworks at a fixed mesoscale. We use an algorithm that we call "network dictionary learning" (NDL), which combines a network sampling method and nonnegative matrix factorization, to learn the latent motifs of a given network. The ability to encode a network using a set of latent motifs has a wide range of applications to network-analysis tasks, such as comparison, denoising, and edge inference. Additionally, using our new network denoising and reconstruction (NDR) algorithm, we demonstrate how to denoise a corrupted network by using only the latent motifs that one learns directly from the corrupted networks.
翻訳日:2021-02-17 07:22:46 公開日:2021-02-13
# (参考訳) モデル能力向上のための自己再生・若返りCNN

Self-Reorganizing and Rejuvenating CNNs for Increasing Model Capacity Utilization ( http://arxiv.org/abs/2102.06870v1 )

ライセンス: CC BY 4.0
Wissam J. Baddar, Seungju Han, Seonmin Rhee, Jae-Joon Han(参考訳) 本稿では,ニューラルネットワークの計算資源利用を改善するための生物学的手法として,自己再構成・再生型畳み込みニューラルネットワークを提案する。 提案手法では,畳み込み層のチャネルアクティベーションを利用して,その層パラメータを再構成する。 再編成されたパラメータは、パラメータ冗長性を避けるためにクラスタ化される。 このように、類似の活性化を持つ冗長ニューロンは、残りのパラメータが回復する余地をマージする。 再生されたパラメータは、再構成された生存パラメータから学んだことを補うために異なる特徴を学ぶ。 その結果,ネットワークの容量利用はネットワーク構造を変えることなく,ベースラインネットワークの性能を向上させることができた。 提案手法は、トレーニング段階で様々なネットワークアーキテクチャに適用するか、その性能を向上させる事前トレーニングモデルに適用することができる。 実験の結果,提案手法はモデルに依存しず,ネットワーク容量の増大により性能が向上するバックボーンアーキテクチャに適用可能であることがわかった。

In this paper, we propose self-reorganizing and rejuvenating convolutional neural networks; a biologically inspired method for improving the computational resource utilization of neural networks. The proposed method utilizes the channel activations of a convolution layer in order to reorganize that layers parameters. The reorganized parameters are clustered to avoid parameter redundancies. As such, redundant neurons with similar activations are merged leaving room for the remaining parameters to rejuvenate. The rejuvenated parameters learn different features to supplement those learned by the reorganized surviving parameters. As a result, the network capacity utilization increases improving the baseline network performance without any changes to the network structure. The proposed method can be applied to various network architectures during the training stage, or applied to a pre-trained model improving its performance. Experimental results showed that the proposed method is model-agnostic and can be applied to any backbone architecture increasing its performance due to the elevated utilization of the network capacity.
翻訳日:2021-02-17 06:44:40 公開日:2021-02-13
# (参考訳) 多様なHausa言語データセットの最初の大規模コレクション

The first large scale collection of diverse Hausa language datasets ( http://arxiv.org/abs/2102.06991v1 )

ライセンス: CC BY 4.0
Isa Inuwa-Dutse(参考訳) ハウサ語はアフロアシア語のフィラムに属し、他のサハラ以南のアフリカ語よりも第一言語話者が多い。 話者の大半はナイジェリア北部と南部に居住し、ニジェール共和国では1億人以上がこの言語を話していると推定されている。 そのため、チャド語で最も多く話されている言語である。 ハウサはサハラ以南のアフリカの言語の中でよく研究され、文書化された言語と考えられているが、NLP関連のタスクに利用するリソースが限られているため、自然言語処理(NLP)の観点からは低リソース言語と見なされている。 これはアフリカのほとんどの言語に共通するものであり、現代社会の要求を満たすために様々な下流タスクの実行のペースをサポートし、高速化するリソースでそのような言語を充実させることが重要です。 有用なデータセット、特にニュースサイトや宗教的なテキストは存在するが、コーパスにはより多くの多様性が必要である。 我々は,refutable web サイト と online social media network から,形式形式と形式的の両方からなるデータ集合の広範なコレクションを提供する。 このコレクションは、既存のコーポラよりも大規模で多様で、言語の特異性をキャプチャする最初の、最大のHausaソーシャルメディアデータ投稿を提供します。 このコレクションは並列データセットも含んでおり、スプリアスや熱狂的なオンラインコンテンツの検出などの分野でアプリケーションによる機械翻訳などのタスクに使用することができる。 収集、前処理、データの取得方法から、キュレーションプロセスを説明し、データを使用して対処できるいくつかの研究問題を推測します。

Hausa language belongs to the Afroasiatic phylum, and with more first-language speakers than any other sub-Saharan African language. With a majority of its speakers residing in the Northern and Southern areas of Nigeria and the Republic of Niger, respectively, it is estimated that over 100 million people speak the language. Hence, making it one of the most spoken Chadic language. While Hausa is considered well-studied and documented language among the sub-Saharan African languages, it is viewed as a low resource language from the perspective of natural language processing (NLP) due to limited resources to utilise in NLP-related tasks. This is common to most languages in Africa; thus, it is crucial to enrich such languages with resources that will support and speed the pace of conducting various downstream tasks to meet the demand of the modern society. While there exist useful datasets, notably from news sites and religious texts, more diversity is needed in the corpus. We provide an expansive collection of curated datasets consisting of both formal and informal forms of the language from refutable websites and online social media networks, respectively. The collection is large and more diverse than the existing corpora by providing the first and largest set of Hausa social media data posts to capture the peculiarities in the language. The collection also consists of a parallel dataset, which can be used for tasks such as machine translation with applications in areas such as the detection of spurious or inciteful online content. We describe the curation process -- from the collection, preprocessing and how to obtain the data -- and proffer some research problems that could be addressed using the data.
翻訳日:2021-02-17 06:17:58 公開日:2021-02-13
# (参考訳) ビデオから3次元対話ジェスチャを学習する

Learning Speech-driven 3D Conversational Gestures from Video ( http://arxiv.org/abs/2102.06837v1 )

ライセンス: CC BY 4.0
Ikhsanul Habibie, Weipeng Xu, Dushyant Mehta, Lingjie Liu, Hans-Peter Seidel, Gerard Pons-Moll, Mohamed Elgharib, Christian Theobalt(参考訳) 音声入力から仮想キャラクタの3次元顔と頭部のアニメーションだけでなく,3次元対話体と手ジェスチャーの両方を自動的に,共同で合成する手法を提案する。 本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。 会話体ジェスチャーの合成はマルチモーダル問題であり、多くの類似したジェスチャーは同じ入力音声を伴う可能性がある。 本研究では,入力音声機能と組み合わせることで,生成した3D身体動作のシーケンスの可搬性を計測するGAN(Generative Adversarial Network)ベースのモデルを訓練する。 われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。 そこで本研究では,映像コーパスに最先端のモノクロアプローチを適用し,手のポーズ推定と密集した3d顔性能の把握を行う。 このようにして、複雑なインスタディオモーションキャプチャーソリューションを利用する従来のアルゴリズムよりも桁違いに多くのデータをトレーニングし、より表現力のある合成アルゴリズムを訓練することができる。 我々の実験とユーザスタディは、我々の音声合成フル3Dキャラクタアニメーションの最先端のクオリティを示す。

We propose the first approach to automatically and jointly synthesize both the synchronous 3D conversational body and hand gestures, as well as 3D face and head animations, of a virtual character from speech input. Our algorithm uses a CNN architecture that leverages the inherent correlation between facial expression and hand gestures. Synthesis of conversational body gestures is a multi-modal problem since many similar gestures can plausibly accompany the same input speech. To synthesize plausible body gestures in this setting, we train a Generative Adversarial Network (GAN) based model that measures the plausibility of the generated sequences of 3D body motion when paired with the input audio features. We also contribute a new way to create a large corpus of more than 33 hours of annotated body, hand, and face data from in-the-wild videos of talking people. To this end, we apply state-of-the-art monocular approaches for 3D body and hand pose estimation as well as dense 3D face performance capture to the video corpus. In this way, we can train on orders of magnitude more data than previous algorithms that resort to complex in-studio motion capture solutions, and thereby train more expressive synthesis algorithms. Our experiments and user study show the state-of-the-art quality of our speech-synthesized full 3D character animations.
翻訳日:2021-02-17 04:31:47 公開日:2021-02-13
# (参考訳) 超高解像度画像における高速高精度バーコード検出

Fast, Accurate Barcode Detection in Ultra High-Resolution Images ( http://arxiv.org/abs/2102.06868v1 )

ライセンス: CC BY-SA 4.0
Jerome Quenum, Kehan Wang, Avideh Zakhor(参考訳) 超高分解能(UHR)画像における物体検出は、対象物のスケールが異なるため、長い間コンピュータビジョンにおいて困難な問題でした。 バーコード検出に関しては、UHR入力イメージを小さなサイズに再サイズすることは、しばしば関連する情報の損失につながりますが、直接処理することは非常に非効率で計算的に高価です。 本稿では,UHR画像の様々なスケールのバーコードを高速かつ正確に検出するセマンティックセグメンテーションを提案する。 私たちのパイプラインでは、10k$\times$10k以上の画像の修正されたリージョン提案ネットワーク(rpn)と、新たに提案されたy-netセグメンテーションネットワークと、各セグメンテーションバーコードマスクにバウンディングボックスを配置する後処理ワークフローが関与しています。 エンドツーエンドのシステムは16ミリ秒のレイテンシを持ち、YOLOv4より2.5\times$、Mask RCNNより5.9\times$速い。 精度の面では, 合成データセット上で, YOLOv4 と Mask R-CNN をそれぞれ$mAP$ 5.5% と 47.1% で比較した。 生成された合成バーコードデータセットとそのコードはhttp://www.github.com/viplab/BSBD/で公開しました。

Object detection in Ultra High-Resolution (UHR) images has long been a challenging problem in computer vision due to the varying scales of the targeted objects. When it comes to barcode detection, resizing UHR input images to smaller sizes often leads to the loss of pertinent information, while processing them directly is highly inefficient and computationally expensive. In this paper, we propose using semantic segmentation to achieve a fast and accurate detection of barcodes of various scales in UHR images. Our pipeline involves a modified Region Proposal Network (RPN) on images of size greater than 10k$\times$10k and a newly proposed Y-Net segmentation network, followed by a post-processing workflow for fitting a bounding box around each segmented barcode mask. The end-to-end system has a latency of 16 milliseconds, which is $2.5\times$ faster than YOLOv4 and $5.9\times$ faster than Mask RCNN. In terms of accuracy, our method outperforms YOLOv4 and Mask R-CNN by a $mAP$ of 5.5% and 47.1% respectively, on a synthetic dataset. We have made available the generated synthetic barcode dataset and its code at http://www.github.com/viplab/BSBD/.
翻訳日:2021-02-17 04:12:54 公開日:2021-02-13
# (参考訳) ストリップテンソルネットワークを用いた2次元構造分割

Segmenting two-dimensional structures with strided tensor networks ( http://arxiv.org/abs/2102.06900v1 )

ライセンス: CC BY 4.0
Raghavendra Selvan, Erik B Dam, Jens Petersen(参考訳) テンソルネットワークは高次元テンソルを含む演算の効率的な近似を提供し、量子多体系のモデル化に広く利用されている。 近年、教師付き学習はテンソルネットワークで試みられ、主に画像分類などのタスクに焦点を当てている。 本研究では,高分解能医療画像上で動作可能な監督画像分割のためのテンソルネットワークの新規な定式化を提案する。 入力画像の非重なり合うパッチ上の行列積状態(MPS)テンソルネットワークを用いて,高次元空間における画素単位の線形分類規則を学習することによりセグメンテーションマスクを予測する。 提案モデルはバックプロパゲーションを用いてエンドツーエンドでトレーニング可能である。 パラメータの複雑さを減らすために、Strided Tensor Networkとして実装されている。 提案手法の性能を2つの医療画像データセットで評価し,関連するベースラインと比較した。 評価の結果, ストライドテンソルネットワークは, 資源の少ないCNNモデルと比較して, 競争性能が向上することがわかった。 また,本実験に基づき,セグメンテーションタスクにおける完全線形モデルの利用可能性について検討する。

Tensor networks provide an efficient approximation of operations involving high dimensional tensors and have been extensively used in modelling quantum many-body systems. More recently, supervised learning has been attempted with tensor networks, primarily focused on tasks such as image classification. In this work, we propose a novel formulation of tensor networks for supervised image segmentation which allows them to operate on high resolution medical images. We use the matrix product state (MPS) tensor network on non-overlapping patches of a given input image to predict the segmentation mask by learning a pixel-wise linear classification rule in a high dimensional space. The proposed model is end-to-end trainable using backpropagation. It is implemented as a Strided Tensor Network to reduce the parameter complexity. The performance of the proposed method is evaluated on two public medical imaging datasets and compared to relevant baselines. The evaluation shows that the strided tensor network yields competitive performance compared to CNN-based models while using fewer resources. Additionally, based on the experiments we discuss the feasibility of using fully linear models for segmentation tasks.
翻訳日:2021-02-17 04:03:49 公開日:2021-02-13
# (参考訳) JPEG圧縮における離散コサイン変換

Discrete Cosine Transform in JPEG Compression ( http://arxiv.org/abs/2102.06968v1 )

ライセンス: CC BY 4.0
Jacob John(参考訳) 画像圧縮は,今日では絶対的に必要とされている。 インターネット時代が到来すると、ファイルを圧縮して他のユーザーと共有することは必然的です。 帯域幅の限られた接続でもファイルを送信するために、画像品質を維持しながらファイルサイズを減らすためにいくつかの努力が行われています。 本稿では,共同写真エキスパートグループやjpegファイルフォーマットにおける画像圧縮における離散コサイン変換やdctの必要性について述べる。 そこで本研究では,まずDCTとJPEG圧縮について述べる。 前節では、JPEG圧縮がDCTによってどのように実装されているかを論じている。 最後のセクションでは、画像処理におけるDCTのさらなる実世界の応用について説明します。

Image Compression has become an absolute necessity in today's day and age. With the advent of the Internet era, compressing files to share among other users is quintessential. Several efforts have been made to reduce file sizes while still maintain image quality in order to transmit files even on limited bandwidth connections. This paper discusses the need for Discrete Cosine Transform or DCT in the compression of images in Joint Photographic Experts Group or JPEG file format. Via an intensive literature study, this paper first introduces DCT and JPEG Compression. The section preceding it discusses how JPEG compression is implemented by DCT. The last section concludes with further real world applications of DCT in image processing.
翻訳日:2021-02-17 03:52:25 公開日:2021-02-13
# (参考訳) 群分離オートエンコーダの収束について

On the convergence of group-sparse autoencoders ( http://arxiv.org/abs/2102.07003v1 )

ライセンス: CC BY 4.0
Emmanouil Theodosis, Bahareh Tolooshams, Pranay Tankala, Abiy Tasissa, Demba Ba(参考訳) モデルに基づくディープラーニングアーキテクチャの理論解析における最近のアプローチでは、隠れた層が疎い生成モデルから生じる浅いreluネットワークにおける勾配降下の収束が研究されている。 構造化されたスパーシティを付与するアーキテクチャの成功を動機に、様々なジェネレーションモデルに対応するグループスパースオートエンコーダを導入し、研究するとともに、グループスパースRELUアクティベーション機能を利用して、特定の層の非ゼロユニットをブロックに強制的に発生させる。 クラスタリングモデルの場合、アクティブなユニットの同じグループで発生する入力は同じクラスタに属します。 提案するオートエンコーダの浅部インスタンスの勾配ダイナミクスを解析し,グループスパース生成モデルに付着したデータを用いて学習する。 この設定では、ネットワークパラメータを生成行列の近傍に収束させることを理論的に証明する。 本モデルの有効性を数値解析により検証し,グループスパースReLUを用いたネットワークの性能を,スパース符号化とパラメータ回復の両方において従来のReLUを用いたネットワークと比較した。 また、シミュレーション結果と相関する実データ実験を行い、構造化スパーシティモデルのクラスタリング能力を強調します。

Recent approaches in the theoretical analysis of model-based deep learning architectures have studied the convergence of gradient descent in shallow ReLU networks that arise from generative models whose hidden layers are sparse. Motivated by the success of architectures that impose structured forms of sparsity, we introduce and study a group-sparse autoencoder that accounts for a variety of generative models, and utilizes a group-sparse ReLU activation function to force the non-zero units at a given layer to occur in blocks. For clustering models, inputs that result in the same group of active units belong to the same cluster. We proceed to analyze the gradient dynamics of a shallow instance of the proposed autoencoder, trained with data adhering to a group-sparse generative model. In this setting, we theoretically prove the convergence of the network parameters to a neighborhood of the generating matrix. We validate our model through numerical analysis and highlight the superior performance of networks with a group-sparse ReLU compared to networks that utilize traditional ReLUs, both in sparse coding and in parameter recovery tasks. We also provide real data experiments to corroborate the simulated results, and emphasize the clustering capabilities of structured sparsity models.
翻訳日:2021-02-17 01:30:19 公開日:2021-02-13
# (参考訳) スマートホームにおけるGPSPiChain-Blockchainベースの自己完結型家族セキュリティシステム

GPSPiChain-Blockchain based Self-Contained Family Security System in Smart Home ( http://arxiv.org/abs/2102.06884v1 )

ライセンス: CC BY 4.0
Ali Raza, Lachlan Hardy, Erin Roehrer, Soonja Yeom, Byeong ho Kang(参考訳) テクノロジーの進歩により、パーソナルコンピューティングデバイスは人々の生活や家庭に適応し、さらに統合されます。 テクノロジーの社会への統合は、特に子供や高齢者を含む脆弱な人々にとって、誰が、何が機密情報にアクセスできるかを制御するという欲求も高まります。 ブロックチェーンが世界に革命をもたらす技術として登場し、時間の経過とともに位置データの不変の監査証跡を持つことが可能になりました。 家庭内の安価な機器を介してプロセスを制御することにより、そのような個人データにアクセスできる人を制御できます。 本稿では、家族のスマートフォンの同意の場所を追跡するブロックチェーンベースの家族セキュリティシステムを提案する。 家族のスマートフォンの位置は、コンピュータ上の家族の自宅に設置されたノードを介してアクセス可能なプライベートブロックチェーンにログされ、格納される。 家族の所在に関するデータは、家族単位に留まり、いかなる第三者にも渡らない。 システムは小さなスケール(1つのマイニング器と2つのノード)で実装され、システムの限界とともに技術的実現可能性について議論する。 さらなる研究は、スマートホーム環境へのシステムの統合、およびブロックチェーンの不変性を使用して、特に脆弱な人々のための追跡の倫理的実装をカバーします。

With advancements in technology, personal computing devices are better adapted for and further integrated into people's lives and homes. The integration of technology into society also results in an increasing desire to control who and what has access to sensitive information, especially for vulnerable people including children and the elderly. With blockchain coming in to the picture as a technology that can revolutionise the world, it is now possible to have an immutable audit trail of locational data over time. By controlling the process through inexpensive equipment in the home, it is possible to control whom has access to such personal data. This paper presents a blockchain based family security system for tracking the location of consenting family members' smart phones. The locations of the family members' smart phones are logged and stored in a private blockchain which can be accessed through a node installed in the family home on a computer. The data for the whereabouts of family members stays within the family unit and does not go to any third party. The system is implemented in a small scale (one miner and two other nodes) and the technical feasibility is discussed along with the limitations of the system. Further research will cover the integration of the system into a smart home environment, and ethical implementations of tracking, especially of vulnerable people, using the immutability of blockchain.
翻訳日:2021-02-16 23:11:24 公開日:2021-02-13
# (参考訳) コラボレーティブ・インテリジェンス:挑戦と機会

Collaborative Intelligence: Challenges and Opportunities ( http://arxiv.org/abs/2102.06841v1 )

ライセンス: CC BY 4.0
Ivan V. Baji\'c, Weisi Lin, Yonghong Tian(参考訳) 本稿では,コラボレーションインテリジェンス(CI)の新たな領域について概観する。 私たちの目標は、重要な発展が信号処理と関連する分野から来ると予想される、ますます重要性のこの分野の課題と機会の信号処理コミュニティへの認識を高めることです。 本稿は,ciにおける技術の現状を調査し,機能圧縮,エラーレジリエンス,プライバシ,システムレベル設計における信号処理関連の課題を特に強調する。

This paper presents an overview of the emerging area of collaborative intelligence (CI). Our goal is to raise awareness in the signal processing community of the challenges and opportunities in this area of growing importance, where key developments are expected to come from signal processing and related disciplines. The paper surveys the current state of the art in CI, with special emphasis on signal processing-related challenges in feature compression, error resilience, privacy, and system-level design.
翻訳日:2021-02-16 21:42:42 公開日:2021-02-13
# (参考訳) ダム底口におけるハイブリッド型人工知能による空気需要予測

Hybrid Artificial Intelligence Methods for Predicting Air Demand in Dam Bottom Outlet ( http://arxiv.org/abs/2102.06929v1 )

ライセンス: CC BY 4.0
Aliakbar Narimani, Mahdi Moghimi, Amir Mosavi(参考訳) ダムのような経済的な価値が比較的高い大きなインフラでは、異なる運転条件下で関連する水力施設の適切な運用を確保することが最も重要である。 ダムの油圧装置の正しい運転を確実にし、ゲートや下流トンネルなどの損傷を防止し、実験室モデルを構築し、いくつかのテストを実施することが不可欠である(人工知能に基づくスマートセンサーの進歩が不可欠である)。 ダム底口への損傷の原因の1つは、ダム施設に影響を与える可能性がある下流およびゲート間のキャビテーションであり、空気通気はそれを改善するための解決策である。 本研究では,イラン各地の6つのダムを用いて,下流トンネル内の空気の流入を実験的に評価した。 3つの人工知能ニューラルネットワーク(ANN)ベースの機械学習(ML)アルゴリズムを使用して、底口の空気エアレーションをモデル化し予測する。 提案モデルは遺伝的アルゴリズム(GA)、粒子群最適化(PSO)、すなわちANN-GA、ANN-PSO、ANFIS-PSOで訓練される。 ゲートの体積率と開口率という2つの流体力学変数は、全ての底部出口モデルへの入力として用いられる。 その結果、最も最適なモデルがANFIS-PSOであり、ANN-GAやANN-PSOと比較して依存値を予測できることがわかった。 ダムのゲートパラメータの体積率と開口率の重要性は、適切な空気通気のためにより効果的です。

In large infrastructures such as dams, which have a relatively high economic value, ensuring the proper operation of the associated hydraulic facilities in different operating conditions is of utmost importance. To ensure the correct and successful operation of the dam's hydraulic equipment and prevent possible damages, including gates and downstream tunnel, to build laboratory models and perform some tests are essential (the advancement of the smart sensors based on artificial intelligence is essential). One of the causes of damage to dam bottom outlets is cavitation in downstream and between the gates, which can impact on dam facilities, and air aeration can be a solution to improve it. In the present study, six dams in different provinces in Iran has been chosen to evaluate the air entrainment in the downstream tunnel experimentally. Three artificial neural networks (ANN) based machine learning (ML) algorithms are used to model and predict the air aeration in the bottom outlet. The proposed models are trained with genetic algorithms (GA), particle swarm optimization (PSO), i.e., ANN-GA, ANN-PSO, and ANFIS-PSO. Two hydrodynamic variables, namely volume rate and opening percentage of the gate, are used as inputs into all bottom outlet models. The results showed that the most optimal model is ANFIS-PSO to predict the dependent value compared with ANN-GA and ANN-PSO. The importance of the volume rate and opening percentage of the dams' gate parameters is more effective for suitable air aeration.
翻訳日:2021-02-16 20:32:46 公開日:2021-02-13
# (参考訳) 単音素波形からの多声楽器分類のための深い畳み込み・再帰的ネットワーク

Deep Convolutional and Recurrent Networks for Polyphonic Instrument Classification from Monophonic Raw Audio Waveforms ( http://arxiv.org/abs/2102.06930v1 )

ライセンス: CC BY 4.0
Kleanthis Avramidis, Agelos Kratimenos, Christos Garoufis, Athanasia Zlatintsi and Petros Maragos(参考訳) サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。 しかし、効率的な特徴抽出器としてのディープニューラルネットワークの出現により、分類目的に音声信号を直接利用できるようになった。 本論文では,生の波形を深層学習モデルに入力するだけで,ポリフォニックオーディオにおける楽器の認識を試みる。 計算コストが低く、プリプロセッシングが最小限であるエンドツーエンドのクラスバイフィアを構築するために、残留接続を組み込んだ様々な繰り返しおよび畳み込みアーキテクチャを検討し、パラメータ化します。 多数の残存接続を持つ並列CNN-BiGRUモデルを活用し、トレーニング可能なパラメータを大幅に削減しながら、競争的な分類スコアとIRMASテストセットによる有用なインサイトを得ます。

Sound Event Detection and Audio Classification tasks are traditionally addressed through time-frequency representations of audio signals such as spectrograms. However, the emergence of deep neural networks as efficient feature extractors has enabled the direct use of audio signals for classification purposes. In this paper, we attempt to recognize musical instruments in polyphonic audio by only feeding their raw waveforms into deep learning models. Various recurrent and convolutional architectures incorporating residual connections are examined and parameterized in order to build end-to-end classi-fiers with low computational cost and only minimal preprocessing. We obtain competitive classification scores and useful instrument-wise insight through the IRMAS test set, utilizing a parallel CNN-BiGRU model with multiple residual connections, while maintaining a significantly reduced number of trainable parameters.
翻訳日:2021-02-16 17:31:02 公開日:2021-02-13
# PAQ:6500万件の質問と、それで何ができるのか

PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them ( http://arxiv.org/abs/2102.07033v1 )

ライセンス: Link先を確認
Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich K\"uttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel(参考訳) クローズドブックQA(CBQA)モデルやQAペアレトリバーなど,質問応答(QA)ペアを直接活用するオープンドメイン質問回答モデルは,テキストコーパスから検索・読解する従来のモデルと比較して,速度とメモリの面で有望であることを示す。 QAペアレトリバーは、解釈可能な回答、高度な制御を提供し、新しい知識でテスト時に更新するのも簡単です。 しかし、これらのモデルは、ウィキペディアのようなテキストコーパスと比較して利用可能なQAペアによって、ほとんど知識がカバーされないため、検索と読み取りシステムの正確さに欠ける。 改良されたQAペアモデルを実現するために,65MのQAペアを自動生成する非常に大きなリソースであるProbably Asked Questions (PAQ)を導入する。 PAQを補完する新しいQAペアレトリバー、RePAQを紹介します。 私たちは、PAQがテスト質問をプリエンプンし、キャッシュし、RePAQが最近の検索と読み取りモデルの精度に一致するようにします。 PAQを用いて、同等のベースラインを5%上回り、RePAQを15%以上追従するCBQAモデルを訓練し、明示的な検索の有効性を示す。 RePAQは、高い精度を維持しながら、サイズ(500MB以下)や速度(毎秒1K以上の質問)を設定できる。 最後に, 選択QAにおけるRePAQの強さを実証し, 誤答の可能性を排除した。 これにより、repaqはより高価な最先端モデルに ``back-off" を適用でき、最先端モデル単独よりも正確で2倍高速である複合システムへと繋がる。

Open-domain Question Answering models which directly leverage question-answer (QA) pairs, such as closed-book QA (CBQA) models and QA-pair retrievers, show promise in terms of speed and memory compared to conventional models which retrieve and read from text corpora. QA-pair retrievers also offer interpretable answers, a high degree of control, and are trivial to update at test time with new knowledge. However, these models lack the accuracy of retrieve-and-read systems, as substantially less knowledge is covered by the available QA-pairs relative to text corpora like Wikipedia. To facilitate improved QA-pair models, we introduce Probably Asked Questions (PAQ), a very large resource of 65M automatically-generated QA-pairs. We introduce a new QA-pair retriever, RePAQ, to complement PAQ. We find that PAQ preempts and caches test questions, enabling RePAQ to match the accuracy of recent retrieve-and-read models, whilst being significantly faster. Using PAQ, we train CBQA models which outperform comparable baselines by 5%, but trail RePAQ by over 15%, indicating the effectiveness of explicit retrieval. RePAQ can be configured for size (under 500MB) or speed (over 1K questions per second) whilst retaining high accuracy. Lastly, we demonstrate RePAQ's strength at selective QA, abstaining from answering when it is likely to be incorrect. This enables RePAQ to ``back-off" to a more expensive state-of-the-art model, leading to a combined system which is both more accurate and 2x faster than the state-of-the-art model alone.
翻訳日:2021-02-16 16:15:55 公開日:2021-02-13
# 蒸留二重降下

Distilling Double Descent ( http://arxiv.org/abs/2102.06849v1 )

ライセンス: Link先を確認
Andrew Cotter, Aditya Krishna Menon, Harikrishna Narasimhan, Ankit Singh Rawat, Sashank J. Reddi, Yichen Zhou(参考訳) 蒸留は、別個の「教師」モデルによってラベル付けされた例に基づいて、それ自体がラベル付きデータセットでトレーニングされる「スチューデント」モデルを訓練する技法である。 蒸留「仕事」の理由の最も一般的な説明は、教師モデルから学生に \emph{soft} ラベル、 \eg 確率または自信が提供されるという仮定を前提としています。 本研究では,教師モデルが過度にパラメータ化されている場合であっても,学生モデルのトレーニングに非常に大きなホールドアウトラベルのないデータセットを使用することで,従来型アプローチよりも優れたモデルが実現可能であることを示す。 この現象の説明は「二重降下」に関する最近の研究に基づいている。 モデルの複雑さがトレーニングデータの記憶に必要な量を大幅に上回ると、その複雑さが直感的に増すと、 \emph{better} が一般化されることが観察されている。 研究者たちは、それが起きているいくつかの設定を特定し、それを説明するためのさまざまな試みを行った(今のところ、部分的には成功していない)。 対照的に、我々はこれらの質問を避けて、高度に過小評価された教師が二重降下によって過剰フィッティングを回避できることを示すことによって、この現象を<emph{exploit} しようとする一方で、この教師によってラベル付けされたより大きな独立データセットで訓練された生徒は、トレーニングセットの大きさによって過大フィッティングを避ける。

Distillation is the technique of training a "student" model based on examples that are labeled by a separate "teacher" model, which itself is trained on a labeled dataset. The most common explanations for why distillation "works" are predicated on the assumption that student is provided with \emph{soft} labels, \eg probabilities or confidences, from the teacher model. In this work, we show, that, even when the teacher model is highly overparameterized, and provides \emph{hard} labels, using a very large held-out unlabeled dataset to train the student model can result in a model that outperforms more "traditional" approaches. Our explanation for this phenomenon is based on recent work on "double descent". It has been observed that, once a model's complexity roughly exceeds the amount required to memorize the training data, increasing the complexity \emph{further} can, counterintuitively, result in \emph{better} generalization. Researchers have identified several settings in which it takes place, while others have made various attempts to explain it (thus far, with only partial success). In contrast, we avoid these questions, and instead seek to \emph{exploit} this phenomenon by demonstrating that a highly-overparameterized teacher can avoid overfitting via double descent, while a student trained on a larger independent dataset labeled by this teacher will avoid overfitting due to the size of its training set.
翻訳日:2021-02-16 16:14:49 公開日:2021-02-13
# 生物学的にプラズブルな視覚意図モデルと深層学習を組み合わせた視覚障害自動検出の改良

Improving Automated Visual Fault Detection by Combining a Biologically Plausible Model of Visual Attention with Deep Learning ( http://arxiv.org/abs/2102.06955v1 )

ライセンス: Link先を確認
Frederik Beuth, Tobias Schlosser, Michael Friedrich, Danny Kowerko(参考訳) 生物学的処理の原則と人間の認識の能力を機械ビジョンや工学システムに移行させることは、長期的な目標である。 そのような原則の1つは、視覚的注意、シーンの一部に処理に焦点を当てたスマートな人間の概念です。 このコントリビューションでは、半導体製造領域におけるウェーハの欠陥パターンの自動検出の改善に注意を払います。 以前は、KNN、SVM、MLPなどの古典的な機械学習アプローチを頻繁に使用していましたが、すでにディープニューラルネットワーク(DNN)のような現代的なアプローチを使用している人もいます。 しかし、ドメインの1つの問題は、欠陥がしばしば非常に小さく、チップまたはウェーハのより大きなサイズ内で検出されなければならないことです。 したがって、ピクセルの大きさの小さな構造は、膨大な量の画像データで検出されなければなりません。 この問題を解決する人間の脳の興味深い原則の1つは視覚的注意である。 そこで我々は,視覚自動検査のための生物学的に妥当な視覚的注意モデルを構築した。 本稿では,視覚注意と深層ニューラルネットワークのハイブリッドシステムを提案する。 実証されたように、当社のシステムは、81%から92%の精度の向上、および67%から88%の欠陥を検出する精度の向上などの決定的な利点を達成しています。 したがって、エラー率は19%から8%に減少し、特にチップの欠陥を検出するために33%から12%に減少します。 これらの結果から,視覚検査システムの性能が大幅に向上することが示唆された。 さらに,本アプリケーションにおける生物学的アテンションモデルの特定の利点を同定し,標準的なディープラーニングアプローチを,注意を伴わない代替手段として評価する。 この研究は"IECON 2020"で公開されたオリジナルのカンファレンス記事の拡張arXivバージョンであり、視覚的注意について拡張されている。

It is a long-term goal to transfer biological processing principles as well as the power of human recognition into machine vision and engineering systems. One of such principles is visual attention, a smart human concept which focuses processing on a part of a scene. In this contribution, we utilize attention to improve the automatic detection of defect patterns for wafers within the domain of semiconductor manufacturing. Previous works in the domain have often utilized classical machine learning approaches such as KNNs, SVMs, or MLPs, while a few have already used modern approaches like deep neural networks (DNNs). However, one problem in the domain is that the faults are often very small and have to be detected within a larger size of the chip or even the wafer. Therefore, small structures in the size of pixels have to be detected in a vast amount of image data. One interesting principle of the human brain for solving this problem is visual attention. Hence, we employ here a biologically plausible model of visual attention for automatic visual inspection. We propose a hybrid system of visual attention and a deep neural network. As demonstrated, our system achieves among other decisive advantages an improvement in accuracy from 81% to 92%, and an increase in accuracy for detecting faults from 67% to 88%. Hence, the error rates are reduced from 19% to 8%, and notably from 33% to 12% for detecting a fault in a chip. These results show that attention can greatly improve the performance of visual inspection systems. Furthermore, we conduct a broad evaluation, identifying specific advantages of the biological attention model in this application, and benchmarks standard deep learning approaches as an alternative with and without attention. This work is an extended arXiv version of the original conference article published in "IECON 2020", which has been extended regarding visual attention.
翻訳日:2021-02-16 16:13:09 公開日:2021-02-13
# 配車網における平衡逆補強学習

Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle Network ( http://arxiv.org/abs/2102.06854v1 )

ライセンス: Link先を確認
Takuma Oda(参考訳) ユビキタスモバイルコンピューティングにより、配車サービスはライダーとドライバーの膨大な行動データを収集し、リアルタイムで供給と需要のマッチングを最適化することができます。 これらのモビリティサービスプロバイダは、要求に車両を割り当てることで市場をある程度コントロールしているが、労働者は通常、割り当てられたタスクがない場合は自由に運転できるので、自己関心のあるドライバーの行動から生じる不確実性に対処する必要がある。 本研究では,疎結合グラフにおける乗用車マッチングの問題を定式化し,マルチエージェント環境における平衡政策を導出するアルゴリズムを提案する。 提案手法は,提案手法を組み合わせることで,期待状態訪問の最適ポリシーを推定し,マルチエージェント状態訪問頻度を計算する。 さらに、トレーニングデータとはかなり異なるダイナミクスを持つ環境に転送可能なドライバーの報酬関数を学ぶ方法を開発した。 実世界のタクシー軌道データを用いて,時空間の供給需要分布の変化とデータ品質の劣化に対するロバスト性を評価した。 すべての車両が共有する平衡ポリシーを得るのに必要な計算時間はエージェントの数に依存しません。現実世界のサービスの規模でさえ、単一のCPUでほんの数秒しかかかりません。

Ubiquitous mobile computing have enabled ride-hailing services to collect vast amounts of behavioral data of riders and drivers and optimize supply and demand matching in real time. While these mobility service providers have some degree of control over the market by assigning vehicles to requests, they need to deal with the uncertainty arising from self-interested driver behavior since workers are usually free to drive when they are not assigned tasks. In this work, we formulate the problem of passenger-vehicle matching in a sparsely connected graph and proposed an algorithm to derive an equilibrium policy in a multi-agent environment. Our framework combines value iteration methods to estimate the optimal policy given expected state visitation and policy propagation to compute multi-agent state visitation frequencies. Furthermore, we developed a method to learn the driver's reward function transferable to an environment with significantly different dynamics from training data. We evaluated the robustness to changes in spatio-temporal supply-demand distributions and deterioration in data quality using a real-world taxi trajectory dataset; our approach significantly outperforms several baselines in terms of imitation accuracy. The computational time required to obtain an equilibrium policy shared by all vehicles does not depend on the number of agents, and even on the scale of real-world services, it takes only a few seconds on a single CPU.
翻訳日:2021-02-16 16:11:07 公開日:2021-02-13
# 韻律強化学習のための破損ロバストアルゴリズムの改良

Improved Corruption Robust Algorithms for Episodic Reinforcement Learning ( http://arxiv.org/abs/2102.06875v1 )

ライセンス: Link先を確認
Yifang Chen, Simon S. Du, Kevin Jamieson(参考訳) 基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。 我々は,既存の結果(lykouris et al., 2020)と比較して,表構成全体の腐敗に関して,厳密な後悔の限界を達成する新しいアルゴリズムを提案する。 具体的には、第一に、私たちの後悔の境界は、破損したエピソードの総数だけではなく、合計報酬の腐敗と移行の腐敗のより正確な数値に依存します。 第二に、私たちの後悔の境界は、重複的にではなく、$\sqrt{T}$に関して、腐敗の数を付加的に表示させる強化学習設定の最初のものです。 その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。 メタアルゴリズムやサブアルゴリズムの置き換えは、フレームワークを拡張して、潜在的により多くの構造を持つ他の破損した設定に対処する。

We study episodic reinforcement learning under unknown adversarial corruptions in both the rewards and the transition probabilities of the underlying system. We propose new algorithms which, compared to the existing results in (Lykouris et al., 2020), achieve strictly better regret bounds in terms of total corruptions for the tabular setting. To be specific, firstly, our regret bounds depend on more precise numerical values of total rewards corruptions and transition corruptions, instead of only on the total number of corrupted episodes. Secondly, our regret bounds are the first of their kind in the reinforcement learning setting to have the number of corruptions show up additively with respect to $\sqrt{T}$ rather than multiplicatively. Our results follow from a general algorithmic framework that combines corruption-robust policy elimination meta-algorithms, and plug-in reward-free exploration sub-algorithms. Replacing the meta-algorithm or sub-algorithm may extend the framework to address other corrupted settings with potentially more structure.
翻訳日:2021-02-16 16:10:45 公開日:2021-02-13
# ThetA -- 距離パラメータによる高速かつ堅牢なクラスタリング

ThetA -- fast and robust clustering via a distance parameter ( http://arxiv.org/abs/2102.07028v1 )

ライセンス: Link先を確認
Eleftherios Garyfallidis, Shreyas Fadnavis, Jong Sung Park, Bramsh Qamar Chandio, Javier Guaje, Serge Koudoro, Nasim Anousheh(参考訳) クラスタリングは機械学習の根本的な問題であり、遠隔ベースのアプローチが数十年にわたってこの分野を支配してきた。 この一連の問題は、クラスタ数を選択したkクラスタにデータを分割することで、しばしば取り組まれる。 長年にわたってこれらのラインに大きな進歩を遂げてきましたが、クラスターや寸法の数が増えるにつれて、現在のアプローチは局所的なミニマに留まり、最適以下の解決策をもたらすことがよく知られています。 本研究では, Theta-based Algorithms (ThetA) と呼ばれる新しい距離しきい値法を提案する。 実験的な比較と複雑性分析により,提案手法が既存のアプローチよりも,a)クラスタリング精度,b)時間複雑性よりも優れていることを示す。 さらに,多くの問題に対して,学習Kと比較して最適なしきい値の学習が簡単なことを示し,さらに,高次元のデータセットの空間性をThetAがいかに推測できるかを示す。

Clustering is a fundamental problem in machine learning where distance-based approaches have dominated the field for many decades. This set of problems is often tackled by partitioning the data into K clusters where the number of clusters is chosen apriori. While significant progress has been made on these lines over the years, it is well established that as the number of clusters or dimensions increase, current approaches dwell in local minima resulting in suboptimal solutions. In this work, we propose a new set of distance threshold methods called Theta-based Algorithms (ThetA). Via experimental comparisons and complexity analyses we show that our proposed approach outperforms existing approaches in: a) clustering accuracy and b) time complexity. Additionally, we show that for a large class of problems, learning the optimal threshold is straightforward in comparison to learning K. Moreover, we show how ThetA can infer the sparsity of datasets in higher dimensions.
翻訳日:2021-02-16 16:10:25 公開日:2021-02-13
# 注意共有によるクロスドメイン時系列予測

Cross-domain Time Series Forecasting with Attention Sharing ( http://arxiv.org/abs/2102.06828v1 )

ライセンス: Link先を確認
Xiaoyong Jin, Youngsuk Park, Danielle Maddix, Bernie Wang, Xifeng Yan(参考訳) 近年、時系列予測の分野では、ディープニューラルネットワークの人気が高まっています。 成功のおもな理由は、複数の関連時間系列にわたるcom-plextemporic dynamicsを効果的に捉える能力である。 しかし、これらの深い予測者の利点は、十分な量のデータの存在によってのみ現れ始める。 これは、時系列の数が少なかったり、時系列ごとの観測が限られていたりする、prac-ticeの典型的な予測問題の原因となる。 データ希少性の問題に対処するため,新たなドメイン適応フレームワークであるDomain Adaptation Forecaster(DAF)を提案する。このフレームワークは,他の関連ドメインの統計的強みを豊富なデータサンプル(ソース)でレバーエイジングし,限られたデータ(ターゲット)で間接領域のパフォーマンスを向上させる。 特に、ドメイン間のドメイン識別器と、個々のドメインに対するプリベートモジュールを備えたアテンションベースの共有モジュールを提案する。 これにより、ドメイン固有の機能をトレーニングしながら、ドメイン不変の潜在機能を生成させることで、ソースとターゲットドメインを共同でトレーニングすることができる。 提案手法は、合成データセットと実世界のデータセットの最先端のベースラインを上回ります。

Recent years have witnessed deep neural net-works gaining increasing popularity in the field oftime series forecasting. A primary reason of theirsuccess is their ability to effectively capture com-plex temporal dynamics across multiple relatedtime series. However, the advantages of thesedeep forecasters only start to emerge in the pres-ence of a sufficient amount of data. This poses achallenge for typical forecasting problems in prac-tice, where one either has a small number of timeseries, or limited observations per time series, orboth. To cope with the issue of data scarcity, wepropose a novel domain adaptation framework,Domain Adaptation Forecaster (DAF), that lever-ages the statistical strengths from another relevantdomain with abundant data samples (source) toimprove the performance on the domain of inter-est with limited data (target). In particular, we pro-pose an attention-based shared module with a do-main discriminator across domains as well as pri-vate modules for individual domains. This allowsus to jointly train the source and target domains bygenerating domain-invariant latent features whileretraining domain-specific features. Extensive ex-periments on various domains demonstrate thatour proposed method outperforms state-of-the-artbaselines on synthetic and real-world datasets.
翻訳日:2021-02-16 16:06:41 公開日:2021-02-13
# インスタンス識別自己監督型表現学習における負のサンプルの理解

Understanding Negative Samples in Instance Discriminative Self-supervised Representation Learning ( http://arxiv.org/abs/2102.06866v1 )

ライセンス: Link先を確認
Kento Nozawa, Issei Sato(参考訳) インスタンス識別型自己教師付き表現学習は、教師なしの性質と下流タスクのための情報的特徴表現によって注目を集めている。 自己監督型表現学習は、実際には教師付きクラスの数よりもネガティブなサンプルを使用することが多い。 しかし、既存の分析には矛盾があり、理論的には多くの負のサンプルは教師付き性能を劣化させるが、実証的に性能は向上する。 負のサンプルに関するこの実験結果を理論的に説明します。 CIFAR-10/100データセットの数値実験を行い,本解析の実証的検証を行った。

Instance discriminative self-supervised representation learning has been attracted attention thanks to its unsupervised nature and informative feature representation for downstream tasks. Self-supervised representation learning commonly uses more negative samples than the number of supervised classes in practice. However, there is an inconsistency in the existing analysis; theoretically, a large number of negative samples degrade supervised performance, while empirically, they improve the performance. We theoretically explain this empirical result regarding negative samples. We empirically confirm our analysis by conducting numerical experiments on CIFAR-10/100 datasets.
翻訳日:2021-02-16 16:06:22 公開日:2021-02-13
# 類似性信頼データから学ぶ

Learning from Similarity-Confidence Data ( http://arxiv.org/abs/2102.06879v1 )

ライセンス: Link先を確認
Yuzhou Cao, Lei Feng, Yitian Xu, Bo An, Gang Niu, Masashi Sugiyama(参考訳) 近年,大量のデータのラベル付けに要するコストや労力を削減するために,教師付き学習が注目されている。 本稿では,類似度を示す信頼度を有するラベル付きデータペアのみから効果的なバイナリ分類を学習することを目的とした,類似度信頼(sconf)データから学習する,新しい弱教師付き学習問題について検討する(例2つが同一クラスに属する場合に類似する)。 そこで本研究では,Sconfデータのみから計算可能な分類リスクの偏りのない推定値を提案し,推定誤差境界が最適収束率を達成することを示した。 フレキシブルモデルを用いた場合の潜在過充足を軽減するため,提案するリスク推定器にさらにリスク補正手法を適用する。 実験の結果,提案手法の有効性が示された。

Weakly supervised learning has drawn considerable attention recently to reduce the expensive time and labor consumption of labeling massive data. In this paper, we investigate a novel weakly supervised learning problem of learning from similarity-confidence (Sconf) data, where we aim to learn an effective binary classifier from only unlabeled data pairs equipped with confidence that illustrates their degree of similarity (two examples are similar if they belong to the same class). To solve this problem, we propose an unbiased estimator of the classification risk that can be calculated from only Sconf data and show that the estimation error bound achieves the optimal convergence rate. To alleviate potential overfitting when flexible models are used, we further employ a risk correction scheme on the proposed risk estimator. Experimental results demonstrate the effectiveness of the proposed methods.
翻訳日:2021-02-16 16:06:14 公開日:2021-02-13
# オンライン見習い学習

Online Apprenticeship Learning ( http://arxiv.org/abs/2102.06924v1 )

ライセンス: Link先を確認
Lior Shani, Tom Zahavy and Shie Mannor(参考訳) 見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。 代わりに、あるポリシーに従って行動する専門家がサンプリングした軌道を観察します。 目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。 エージェントが環境と対話しながら専門家と相性良く行動することが期待されるal(online apprenticeship learning; oal)のオンライン版について紹介する。 提案手法は,2つのミラー降下に基づく非回帰アルゴリズムを組み合わせることで,OAL問題を効果的に解くことができることを示す。 この目的のために、$O(\sqrt{K})$ regret を持つ収束アルゴリズムを導出し、$K$ は MDP との相互作用の数であり、利用可能な専門家軌道の量に依存する追加の線形誤差項である。 重要な点として,本アルゴリズムは各イテレーションでMPPを解く必要がなくなり,従来のAL手法よりも実用的になる。 最後に, GAIL \cite{ho2016generative} と類似性を持つアルゴリズムの深い変種を実装するが, 判別器をOAL問題で学習したコストに置き換える。 我々のシミュレーションは、我々の理論上のアプローチがベースラインより優れていることを示す。

In Apprenticeship Learning (AL), we are given a Markov Decision Process (MDP) without access to the cost function. Instead, we observe trajectories sampled by an expert that acts according to some policy. The goal is to find a policy that matches the expert's performance on some predefined set of cost functions. We introduce an online variant of AL (Online Apprenticeship Learning; OAL), where the agent is expected to perform comparably to the expert while interacting with the environment. We show that the OAL problem can be effectively solved by combining two mirror descent based no-regret algorithms: one for policy optimization and another for learning the worst case cost. To this end, we derive a convergent algorithm with $O(\sqrt{K})$ regret, where $K$ is the number of interactions with the MDP, and an additional linear error term that depends on the amount of expert trajectories available. Importantly, our algorithm avoids the need to solve an MDP at each iteration, making it more practical compared to prior AL methods. Finally, we implement a deep variant of our algorithm which shares some similarities to GAIL \cite{ho2016generative}, but where the discriminator is replaced with the costs learned by the OAL problem. Our simulations demonstrate our theoretically grounded approach outperforms the baselines.
翻訳日:2021-02-16 16:06:00 公開日:2021-02-13
# 半教師付き分類のためのグラフ畳み込み:線形分離性と分散一般化の改善

Graph Convolution for Semi-Supervised Classification: Improved Linear Separability and Out-of-Distribution Generalization ( http://arxiv.org/abs/2102.06966v1 )

ライセンス: Link先を確認
Aseem Baranwal, Kimon Fountoulakis, Aukosh Jagannath(参考訳) 近年,グラフィカル情報の存在下での半教師付き分類への関心が高まっている。 グラフ畳み込みを適用した後にデータを分類することに最も基本的なレベルで依存する新しいクラスの学習モデルが登場しました。 このアプローチのメリットを理解するために、データは確率ブロックモデルのノード属性に対応するガウス型混合物の分類について検討する。 グラフ畳み込みは、データが線形に分離可能な状態を約$1/\sqrt{D}$で拡張し、$D$はノードの期待程度であり、それ自体の混合モデルデータと比較する。 さらに、グラフ畳み込み後のクロスエントロピー損失を最小化して得られる線形分類器は、見えないデータがトレーニングデータと異なるクラス内およびクラス間エッジ確率を持つことができる分布外データに一般化する。

Recently there has been increased interest in semi-supervised classification in the presence of graphical information. A new class of learning models has emerged that relies, at its most basic level, on classifying the data after first applying a graph convolution. To understand the merits of this approach, we study the classification of a mixture of Gaussians, where the data corresponds to the node attributes of a stochastic block model. We show that graph convolution extends the regime in which the data is linearly separable by a factor of roughly $1/\sqrt{D}$, where $D$ is the expected degree of a node, as compared to the mixture model data on its own. Furthermore, we find that the linear classifier obtained by minimizing the cross-entropy loss after the graph convolution generalizes to out-of-distribution data where the unseen data can have different intra- and inter-class edge probabilities from the training data.
翻訳日:2021-02-16 16:05:39 公開日:2021-02-13
# 逐次テスト問題のクラスに対する拡散近似

Diffusion Approximations for a Class of Sequential Testing Problems ( http://arxiv.org/abs/2102.07030v1 )

ライセンス: Link先を確認
Victor F. Araman, Rene Caldentey(参考訳) 我々は、未知のパラメータに依存する報酬関数を最大化するために、アクションを選択する必要がある意思決定者を考える。 意思決定者は、実験を行い、さらに情報を集めるために、アクションを取るのを遅らせることができる。 ベイズ逐次実験フレームワークを用いて意思決定者の問題をモデル化し,動的計画法と拡散漸近解析を用いて解く。 そのため、単位時間当たりに実施される平均的な実験数と個々の実験のインフォメーション性が低くなるように、問題をスケールする。 このような体制の下で、我々は、問題の性質とその解に関する多くの重要な洞察を提供する連続実験問題の拡散近似を導出する。 我々の解法はまた、問題の複雑さは、意思決定者が選択できる一連の行動のカーディナリティとのみ二次的に成長することを示している。 我々は,品揃え選択と新製品の導入という文脈で,具体的アプリケーションを用いた方法論と結果を紹介する。 具体的には,市場に出品する商品の最適品揃えの選択を希望し,消費者の嗜好について不透明な売り手の問題について検討する。 電子商取引における新興の慣行に触発されて、最終的な品揃え決定が下される前に、売り手は群衆投票システムを使ってこれらの嗜好を学習できると仮定する。 この文脈では,学習の価値を評価するために広範な数値解析を行い,拡散近似から導かれるヒューリスティックスの有効性と頑健性を示す。

We consider a decision maker who must choose an action in order to maximize a reward function that depends also on an unknown parameter {\Theta}. The decision maker can delay taking the action in order to experiment and gather additional information on {\Theta}. We model the decision maker's problem using a Bayesian sequential experimentation framework and use dynamic programming and diffusion-asymptotic analysis to solve it. For that, we scale our problem in a way that both the average number of experiments that is conducted per unit of time is large and the informativeness of each individual experiment is low. Under such regime, we derive a diffusion approximation for the sequential experimentation problem, which provides a number of important insights about the nature of the problem and its solution. Our solution method also shows that the complexity of the problem grows only quadratically with the cardinality of the set of actions from which the decision maker can choose. We illustrate our methodology and results using a concrete application in the context of assortment selection and new product introduction. Specifically, we study the problem of a seller who wants to select an optimal assortment of products to launch into the marketplace and is uncertain about consumers' preferences. Motivated by emerging practices in e-commerce, we assume that the seller is able to use a crowdvoting system to learn these preferences before a final assortment decision is made. In this context, we undertake an extensive numerical analysis to assess the value of learning and demonstrate the effectiveness and robustness of the heuristics derived from the diffusion approximation.
翻訳日:2021-02-16 16:05:21 公開日:2021-02-13
# GANのWasserstein近位

Wasserstein Proximal of GANs ( http://arxiv.org/abs/2102.06862v1 )

ライセンス: Link先を確認
Alex Tong Lin, Wuchen Li, Stanley Osher, Guido Montufar(参考訳) 生成器にWasserstein-2 metric proximalを適用することにより,生成敵ネットワークを訓練する新しい方法を提案する。 このアプローチはwasserstein information geometryに基づいている。 確率空間からパラメータ空間へ最適な輸送構造を引き戻すことによって、パラメータ化不変自然勾配を定義する。 暗黙的な深層生成モデルのパラメータ更新のための繰り返し正規化器を簡易に実装する。 本実験では, ウォールクロック時間, Fr\'echet Inception Distance の点で, トレーニングの速度と安定性を改善することを実証した。

We introduce a new method for training generative adversarial networks by applying the Wasserstein-2 metric proximal on the generators. The approach is based on Wasserstein information geometry. It defines a parametrization invariant natural gradient by pulling back optimal transport structures from probability space to parameter space. We obtain easy-to-implement iterative regularizers for the parameter updates of implicit deep generative models. Our experiments demonstrate that this method improves the speed and stability of training in terms of wall-clock time and Fr\'echet Inception Distance.
翻訳日:2021-02-16 16:01:15 公開日:2021-02-13
# Smoothed Online Learningを再考

Revisiting Smoothed Online Learning ( http://arxiv.org/abs/2102.06933v1 )

ライセンス: Link先を確認
Lijun Zhang, Wei Jiang, Shiyin Lu, Tianbao Yang(参考訳) 本稿では,オンライン学習者がヒットコストと切り替えコストの両方に苦しむスムーズなオンライン学習の問題を再考し,競争率と切り替えコストに対する動的後悔という2つのパフォーマンス指標を目標とした。 競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。 我々の理論的解析によれば、グリーディアルゴリズムは単純ではあるが、$\alpha$-polyhedral関数の$+ \frac{2}{\alpha}$-competitive、$\lambda$-quadratic成長関数の$+O(\frac{1}{\lambda})$-competitive、$\lambda$-quadratic成長関数の$+ \frac{2}{\sqrt{\lambda}}$-competitive、$\lambda$-quadratic成長関数の$+ \frac{2}{\sqrt{\lambda}}$-competitiveである。 スイッチングコストに対する動的後悔を和らげるために、我々はオンライン凸最適化の標準設定に従い、ヒットコストは凸だが、予測を行う前に学習者から隠蔽される。 動的後悔のために設計された既存のアルゴリズムであるAderを修正し、パフォーマンスを測定する際のスイッチングコストをわずかに考慮します。 提案アルゴリズムはSmoothed Aderと名付けられ, 動的後悔に対して最適な$O(\sqrt{T(1+P_T)})を切替コストで有界とし, コンパレータ列のパス長を$P_T$とする。 さらに,各ラウンドの始めに打上げコストが利用可能であれば,境界勾配条件を使わずに同様の保証が得られる。

In this paper, we revisit the problem of smoothed online learning, in which the online learner suffers both a hitting cost and a switching cost, and target two performance metrics: competitive ratio and dynamic regret with switching cost. To bound the competitive ratio, we assume the hitting cost is known to the learner in each round, and investigate the greedy algorithm which simply minimizes the weighted sum of the hitting cost and the switching cost. Our theoretical analysis shows that the greedy algorithm, although straightforward, is $1+ \frac{2}{\alpha}$-competitive for $\alpha$-polyhedral functions, $1+O(\frac{1}{\lambda})$-competitive for $\lambda$-quadratic growth functions, and $1 + \frac{2}{\sqrt{\lambda}}$-competitive for convex and $\lambda$-quadratic growth functions. To bound the dynamic regret with switching cost, we follow the standard setting of online convex optimization, in which the hitting cost is convex but hidden from the learner before making predictions. We modify Ader, an existing algorithm designed for dynamic regret, slightly to take into account the switching cost when measuring the performance. The proposed algorithm, named as Smoothed Ader, attains an optimal $O(\sqrt{T(1+P_T)})$ bound for dynamic regret with switching cost, where $P_T$ is the path-length of the comparator sequence. Furthermore, if the hitting cost is accessible in the beginning of each round, we obtain a similar guarantee without the bounded gradient condition.
翻訳日:2021-02-16 15:58:05 公開日:2021-02-13
# モーメント法の最後の反復収束について

On the Last Iterate Convergence of Momentum Methods ( http://arxiv.org/abs/2102.07002v1 )

ライセンス: Link先を確認
Xiaoyu Li and Mingrui Liu and Francesco Orabona(参考訳) SGD with Momentum (SGDM) は機械学習問題の大規模最適化に広く利用されている。 しかし、このアルゴリズムの理論的理解は完全ではない。 実際、最近の結果でさえも、平均化スキームや有界領域への射影のようなアルゴリズムの変更が必要であり、実際には使われない。 また、SGDMでは下限は知られていない。 本稿では、任意の定数運動量係数に対して、$T$ ステップの後に SGDM の最後の反復がエラー $\Omega(\frac{\log T}{\sqrt{T}})$ に苦しむ Lipschitz および凸関数が存在することを初めて証明する。 この事実に基づいて,<emph{increasing momentum} と \emph{shrinking updates} を用いたFollow-The-Regularized-Leader-based SGDMアルゴリズムの新たなクラスについて検討する。 これらのアルゴリズムでは、制約のない凸最適化問題に対して、最後の反復が最適収束$O(\frac{1}{\sqrt{T}})$であることが示される。 さらに、凸関数と滑らかな関数の補間設定において、我々の新しいSGDMアルゴリズムは自動的に$O(\frac{\log T}{T})$の速度で収束することを示す。 実証結果も示されています。

SGD with Momentum (SGDM) is widely used for large scale optimization of machine learning problems. Yet, the theoretical understanding of this algorithm is not complete. In fact, even the most recent results require changes to the algorithm like an averaging scheme and a projection onto a bounded domain, which are never used in practice. Also, no lower bound is known for SGDM. In this paper, we prove for the first time that for any constant momentum factor, there exists a Lipschitz and convex function for which the last iterate of SGDM suffers from an error $\Omega(\frac{\log T}{\sqrt{T}})$ after $T$ steps. Based on this fact, we study a new class of (both adaptive and non-adaptive) Follow-The-Regularized-Leader-based SGDM algorithms with \emph{increasing momentum} and \emph{shrinking updates}. For these algorithms, we show that the last iterate has optimal convergence $O (\frac{1}{\sqrt{T}})$ for unconstrained convex optimization problems. Further, we show that in the interpolation setting with convex and smooth functions, our new SGDM algorithm automatically converges at a rate of $O(\frac{\log T}{T})$. Empirical results are shown as well.
翻訳日:2021-02-16 15:57:23 公開日:2021-02-13
# 拡散MRIのための回転不変深層学習

Rotation-Equivariant Deep Learning for Diffusion MRI ( http://arxiv.org/abs/2102.06942v1 )

ライセンス: Link先を確認
Philip M\"uller, Vladimir Golkov, Valentina Tomassini, Daniel Cremers(参考訳) 畳み込みネットワークは成功しているが、最近は回転や翻訳で等価である新しいニューラルネットワークによってパフォーマンスが上がっている。 これらの新しいネットワークは、各画像機能のそれぞれの方向を個別に学習するのに苦労しないため、よりうまく機能する。 これまでのところ、2Dデータと3Dデータに対して提案されている。 ここでは,これらを6次元拡散MRIデータに一般化し,画像空間における3次元ロト変換と,画像形成によって予測される$q$-空間における3次元回転の整合性を保証する。 このような等変深度学習は拡散MRIに適しており、神経線維のような微細構造的・マクロ構造的特徴が様々な方向に現れる可能性があること、また、回転等変深度学習でさえ、多くの拡散MRIタスクに最適な方法である。 多発性硬化症病変の分節化に対する等変性手法の検証を行った。 提案するニューラルネットワークは,非回転同変深層学習と比較して,より優れた結果を得るとともに,トレーニングのためのスキャンを少なくする。 また、古典的拡散MRI法よりも深層学習の利点を全て継承する。 私たちの実装はhttps://github.com/philip-mueller/equivariant-deep-dmriで利用可能です。

Convolutional networks are successful, but they have recently been outperformed by new neural networks that are equivariant under rotations and translations. These new networks work better because they do not struggle with learning each possible orientation of each image feature separately. So far, they have been proposed for 2D and 3D data. Here we generalize them to 6D diffusion MRI data, ensuring joint equivariance under 3D roto-translations in image space and the matching 3D rotations in $q$-space, as dictated by the image formation. Such equivariant deep learning is appropriate for diffusion MRI, because microstructural and macrostructural features such as neural fibers can appear at many different orientations, and because even non-rotation-equivariant deep learning has so far been the best method for many diffusion MRI tasks. We validate our equivariant method on multiple-sclerosis lesion segmentation. Our proposed neural networks yield better results and require fewer scans for training compared to non-rotation-equivariant deep learning. They also inherit all the advantages of deep learning over classical diffusion MRI methods. Our implementation is available at https://github.com/philip-mueller/equivariant-deep-dmri and can be used off the shelf without understanding the mathematical background.
翻訳日:2021-02-16 15:54:57 公開日:2021-02-13
# Reader-Aware Topic ModelingとSaliency Detectionによる多様なコメント生成

Generating Diversified Comments via Reader-Aware Topic Modeling and Saliency Detection ( http://arxiv.org/abs/2102.06856v1 )

ライセンス: Link先を確認
Wei Wang, Piji Li, Hai-Tao Zheng(参考訳) 自動コメント生成は、ニュースコンテンツ理解と言語生成におけるモデルの能力を検証するための特別な課題である。 コメントは、ニュース記事に有意義で興味深い情報を伝えるだけでなく、多様性の基本的な手がかりとして扱う様々な読者特性を暗示している。 しかし,コメント生成手法のほとんどでは,満足度情報抽出のみに焦点が当てられているが,コメントによって示唆される読者認識要因は無視されている。 この問題に対処するため,我々は,生成したコメントの品質を向上させるために,読者認識型トピックモデリングとサリエンシー情報検出フレームワークを提案する。 読者対応トピックモデリングのために,読者コメントからの潜在意味学習と話題マイニングのための変分生成クラスタリングアルゴリズムを設計した。 サリエンシー情報検出のために、ニュースコンテンツを推定してサリエンシー情報を選択するBernoulli分布について紹介します。 得られたトピック表現および選択されたサリエンシー情報はデコーダに組み込まれ、多種多様で有益なコメントを生成する。 3つのデータセットの実験結果から,本フレームワークは,自動メトリックとヒューマン評価の両面で既存のベースラインメソッドを上回っていることが示された。 潜在的な倫理的問題も詳細に議論されている。

Automatic comment generation is a special and challenging task to verify the model ability on news content comprehension and language generation. Comments not only convey salient and interesting information in news articles, but also imply various and different reader characteristics which we treat as the essential clues for diversity. However, most of the comment generation approaches only focus on saliency information extraction, while the reader-aware factors implied by comments are neglected. To address this issue, we propose a unified reader-aware topic modeling and saliency information detection framework to enhance the quality of generated comments. For reader-aware topic modeling, we design a variational generative clustering algorithm for latent semantic learning and topic mining from reader comments. For saliency information detection, we introduce Bernoulli distribution estimating on news content to select saliency information. The obtained topic representations as well as the selected saliency information are incorporated into the decoder to generate diversified and informative comments. Experimental results on three datasets show that our framework outperforms existing baseline methods in terms of both automatic metrics and human evaluation. The potential ethical issues are also discussed in detail.
翻訳日:2021-02-16 15:51:53 公開日:2021-02-13
# ラベル分布のキャプチャ: NLI におけるケーススタディ

Capturing Label Distribution: A Case Study in NLI ( http://arxiv.org/abs/2102.06859v1 )

ライセンス: Link先を確認
Shujian Zhang, Chengyue Gong, Eunsol Choi(参考訳) 自然言語推論タスクにおける人間固有の不一致(注釈ラベル分布)を推定する。 予測されたラベルエントロピーに一致する予測されたラベル分布のポストホックスムージングは非常に効果的です。 このような単純な操作はklの発散をほぼ半分減らすことができるが、大多数のラベル予測精度やラベル分布の学習は改善されない。 この目的のために、トレーニングに複数の参照を持つ少数の例を紹介します。 トレーニングの例ごとに1つの参照を収集する標準的な慣行から逸脱し、固定されたアノテーション予算の下で複数の参照を収集することでより正確な精度が得られることを確かめる。 最後に,これら2つの手法を比較し,ラベル分布推定を改善するための豊富な解析を行う。

We study estimating inherent human disagreement (annotation label distribution) in natural language inference task. Post-hoc smoothing of the predicted label distribution to match the expected label entropy is very effective. Such simple manipulation can reduce KL divergence by almost half, yet will not improve majority label prediction accuracy or learn label distributions. To this end, we introduce a small amount of examples with multiple references into training. We depart from the standard practice of collecting a single reference per each training example, and find that collecting multiple references can achieve better accuracy under the fixed annotation budget. Lastly, we provide rich analyses comparing these two methods for improving label distribution estimation.
翻訳日:2021-02-16 15:51:34 公開日:2021-02-13
# ルーティングアルゴリズムによる商品輸送問題解決

Goods Transportation Problem Solving via Routing Algorithm ( http://arxiv.org/abs/2102.06943v1 )

ライセンス: Link先を確認
Mikhail Shchukin, Aymen Ben Said, Andre Lobo Teixeira(参考訳) 本稿では,商品輸送問題の特定の事例を対象としたグラフベースのヒューリスティック型ルーティングアルゴリズムの開発背景について概説する。 提案アルゴリズムは、配送経路の各横断区間に対する推定コストを最小化し、所定の無方向輸送グラフ上の商品の需要を満たす最適化問題を解く。 ルーティングアルゴリズムの動作を議論し,提案した問題解決手法の総合評価を行う。

This paper outlines the ideas behind developing a graph-based heuristic-driven routing algorithm designed for a particular instance of a goods transportation problem with a single good type. The proposed algorithm solves the optimization problem of satisfying the demand of goods on a given undirected transportation graph with minimizing the estimated cost for each traversed segment of the delivery path. The operation of the routing algorithm is discussed and overall evaluation of the proposed problem solving technique is given.
翻訳日:2021-02-16 15:49:27 公開日:2021-02-13
# 顔提示検出のためのディープクラスタリングによる非教師付きドメイン適応

Adversarial Unsupervised Domain Adaptation Guided with Deep Clustering for Face Presentation Attack Detection ( http://arxiv.org/abs/2102.06864v1 )

ライセンス: Link先を確認
Yomna Safaa El-Din, Mohamed N. Moustafa and Hani Mahdi(参考訳) 顔提示攻撃検知(PAD)は、多くのアプリケーションで広く使われている顔認識システムを確保するために注目されている。 従来の対スプーフィング手法は、テストがトレーニングに使用される同じドメインからのものであると仮定して提案されており、目に見えない攻撃シナリオでうまく一般化できない。 訓練されたモデルは、トレーニングデータで利用可能な取得センサーと攻撃タイプにオーバーフィットする傾向があります。 そこで本研究では,pad一般化能力を向上させるために,ドメイン適応(da)に基づくエンドツーエンド学習フレームワークを提案する。 ラベル付きソースドメインサンプルはクロスエントロピー損失による特徴抽出器と分類器のトレーニングに使用され、ターゲットドメインからの教師なしデータは逆daアプローチで利用され、モデルがドメイン不変な特徴を学習する。 DAのみをPADで使用すると、ソースドメインと異なるデバイスと攻撃タイプで異なる条件で取得されるターゲットドメインにうまく適応できない。 そこで,対象ドメインの固有の特性を維持するために,対象サンプルの深層クラスタリングを行う。 訓練と深層クラスタリングをエンドツーエンドに実施し、提案したDeep Clustering Guided Unsupervised Domain Adaptation (DCDA) が対象ドメインの最先端分類エラーと比較してより一般化された情報を学習できることを検証する。

Face Presentation Attack Detection (PAD) has drawn increasing attentions to secure the face recognition systems that are widely used in many applications. Conventional face anti-spoofing methods have been proposed, assuming that testing is from the same domain used for training, and so cannot generalize well on unseen attack scenarios. The trained models tend to overfit to the acquisition sensors and attack types available in the training data. In light of this, we propose an end-to-end learning framework based on Domain Adaptation (DA) to improve PAD generalization capability. Labeled source-domain samples are used to train the feature extractor and classifier via cross-entropy loss, while unsupervised data from the target domain are utilized in adversarial DA approach causing the model to learn domain-invariant features. Using DA alone in face PAD fails to adapt well to target domain that is acquired in different conditions with different devices and attack types than the source domain. And so, in order to keep the intrinsic properties of the target domain, deep clustering of target samples is performed. Training and deep clustering are performed end-to-end, and experiments performed on several public benchmark datasets validate that our proposed Deep Clustering guided Unsupervised Domain Adaptation (DCDA) can learn more generalized information compared with the state-of-the-art classification error on the target domain.
翻訳日:2021-02-16 15:47:06 公開日:2021-02-13
# CPP-Net:Nucleus Segmentationのためのコンテキスト対応ポリゴン提案ネットワーク

CPP-Net: Context-aware Polygon Proposal Network for Nucleus Segmentation ( http://arxiv.org/abs/2102.06867v1 )

ライセンス: Link先を確認
Shengcong Chen, Changxing Ding, Minfeng Liu, and Dacheng Tao(参考訳) 核分裂は、核の混雑した分布とぼやけた境界のために難しい作業です。 近年のアプローチは、接触と重なり合う原子核を区別するために多角形を用いて核を表現し、有望な性能を達成した。 各ポリゴンは、単一の核のための遠心ピクセルの特徴によって予測される遠心-境界距離のセットで表されます。 しかし、セントロイドピクセルだけでは、堅牢な予測に十分な文脈情報を提供していない。 この問題に対処するため,核分割のためのコンテキスト対応ポリゴン提案ネットワーク(CPP-Net)を提案する。 まず、距離予測のために各セル内の1つのピクセルではなく1つのポイントセットをサンプリングする。 この戦略は文脈情報を大幅に強化し、予測の堅牢性を向上させる。 次に,サンプリングされた点集合から予測を適応的に融合する信頼度に基づく重み付けモジュールを提案する。 第3に,予測された多角形形状を制約した新しい形状認識損失(sap)を提案する。 ここで、sap損失は、遠心確率マップと画素から境界距離マップを異なる核表現にマッピングすることで事前学習される追加のネットワークに基づいている。 広範な実験は提案されたCPP-Netの各コンポーネントの有効性を正当化する。 最後に、CPP-Netは3つの公開データベース(DSB2018、BBBC06、PanNuke)で最先端のパフォーマンスを達成する。 この論文のコードはリリースされる。

Nucleus segmentation is a challenging task due to the crowded distribution and blurry boundaries of nuclei. Recent approaches represent nuclei by means of polygons to differentiate between touching and overlapping nuclei and have accordingly achieved promising performance. Each polygon is represented by a set of centroid-to-boundary distances, which are in turn predicted by features of the centroid pixel for a single nucleus. However, using the centroid pixel alone does not provide sufficient contextual information for robust prediction. To handle this problem, we propose a Context-aware Polygon Proposal Network (CPP-Net) for nucleus segmentation. First, we sample a point set rather than one single pixel within each cell for distance prediction. This strategy substantially enhances contextual information and thereby improves the robustness of the prediction. Second, we propose a Confidence-based Weighting Module, which adaptively fuses the predictions from the sampled point set. Third, we introduce a novel Shape-Aware Perceptual (SAP) loss that constrains the shape of the predicted polygons. Here, the SAP loss is based on an additional network that is pre-trained by means of mapping the centroid probability map and the pixel-to-boundary distance maps to a different nucleus representation. Extensive experiments justify the effectiveness of each component in the proposed CPP-Net. Finally, CPP-Net is found to achieve state-of-the-art performance on three publicly available databases, namely DSB2018, BBBC06, and PanNuke. Code of this paper will be released.
翻訳日:2021-02-16 15:46:37 公開日:2021-02-13
# 精製光フロー推定のための正規化畳み込みアップサンプリング

Normalized Convolution Upsampling for Refined Optical Flow Estimation ( http://arxiv.org/abs/2102.06979v1 )

ライセンス: Link先を確認
Abdelrahman Eldesokey, Michael Felsberg(参考訳) 光フローは、畳み込みニューラルネットワーク(CNN)が大きなブレークスルーをもたらした回帰タスクである。 しかし、これはコストボリュームとピラミッド表現の使用による計算上の大きな要求が伴う。 これは4分の1の解像度でフロー予測を生成し、テスト時間中にバイリニア補間を用いてサンプリングすることで緩和された。 したがって、細かい詳細は通常失われ、後処理はそれらを復元するために必要です。 光フローCNNのトレーニング中にフルレゾリューションフローを生成するための効率的なジョイントアップサンプリングアプローチであるNormalized Convolution UPsampler(NCUP)を提案します。 提案手法では,アップサンプリングタスクをスパース問題として定式化し,正規化畳み込みニューラルネットワークを用いて解く。 我々は,粗い光フローcnn (pwcnet) を用いてエンド・ツー・エンドを訓練した場合の既存のジョイント・アップサンプリング手法に対するupsamplerの評価を行い,少なくとも1桁のパラメータを持つフライングチェアズ・データセット上の他のすべてのアプローチよりも優れていることを示す。 さらに,リカレントオプティカルフローcnn(raft)を用いてアップサンプラーをテストし,sintelベンチマークによる最新結果を約6%の誤差低減とkittiデータセットのオンペアで達成し,パラメータを7.5%削減した(図1参照)。 最後に、我々のアップサンプラーは、異なるデータセットでトレーニングおよび評価を行う際に、RAFTよりも優れた一般化能力を示す。

Optical flow is a regression task where convolutional neural networks (CNNs) have led to major breakthroughs. However, this comes at major computational demands due to the use of cost-volumes and pyramidal representations. This was mitigated by producing flow predictions at quarter the resolution, which are upsampled using bilinear interpolation during test time. Consequently, fine details are usually lost and post-processing is needed to restore them. We propose the Normalized Convolution UPsampler (NCUP), an efficient joint upsampling approach to produce the full-resolution flow during the training of optical flow CNNs. Our proposed approach formulates the upsampling task as a sparse problem and employs the normalized convolutional neural networks to solve it. We evaluate our upsampler against existing joint upsampling approaches when trained end-to-end with a a coarse-to-fine optical flow CNN (PWCNet) and we show that it outperforms all other approaches on the FlyingChairs dataset while having at least one order fewer parameters. Moreover, we test our upsampler with a recurrent optical flow CNN (RAFT) and we achieve state-of-the-art results on Sintel benchmark with ~6% error reduction, and on-par on the KITTI dataset, while having 7.5% fewer parameters (see Figure 1). Finally, our upsampler shows better generalization capabilities than RAFT when trained and evaluated on different datasets.
翻訳日:2021-02-16 15:46:15 公開日:2021-02-13
# 生物多様性と分類学的尺度に基づく新しいバイオインスパイアテクスチャ記述器

A Novel Bio-Inspired Texture Descriptor based on Biodiversity and Taxonomic Measures ( http://arxiv.org/abs/2102.06997v1 )

ライセンス: Link先を確認
Steve Tsham Mpinda Ataky and Alessandro Lameiras Koerich(参考訳) テクスチャは、物体の粗さや表面の反射の相違の物理的特性に起因する反復パターンを形成する画像強度の変化として定義することができます。 テクスチャが非決定論的に複雑なパターンのシステムを形成すると考えると、生物多様性の概念はその特徴付けに役立つ。 本論文では、多様性や豊かさ、分類学的特徴など、多様なパターンの複雑なシステムを定量化できる新しい手法を提案する。 提案手法は,各画像チャネルを種生態系とみなし,種多様性と豊かさの度合いを計算し,テクスチャを記述するための分類学的尺度である。 提案されたアプローチは、生態学的パターンの不変性特性を利用して、置換、回転、および翻訳不変記述子を構築する。 自然テクスチャ画像の3つのデータセットと病理組織画像の2つのデータセットの実験結果は,提案するテクスチャディスクリプタがいくつかのテクスチャディスクリプタや深い方法よりも優れていることを示した。

Texture can be defined as the change of image intensity that forms repetitive patterns, resulting from physical properties of the object's roughness or differences in a reflection on the surface. Considering that texture forms a complex system of patterns in a non-deterministic way, biodiversity concepts can help to its characterization. In this paper, we propose a novel approach capable of quantifying such a complex system of diverse patterns through species diversity and richness, and taxonomic distinctiveness. The proposed approach considers each image channel as a species ecosystem and computes species diversity and richness measures as well as taxonomic measures to describe the texture. The proposed approach takes advantage of the invariance characteristics of ecological patterns to build a permutation, rotation, and translation invariant descriptor. Experimental results on three datasets of natural texture images and two datasets of histopathological images have shown that the proposed texture descriptor has advantages over several texture descriptors and deep methods.
翻訳日:2021-02-16 15:45:49 公開日:2021-02-13
# persim:パーソナライズシミュレータによる異種エージェントによるデータ効率の高いオフライン強化学習

PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators ( http://arxiv.org/abs/2102.06961v1 )

ライセンス: Link先を確認
Anish Agarwal, Abdullah Alomar, Varkey Alumootil, Devavrat Shah, Dennis Shen, Zhi Xu, Cindy Yang(参考訳) 我々は、重度のデータ不足下で不均一なエージェントを持つオフライン強化学習(RL)を考える。 最新のオフラインおよびモデルベースのRLメソッドのパフォーマンスは、「MountainCar」や「CartPole」などの一般的な「解決済み」ベンチマーク設定であっても、そのような限られたデータ可用性を考えると大幅に低下します。 この課題に対処するために、我々はPerSimと呼ばれるモデルベースのオフラインRLアプローチを提案し、ポリシーを学ぶ前に、各エージェントの履歴軌跡をまとめて利用することで、各エージェントのパーソナライズされたシミュレータを学習する。 エージェント間の遷移ダイナミクスがエージェント、状態、およびアクションに関連する潜在因子の潜在関数として表現できることを仮定し、その後、理論上、この関数は分離可能なエージェント、状態、およびアクション潜在関数の「低いランク」分解によってよく近似されていることを証明した。 この表現は、ごくわずかなオフラインデータであってもエージェント毎の遷移ダイナミクスを効果的に学習するためのシンプルで規則化されたニューラルネットワークアーキテクチャを提案し、いくつかのベンチマーク環境とRLメソッドにわたって広範な実験を行います。 このアプローチの一貫した改善は、状態のダイナミクス予測と結果報酬の観点で測定され、限られた履歴データを利用してエージェント間のパーソナライズされたポリシーを同時に学習する上で、フレームワークの有効性を確認します。

We consider offline reinforcement learning (RL) with heterogeneous agents under severe data scarcity, i.e., we only observe a single historical trajectory for every agent under an unknown, potentially sub-optimal policy. We find that the performance of state-of-the-art offline and model-based RL methods degrade significantly given such limited data availability, even for commonly perceived "solved" benchmark settings such as "MountainCar" and "CartPole". To address this challenge, we propose a model-based offline RL approach, called PerSim, where we first learn a personalized simulator for each agent by collectively using the historical trajectories across all agents prior to learning a policy. We do so by positing that the transition dynamics across agents can be represented as a latent function of latent factors associated with agents, states, and actions; subsequently, we theoretically establish that this function is well-approximated by a "low-rank" decomposition of separable agent, state, and action latent functions. This representation suggests a simple, regularized neural network architecture to effectively learn the transition dynamics per agent, even with scarce, offline data.We perform extensive experiments across several benchmark environments and RL methods. The consistent improvement of our approach, measured in terms of state dynamics prediction and eventual reward, confirms the efficacy of our framework in leveraging limited historical data to simultaneously learn personalized policies across agents.
翻訳日:2021-02-16 15:40:25 公開日:2021-02-13
# グラフニューラルネットワークのブリッジングと統計的リレーショナルラーニング:リレーショナルワンクラスGCN

Bridging Graph Neural Networks and Statistical Relational Learning: Relational One-Class GCN ( http://arxiv.org/abs/2102.07007v1 )

ライセンス: Link先を確認
Devendra Singh Dhami (1), Siwen Yan (2), Sriraam Natarajan (2) ((1) TU Darmstadt, (2) The University of Texas at Dallas)(参考訳) リレーショナルデータに対するグラフ畳み込みネットワーク(GCN)の学習の問題を検討する。 具体的には,従来のリンク予測とノード分類問題をリレーショナルモデリングタスクとして捉え,gcnsへのリレーショナル拡張を開発する。 本手法は,頂点が目標の三重項に対応する関係密度推定手法を用いて二次グラフを構築する。 我々は、二次グラフを用いた学習機能の重要性と、一般的に使用される隣接行列よりも距離行列を用いる利点を強調した。 私たちの包括的な実証的評価は、$\mathbf{12}$異なるGCNモデル、リレーショナル埋め込み技術、ルール学習技術、リレーショナルモデルに対するアプローチの優位性を示しています。

We consider the problem of learning Graph Convolutional Networks (GCNs) for relational data. Specifically, we consider the classic link prediction and node classification problems as relational modeling tasks and develop a relational extension to GCNs. Our method constructs a secondary graph using relational density estimation techniques where vertices correspond to the target triples. We emphasize the importance of learning features using the secondary graph and the advantages of employing a distance matrix over the typically used adjacency matrix. Our comprehensive empirical evaluation demonstrates the superiority of our approach over $\mathbf{12}$ different GCN models, relational embedding techniques, rule learning techniques and relational models.
翻訳日:2021-02-16 15:39:56 公開日:2021-02-13
# 時空間複雑性を伴うネットワークゲームにおけるモデリング協調

Modelling Cooperation in Network Games with Spatio-Temporal Complexity ( http://arxiv.org/abs/2102.06911v1 )

ライセンス: Link先を確認
Michiel A. Bakker, Richard Everett, Laura Weidinger, Iason Gabriel, William S. Isaac, Joel Z. Leibo, Edward Hughes(参考訳) 現実の世界は、コンピュータネットワークを横断するパケットのルーティングから灌水システムの管理まで、自己関心のエージェントによる集団行動を必要とするマルチエージェントの問題に悩まされている。 このようなシステムは個人に対して局所的なインセンティブを持ち、その行動がグループ全体の成果に影響を及ぼす。 エージェントの相互作用を記述する適切なメカニズムを考えると、グループは短期的な利己的なインセンティブに直面しても社会的に有益な結果を得ることができる。 多くの場合、集合的な行動問題はグラフ構造を持ち、そのトポロジーは局所的な決定と創発的なグローバル効果の関係を決定づける。 このようなシナリオはネットワークゲームのレンズを通して大きな注目を集めている。 しかし、この抽象化は通常、協力を促進するメカニズムの設計に関連する幾何学や時間などの重要な寸法を崩壊させる。 並列的な作業では、複雑なグリッドワールドドメインにおける自己組織化協調の出現をモデル化する上で、マルチエージェントの深層強化学習が大きな可能性を示している。 ここでは,このパラダイムをグラフ構造集団行動問題に適用する。 エージェント・ソサイエティを多エージェント深層強化学習を用いて多種多様なメカニズムをシミュレートし、時間とともに異なる平衡間の明確な遷移を見いだす。 我々は,関連文献に触発された分析ツールを定義して社会成果を計測し,これらを用いて異なる環境介入の有効性に関する結論を導出する。 本手法は,人間および人工エージェントシステムにおける機構設計に影響を及ぼす。

The real world is awash with multi-agent problems that require collective action by self-interested agents, from the routing of packets across a computer network to the management of irrigation systems. Such systems have local incentives for individuals, whose behavior has an impact on the global outcome for the group. Given appropriate mechanisms describing agent interaction, groups may achieve socially beneficial outcomes, even in the face of short-term selfish incentives. In many cases, collective action problems possess an underlying graph structure, whose topology crucially determines the relationship between local decisions and emergent global effects. Such scenarios have received great attention through the lens of network games. However, this abstraction typically collapses important dimensions, such as geometry and time, relevant to the design of mechanisms promoting cooperation. In parallel work, multi-agent deep reinforcement learning has shown great promise in modelling the emergence of self-organized cooperation in complex gridworld domains. Here we apply this paradigm in graph-structured collective action problems. Using multi-agent deep reinforcement learning, we simulate an agent society for a variety of plausible mechanisms, finding clear transitions between different equilibria over time. We define analytic tools inspired by related literatures to measure the social outcomes, and use these to draw conclusions about the efficacy of different environmental interventions. Our methods have implications for mechanism design in both human and artificial agent systems.
翻訳日:2021-02-16 15:32:00 公開日:2021-02-13
# 複数のシーケンス、タスク、ユーザーレベルを持つオンラインゲームにおけるシーケンス推奨

Sequential Recommendation in Online Games with Multiple Sequences, Tasks and User Levels ( http://arxiv.org/abs/2102.06950v1 )

ライセンス: Link先を確認
Si Chen, Yuqiu Qian, Hui Li, Chen Lin(参考訳) オンラインゲームは、これまでにない速さで成長している数十億ドルの業界です。 オンラインゲーム用のレコメンダシステム(RS)は、様々なアクションタイプのアクションシーケンスに基づいて、異なるユーザーレベルでプレイヤーの異なる欲求を満たす必要があるため、ユニークな課題に直面している。 シーケンシャルRSは存在するが、主にシングルシーケンス、シングルタスク、シングルユーザーレベルである。 本論文では、オンラインゲームにおける複雑なデータをフル活用できるTencent Gamesプラットフォームにおいて、複数シーケンス、複数タスク、複数ユーザレベル(M$^3$Recと略される)に対する新しいシーケンシャルレコメンデーションモデルについて紹介する。 私たちはGraph Neural Networkとマルチタスク学習を利用してM$^3$Recを設計し、Tencent Gamesの異種シーケンシャルレコメンデーションシナリオにおける複雑な情報をモデル化します。 Tencent Gamesプラットフォームの3つのオンラインゲームにおけるM$^3$Recの有効性を、オフラインおよびオンライン評価の両方で検証する。 その結果、M$^3$Recはオンラインゲームにおけるレコメンデーションの課題にうまく対処し、最新のシーケンシャルレコメンデーションアプローチと比較して優れたレコメンデーションを生成します。

Online gaming is a multi-billion-dollar industry, which is growing faster than ever before. Recommender systems (RS) for online games face unique challenges since they must fulfill players' distinct desires, at different user levels, based on their action sequences of various action types. Although many sequential RS already exist, they are mainly single-sequence, single-task, and single-user-level. In this paper, we introduce a new sequential recommendation model for multiple sequences, multiple tasks, and multiple user levels (abbreviated as M$^3$Rec) in Tencent Games platform, which can fully utilize complex data in online games. We leverage Graph Neural Network and multi-task learning to design M$^3$Rec in order to model the complex information in the heterogeneous sequential recommendation scenario of Tencent Games. We verify the effectiveness of M$^3$Rec on three online games of Tencent Games platform, in both offline and online evaluations. The results show that M$^3$Rec successfully addresses the challenges of recommendation in online games, and it generates superior recommendations compared with state-of-the-art sequential recommendation approaches.
翻訳日:2021-02-16 15:31:38 公開日:2021-02-13
# 拡張型ゲームにおける効率的な逸脱型と後視性学習

Efficient Deviation Types and Learning for Hindsight Rationality in Extensive-Form Games ( http://arxiv.org/abs/2102.06973v1 )

ライセンス: Link先を確認
Dustin Morrill, Ryan D'Orazio, Marc Lanctot, James R. Wright, Michael Bowling, Amy Greenwald(参考訳) 後ろ向き合理性(英: hindsight rationality)とは、非回帰学習のダイナミクスを規定し、相互に媒介する平衡との共同合理性行動を記述するマルチエージェント・汎用ゲームへのアプローチである。 広形式ゲーム(EFG)における偏差タイプの空間を探索し、適度な長さのゲームで効率的に計算できる強力なタイプを発見します。 具体的には、より広いクラス内で以前に研究された型を部分配列偏差と呼ぶ4つの新しいタイプの偏差を同定する。 時間選択後悔最小化の概念を反実的後悔最小化 (CFR) に統合し, EFGにおける偏差の一般クラスと自然クラスに対して, 後向きに合理的な拡張形式後悔最小化 (EFR) アルゴリズムを導入する。 各部分シーケンス偏差タイプに対応する EFR のインスタンス化と後悔境界を提供します。 さらに,一般的なベンチマークゲームにおいて,異なる偏差型を持つERFの性能について,徹底的な実証分析を行った。 理論が示すように、EFRをより強い偏差でインスタンス化すると、より弱い偏差よりも優れた振舞いが生じる。

Hindsight rationality is an approach to playing multi-agent, general-sum games that prescribes no-regret learning dynamics and describes jointly rational behavior with mediated equilibria. We explore the space of deviation types in extensive-form games (EFGs) and discover powerful types that are efficient to compute in games with moderate lengths. Specifically, we identify four new types of deviations that subsume previously studied types within a broader class we call partial sequence deviations. Integrating the idea of time selection regret minimization into counterfactual regret minimization (CFR), we introduce the extensive-form regret minimization (EFR) algorithm that is hindsight rational for a general and natural class of deviations in EFGs. We provide instantiations and regret bounds for EFR that correspond to each partial sequence deviation type. In addition, we present a thorough empirical analysis of EFR's performance with different deviation types in common benchmark games. As theory suggests, instantiating EFR with stronger deviations leads to behavior that tends to outperform that of weaker deviations.
翻訳日:2021-02-16 15:31:16 公開日:2021-02-13
# 多段階分散マッチング市場:不確かな選好と戦略行動

Multi-Stage Decentralized Matching Markets: Uncertain Preferences and Strategic Behaviors ( http://arxiv.org/abs/2102.06988v1 )

ライセンス: Link先を確認
Xiaowu Dai and Michael I. Jordan(参考訳) 一致する市場はしばしば多段階かつ分散的に組織される。 さらに、現実世界のマッチングマーケットの参加者は、しばしば不確実な嗜好を持つ。 本稿では,非パラメトリックな統計的アプローチと変分解析に基づいて,このような設定で最適戦略を学ぶための枠組みを考案する。 提案手法は,「より低い不確実性境界」と「キャリブド分散マッチング」の概念に基づき,参加者の期待した報酬を最大化するための効率的なアルゴリズムを提案する。 我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。 参加者は戦略的に競争を減らし、予想されるペイオフを増やすために低い不確実性のレベルを支持します。 分散市場の混雑を解消するシグナル伝達機構について検討し,シグナル伝達の効果が不均一であることを見いだし,参加者やマッチングステージへの依存を示す。 シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。 遅延受理手順は、ステージ数に制限を課せず、効率と公平性を達成するが、一部の参加者はマルチステージマッチングよりも悪くなる可能性がある。 シミュレーションによる理論予測と大学進学時の実データを用いた実験の側面を示す。

Matching markets are often organized in a multi-stage and decentralized manner. Moreover, participants in real-world matching markets often have uncertain preferences. This article develops a framework for learning optimal strategies in such settings, based on a nonparametric statistical approach and variational analysis. We propose an efficient algorithm, built upon concepts of "lower uncertainty bound" and "calibrated decentralized matching," for maximizing the participants' expected payoff. We show that there exists a welfare-versus-fairness trade-off that is characterized by the uncertainty level of acceptance. Participants will strategically act in favor of a low uncertainty level to reduce competition and increase expected payoff. We study signaling mechanisms that help to clear the congestion in such decentralized markets and find that the effects of signaling are heterogeneous, showing a dependence on the participants and matching stages. We prove that participants can be better off with multi-stage matching compared to single-stage matching. The deferred acceptance procedure assumes no limit on the number of stages and attains efficiency and fairness but may make some participants worse off than multi-stage matching. We demonstrate aspects of the theoretical predictions through simulations and an experiment using real data from college admissions.
翻訳日:2021-02-16 15:29:06 公開日:2021-02-13
# 環境形成による副作用の軽減

Mitigating Negative Side Effects via Environment Shaping ( http://arxiv.org/abs/2102.07017v1 )

ライセンス: Link先を確認
Sandhya Saisubramanian and Shlomo Zilberstein(参考訳) 非構造化環境で作動するエージェントは、設計時に識別が難しい負の副作用(NSE)を生じることが多い。 エージェントは人間のフィードバックから副作用を軽減することを学ぶことができますが、そのようなフィードバックはしばしば高価であり、学習率はエージェントの状態表現に敏感です。 フィードバックの提供を超えて、人間はエージェントをどのように支援できるかを検討し、NSEの影響を軽減するための幅広い知識を活用します。 私たちはこの問題を、切り離された目的を持った人間エージェントチームとして定式化します。 エージェントは割り当てられたタスクを最適化し、そのアクションがNSEを生成する。 人間は、エージェントが割り当てられたタスクを完了させる能力に影響を与えることなく、エージェントの副作用の影響を軽減するために、小さな再構成アクションを通じて環境を形作る。 本稿では,この問題を解き,理論特性を解析するアルゴリズムを提案する。 被験者との実験を通じて,nseの影響を軽減するために,環境の微調整を行うユーザの意欲を評価する。 提案手法は,エージェントが割り当てられたタスクを完了させる能力に影響を与えずに,nseを効果的に緩和できることを示す。

Agents operating in unstructured environments often produce negative side effects (NSE), which are difficult to identify at design time. While the agent can learn to mitigate the side effects from human feedback, such feedback is often expensive and the rate of learning is sensitive to the agent's state representation. We examine how humans can assist an agent, beyond providing feedback, and exploit their broader scope of knowledge to mitigate the impacts of NSE. We formulate this problem as a human-agent team with decoupled objectives. The agent optimizes its assigned task, during which its actions may produce NSE. The human shapes the environment through minor reconfiguration actions so as to mitigate the impacts of the agent's side effects, without affecting the agent's ability to complete its assigned task. We present an algorithm to solve this problem and analyze its theoretical properties. Through experiments with human subjects, we assess the willingness of users to perform minor environment modifications to mitigate the impacts of NSE. Empirical evaluation of our approach shows that the proposed framework can successfully mitigate NSE, without affecting the agent's ability to complete its assigned task.
翻訳日:2021-02-16 15:28:43 公開日:2021-02-13
# コンボリューションニューラルネットワーク, サポートベクターマシン, ソベルフィルタの融合による新型コロナウイルス患者のX線画像による正確な検出

Fusion of convolution neural network, support vector machine and Sobel filter for accurate detection of COVID-19 patients using X-ray images ( http://arxiv.org/abs/2102.06883v1 )

ライセンス: Link先を確認
Danial Sharifrazi, Roohallah Alizadehsani, Mohamad Roshanzamir, Javad Hassannataj Joloudari, Afshin Shoeibi, Mahboobeh Jafari, Sadiq Hussain, Zahra Alizadeh Sani, Fereshteh Hasanzadeh, Fahime Khozeimeh, Abbas Khosravi, Saeid Nahavandi, Maryam Panahiazar, Assef Zare, Sheikh Mohammed Shariful Islam, U Rajendra Acharya(参考訳) 新型コロナウイルス(COVID-19)は現在、世界中で流行する最も一般的な伝染病である。 この病気の主な課題は、二次感染と1人から別の人に広がることを防ぐための一次診断です。 そのため、新型コロナウイルスの迅速診断のための臨床手順とともに、自動診断システムを使用することが不可欠である。 肺および胸部X線撮影のCT画像を用いた人工知能技術は、Covid-19診断のための高い診断性能を得る可能性がある。 本研究では, コンボリューションニューラルネットワーク(CNN), サポートベクターマシン(SVM), ソベルフィルタを融合させて, X線画像を用いたCOVID-19の検出を提案する。 新しいx線画像データセットを収集し、ソベルフィルタを用いて高パスフィルタを施し、画像のエッジを得る。 その後、これらの画像はCNNのディープラーニングモデルに供給され、10倍のクロスバリデーション戦略を持つSVM分類子が続く。 この方法は、少ないデータで学習できるように設計されている。 以上の結果から,covid-19の検出精度が99.02%のcnn-svm(cnn-svm+sobel)であった。 Sobelフィルタを使用することでCNNのパフォーマンスが向上することを示した。 他の多くの研究とは異なり、この方法は事前訓練されたネットワークを使用しない。 また,6つの公開データベースを用いて開発モデルを検証し,最高の性能を得た。 したがって 開発したモデルは 臨床応用の準備が整い

The coronavirus (COVID-19) is currently the most common contagious disease which is prevalent all over the world. The main challenge of this disease is the primary diagnosis to prevent secondary infections and its spread from one person to another. Therefore, it is essential to use an automatic diagnosis system along with clinical procedures for the rapid diagnosis of COVID-19 to prevent its spread. Artificial intelligence techniques using computed tomography (CT) images of the lungs and chest radiography have the potential to obtain high diagnostic performance for Covid-19 diagnosis. In this study, a fusion of convolutional neural network (CNN), support vector machine (SVM), and Sobel filter is proposed to detect COVID-19 using X-ray images. A new X-ray image dataset was collected and subjected to high pass filter using a Sobel filter to obtain the edges of the images. Then these images are fed to CNN deep learning model followed by SVM classifier with ten-fold cross validation strategy. This method is designed so that it can learn with not many data. Our results show that the proposed CNN-SVM with Sobel filtering (CNN-SVM+Sobel) achieved the highest classification accuracy of 99.02% in accurate detection of COVID-19. It showed that using Sobel filter can improve the performance of CNN. Unlike most of the other researches, this method does not use a pre-trained network. We have also validated our developed model using six public databases and obtained the highest performance. Hence, our developed model is ready for clinical application
翻訳日:2021-02-16 15:26:59 公開日:2021-02-13
# ディーププロトタイプツリーによるアルツハイマー病の進行を表わす

Representing Alzheimer's Disease Progression via Deep Prototype Tree ( http://arxiv.org/abs/2102.06847v1 )

ライセンス: Link先を確認
Lu Zhang, Li Wang, Dajiang Zhu(参考訳) 何十年もの間、アルツハイマー病(AD)とその前駆体 - 軽度の認知障害(MCI)の予測能力の観点から、さまざまな予測アプローチが提案および評価されています。 その多くは、異なる臨床グループやフェーズ(例えば、縦断研究)間の統計的差異の予測や同定に焦点を当てている。 AD開発とAD関連段階間の遷移状態の連続性は、特に二項分類や多項分類において見過ごされている。 近年、ADの進行モデルがいくつか研究されているが、主に特定のバイオマーカーの順序を決定・比較するために設計された。 AD進行の幅広い範囲で患者の状態を効果的に予測する方法が検討されている。 本研究では,AD進行の連続を木構造として計算モデル化する新しい構造学習法を開発した。 異なる臨床グループ間の本質的な関係を深い方法で新しいプロトタイプ学習を行うことで、プロトタイプとして捉え、AD開発のための継続的なプロセスでそれらを表現することができます。 本手法をDeep Prototype Learningと命名し,学習木構造をDeep Prototype Tree - DPTreeとした。 DPTreeは、AD進行を反映した軌道として異なる臨床段階を表し、個人をこの連続軌道に投影することによって臨床状態を予測します。 このようにして、DPTreeはAD発達のどの段階(5つのグループで77.8%の精度)の患者に対して効率的な予測を行うだけでなく、AD進行過程全体の投影位置を調べることでより多くの情報を提供することができる。

For decades, a variety of predictive approaches have been proposed and evaluated in terms of their predicting capability for Alzheimer's Disease (AD) and its precursor - mild cognitive impairment (MCI). Most of them focused on prediction or identification of statistical differences among different clinical groups or phases (e.g., longitudinal studies). The continuous nature of AD development and transition states between successive AD related stages have been overlooked, especially in binary or multi-class classification. Though a few progression models of AD have been studied recently, they mainly designed to determine and compare the order of specific biomarkers. How to effectively predict the individual patient's status within a wide spectrum of AD progression has been understudied. In this work, we developed a novel structure learning method to computationally model the continuum of AD progression as a tree structure. By conducting a novel prototype learning with a deep manner, we are able to capture intrinsic relations among different clinical groups as prototypes and represent them in a continuous process for AD development. We named this method as Deep Prototype Learning and the learned tree structure as Deep Prototype Tree - DPTree. DPTree represents different clinical stages as a trajectory reflecting AD progression and predict clinical status by projecting individuals onto this continuous trajectory. Through this way, DPTree can not only perform efficient prediction for patients at any stages of AD development (77.8% accuracy for five groups), but also provide more information by examining the projecting locations within the entire AD progression process.
翻訳日:2021-02-16 15:23:47 公開日:2021-02-13
# HAWKS:クラスタ分析のためのChallenging Benchmark Setsの進化

HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis ( http://arxiv.org/abs/2102.06940v1 )

ライセンス: Link先を確認
Cameron Shand, Richard Allmendinger, Julia Handl, Andrew Webb, and John Keane(参考訳) クラスタリングアルゴリズムの総合的なベンチマークは、 (i) - この教師なし学習アプローチのユニークな数学的定義の解明と (ii) - クラスタリングアルゴリズムで採用される生成モデルやクラスタリング基準と内部クラスタバリデーションの指標との依存性の2つの主要な要因によって難しい。 したがって、厳格なベンチマークのベストプラクティスと、それが特定のアプリケーションのコンテキスト外でまったく可能かどうかに関する合意はありません。 ここでは、合成データセットはクラスタリングアルゴリズムの評価において重要な役割を担わなければならないが、クラスタリングアルゴリズムのパフォーマンスに影響を及ぼす多様な特性を適切にカバーするベンチマークを構築する必要があると論じる。 フレームワークであるHAWKSを通じて、そのようなベンチマークの柔軟な生成をサポートするために進化的アルゴリズムが果たす重要な役割を実証し、簡単な修正と拡張を可能にします。 i)手がかりのプロパティの集合と一致するベンチマークデータの進化、(ii) 与えられたアルゴリズムのペア間のパフォーマンスの相違を予見するデータセットの生成。 我々の研究は、広範囲のアルゴリズムに十分に挑戦するクラスタリングベンチマークの設計と、特定のアプローチの強みと弱みに関する洞察を深めることに意味があります。

Comprehensive benchmarking of clustering algorithms is rendered difficult by two key factors: (i)~the elusiveness of a unique mathematical definition of this unsupervised learning approach and (ii)~dependencies between the generating models or clustering criteria adopted by some clustering algorithms and indices for internal cluster validation. Consequently, there is no consensus regarding the best practice for rigorous benchmarking, and whether this is possible at all outside the context of a given application. Here, we argue that synthetic datasets must continue to play an important role in the evaluation of clustering algorithms, but that this necessitates constructing benchmarks that appropriately cover the diverse set of properties that impact clustering algorithm performance. Through our framework, HAWKS, we demonstrate the important role evolutionary algorithms play to support flexible generation of such benchmarks, allowing simple modification and extension. We illustrate two possible uses of our framework: (i)~the evolution of benchmark data consistent with a set of hand-derived properties and (ii)~the generation of datasets that tease out performance differences between a given pair of algorithms. Our work has implications for the design of clustering benchmarks that sufficiently challenge a broad range of algorithms, and for furthering insight into the strengths and weaknesses of specific approaches.
翻訳日:2021-02-16 15:23:20 公開日:2021-02-13
# 対戦型事例ゲームにおける混合ナッシュ平衡

Mixed Nash Equilibria in the Adversarial Examples Game ( http://arxiv.org/abs/2102.06905v1 )

ライセンス: Link先を確認
Laurent Meunier, Meyer Scetbon, Rafael Pinot, Jamal Atif, Yann Chevaleyre(参考訳) 本稿では,ゲーム理論的な観点からの敵対的例の問題に取り組む。 攻撃者および分類者によって形成されるゼロサムゲームにおける混合ナッシュ平衡の存在のオープンな問題を検討する。 従来の作業では,1人のプレイヤーのみがランダム化戦略を使用できるが,分類器と攻撃者の両方に対してランダム化を検討する必要がある。 このゲームは双対性ギャップがなく、常に近似的なナッシュ平衡を許容することを示す。 また、このゲームの価値を概算する分類器の混合を学習する最初の最適化アルゴリズムである \emph{i.e} も提供する。 最適に堅牢なランダム化分類器を構築する手順。

This paper tackles the problem of adversarial examples from a game theoretic point of view. We study the open question of the existence of mixed Nash equilibria in the zero-sum game formed by the attacker and the classifier. While previous works usually allow only one player to use randomized strategies, we show the necessity of considering randomization for both the classifier and the attacker. We demonstrate that this game has no duality gap, meaning that it always admits approximate Nash equilibria. We also provide the first optimization algorithms to learn a mixture of classifiers that approximately realizes the value of this game, \emph{i.e.} procedures to build an optimally robust randomized classifier.
翻訳日:2021-02-16 15:16:01 公開日:2021-02-13
# crosslight: クロスレイヤー最適化されたシリコンフォトニックニューラルネットワークアクセラレータ

CrossLight: A Cross-Layer Optimized Silicon Photonic Neural Network Accelerator ( http://arxiv.org/abs/2102.06960v1 )

ライセンス: Link先を確認
Febin Sunny, Asif Mirza, Mahdi Nikdast, and Sudeep Pasricha(参考訳) ドメイン固有のニューラルネットワークアクセラレータは近年、cpuやgpuに比べてエネルギー効率が向上し、推論性能が向上したため、関心が高まっている。 本稿では,シリコンフォトニクスを利用したクロス層最適化ニューラルネットワークアクセラレータCrossLightを提案する。 crosslightには、プロセスバリエーションと熱クロストークに対するレジリエンスのためのデバイスレベルエンジニアリング、推論レイテンシ低減のための回路レベルチューニング拡張、高分解能化、エネルギー効率向上、スループット向上のためのアーキテクチャレベルの最適化が含まれている。 平均して、CrossLightは16ビット解像度で9.5倍のエネルギー/ビットと15.9倍高い性能を提供する。

Domain-specific neural network accelerators have seen growing interest in recent years due to their improved energy efficiency and inference performance compared to CPUs and GPUs. In this paper, we propose a novel cross-layer optimized neural network accelerator called CrossLight that leverages silicon photonics. CrossLight includes device-level engineering for resilience to process variations and thermal crosstalk, circuit-level tuning enhancements for inference latency reduction, and architecture-level optimization to enable higher resolution, better energy-efficiency, and improved throughput. On average, CrossLight offers 9.5x lower energy-per-bit and 15.9x higher performance-per-watt at 16-bit resolution than state-of-the-art photonic deep learning accelerators.
翻訳日:2021-02-16 15:15:52 公開日:2021-02-13