このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200407となっている論文です。

PDF登録状況(公開日: 20200407)

TitleAuthorsAbstract論文公表日・翻訳日
# 精密重力試験とアインシュタイン等価原理

Precision Gravity Tests and the Einstein Equivalence Principle ( http://arxiv.org/abs/2002.02907v2 )

ライセンス: Link先を確認
G. M. Tino, L. Cacciapuoti, S. Capozziello, G. Lambiase, F. Sorrentino(参考訳) 一般相対性理論は現在、幅広い現象に対処する重力の最良の理論である。 我々の物理法則の理解は、宇宙論から局所スケールまで、それを考慮せずに適切に定式化することはできない。 これは、アインシュタインの重力理論の核となる、自然の最も基本的な原理の1つである等価原理に基づいている。 異なるスケールと異なるコンテキストにおける妥当性の確認は、理論と実験の両方の観点から近代物理学の主要な課題の1つである。 この原理に関連する主要な問題は、量子レベルで有効かどうかを実際に知らないという事実である。 さらに、重力の相対論的理論に関する最近の進歩は、ダークマターやダークエナジーのような新しい問題、局所ローレンツや位置不変性のような基本原理の妥当性を考慮する必要がある。 実験により、確立された対称性の法則、粒子と相互作用の標準モデルを超えた物理学、一般相対性理論とその拡張に関する厳密な制約を設定することができる。 本稿では,一般相対性理論および代替理論における重力の精密検定と等価原理との関係について論じる。 第一部では、アインシュタイン同値原理とその弱かつ強い定式化について論じる。 我々は一般相対性理論の基本的な話題と拡張の必要性を思い出す。 修正重力のいくつかのモデルは、いくつかの詳細で示される。 論文の第2部は、その弱い定式化における等価原理の実験試験に費やされている。 本稿では, 高精度実験で用いられる結果と方法について述べるとともに, 今後の実験の可能性と展望について考察する。

General Relativity is today the best theory of gravity addressing a wide range of phenomena. Our understanding of physical laws, from cosmology to local scales, cannot be properly formulated without taking into account it. It is based on one of the most fundamental principles of Nature, the Equivalence Principle, which represents the core of the Einstein theory of gravity. The confirmation of its validity at different scales and in different contexts represents one of the main challenges of modern physics both from the theoretical and the experimental points of view. A major issue related to this principle is the fact that we actually do not know if it is valid at quantum level. Furthermore, recent progress on relativistic theories of gravity have to take into account new issues like Dark Matter and Dark Energy, as well as the validity of fundamental principles like local Lorentz and position invariance. Experiments allow to set stringent constraints on well established symmetry laws, on the physics beyond the Standard Model of particles and interactions, and on General Relativity and its possible extensions. In this review, we discuss precision tests of gravity in General Relativity and alternative theories and their relation with the Equivalence Principle. In the first part, we discuss the Einstein Equivalence Principle according to its weak and strong formulation. We recall some basic topics of General Relativity and the necessity of its extension. Some models of modified gravity are presented in some details. The second part of the paper is devoted to the experimental tests of the Equivalence Principle in its weak formulation. We present the results and methods used in high-precision experiments, and discuss the potential and prospects for future experimental tests.
翻訳日:2023-06-04 07:22:45 公開日:2020-04-07
# 多値系におけるフレドキンゲートの最適合成

Optimal synthesis of the Fredkin gate in a multilevel system ( http://arxiv.org/abs/2004.03134v1 )

ライセンス: Link先を確認
Wen-Qiang Liu and Hai-Rui Wei(参考訳) 3キュービットのフレドキンゲートの最適コストは5つの2キュービットのエンタングゲートであり、オーバーヘッドはコントロールノーゲート(CNOT)に制限された場合に8に上昇する。 高次元ヒルベルト空間を利用することで、3量子フレドキンゲートのコストを8個の CNOT から5個の隣り合う CNOT に削減する。 また、2n+3 cnotと2n single-qudit演算を備えたn-control-qubit fredkinゲートの構築も行った。 最後に、フォトニックアーキテクチャにおける決定論的および非決定論的3ビットフレドキンゲートを設計する。 非決定論的3ビットフレドキンゲートのコストはさらに4つの近接CNOTに削減され、そのようなゲートの成功は単光子検出器によって決定される。 我々の洞察は、理論的な下界と現在のn量子ビット量子計算の最良の結果とのギャップを埋める。

The optimal cost of a three-qubit Fredkin gate is 5 two-qubit entangling gates, and the overhead climbs to 8 when restricted to controlled-not (CNOT) gates. By harnessing higher-dimensional Hilbert spaces, we reduce the cost of a three-qubit Fredkin gate from 8 CNOTs to 5 nearest-neighbor CNOTs. We also present construction of an n-control-qubit Fredkin gate with 2n+3 CNOTs and 2n single-qudit operations. Finally, we design deterministic and nondeterministic three-qubit Fredkin gates in photonic architectures. The cost of a nondeterministic three-qubit Fredkin gate is further reduced to 4 nearest-neighbor CNOTs, and the success of such a gate is heralded by a single-photon detector. Our insights bridge the gap between the theoretical lower bound and the current best result for the n-qubit quantum computation.
翻訳日:2023-05-26 04:19:10 公開日:2020-04-07
# 単一光子偏光量子ビットのための効率的な量子メモリ

Efficient quantum memory for single photon polarization qubits ( http://arxiv.org/abs/2004.03123v1 )

ライセンス: Link先を確認
Y. Wang, J. Li, S. Zhang, K. Su, Y. Zhou, K. Liao, S. Du, H. Yan, and S. L. Zhu(参考訳) 空飛ぶフォトニック量子状態の保存と検索を行う量子メモリは、長距離量子通信と大規模量子計算を実現するための鍵となるインタフェースである。 弱いコヒーレント光パルスで高記憶-記憶効率の多くの実験的なスキームが実施されているが、真の単一光子の量子メモリは、実用上のしきい値である50%未満の効率を持つ。 本稿では, レーザ冷却ルビジウム原子における平衡二チャネル電磁誘導透過性に基づく, 85%の効率と99%の忠実度を有する単一光子偏光量子ビットに対する量子メモリの実証を報告する。 単一チャネルの量子メモリでは、単一光子時間波形の保存と検索に最適な効率は最大90.6%である。 その結果、フォトニック量子メモリは量子情報処理における実用的応用に近づいた。

A quantum memory, for storing and retrieving flying photonic quantum states, is a key interface for realizing long-distance quantum communication and large-scale quantum computation. While many experimental schemes of high storage-retrieval efficiency have been performed with weak coherent light pulses, all quantum memories for true single photons achieved so far have efficiencies far below 50%, a threshold value for practical applications. Here, we report the demonstration of a quantum memory for single-photon polarization qubits with an efficiency of >85% and a fidelity of >99 %, basing on balanced two-channel electromagnetically induced transparency in laser-cooled rubidium atoms. For the single-channel quantum memory, the optimized efficiency for storing and retrieving single-photon temporal waveforms can be as high as 90.6 %. Our result pushes the photonic quantum memory closer to its practical applications in quantum information processing.
翻訳日:2023-05-26 04:18:56 公開日:2020-04-07
# 量子コンピュータを用いた地理空間データ処理の高速化手法

Methods for Accelerating Geospatial Data Processing Using Quantum Computers ( http://arxiv.org/abs/2004.03079v1 )

ライセンス: Link先を確認
Maxwell Henderson, Jarred Gallina, Michael Brett(参考訳) 量子コンピューティング(Quantum Computing)は、最適化と機械学習プロセスの加速を通じて宇宙産業におけるオペレーションを強化する可能性を持つ革新的技術である。 機械学習プロセスは地理空間データにおける画像の自動分類を可能にする。 新しい量子アルゴリズムは、これらの問題を解決するための新しいアプローチと、現在の古典的手法に対する潜在的な利点を提供する。 ユニバーサル量子コンピュータ(Universal Quantum Computers)は現在、リゲッティ・コンピューティングや他のプロバイダによって開発されており、理論上は古典的なアルゴリズムよりも高速に、完全に一般的な量子アルゴリズムを実行できる。 本稿では,畳み込みニューラルネットワークへの普遍量子拡張を用いた衛星画像の分類手法である量子畳み込みニューラルネットワークについて述べる。 洗練された手法を用いることで、この領域における以前の量子研究よりもパフォーマンスが向上し、最終的な量子優位につながる可能性のある改良の可能性を見出した。 SAT-4衛星画像データセットを用いてこれらのネットワークをベンチマークし、宇宙産業における機械学習技術の有用性と量子機械学習がもたらす潜在的な利点を実証する。

Quantum computing is a transformative technology with the potential to enhance operations in the space industry through the acceleration of optimization and machine learning processes. Machine learning processes enable automated image classification in geospatial data. New quantum algorithms provide novel approaches for solving these problems and a potential future advantage over current, classical techniques. Universal Quantum Computers, currently under development by Rigetti Computing and other providers, enable fully general quantum algorithms to be executed, with theoretically proven speed-up over classical algorithms in certain cases. This paper describes an approach to satellite image classification using a universal quantum enhancement to convolutional neural networks: the quanvolutional neural network. Using a refined method, we found a performance improvement over previous quantum efforts in this domain and identified potential refinements that could lead to an eventual quantum advantage. We benchmark these networks using the SAT-4 satellite imagery data set in order to demonstrate the utility of machine learning techniques in the space industry and the potential advantages that quantum machine learning can offer.
翻訳日:2023-05-26 04:18:30 公開日:2020-04-07
# 資源速度制限:資源変動の最大速度

Resource speed limits: Maximal rate of resource variation ( http://arxiv.org/abs/2004.03078v1 )

ライセンス: Link先を確認
Francesco Campaioli, Chang-shui Yu, Felix A. Pollock, Kavan Modi(参考訳) 量子資源理論の最近の進歩は、多くの量子情報プロトコルが同じ物理的特徴(例えば絡み合い、コヒーレンスなど)の異なる面を利用するという事実によって推進されている。 資源理論は、与えられたプロトコルにおけるこれらの重要な物理的特徴の役割を形式化する。 リソースの生成や劣化をどの程度早く行うことができるのか? 量子速度制限のツールキットを用いて、与えられたリソースが一定の増分によって変化するために必要な最小時間、すなわちリソースの変動率のパワーとして考えられる境界を構築する。 導出境界はいくつかの例を考慮に入れると密接であることが分かる。 最後に, 熱力学力の限界, 資源力の一般化, 環境との結合強度の推定など, 本研究の応用について考察する。

Recent advances in quantum resource theories have been driven by the fact that many quantum information protocols make use of different facets of the same physical features, e.g. entanglement, coherence, etc. Resource theories formalise the role of these important physical features in a given protocol. One question that remains open until now is: How quickly can a resource be generated or degraded? Using the toolkit of quantum speed limits we construct bounds on the minimum time required for a given resource to change by a fixed increment, which might be thought of as the power of said resource, i.e., rate of resource variation. We show that the derived bounds are tight by considering several examples. Finally, we discuss some applications of our results, which include bounds on thermodynamic power, generalised resource power, and estimating the coupling strength with the environment.
翻訳日:2023-05-26 04:18:13 公開日:2020-04-07
# マイクロメカニカル共振器における位置と運動量と量子状態

Position- and momentum-squeezed quantum states in micro-scale mechanical resonators ( http://arxiv.org/abs/2004.03533v1 )

ライセンス: Link先を確認
Y. Le Coq, K. M{\o}lmer and S. Seidelin(参考訳) 現代物理学の課題は、例えば機械振動子のようなバルク物質の量子的挙動を研究することである。 従来, 機械振動子を組み込んだ希土類イオンドーパントのエネルギーレベルに結合させることで, 低フォノン数状態の共振器を作製できることが実証されてきた。 本稿では,このプロトコルを拡張して運動量と位置のスクイーズ状態を作成する方法を説明し,得られたスクイーズ度が初期条件と発振器の温度環境との結合にどのように依存するかを解析する。

A challenge of modern physics is to investigate the quantum behavior of a bulk material object, for instance a mechanical oscillator. We have earlier demonstrated that by coupling a mechanical oscillator to the energy levels of embedded rare-earth ion dopants, it is possible to prepare such a resonator in a low phonon number state. Here, we describe how to extend this protocol in order to prepare momentum- and position squeezed states, and we analyze how the obtainable degree of squeezing depends on the initial conditions and on the coupling of the oscillator to its thermal environment.
翻訳日:2023-05-26 04:10:48 公開日:2020-04-07
# 複雑度幾何学の量子カオス

Quantum Chaos on Complexity Geometry ( http://arxiv.org/abs/2004.03501v1 )

ライセンス: Link先を確認
Bin Yan and Wissam Chemissany(参考訳) 本論文は,量子カオスにおける従来型カオスの概念を直接一般化する形で,量子カオス系が初期条件に対する感度を示すことができるかどうかという,量子カオスにおける基本的長期的問題に取り組む。 複雑性に対する線形応答理論を開発し,カオス系の初期条件の摂動に応答して複雑性が指数関数的感度を示すことを示した。 2つの重要な結果は次の通りである。 一 複雑性線型応答行列は、古典極限におけるリアプノフ指数を完全に回復するスペクトルを生じさせ、 二 複雑性の線形応答は、時間外順序相関器により与えられる。

This article tackles a fundamental long-standing problem in quantum chaos, namely, whether quantum chaotic systems can exhibit sensitivity to initial conditions, in a form that directly generalizes the notion of classical chaos in phase space. We develop a linear response theory for complexity, and demonstrate that the complexity can exhibit exponential sensitivity in response to perturbations of initial conditions for chaotic systems. Two immediate significant results follows: i) the complexity linear response matrix gives rise to a spectrum that fully recovers the Lyapunov exponents in the classical limit, and ii) the linear response of complexity is given by the out-of-time order correlators.
翻訳日:2023-05-26 04:10:20 公開日:2020-04-07
# 実用的な高次元量子鍵分布のための効率的な時間ビン符号化

Efficient time-bin encoding for practical high-dimensional quantum key distribution ( http://arxiv.org/abs/2004.03498v1 )

ライセンス: Link先を確認
I. Vagniluca, B. Da Lio, D. Rusca, D. Cozzolino, Y. Ding, H. Zbinden, A. Zavatta, L. K. Oxenl{\o}we and D. Bacco(参考訳) 高次元量子鍵分布(qkd)は、情報理論的なセキュアな通信を実現し、qkdプロトコルでバイナリエンコードでは得ることができない高い鍵生成率を提供する。 それでも、検出すべき量子状態がより大きなヒルベルト空間に属するため、必要な実験資源の量は増加し、実用的な高次元システムのコストが上昇する。 本稿では、時間と位相エンコーディングと1次元デコイ状態技術を用いて、ファイバベース4次元QKDの新しい手法を提案する。 量子状態の伝送は、標準単一モードファイバーの145kmまでの異なるチャネル長で試験され、同じ実験装置で試験される3状態の2次元BB84プロトコルと比較して秘密鍵レートの増大を評価する。 提案方式では,2個の単光子検出器しか必要としない簡易かつコンパクトな受信機を用いて4次元状態を測定することができる。

High-dimensional quantum key distribution (QKD) allows to achieve information-theoretic secure communications, providing high key generation rates which cannot in principle be obtained by QKD protocols with binary encoding. Nonetheless, the amount of experimental resources needed increases as the quantum states to be detected belong to a larger Hilbert space, thus raising the costs of practical high-dimensional systems. Here, we present a novel scheme for fiber-based 4-dimensional QKD, with time and phase encoding and one-decoy state technique. Quantum states transmission is tested over different channel lengths up to 145 km of standard single-mode fiber, evaluating the enhancement of the secret key rate in comparison to the three-state 2-dimensional BB84 protocol, which is tested with the same experimental setup. Our scheme allows to measure the 4-dimensional states with a simplified and compact receiver, where only two single-photon detectors are necessary, thus making it a cost-effective solution for practical and fiber-based QKD.
翻訳日:2023-05-26 04:10:10 公開日:2020-04-07
# 量子カーネルに基づくバイナリ分類器の理論

The theory of the quantum kernel-based binary classifier ( http://arxiv.org/abs/2004.03489v1 )

ライセンス: Link先を確認
Daniel K. Park, Carsten Blank, Francesco Petruccione(参考訳) バイナリ分類は機械学習の基本的な問題である。 量子類似性に基づくバイナリ分類器と量子干渉を利用したカーネル手法の最近の開発は、量子強化機械学習の膨大な機会を開放した。 この研究は、さらなる進歩の基礎を成すため、量子カーネルベースの分類器の一般理論を拡張した。 既存の量子カーネルベースの分類器を比較し、それらの接続を分析する。 類似度尺度として量子状態間の二乗重なりに着目し, 量子二進分類の必須成分と最小成分について検討した。 分類器は、データタイプ、測定、アンサンブル学習などの様々な側面についても拡張される。 正定値かつ対称な核として純粋な状態の2乗重なりとなるヒルベルト・シュミットの内積の妥当性を明示的に示し、量子二進分類器と核法を接続する。

Binary classification is a fundamental problem in machine learning. Recent development of quantum similarity-based binary classifiers and kernel method that exploit quantum interference and feature quantum Hilbert space opened up tremendous opportunities for quantum-enhanced machine learning. To lay the fundamental ground for its further advancement, this work extends the general theory of quantum kernel-based classifiers. Existing quantum kernel-based classifiers are compared and the connection among them is analyzed. Focusing on the squared overlap between quantum states as a similarity measure, the essential and minimal ingredients for the quantum binary classification are examined. The classifier is also extended concerning various aspects, such as data type, measurement, and ensemble learning. The validity of the Hilbert-Schmidt inner product, which becomes the squared overlap for pure states, as a positive definite and symmetric kernel is explicitly shown, thereby connecting the quantum binary classifier and kernel methods.
翻訳日:2023-05-26 04:09:51 公開日:2020-04-07
# 子どもの質問応答スキル育成のための教育的エージェント

Pedagogical Agents for Fostering Question-Asking Skills in Children ( http://arxiv.org/abs/2004.03472v1 )

ライセンス: Link先を確認
Mehdi Alaimi, Edith Law, Kevin Daniel Pantasdo, Pierre-Yves Oudeyer, Helene Sauzeon(参考訳) 質問は学術知識を構築するための重要なツールであり、好奇心の自己強化ドライバーである。 しかし、調査の結果、教室では質問は稀であり、子供の質問はしばしば表面的で深い推論が欠如していることがわかった。 本研究では,学習者に対して,好奇心に関連するより複雑な質問形態である,異種思考の質問を促す教育エージェントを開発した。 我々は,5年生95名を対象に,コンバージェント思考と異種思考のどちらかを奨励するエージェントと対話した。 その結果,両者の介入は,主観的動機付けスコアが高いにもかかわらず,子どもの好奇心に対する認識を著しく変化させることはなかった。 さらに, 子どもの好奇心特性は, 異種思考エージェントの質問質問に対する仲介効果を有しており, 興味を抱く傾向に基づいて, 質問行動の介入を各学生にパーソナライズする必要があることが示唆された。

Question asking is an important tool for constructing academic knowledge, and a self-reinforcing driver of curiosity. However, research has found that question asking is infrequent in the classroom and children's questions are often superficial, lacking deep reasoning. In this work, we developed a pedagogical agent that encourages children to ask divergent-thinking questions, a more complex form of questions that is associated with curiosity. We conducted a study with 95 fifth grade students, who interacted with an agent that encourages either convergent-thinking or divergent-thinking questions. Results showed that both interventions increased the number of divergent-thinking questions and the fluency of question asking, while they did not significantly alter children's perception of curiosity despite their high intrinsic motivation scores. In addition, children's curiosity trait has a mediating effect on question asking under the divergent-thinking agent, suggesting that question-asking interventions must be personalized to each student based on their tendency to be curious.
翻訳日:2023-05-26 04:09:37 公開日:2020-04-07
# 準周期駆動量子ビットを用いた2次元量子ホール物理の探索

Exploring 2D synthetic quantum Hall physics with a quasi-periodically driven qubit ( http://arxiv.org/abs/2004.03457v1 )

ライセンス: Link先を確認
Eric Boyers, Philip J. D. Crowley, Anushya Chandran, Alexander O. Sushkov(参考訳) 準周期駆動量子システムは、位相絶縁体の量子化輸送特性と類似して、量子化された位相特性を示すと予測される。 ダイヤモンド中の1つの窒素空孔中心を用いて、2トーン駆動による合成量子ホール効果を実験的に研究する。 我々は、2つの量子状態の軌道の進化を計測し、最初は合成相空間の近傍の点で準備した。 系の位相位相を特徴付けるチャーン数に比例する量子化された基本周波数における重なり振動の予測により,合成ホール効果を検出する。 さらに、合成ホール状態と自明な状態の遷移におけるチャーン数の半量子化と、合成相空間における局所ベリー曲率の関連する濃度を観察する。 本研究は,高次元位相絶縁体および半金属を合成次元で設計・研究するために,駆動量子ビットを用いる可能性を開く。

Quasi-periodically driven quantum systems are predicted to exhibit quantized topological properties, in analogy with the quantized transport properties of topological insulators. We use a single nitrogen-vacancy center in diamond to experimentally study a synthetic quantum Hall effect with a two-tone drive. We measure the evolution of trajectories of two quantum states, initially prepared at nearby points in synthetic phase space. We detect the synthetic Hall effect through the predicted overlap oscillations at a quantized fundamental frequency proportional to the Chern number, which characterizes the topological phases of the system. We further observe half-quantization of the Chern number at the transition between the synthetic Hall regime and the trivial regime, and the associated concentration of local Berry curvature in synthetic phase space. Our work opens up the possibility of using driven qubits to design and study higher-dimensional topological insulators and semi-metals in synthetic dimensions.
翻訳日:2023-05-26 04:09:16 公開日:2020-04-07
# 量子ダイヤモンド顕微鏡による集積回路活動の磁場フィンガープリント

Magnetic Field Fingerprinting of Integrated Circuit Activity with a Quantum Diamond Microscope ( http://arxiv.org/abs/2004.03707v1 )

ライセンス: Link先を確認
Matthew J. Turner, Nicholas Langellier, Rachel Bainbridge, Dan Walters, Srujan Meesala, Thomas M. Babinec, Pauli Kehayias, Amir Yacoby, Evelyn Hu, Marko Lon\v{c}ar, Ronald L. Walsworth, Edlyn V. Levine(参考訳) アクティブ集積回路(IC)における電流密度分布は、ICに関する構造的および機能的な情報を含む磁場のパターンをもたらす。 磁場は半導体産業が使用する標準材料を通り抜け、セキュリティおよび故障解析アプリケーションにICアクティビティをフィンガープリントする強力な手段を提供する。 そこで我々は,QDM(Quantum Diamond Microscope)を用いて,ICからの静磁場エマニュエーションの高空間分解能,広視野,ベクトル磁場イメージングを実測した。 QDMは、IC上に配置された透明ダイヤモンド基板の表面付近で、高密度の蛍光窒素空洞(NV)量子欠陥を用いて磁場を撮像する。 我々は、QDMイメージングが3.7 mm$\times$3.7 mmにおける3つのベクトル磁場成分の同時分解能を$\sim10$$\mu$mで達成していることを示す。 本研究は,無傷および非カプセル化されたフィールドプログラマブルゲートアレイ(fpga)における空間的電流の流れから発生する活動について検討し,qdm画像が機械学習の分類法を用いて高忠実度で事前プログラムされたic活性状態を判定できることを見出した。

Current density distributions in active integrated circuits (ICs) result in patterns of magnetic fields that contain structural and functional information about the IC. Magnetic fields pass through standard materials used by the semiconductor industry and provide a powerful means to fingerprint IC activity for security and failure analysis applications. Here, we demonstrate high spatial resolution, wide field-of-view, vector magnetic field imaging of static (DC) magnetic field emanations from an IC in different active states using a Quantum Diamond Microscope (QDM). The QDM employs a dense layer of fluorescent nitrogen-vacancy (NV) quantum defects near the surface of a transparent diamond substrate placed on the IC to image magnetic fields. We show that QDM imaging achieves simultaneous $\sim10$ $\mu$m resolution of all three vector magnetic field components over the 3.7 mm $\times$ 3.7 mm field-of-view of the diamond. We study activity arising from spatially-dependent current flow in both intact and decapsulated field-programmable gate arrays (FPGAs); and find that QDM images can determine pre-programmed IC active states with high fidelity using machine-learning classification methods.
翻訳日:2023-05-26 04:01:35 公開日:2020-04-07
# 高性能相対論的電子構造モデリングを目指して:EXP-Tプログラムパッケージ

Towards High Performance Relativistic Electronic Structure Modelling: The EXP-T Program Package ( http://arxiv.org/abs/2004.03682v1 )

ライセンス: Link先を確認
Alexander V. Oleynichenko, Andr\'ei Zaitsevskii, Ephraim Eliav(参考訳) 理論物理学および実験物理学の分野で生じる現代の課題は、高精度な電子構造モデリングのための新しい強力なツールを必要とする。 本稿では,現代の並列計算機用に設計されたFS-RCC法の実装について述べる。 基礎となる理論モデル、アルゴリズム、データ構造について論じる。 実装のパフォーマンスとスケーリング機能は分析される。 開発されたソフトウェアは、重い超重核を含む原子や分子の性質を予測するための全く新しいレベルの精度を達成することができる。

Modern challenges arising in the fields of theoretical and experimental physics require new powerful tools for high-precision electronic structure modelling; one of the most perspective tools is the relativistic Fock space coupled cluster method (FS-RCC). Here we present a new extensible implementation of the FS-RCC method designed for modern parallel computers. The underlying theoretical model, algorithms and data structures are discussed. The performance and scaling features of the implementation are analyzed. The software developed allows to achieve a completely new level of accuracy for prediction of properties of atoms and molecules containing heavy and superheavy nuclei.
翻訳日:2023-05-26 04:01:03 公開日:2020-04-07
# フォン・ノイマンエントロピーの有限性を保存する量子チャネルと演算について

On quantum channels and operations preserving finiteness of the von Neumann entropy ( http://arxiv.org/abs/2004.03582v1 )

ライセンス: Link先を確認
M.E. Shirokov, A.V. Bulinski(参考訳) 有限エントロピーを持つ状態を有限エントロピーを持つ状態にマッピングする量子チャネルの類(半群)を記述する。 特に、このクラスは自然に3つの凸部分クラスに分解され、2つは連結とテンソル積の下で閉じている。 有限出力エントロピーを持つチャネルと、エントロピーの有限性を保持するエネルギー拘束チャネルの2種類の量子チャネルの出力エントロピーに対する漸近的に密接な普遍的連続性境界を求める。

We describe the class (semigroup) of quantum channels mapping states with finite entropy into states with finite entropy. We show, in particular, that this class is naturally decomposed into three convex subclasses, two of them are closed under concatenations and tensor products. We obtain asymptotically tight universal continuity bounds for the output entropy of two types of quantum channels: channels with finite output entropy and energy-constrained channels preserving finiteness of the entropy.
翻訳日:2023-05-26 04:00:12 公開日:2020-04-07
# QSystem:量子回路シミュレーションのためのビットワイズ表現

QSystem: bitwise representation for quantum circuit simulations ( http://arxiv.org/abs/2004.03560v1 )

ライセンス: Link先を確認
Evandro Chagas Ribeiro da Rosa and Bruno G. Taketani(参考訳) 本稿では,量子状態とゲートを格納するHashmapデータ構造上のビット演算に着目した量子回路シミュレーション用オープンソースプラットフォームQSystemを提案する。 QSystemはC++で実装され、Pythonモジュールとして提供され、C++のパフォーマンスとPythonのダイナミズムを活用している。 シミュレータAPIは単純で直感的に設計されており、Pythonの量子回路のシミュレーションを合理化している。 現在のリリースには、ベクトル、行列、提案されたビットワイズという、量子状態を表現する3つの異なる方法がある。 後者は我々の主な成果であり、システム状態における重ね合わせの量と指数関数的な優位性を示す状態と操作の両方を保存および操作する新しい方法である。 Qiskit, Forest SDK QVM, Cirqなどのシミュレータに対してビットワイズ表現をベンチマークする。

We present QSystem, an open-source platform for the simulation of quantum circuits focused on bitwise operations on a Hashmap data structure storing quantum states and gates. QSystem is implemented in C++ and delivered as a Python module, taking advantage of the C++ performance and the Python dynamism. The simulators API is designed to be simple and intuitive, thus streamlining the simulation of a quantum circuit in Python. The current release has three distinct ways to represent the quantum state: vector, matrix, and the proposed bitwise. The latter constitutes our main results and is a new way to store and manipulate both states and operations which shows an exponential advantage with the amount of superposition in the systems state. We benchmark the bitwise representation against other simulators, namely Qiskit, Forest SDK QVM, and Cirq.
翻訳日:2023-05-26 03:59:40 公開日:2020-04-07
# 都市道路網における洪水伝播と不況のネットワークパーコレーションに基づく伝染モデル

A Network Percolation-based Contagion Model of Flood Propagation and Recession in Urban Road Networks ( http://arxiv.org/abs/2004.03552v1 )

ライセンス: Link先を確認
Chao Fan, Xiangqi Jiang, Ali Mostafavi(参考訳) 本研究では,都市道路網における洪水水の発生・後退の空間的広がりと時間的変化を予測するための簡易かつ強力な数学的手法として,感染モデルを提案する。 洪水に耐性のある都市道路のネットワークは、公共サービスの提供や緊急対応に不可欠である。 都市ネットワークにおける洪水水の拡散は、複雑な時空間現象である。 本研究では,都市道路網における洪水水の時空間拡散・後退過程を数学的に記述する。 ネットワーク内の洪水の進化は,サセプティブル・エクスポージド・インフェクトド・リカバード(SEIR)モデルに類似した常微分方程式系において,3つのマクロな特性-フロード伝播速度(\beta$),フラッドインキュベーション速度(\alpha$),リカバリレート(\mu$)の3つに基づいて捉えることができる。 道路セグメントの浸水確率が近傍道路セグメントの浸水度に依存するネットワーク・パーコレーション・プロセスと洪水感染モデルを統合した。 提案モデルの適用は,2017年のハリケーン・ハーベイにおけるハリス郡の道路洪水の高解像度履歴データを用いて検証された。 その結果,洪水の少ない道路を時間とともに監視・予測できることがわかった。 さらに, 提案モデルでは, 試験時間間隔のほとんどにおいて, 浸水した道路の空間的広がりを再現し, 精度90\%の精度が得られる。 この結果から,提案された数学的感染モデルは,道路ネットワークにおける洪水予報のための緊急管理者,公務員,市民,第一応答者,その他の意思決定者を支援する大きな可能性を示唆している。

In this study, we propose a contagion model as a simple and powerful mathematical approach for predicting the spatial spread and temporal evolution of the onset and recession of flood waters in urban road networks. A network of urban roads resilient to flooding events is essential for provision of public services and for emergency response. The spread of floodwaters in urban networks is a complex spatial-temporal phenomenon. This study presents a mathematical contagion model to describe the spatial-temporal spread and recession process of flood waters in urban road networks. The evolution of floods within networks can be captured based on three macroscopic characteristics-flood propagation rate ($\beta$), flood incubation rate ($\alpha$), and recovery rate ($\mu$)-in a system of ordinary differential equations analogous to the Susceptible-Exposed-Infected-Recovered (SEIR) model. We integrated the flood contagion model with the network percolation process in which the probability of flooding of a road segment depends on the degree to which the nearby road segments are flooded. The application of the proposed model was verified using high-resolution historical data of road flooding in Harris County during Hurricane Harvey in 2017. The results show that the model can monitor and predict the fraction of flooded roads over time. Additionally, the proposed model can achieve $90\%$ precision and recall for the spatial spread of the flooded roads at the majority of tested time intervals. The findings suggest that the proposed mathematical contagion model offers great potential to support emergency managers, public officials, citizens, first responders, and other decision makers for flood forecast in road networks.
翻訳日:2023-05-26 03:59:25 公開日:2020-04-07
# 中等教育におけるコンピュータ:教育ゲーム

Computers in Secondary Schools: Educational Games ( http://arxiv.org/abs/2004.05892v1 )

ライセンス: Link先を確認
Margarida Romero (LINE, UCA)(参考訳) 本項では中学校における教育ゲームを紹介する。 教育ゲームには、デジタル技術が支援する遊び心のある学習意図を持つ3つの主要なタイプの教育活動が含まれる:教育真剣なゲーム、教育ゲーム化、ゲーム作成による学習である。 教育的な真剣なゲームは学習目的をサポートするデジタルゲームである。 ゲーミフィケーションは「ゲームデザイン要素とゲーム思考の非ゲーム文脈における使用」として定義される(Deterding et al. 2011, pp. 13)。 教育ゲーム化は、デジタルゲームを通じて開発されるのではなく、学習目標を支援するゲーム要素を含む。 ゲーム作成による学習は、ゲーム作成プロセスやゲーム作成プロセスを通じて動員される知識に関連する学習プロセスをサポートするゲームの設計とプロトタイプの作成のプロセスに焦点を当てている。 本項目では,中等教育における教育ゲームの特徴として,エンタテインメントゲーム,シリアスゲーム,ゲーム化,ゲームデザインの4つの形態が紹介されている。

This entry introduces educational games in secondary schools. Educational games include three main types of educational activities with a playful learning intention supported by digital technologies: educational serious games, educational gamification, and learning through game creation. Educational serious games are digital games that support learning objectives. Gamification is defined as the use of "game design elements and game thinking in a non-gaming context" (Deterding et al. 2011, p. 13). Educational gamification is not developed through a digital game but includes game elements for supporting the learning objectives. Learning through game creation is focused on the process of designing and creating a prototype of a game to support a learning process related to the game creation process or the knowledge mobilized through the game creation process. Four modalities of educational games in secondary education are introduced in this entry to describe educational games in secondary education: educational purpose of entertainment games, serious games, gamification, and game design.
翻訳日:2023-05-26 03:49:24 公開日:2020-04-07
# マルコフ力学と非コヒーレント混合による非マルコフ性の測定

Measuring non-Markovianity via incoherent mixing with Markovian dynamics ( http://arxiv.org/abs/2004.03741v1 )

ライセンス: Link先を確認
Dario De Santis, Vittorio Giovannetti(参考訳) 非マルコビアン性の測定は、マルコビアン変換を常に過度に行うために、非コヒーレント混合によってプロセスに追加しなければならない余分なマルコビアンノイズの最小量に基づいて導入する。 任意の次元における偏極展開の集合と、量子ビットに対する退化進化の集合を考慮し、この尺度を評価する方法を示す。

We introduce a measure of non-Markovianity based on the minimal amount of extra Markovian noise we have to add to the process via incoherent mixing, in order to make the resulting transformation Markovian too at all times. We show how to evaluate this measure by considering the set of depolarizing evolutions in arbitrary dimension and the set of dephasing evolutions for qubits.
翻訳日:2023-05-26 03:48:36 公開日:2020-04-07
# datafed: フェデレーションデータ管理による再現可能な研究に向けて

DataFed: Towards Reproducible Research via Federated Data Management ( http://arxiv.org/abs/2004.03710v1 )

ライセンス: Link先を確認
Dale Stansberry, Suhas Somnath, Jessica Breet, Gregory Shutt, and Mallikarjun Shankar(参考訳) データ共有の必要性とデータボリュームの爆発の必要性が相まって、科学研究の協力的かつグローバル化が進み、科学データ管理システム(sdms)が緊急に必要となる。 SDMSは、データ組織、キュレーション、検索、共有、普及などを大幅に単純化し、強化する、論理的で包括的なデータビューを提示します。 DataFed - 科学施設の疎結合ネットワーク内のストレージシステムのフェデレーションにまたがる、軽量で分散されたSDMS。 既存のSDMS製品とは異なり、DataFedはDataFedのデプロイ、メンテナンス、拡張を簡単にする高性能でスケーラブルなユーザー管理およびデータ転送技術を使用している。 DataFedは、データを管理し、複雑な科学的ワークフローを統合するためのWebベースおよびコマンドラインインターフェースを提供する。 DataFedは、所望の環境で正しいデータの信頼性の高いステージングを可能にすることで、再現可能な科学研究への一歩である。

The increasingly collaborative, globalized nature of scientific research combined with the need to share data and the explosion in data volumes present an urgent need for a scientific data management system (SDMS). An SDMS presents a logical and holistic view of data that greatly simplifies and empowers data organization, curation, searching, sharing, dissemination, etc. We present DataFed -- a lightweight, distributed SDMS that spans a federation of storage systems within a loosely-coupled network of scientific facilities. Unlike existing SDMS offerings, DataFed uses high-performance and scalable user management and data transfer technologies that simplify deployment, maintenance, and expansion of DataFed. DataFed provides web-based and command-line interfaces to manage data and integrate with complex scientific workflows. DataFed represents a step towards reproducible scientific research by enabling reliable staging of the correct data at the desired environment.
翻訳日:2023-05-26 03:48:27 公開日:2020-04-07
# マイクロCT画像データベースを用いたGANによる臨床CT画像のマルチモード超解像

Multi-modality super-resolution loss for GAN-based super-resolution of clinical CT images using micro CT image database ( http://arxiv.org/abs/1912.12838v2 )

ライセンス: Link先を確認
Tong Zheng, Hirohisa Oda, Takayasu Moriya, Shota Nakamura, Masahiro Oda, Masaki Mori, Horitsugu Takabatake, Hiroshi Natori and Kensaku Mori(参考訳) 本稿では,臨床用ctおよびマイクロctボリュームの非ペアトレーニングデータセットにおける画像構造と強度を維持できるgan系超解像度用マルチモダリティ損失関数を新たに導入する。 3D Multidetector Computed-tomography (CT) を用いて肺癌の非侵襲診断を行った。 一方,切除肺標本のマイクロCT像を50マイクロメートル以上の高分解能で撮影することができる。 しかし、マイクロctスキャンは生きている人間のイメージングには適用できない。 肺癌患者の術前臨床CTボリュームから癌浸潤面積などの高精細な情報を得るためには,臨床CTボリュームの超解像(SR)から$\mu$CTレベルまでを代替ソリューションの1つとして考えられる。 ほとんどのsr法は訓練のために低解像度画像と高解像度画像のペアを必要とするが、臨床用ctとマイクロctの正確なペア画像を得ることは不可能である。 本稿では,CycleGAN や UNIT などの画像翻訳手法を応用したマイクロCT画像を用いた,角膜CTのための未ペアSR手法を提案する。 臨床CTとマイクロCTは構造と強度において非常に異なるため,超高分解能画像へのGANベースの未ペア画像変換法の直接適用は任意の画像を生成する傾向にある。 本研究では,超解像タスクにおいて入力画像と対応する出力画像の類似性を維持するために,マルチモダリティ損失関数と呼ばれる新しい損失関数を提案する。 実験の結果,新たに提案された損失関数により,肺がん患者の臨床CT画像のSRをマイクロCTレベルに向上させることができたが,オリジナルのCycleGANとUNITは超解像に失敗した。

This paper newly introduces multi-modality loss function for GAN-based super-resolution that can maintain image structure and intensity on unpaired training dataset of clinical CT and micro CT volumes. Precise non-invasive diagnosis of lung cancer mainly utilizes 3D multidetector computed-tomography (CT) data. On the other hand, we can take micro CT images of resected lung specimen in 50 micro meter or higher resolution. However, micro CT scanning cannot be applied to living human imaging. For obtaining highly detailed information such as cancer invasion area from pre-operative clinical CT volumes of lung cancer patients, super-resolution (SR) of clinical CT volumes to $\mu$CT level might be one of substitutive solutions. While most SR methods require paired low- and high-resolution images for training, it is infeasible to obtain precisely paired clinical CT and micro CT volumes. We aim to propose unpaired SR approaches for clincial CT using micro CT images based on unpaired image translation methods such as CycleGAN or UNIT. Since clinical CT and micro CT are very different in structure and intensity, direct application of GAN-based unpaired image translation methods in super-resolution tends to generate arbitrary images. Aiming to solve this problem, we propose new loss function called multi-modality loss function to maintain the similarity of input images and corresponding output images in super-resolution task. Experimental results demonstrated that the newly proposed loss function made CycleGAN and UNIT to successfully perform SR of clinical CT images of lung cancer patients into micro CT level resolution, while original CycleGAN and UNIT failed in super-resolution.
翻訳日:2023-01-17 03:01:36 公開日:2020-04-07
# カオスシステムにおける隠れ状態の学習:物理インフォームドエコー状態ネットワークアプローチ

Learning Hidden States in a Chaotic System: A Physics-Informed Echo State Network Approach ( http://arxiv.org/abs/2001.02982v2 )

ライセンス: Link先を確認
Nguyen Anh Khoa Doan, Wolfgang Polifke, Luca Magri(参考訳) 我々は,非測定状態(隠れ状態)のカオスシステムにおける進化を再構築するために,Physical-Informed Echo State Network (PI-ESN) フレームワークを拡張した。 PI-ESNは、使用によって訓練される (i)未測定の状態に関する情報を含まないデータ、及び (ii) 原型カオス力学系の物理方程式。 非ノイズとノイズのデータセットが考慮されている。 まず、PI-ESNが計測されていない状態を正確に再構築できることが示される。 第二に、再建はノイズデータに対して堅牢であることが示され、PI-ESNはノイズとして機能する。 本稿では,物理知識と機械学習の相乗効果を活かし,カオス力学系における無測定状態の再構成と予測を促進する新たな可能性を明らかにする。

We extend the Physics-Informed Echo State Network (PI-ESN) framework to reconstruct the evolution of an unmeasured state (hidden state) in a chaotic system. The PI-ESN is trained by using (i) data, which contains no information on the unmeasured state, and (ii) the physical equations of a prototypical chaotic dynamical system. Non-noisy and noisy datasets are considered. First, it is shown that the PI-ESN can accurately reconstruct the unmeasured state. Second, the reconstruction is shown to be robust with respect to noisy data, which means that the PI-ESN acts as a denoiser. This paper opens up new possibilities for leveraging the synergy between physical knowledge and machine learning to enhance the reconstruction and prediction of unmeasured states in chaotic dynamical systems.
翻訳日:2023-01-14 03:03:47 公開日:2020-04-07
# カオスシステムにおけるエルゴード平均学習

Learning ergodic averages in chaotic systems ( http://arxiv.org/abs/2001.04027v2 )

ライセンス: Link先を確認
Francisco Huhn, Luca Magri(参考訳) カオス的アトラクタの時間平均を予測するために,物理に変形した機械学習手法を提案する。 この方法は、ハイブリッドエコー状態ネットワーク(hESN)に基づいている。 システムはエルゴードであるので、時間平均はエルゴード平均と等しいと仮定する。 従来のエコー状態ネットワーク(ESN)と比較して、hESNは不完全または不完全な物理モデルから追加情報を使用する。 我々は,hESNの性能を評価し,それをESNと比較した。 この手法は,物理モデルを含めることで予測精度が向上し,相対誤差が48%から7%に低下するカオス時間遅れ熱音響システム上で実証される。 この改良は、2つの常微分方程式を解くための低費用で得られる。 このフレームワークは、カオスシステムの時間平均量の予測を改善するために、機械学習技術と事前の物理知識を組み合わせる可能性を示している。

We propose a physics-informed machine learning method to predict the time average of a chaotic attractor. The method is based on the hybrid echo state network (hESN). We assume that the system is ergodic, so the time average is equal to the ergodic average. Compared to conventional echo state networks (ESN) (purely data-driven), the hESN uses additional information from an incomplete, or imperfect, physical model. We evaluate the performance of the hESN and compare it to that of an ESN. This approach is demonstrated on a chaotic time-delayed thermoacoustic system, where the inclusion of a physical model significantly improves the accuracy of the prediction, reducing the relative error from 48% to 7%. This improvement is obtained at the low extra cost of solving two ordinary differential equations. This framework shows the potential of using machine learning techniques combined with prior physical knowledge to improve the prediction of time-averaged quantities in chaotic systems.
翻訳日:2023-01-13 04:22:14 公開日:2020-04-07
# 2次元イオン結晶実験のための偏極リング電極付きポールトラップ

A Paul Trap with Sectored Ring Electrodes for Experiments with Two-Dimensional Ion Crystals ( http://arxiv.org/abs/2001.05013v2 )

ライセンス: Link先を確認
M.K. Ivory, A. Kato, A. Hasanzadeh, B. Blinov(参考訳) 我々は,スケーラブルな量子計算,量子シミュレーション,および2次元結晶相転移・欠陥研究のための二次元(2次元)イオン結晶を作製するための閉じ込め型イオンシステムを開発した。 このトラップは、リング電極を平らにし、8つの同一セクターに分割したポールトラップを改造したもので、その2つのエンドキャップ電極は、レーザーと撮像光学アクセスのための中空円錐形になっている。 10個のトラップ電極は全て独立に直流バイアスで様々なアスペクト比トラップジオメトリを作成することができる。 最大30Ba+イオンの冷却2D結晶をトラップしドップラーし、結晶面と横方向の両方でトラップ電位のチューニング性を示した。

We have developed an trapped ion system for producing two-dimensional (2D) ion crystals for applications in scalable quantum computing, quantum simulations, and 2D crystal phase transition and defect studies. The trap is a modification of a Paul trap with its ring electrode flattened and split into eight identical sectors, and its two endcap electrodes shaped as truncated hollow cones for laser and imaging optics access. All ten trap electrodes can be independently DC-biased to create various aspect ratio trap geometries. We trap and Doppler cool 2D crystals of up to 30 Ba+ ions and demonstrate the tunability of the trapping potential both in the plane of the crystal and in the transverse direction.
翻訳日:2023-01-11 13:47:06 公開日:2020-04-07
# 量子クエンチ後の持続振動:不均一の場合

Persistent oscillations after quantum quenches: The inhomogeneous case ( http://arxiv.org/abs/2001.05349v2 )

ライセンス: Link先を確認
Gesualdo Delfino(参考訳) 前述したように、1次元翻訳不変系の量子クエンチは、後クエンチ状態が単一準粒子モードとそのモードに観測可能なカップルを含む場合、局所的観測可能の損傷のない振動を生じさせる。 ここでは初期翻訳不変性を破るクエンチを考える。 システム全体の間隔でのみ行われるクエンチに焦点をあてて、時間が増えるにつれてクエンチされた間隔から広がる光円錐の内部で発生する局所観測器の時間変化を解析的に決定する。 クエンチが単一準粒子モードを励起すると、準粒子質量の周波数による振動は、クエンチ間隔の長さとともに増加するまで無害のままであり、最終的に$t^{-1/2}$として崩壊する。 減衰のない変換不変量は、区間の長さが無限になるにつれて回復される。

We previously showed that a quantum quench in a one-dimensional translation invariant system produces undamped oscillations of a local observable when the post-quench state includes a single-quasiparticle mode and the observable couples to that mode [J. Phys. A 47 (2014) 402001]. Here we consider quenches that break initial translation invariance. Focusing on quenches performed only on an interval of the whole system, we analytically determine the time evolution of local observables, which occurs inside a truncated light cone spreading away from the quenched interval as time increases. If the quench excites a single-quasiparticle mode, oscillations with the frequency of the quasiparticle mass stay undamped until a time increasing with the length of the quenched interval, before eventually decaying as $t^{-1/2}$. The translation invariant case with no damping is recovered as the length of the interval goes to infinity.
翻訳日:2023-01-11 07:33:22 公開日:2020-04-07
# 深部ニューラルネットワークにおけるランダム行列について ガウスのケース

On Random Matrices Arising in Deep Neural Networks. Gaussian Case ( http://arxiv.org/abs/2001.06188v2 )

ライセンス: Link先を確認
Leonid Pastur(参考訳) 本稿では,深部ニューラルネットワークの解析において生じるランダム行列の積の特異値の分布を扱う。 行列はサンプル共分散行列の積類似物に似ているが、重要な違いは、統計とランダム行列理論の標準設定において非ランダムであると仮定される集団共分散行列は、さらにランダムなデータ行列の特定の関数である。 この問題は近年の研究[21]では自由確率論の技術を用いて検討されている。 しかしながら、自由確率理論はデータ行列とは独立な集団行列を扱うので、この場合の適用性は追加の正当化を必要とする。 本稿では、データ行列のエントリが独立なガウス確率変数であるという仮定の下で、ランダム行列理論の標準手法のバージョンを用いて、これを正当化する。 続く論文[18]では、データ行列のエントリが、複数の有限モーメントを持つ独立に分布する確率変数である場合まで、結果を拡張します。 これは特に、見なされるランダム行列上のいわゆるマクロ普遍性の性質を拡張するものである。

The paper deals with distribution of singular values of product of random matrices arising in the analysis of deep neural networks. The matrices resemble the product analogs of the sample covariance matrices, however, an important difference is that the population covariance matrices, which are assumed to be non-random in the standard setting of statistics and random matrix theory, are now random, moreover, are certain functions of random data matrices. The problem has been considered in recent work [21] by using the techniques of free probability theory. Since, however, free probability theory deals with population matrices which are independent of the data matrices, its applicability in this case requires an additional justification. We present this justification by using a version of the standard techniques of random matrix theory under the assumption that the entries of data matrices are independent Gaussian random variables. In the subsequent paper [18] we extend our results to the case where the entries of data matrices are just independent identically distributed random variables with several finite moments. This, in particular, extends the property of the so-called macroscopic universality on the considered random matrices.
翻訳日:2023-01-10 13:04:48 公開日:2020-04-07
# RPN: 効果的なフェデレーション学習のための残留プールネットワーク

RPN: A Residual Pooling Network for Efficient Federated Learning ( http://arxiv.org/abs/2001.08600v2 )

ライセンス: Link先を確認
Anbu Huang, Yuanyuan Chen, Yang Liu, Tianjian Chen, and Qiang Yang(参考訳) フェデレーション学習(federated learning)は、データのプライバシとセキュリティを保護しながら、さまざまなパーティが協力してモデルをトレーニング可能な、分散機械学習フレームワークである。 モデルの複雑さ、ネットワークの信頼性、接続の安定性のため、通信コストは現実世界のアプリケーションにフェデレーション学習を適用する上で大きなボトルネックとなっている。 現在の既存の戦略では、ハイパーパラメータの手動設定が必要か、あるいは元のプロセスを複数のステップに分割する必要があるため、エンドツーエンドの実装を実現するのが難しくなっている。 本稿では,Residual Pooling Network (RPN) と呼ばれる新しい圧縮戦略を提案する。 実験の結果,RPNはデータ伝達を効果的に低減するだけでなく,従来のフェデレート学習とほぼ同等の性能を発揮することがわかった。 我々の新しいアプローチはエンド・ツー・エンドの手順として機能し、通信効率を向上させるためにCNNベースのモデルトレーニングシナリオすべてに容易に適用できるので、人間の介入を伴わずに現実世界のアプリケーションに簡単にデプロイできる。

Federated learning is a distributed machine learning framework which enables different parties to collaboratively train a model while protecting data privacy and security. Due to model complexity, network unreliability and connection in-stability, communication cost has became a major bottleneck for applying federated learning to real-world applications. Current existing strategies are either need to manual setting for hyperparameters, or break up the original process into multiple steps, which make it hard to realize end-to-end implementation. In this paper, we propose a novel compression strategy called Residual Pooling Network (RPN). Our experiments show that RPN not only reduce data transmission effectively, but also achieve almost the same performance as compared to standard federated learning. Our new approach performs as an end-to-end procedure, which should be readily applied to all CNN-based model training scenarios for improvement of communication efficiency, and hence make it easy to deploy in real-world application without much human intervention.
翻訳日:2023-01-07 12:39:36 公開日:2020-04-07
# DCT-Conv:離散コサイン変換を用いた畳み込みネットワークにおける符号化フィルタ

DCT-Conv: Coding filters in convolutional networks with Discrete Cosine Transform ( http://arxiv.org/abs/2001.08517v4 )

ライセンス: Link先を確認
Karol Ch\k{e}ci\'nski, Pawe{\l} Wawrzy\'nski(参考訳) 畳み込みニューラルネットワークは、膨大な数のトレーニングされた重みに基づいている。 そのため、データ欲が強く、過剰トレーニングに敏感で、ゆっくりと学習することが多い。 我々は、少数の訓練されたパラメータに基づいて畳み込みニューラルネットワーク層のフィルタを決定する研究の行に従っている。 本稿では,逆離散コサイン変換(IDCT)を用いた畳み込みフィルタに変換された周波数スペクトルを定義する。 スペクトルの選択された成分の切り替え方法を分析し、ネットワークのトレーニングされた重み付けの数を減らし、その性能に影響を及ぼす。 実験により,dctパラメータを訓練したフィルタの符号化が従来の畳み込みよりも改善することを示した。 また、この方法で修正されたネットワークの性能は、これらのパラメータをオフにすることで大幅に低下する。 いくつかの実験では、99.9%のパラメータをオフにすると良いパフォーマンスが観察される。

Convolutional neural networks are based on a huge number of trained weights. Consequently, they are often data-greedy, sensitive to overtraining, and learn slowly. We follow the line of research in which filters of convolutional neural layers are determined on the basis of a smaller number of trained parameters. In this paper, the trained parameters define a frequency spectrum which is transformed into convolutional filters with Inverse Discrete Cosine Transform (IDCT, the same is applied in decompression from JPEG). We analyze how switching off selected components of the spectra, thereby reducing the number of trained weights of the network, affects its performance. Our experiments show that coding the filters with trained DCT parameters leads to improvement over traditional convolution. Also, the performance of the networks modified this way decreases very slowly with the increasing extent of switching off these parameters. In some experiments, a good performance is observed when even 99.9% of these parameters are switched off.
翻訳日:2023-01-07 10:01:15 公開日:2020-04-07
# mnist-net10: 不均質なディープネットワークの融合で、0.1の誤差率に達することが確実である。 アンサンブルの概要と提案

MNIST-NET10: A heterogeneous deep networks fusion based on the degree of certainty to reach 0.1 error rate. Ensembles overview and proposal ( http://arxiv.org/abs/2001.11486v2 )

ライセンス: Link先を確認
S. Tabik, R.F. Alvear-Sandoval, M.M. Ruiz, J.L. Sancho-G\'omez, A.R. Figueiras-Vidal, F. Herrera(参考訳) アンサンブル法は最高の単一分類モデルの結果を改善するために広く用いられている。 多数の作品が、主に1つの特定のアンサンブル法を適用して、より良いパフォーマンスを実現している。 しかし、新しい集約戦略を持つヘット不均一アンサンブルを用いて複雑な融合スキームを探求する研究はほとんどない。 この論文は3倍です。 1)最も人気のあるアンサンブル方法の概要を提供する。 2)MNISTを誘導スレッドとし,複数の融合スキームの解析 3) MNIST-NET10は,データ,モデル,融合戦略の観点からの2つのヘテロジニアススキームを組み合わせた,確実性集約アプローチに基づく複雑なヘテロジニアス融合アーキテクチャである。 MNIST-NET10はMNISTで10の誤分類画像で新記録に達した。 本分析は,このような複雑な不均一核融合構造が,多様性から利益を得る方法として考えられることを示す。

Ensemble methods have been widely used for improving the results of the best single classificationmodel. A large body of works have achieved better performance mainly by applying one specific ensemble method. However, very few works have explored complex fusion schemes using het-erogeneous ensembles with new aggregation strategies. This paper is three-fold: 1) It provides an overview of the most popular ensemble methods, 2) analyzes several fusion schemes using MNIST as guiding thread and 3) introduces MNIST-NET10, a complex heterogeneous fusion architecture based on a degree of certainty aggregation approach; it combines two heterogeneous schemes from the perspective of data, model and fusion strategy. MNIST-NET10 reaches a new record in MNISTwith only 10 misclassified images. Our analysis shows that such complex heterogeneous fusionarchitectures based on the degree of certainty can be considered as a way of taking benefit fromdiversity.
翻訳日:2023-01-05 11:45:14 公開日:2020-04-07
# wavetts:タコトロンベースのttsと時間周波数領域の同時損失

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss ( http://arxiv.org/abs/2002.00417v3 )

ライセンス: Link先を確認
Rui Liu, Berrak Sisman, Feilong Bao, Guanglai Gao, Haizhou Li(参考訳) Tacotron-based text-to-speech (TTS) システムはテキスト入力から直接音声を合成する。 このようなフレームワークは典型的には、文字列を周波数領域音響特徴にマッピングする特徴予測ネットワークから成り、続いて波形再構成アルゴリズムや時間領域波形を音響特徴から生成する神経ボコーダが続く。 損失関数は通常周波数領域音響特性のみに計算されるため、生成された時間領域波形の質を直接制御しない。 この問題に対処するため,我々は2つの損失関数を持つttsと呼ばれるタコトロンベースのttsのための新しいトレーニングスキームを提案する。 1) 自然波形と生成された波形の間の歪みを測定する波形損失と表現される時間領域損失 2)周波数領域損失は,自然音と生成音のメルスケール音響的特徴量を測定する。 WaveTTSは、音響特性と結果の音声波形の両方の品質を保証する。 我々の知る限り、これは共同時間周波数領域損失を持つタコトロンの最初の実装である。 実験結果は,提案手法がベースラインを上回り,高品質合成音声を実現することを示す。

Tacotron-based text-to-speech (TTS) systems directly synthesize speech from text input. Such frameworks typically consist of a feature prediction network that maps character sequences to frequency-domain acoustic features, followed by a waveform reconstruction algorithm or a neural vocoder that generates the time-domain waveform from acoustic features. As the loss function is usually calculated only for frequency-domain acoustic features, that doesn't directly control the quality of the generated time-domain waveform. To address this problem, we propose a new training scheme for Tacotron-based TTS, referred to as WaveTTS, that has 2 loss functions: 1) time-domain loss, denoted as the waveform loss, that measures the distortion between the natural and generated waveform; and 2) frequency-domain loss, that measures the Mel-scale acoustic feature loss between the natural and generated acoustic features. WaveTTS ensures both the quality of the acoustic features and the resulting speech waveform. To our best knowledge, this is the first implementation of Tacotron with joint time-frequency domain loss. Experimental results show that the proposed framework outperforms the baselines and achieves high-quality synthesized speech.
翻訳日:2023-01-04 20:14:15 公開日:2020-04-07
# ディープニューラルネットワークを用いた干渉分類

Interference Classification Using Deep Neural Networks ( http://arxiv.org/abs/2002.00533v2 )

ライセンス: Link先を確認
Jianyuan Yu, Mohammad Alhassoun and R. Michael Buehrer(参考訳) 変調型を分類するために教師付き学習を実装する最近の成功は、変調分類に似た他の問題が最終的にその実装から恩恵を受けることを示唆している。 これらの問題の1つは、関心の信号に追加される干渉タイプを分類することである。 本稿では,ディープニューラルネットワークを用いた干渉分類手法を提案する。 我々は、5種類の干渉信号を生成し、入力信号のパワースペクトル密度(PSD)と循環スペクトルの両方をネットワークへの入力特徴として利用する。 計算機実験の結果,受信信号psdは,その周期スペクトルを精度で上回ることがわかった。 また、同じ実験により、フィードフォワードネットワークは従来の方法よりも精度が良いことが示されている。 提案する分類器は、適切な緩和アルゴリズムを選択することで受信器チェーンの次の段階を支援するとともに、変調分類法と共存して分類精度をさらに向上させることができる。

The recent success in implementing supervised learning to classify modulation types suggests that other problems akin to modulation classification would eventually benefit from that implementation. One of these problems is classifying the interference type added to a signal-of-interest, also known as interference classification. In this paper, we propose an interference classification method using a deep neural network. We generate five distinct types of interfering signals then use both the power-spectral density (PSD) and the cyclic spectrum of the received signal as input features to the network. The computer experiments reveal that using the received signal PSD outperforms using its cyclic spectrum in terms of accuracy. In addition, the same experiments show that the feed-forward networks yield better accuracy than classic methods. The proposed classifier aids the subsequent stage in the receiver chain with choosing the appropriate mitigation algorithm and also can coexist with modulation-classification methods to further improve the classifier accuracy.
翻訳日:2023-01-04 09:24:05 公開日:2020-04-07
# $\text{a}^3$:アクティベーション異常解析

$\text{A}^3$: Activation Anomaly Analysis ( http://arxiv.org/abs/2003.01801v3 )

ライセンス: Link先を確認
Philip Sperl, Jan-Philipp Schulze, Konstantin B\"ottinger(参考訳) ニューラルネットワークのカバレッジ誘導解析の最近の進歩に触発されて,新しい異常検出法を提案する。 隠れアクティベーション値には,正常標本と異常標本の識別に有用な情報が含まれていることを示す。 我々のアプローチは、純粋にデータ駆動のエンドツーエンドモデルで3つのニューラルネットワークを組み合わせる。 目標ネットワークのアクティベーション値に基づいて、アラームネットワークは、所定のサンプルが正常かどうかを判定する。 anomaly networkのおかげで、この方法は厳密な半監督設定でも機能する。 現在のベースラインメソッドを超える一般的なデータセットでは、強い異常検出結果が得られる。 半教師付き異常検出法により,様々なアプリケーションにまたがる大量の異常データを調べることができる。

Inspired by recent advances in coverage-guided analysis of neural networks, we propose a novel anomaly detection method. We show that the hidden activation values contain information useful to distinguish between normal and anomalous samples. Our approach combines three neural networks in a purely data-driven end-to-end model. Based on the activation values in the target network, the alarm network decides if the given sample is normal. Thanks to the anomaly network, our method even works in strict semi-supervised settings. Strong anomaly detection results are achieved on common data sets surpassing current baseline methods. Our semi-supervised anomaly detection method allows to inspect large amounts of data for anomalies across various applications.
翻訳日:2022-12-26 23:26:25 公開日:2020-04-07
# SketchyCOCO: フリーハンドシーンからの画像生成

SketchyCOCO: Image Generation from Freehand Scene Sketches ( http://arxiv.org/abs/2003.02683v5 )

ライセンス: Link先を確認
Chengying Gao, Qi Liu, Qi Xu, Limin Wang, Jianzhuang Liu, Changqing Zou(参考訳) 本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。 本モデルでは, 合成目標をフリーハンドスケッチで指定することで, 制御可能な画像生成が可能となる。 EdgeGANは、フリーハンドスケッチをトレーニングデータとして使用せずに、高画質のオブジェクトレベルの画像コンテンツ生成をサポートする。 我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。 我々はSketchyCOCOにおけるオブジェクトレベルとシーンレベルの画像生成のタスクに対するアプローチを検証する。 定量的・定性的な結果,人間評価およびアブレーション研究を通じて,様々なフリーハンドスケッチから現実的な複雑なシーンレベル画像を生成できることを実証する。

We introduce the first method for automatic image generation from scene-level freehand sketches. Our model allows for controllable image generation by specifying the synthesis goal via freehand sketches. The key contribution is an attribute vector bridged Generative Adversarial Network called EdgeGAN, which supports high visual-quality object-level image content generation without using freehand sketches as training data. We have built a large-scale composite dataset called SketchyCOCO to support and evaluate the solution. We validate our approach on the tasks of both object-level and scene-level image generation on SketchyCOCO. Through quantitative, qualitative results, human evaluation and ablation studies, we demonstrate the method's capacity to generate realistic complex scene-level images from various freehand sketches.
翻訳日:2022-12-26 07:18:13 公開日:2020-04-07
# 指数族密度の間の共通(離散)相似性に対する無数の閉形式公式

Cumulant-free closed-form formulas for some common (dis)similarities between densities of an exponential family ( http://arxiv.org/abs/2003.02469v3 )

ライセンス: Link先を確認
Frank Nielsen and Richard Nock(参考訳) Bhattacharyya, Hellinger, Kullback-Leibler, $\alpha$-divergences, and Jeffreys's divergences between a same exponential family は、指数族を特徴付ける厳密凸および実解析的累積関数に依存する一般閉形式公式を持つことが知られている。 本研究では,累積関数の明示的使用を回避し,準算術的手段とその多変量平均作用素拡張の役割を強調する(離散性式)について報告する。 実際、これらの累積のない公式は、従来のアプリケーションプログラミングインタフェース(api)を使用してこれらの(dis)類似性を実装する際に便利である。

It is well-known that the Bhattacharyya, Hellinger, Kullback-Leibler, $\alpha$-divergences, and Jeffreys' divergences between densities belonging to a same exponential family have generic closed-form formulas relying on the strictly convex and real-analytic cumulant function characterizing the exponential family. In this work, we report (dis)similarity formulas which bypass the explicit use of the cumulant function and highlight the role of quasi-arithmetic means and their multivariate mean operator extensions. In practice, these cumulant-free formulas are handy when implementing these (dis)similarities using legacy Application Programming Interfaces (APIs) since our method requires only to partially factorize the densities canonically of the considered exponential family.
翻訳日:2022-12-26 07:08:21 公開日:2020-04-07
# 常識知識グラフ構築における概念化の役割について

On the Role of Conceptualization in Commonsense Knowledge Graph Construction ( http://arxiv.org/abs/2003.03239v2 )

ライセンス: Link先を確認
Mutian He, Yangqiu Song, Kun Xu, Dong Yu(参考訳) Atomic や ASER のような Commonsense knowledge graph (CKG) は、ゆるやかに構造化されたテキストによって形成されるノードの数が多いため、従来の KG とは大きく異なる。 ノード間でkgが欠落している関係を特定することに加えて、このような手法はテキストで表される欠落ノードを探索することも期待されている。 実世界のコモンセンスにかかわる数えきれないエンティティを扱うために、ckg構築手法の概念化、すなわちテキストで言及されるエンティティを特定の概念のインスタンスとして見るか、その逆を見るかを紹介する。 概念化によって合成三重項を構築し、さらに三重分類としてタスクを定式化し、事前訓練された言語モデルから知識を移し、負のサンプリングによって微調整された識別モデルによって処理する。 実験により,本手法は,高い多様性と新規性を有する新しいノードとエッジのトリプルによって,効果的にトリプルを同定し,kgを拡張できることが証明された。

Commonsense knowledge graphs (CKGs) like Atomic and ASER are substantially different from conventional KGs as they consist of much larger number of nodes formed by loosely-structured text, which, though, enables them to handle highly diverse queries in natural language related to commonsense, leads to unique challenges for automatic KG construction methods. Besides identifying relations absent from the KG between nodes, such methods are also expected to explore absent nodes represented by text, in which different real-world things, or entities, may appear. To deal with the innumerable entities involved with commonsense in the real world, we introduce to CKG construction methods conceptualization, i.e., to view entities mentioned in text as instances of specific concepts or vice versa. We build synthetic triples by conceptualization, and further formulate the task as triple classification, handled by a discriminatory model with knowledge transferred from pretrained language models and fine-tuned by negative sampling. Experiments demonstrate that our methods can effectively identify plausible triples and expand the KG by triples of both new nodes and edges of high diversity and novelty.
翻訳日:2022-12-26 00:36:31 公開日:2020-04-07
# 空を飛ぶ車は空を飛ぶことができない:高層アテンションネットワークによる都市空間のセグメンテーションの改善

Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks ( http://arxiv.org/abs/2003.05128v3 )

ライセンス: Link先を確認
Sungha Choi, Joanne T. Kim, Jaegul Choo(参考訳) 本稿では,都市シーン画像の特徴を生かして,都市シーン画像の意味セグメンテーションを改善するために,ハイプ駆動アテンションネットワーク(hanet)と呼ばれる一般的なアドオンモジュールを提案する。 画素の垂直位置に応じて情報的特徴やクラスを選択的に強調する。 都市景観画像の水平区分け区間では,画素単位のクラス分布が著しく異なる。 同様に、都市シーンの画像には独自の特徴があるが、ほとんどのセマンティックセグメンテーションネットワークは、そのようなユニークな特徴を反映していない。 提案するネットワークアーキテクチャでは,都市景観データセットを効果的に扱う属性を活用できる。 HANetを採用した場合の2つのデータセット上での様々なセマンティックセグメンテーションモデルの一貫性性能(mIoU)の向上を検証する。 この広範な定量的分析は、既存のモデルへのモジュールの追加が簡単で費用対効果が高いことを示している。 提案手法は,ResNet-101に基づくセグメンテーションモデルにおいて,Cityscapesベンチマークにおける新しい最先端性能を実現する。 また,提案手法は,アテンションマップの可視化と解釈によって都市景観で観測された事実と一致していることを示す。 私たちのコードとトレーニングされたモデルはhttps://github.com/shachoi/HANetで公開されています。

This paper exploits the intrinsic features of urban-scene images and proposes a general add-on module, called height-driven attention networks (HANet), for improving semantic segmentation for urban-scene images. It emphasizes informative features or classes selectively according to the vertical position of a pixel. The pixel-wise class distributions are significantly different from each other among horizontally segmented sections in the urban-scene images. Likewise, urban-scene images have their own distinct characteristics, but most semantic segmentation networks do not reflect such unique attributes in the architecture. The proposed network architecture incorporates the capability exploiting the attributes to handle the urban scene dataset effectively. We validate the consistent performance (mIoU) increase of various semantic segmentation models on two datasets when HANet is adopted. This extensive quantitative analysis demonstrates that adding our module to existing models is easy and cost-effective. Our method achieves a new state-of-the-art performance on the Cityscapes benchmark with a large margin among ResNet-101 based segmentation models. Also, we show that the proposed model is coherent with the facts observed in the urban scene by visualizing and interpreting the attention map. Our code and trained models are publicly available at https://github.com/shachoi/HANet
翻訳日:2022-12-24 14:40:10 公開日:2020-04-07
# 共通特異低ランク分解による効率的領域一般化

Efficient Domain Generalization via Common-Specific Low-Rank Decomposition ( http://arxiv.org/abs/2003.12815v2 )

ライセンス: Link先を確認
Vihari Piratla, Praneeth Netrapalli, Sunita Sarawagi(参考訳) ドメイン一般化とは、トレーニング中に見えない新しいドメインに一般化するモデルを訓練するタスクである。 我々は、この設定のためにcsd(common specific decomposition)を提示し、共通コンポーネント(新しいドメインに一般化する)とドメイン固有コンポーネント(トレーニングドメインに過剰に適合する)を共同で学習する。 ドメイン固有のコンポーネントはトレーニング後に破棄され、共通コンポーネントのみが保持される。 このアルゴリズムは非常に単純で、任意のニューラルネットワークアーキテクチャの最終線形分類層を変更するだけでよい。 我々は,既存の手法を理解し,csdの識別可能性結果を提供し,低ランクがドメイン一般化に与える影響を研究するために,原理的な分析を行う。 CSDはドメイン消去、ドメイン摂動データ拡張、メタラーニングに基づくドメイン一般化の手法に適合するか、あるいは勝っていることを示す。 ドメインが解釈可能な回転mnistのさらなる診断は、csdが共通成分とドメイン固有成分をうまく分離し、ドメインの一般化に繋がるという仮説を裏付ける。

Domain generalization refers to the task of training a model which generalizes to new domains that are not seen during training. We present CSD (Common Specific Decomposition), for this setting,which jointly learns a common component (which generalizes to new domains) and a domain specific component (which overfits on training domains). The domain specific components are discarded after training and only the common component is retained. The algorithm is extremely simple and involves only modifying the final linear classification layer of any given neural network architecture. We present a principled analysis to understand existing approaches, provide identifiability results of CSD,and study effect of low-rank on domain generalization. We show that CSD either matches or beats state of the art approaches for domain generalization based on domain erasure, domain perturbed data augmentation, and meta-learning. Further diagnostics on rotated MNIST, where domains are interpretable, confirm the hypothesis that CSD successfully disentangles common and domain specific components and hence leads to better domain generalization.
翻訳日:2022-12-18 23:28:25 公開日:2020-04-07
# Catalyst.RL を用いたサンプル効率的なアンサンブル学習

Sample Efficient Ensemble Learning with Catalyst.RL ( http://arxiv.org/abs/2003.14210v2 )

ライセンス: Link先を確認
Sergey Kolesnikov and Valentin Khrulkov(参考訳) 本稿では、再現性およびサンプル高効率強化学習(RL)研究のためのオープンソースのPyTorchフレームワークであるCatalyst.RLを提案する。 Catalyst.RLの主な特徴は、大規模非同期分散トレーニング、様々なRLアルゴリズムの効率的な実装、nステップの戻り値、値分布、双曲強化学習などの補助的なトリックである。 Catalyst.RL の有効性を実証するため,人間の筋骨格モデルのための移動制御装置を構築することを目的として,物理学に基づく強化学習課題 "NeurIPS 2019: Learn to Move -- Walk Around" に適用した。 この環境は計算コストが高く、高次元の連続的な行動空間を持ち、確率的である。 我々のチームは2位となり、Catalyst.RLの高性能で試料効率のよいRLエージェントをわずか数時間で訓練できる能力を活用しました。 実験とともに実装はオープンソースなので、成果を再現し、新しいアイデアを試すことができる。

We present Catalyst.RL, an open-source PyTorch framework for reproducible and sample efficient reinforcement learning (RL) research. Main features of Catalyst.RL include large-scale asynchronous distributed training, efficient implementations of various RL algorithms and auxiliary tricks, such as n-step returns, value distributions, hyperbolic reinforcement learning, etc. To demonstrate the effectiveness of Catalyst.RL, we applied it to a physics-based reinforcement learning challenge "NeurIPS 2019: Learn to Move -- Walk Around" with the objective to build a locomotion controller for a human musculoskeletal model. The environment is computationally expensive, has a high-dimensional continuous action space and is stochastic. Our team took the 2nd place, capitalizing on the ability of Catalyst.RL to train high-quality and sample-efficient RL agents in only a few hours of training time. The implementation along with experiments is open-sourced so results can be reproduced and novel ideas tried out.
翻訳日:2022-12-18 13:05:21 公開日:2020-04-07
# 深部強化学習による超音波誘導ロボットナビゲーション

Ultrasound-Guided Robotic Navigation with Deep Reinforcement Learning ( http://arxiv.org/abs/2003.13321v2 )

ライセンス: Link先を確認
Hannes Hase, Mohammad Farid Azampour, Maria Tirindelli, Magdalini Paschali, Walter Simson, Emad Fatemizadeh and Nassir Navab(参考訳) 本稿では,超音波(us)画像を入力として利用する,第1次強化学習(rl)ベースのロボットナビゲーション手法を提案する。 このアプローチは最先端のrl技術、特にディープq-networks(dqn)とメモリバッファ、タスクの終了時期を決定するバイナリ分類器を組み合わせる。 本手法は,34名のボランティアを社内で収集したデータを用いて訓練・評価し,純粋なRLと教師あり学習(SL)技術と比較した場合,米国誘導手術におけるRLナビゲーションの適性を強調した。 提案モデルの試験では, 5つの異なる模擬環境において, 165個の異なる開始位置から, 正常に仙骨へ航行する82.91%の確率を得た。

In this paper we introduce the first reinforcement learning (RL) based robotic navigation method which utilizes ultrasound (US) images as an input. Our approach combines state-of-the-art RL techniques, specifically deep Q-networks (DQN) with memory buffers and a binary classifier for deciding when to terminate the task. Our method is trained and evaluated on an in-house collected data-set of 34 volunteers and when compared to pure RL and supervised learning (SL) techniques, it performs substantially better, which highlights the suitability of RL navigation for US-guided procedures. When testing our proposed model, we obtained a 82.91% chance of navigating correctly to the sacrum from 165 different starting positions on 5 different unseen simulated environments.
翻訳日:2022-12-18 07:07:08 公開日:2020-04-07
# MUXConv:畳み込みニューラルネットワークにおける情報多重化

MUXConv: Information Multiplexing in Convolutional Neural Networks ( http://arxiv.org/abs/2003.13880v2 )

ライセンス: Link先を確認
Zhichao Lu and Kalyanmoy Deb and Vishnu Naresh Boddeti(参考訳) 近年、畳み込みニューラルネットワークは計算効率を著しく改善している。 主要な推進力は、標準の畳み込み層の代わりに1ドル=1\times 1とDeep-wiseの分離可能な畳み込みの組み合わせによるトレードオフモデル表現性と効率の考え方である。 しかし、効率性の代償は、ネットワーク内の空間とチャネルにまたがる情報の準最適フローである。 この制限を克服するために,ネットワーク内のチャネルと空間情報を段階的に多重化し,計算複雑性を軽減して情報フローを増加させるmuxconvを提案する。 さらに, MUXConvの有効性を示すために, 最適モデルハイパーパラメータを探索するために, 精度, コンパクト性, 計算効率を同時に最適化しながら, 効率的な多目的進化アルゴリズムに統合する。 ImageNetでは、MUXNetsと呼ばれる結果のモデルが、MobileNetV3のパフォーマンス(75.3%のトップ-1精度)と乗算演算(218M)に一致し、1.6$\times$よりコンパクトで、他の3つの基準で他のモバイルモデルより優れていた。 MUXNetは、転送学習やオブジェクト検出に適応する際にもよく機能する。 ChestX-Ray 14のベンチマークでは、その精度は最先端に匹敵するが、3.3\times$よりコンパクトで14\times$より効率的である。 同様に、PASCAL VOC 2007での検知は、MobileNetV2と比較して1.2%精度が28%高速で6%コンパクトである。 コードはhttps://github.com/ Human-analysis/MUXConvから入手できる。

Convolutional neural networks have witnessed remarkable improvements in computational efficiency in recent years. A key driving force has been the idea of trading-off model expressivity and efficiency through a combination of $1\times 1$ and depth-wise separable convolutions in lieu of a standard convolutional layer. The price of the efficiency, however, is the sub-optimal flow of information across space and channels in the network. To overcome this limitation, we present MUXConv, a layer that is designed to increase the flow of information by progressively multiplexing channel and spatial information in the network, while mitigating computational complexity. Furthermore, to demonstrate the effectiveness of MUXConv, we integrate it within an efficient multi-objective evolutionary algorithm to search for the optimal model hyper-parameters while simultaneously optimizing accuracy, compactness, and computational efficiency. On ImageNet, the resulting models, dubbed MUXNets, match the performance (75.3% top-1 accuracy) and multiply-add operations (218M) of MobileNetV3 while being 1.6$\times$ more compact, and outperform other mobile models in all the three criteria. MUXNet also performs well under transfer learning and when adapted to object detection. On the ChestX-Ray 14 benchmark, its accuracy is comparable to the state-of-the-art while being $3.3\times$ more compact and $14\times$ more efficient. Similarly, detection on PASCAL VOC 2007 is 1.2% more accurate, 28% faster and 6% more compact compared to MobileNetV2. Code is available from https://github.com/human-analysis/MUXConv
翻訳日:2022-12-17 23:55:27 公開日:2020-04-07
# 自己知識蒸留によるクラスワイズ予測の定式化

Regularizing Class-wise Predictions via Self-knowledge Distillation ( http://arxiv.org/abs/2003.13964v2 )

ライセンス: Link先を確認
Sukmin Yun, Jongjin Park, Kimin Lee, Jinwoo Shin(参考訳) 数百万のパラメータを持つディープニューラルネットワークは、オーバーフィッティングによる一般化不足に苦しむ可能性がある。 問題を緩和するために,類似サンプル間の予測分布を解析する新たな正規化法を提案する。 特に,トレーニング中に同一ラベルの異なるサンプル間の予測分布を蒸留する。 この結果、単一のネットワーク(すなわち自己認識蒸留)の暗黒知識(すなわち誤った予測に関する知識)を、クラス的な方法でより有意義で一貫性のある予測を強制することによって正規化する。 その結果、過信予測を緩和し、クラス内の変動を減らす。 画像分類タスクにおける実験結果から, 単純かつ強力な手法は, 一般化能力だけでなく, 現代の畳み込みニューラルネットワークのキャリブレーション性能も著しく向上することが示された。

Deep neural networks with millions of parameters may suffer from poor generalization due to overfitting. To mitigate the issue, we propose a new regularization method that penalizes the predictive distribution between similar samples. In particular, we distill the predictive distribution between different samples of the same label during training. This results in regularizing the dark knowledge (i.e., the knowledge on wrong predictions) of a single network (i.e., a self-knowledge distillation) by forcing it to produce more meaningful and consistent predictions in a class-wise manner. Consequently, it mitigates overconfident predictions and reduces intra-class variations. Our experimental results on various image classification tasks demonstrate that the simple yet powerful method can significantly improve not only the generalization ability but also the calibration performance of modern convolutional neural networks.
翻訳日:2022-12-17 23:53:24 公開日:2020-04-07
# DOPS:3Dオブジェクトの検出と3D形状の予測を学習する

DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes ( http://arxiv.org/abs/2004.01170v2 )

ライセンス: Link先を確認
Mahyar Najibi, Guangda Lai, Abhijit Kundu, Zhichao Lu, Vivek Rathod, Thomas Funkhouser, Caroline Pantofaru, David Ross, Larry S. Davis, Alireza Fathi(参考訳) LIDARデータの高速な1段3Dオブジェクト検出法であるDOPSを提案する。 以前の手法では、例えば、自律運転シナリオでポイントを鳥眼図に投影するなど、ドメイン固有の設計決定を行うことが多い。 対照的に,室内と屋外の両方のシーンで動作する汎用手法を提案する。 提案手法の中核となる特徴は,3dで物体を検出し,その形状を推定する高速単一パスアーキテクチャである。 3次元境界ボックスパラメータは、各点の1パスで推定され、グラフ畳み込みによって集約され、検出された各オブジェクトの形状を表す潜時符号を予測するネットワークの分岐に供給される。 潜在形状空間と形状デコーダは合成データセット上で学習され、3dオブジェクト検出パイプラインのエンドツーエンドトレーニングの監督に使用される。 したがって,本モデルでは,対象データセットの接地構造情報にアクセスせずに形状を抽出することができる。 実験中,提案手法はスキャンネットシーンの物体検出において5%程度,waymoオープンデータセットでは3.4%,検出された車の形状を再現することで,最先端の結果が得られることがわかった。

We propose DOPS, a fast single-stage 3D object detection method for LIDAR data. Previous methods often make domain-specific design decisions, for example projecting points into a bird-eye view image in autonomous driving scenarios. In contrast, we propose a general-purpose method that works on both indoor and outdoor scenes. The core novelty of our method is a fast, single-pass architecture that both detects objects in 3D and estimates their shapes. 3D bounding box parameters are estimated in one pass for every point, aggregated through graph convolutions, and fed into a branch of the network that predicts latent codes representing the shape of each detected object. The latent shape space and shape decoder are learned on a synthetic dataset and then used as supervision for the end-to-end training of the 3D object detection pipeline. Thus our model is able to extract shapes without access to ground-truth shape information in the target dataset. During experiments, we find that our proposed method achieves state-of-the-art results by ~5% on object detection in ScanNet scenes, and it gets top results by 3.4% in the Waymo Open Dataset, while reproducing the shapes of detected cars.
翻訳日:2022-12-17 12:56:14 公開日:2020-04-07
# 高速ビデオセマンティックセグメンテーションのための時間分散ネットワーク

Temporally Distributed Networks for Fast Video Semantic Segmentation ( http://arxiv.org/abs/2004.01800v2 )

ライセンス: Link先を確認
Ping Hu, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Stan Sclaroff and Federico Perazzi(参考訳) 本稿では,高速かつ高精度なビデオセマンティックセグメンテーションのための時間分散ネットワークTDNetを提案する。 我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似できることを示した。 ビデオの時間的連続性を活用して、これらのサブネットワークをシーケンシャルなフレーム上に分散する。 したがって、各ステップにおいて、単一のサブネットワークからサブ機能グループを抽出する軽量な計算のみを実行する必要がある。 セグメンテーションに使われる完全な機能は、フレーム間の幾何学的変形を補償する新しい注意伝播モジュールの適用によって再構成される。 グループ化された知識蒸留損失も導入され、フルおよびサブ機能レベルの表現力をさらに向上する。 Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。

We present TDNet, a temporally distributed network designed for fast and accurate video semantic segmentation. We observe that features extracted from a certain high-level layer of a deep CNN can be approximated by composing features extracted from several shallower sub-networks. Leveraging the inherent temporal continuity in videos, we distribute these sub-networks over sequential frames. Therefore, at each time step, we only need to perform a lightweight computation to extract a sub-features group from a single sub-network. The full features used for segmentation are then recomposed by application of a novel attention propagation module that compensates for geometry deformation between frames. A grouped knowledge distillation loss is also introduced to further improve the representation power at both full and sub-feature levels. Experiments on Cityscapes, CamVid, and NYUD-v2 demonstrate that our method achieves state-of-the-art accuracy with significantly faster speed and lower latency.
翻訳日:2022-12-17 04:30:01 公開日:2020-04-07
# BlackBox Toolkit: インテリジェントなUI設計支援

BlackBox Toolkit: Intelligent Assistance to UI Design ( http://arxiv.org/abs/2004.01949v2 )

ライセンス: Link先を確認
Vinoth Pandian Sermuga Pandian, Sarah Suleri(参考訳) ユーザインターフェース(ui)デザインは、かなりの反復と再開発を伴う創造的なプロセスです。 デザイナーはuiデザインを作成するためにさまざまなプロトタイピングフィディティを何度も繰り返します。 本研究では,ai (artificial intelligence) を用いてui設計プロセスを変更することを提案する。 我々は,デザイナが創造プロセスの指揮を執りながら,デザイナに対して反復的なタスクを実行可能にすることを提案する。 このアプローチにより、マシンはデザイナーがUIデザインを作成するのをインテリジェントに支援するブラックボックスとして機能する。 このアプローチは、AIでデザインソリューションを共同作成する上で、デザイナにとって大きなメリットになると思います。

User Interface (UI) design is an creative process that involves considerable reiteration and rework. Designers go through multiple iterations of different prototyping fidelities to create a UI design. In this research, we propose to modify the UI design process by assisting it with artificial intelligence (AI). We propose to enable AI to perform repetitive tasks for the designer while allowing the designer to take command of the creative process. This approach makes the machine act as a black box that intelligently assists the designers in creating UI design. We believe this approach would greatly benefit designers in co-creating design solutions with AI.
翻訳日:2022-12-16 23:18:01 公開日:2020-04-07
# ReADS: シーンテキスト認識のための意図的二重監視ネットワーク

ReADS: A Rectified Attentional Double Supervised Network for Scene Text Recognition ( http://arxiv.org/abs/2004.02070v2 )

ライセンス: Link先を確認
Qi Song, Qianyi Jiang, Nan Li, Rui Zhang and Xiaolin Wei(参考訳) 近年,シーンテキスト認識は常にシーケンス・ツー・シーケンス問題と見なされている。 Connectionist Temporal Classification (CTC) と Attentional sequence recognition (Attn) は、いくつかのシナリオでそれぞれ失敗するが、この問題に対処するための非常に一般的なアプローチである。 CTCは個々の文字に集中しているが、テキストセマンティック依存モデリングでは弱い。 Attnベースのメソッドは、限られたトレーニングデータに過度に適合する傾向があるが、コンテキストセマンティックモデリング能力が優れている。 本稿では,一般的なシーンテキスト認識のためのRectified Attentional Double Supervised Network (ReADS) を精巧に設計する。 ctc と attn の弱さを克服するために, 両者は互いに相補的となる2つの教師付き枝の異なるモジュールを用いて, 本手法に適用される。 さらに,背景雑音を除去し,有効なフォアグラウンド情報を抽出するための効果的な空間的・チャネル的注意機構を導入する。 最後に、不規則テキストの修正のために、単純な修正ネットワークを実装する。 読み取りはエンドツーエンドでトレーニングでき、単語レベルのアノテーションのみが必要である。 各種ベンチマークの大規模な実験により,最先端性能を実現するReADSの有効性が検証された。

In recent years, scene text recognition is always regarded as a sequence-to-sequence problem. Connectionist Temporal Classification (CTC) and Attentional sequence recognition (Attn) are two very prevailing approaches to tackle this problem while they may fail in some scenarios respectively. CTC concentrates more on every individual character but is weak in text semantic dependency modeling. Attn based methods have better context semantic modeling ability while tends to overfit on limited training data. In this paper, we elaborately design a Rectified Attentional Double Supervised Network (ReADS) for general scene text recognition. To overcome the weakness of CTC and Attn, both of them are applied in our method but with different modules in two supervised branches which can make a complementary to each other. Moreover, effective spatial and channel attention mechanisms are introduced to eliminate background noise and extract valid foreground information. Finally, a simple rectified network is implemented to rectify irregular text. The ReADS can be trained end-to-end and only word-level annotations are required. Extensive experiments on various benchmarks verify the effectiveness of ReADS which achieves state-of-the-art performance.
翻訳日:2022-12-16 13:04:36 公開日:2020-04-07
# 画像データ取得・セグメンテーション・診断における人工知能技術の展望

Review of Artificial Intelligence Techniques in Imaging Data Acquisition, Segmentation and Diagnosis for COVID-19 ( http://arxiv.org/abs/2004.02731v2 )

ライセンス: Link先を確認
Feng Shi, Jun Wang, Jun Shi, Ziyan Wu, Qian Wang, Zhenyu Tang, Kelei He, Yinghuan Shi, Dinggang Shen(参考訳) (この論文は、2020年4月6日にIEEE Reviews in Biomedical Engineeringに招待論文として提出された。) 新型コロナウイルス感染症(COVID-19)のパンデミックは世界中に広がっている。 X線やCT(Computerd Tomography)などの医用画像は、新型コロナウイルスとの世界的戦いにおいて重要な役割を担っているが、最近登場した人工知能(AI)技術は、画像ツールのパワーをさらに強化し、医療専門家を助ける。 ここでは、新型コロナウイルス(COVID-19)に対する医療画像(AI)のコミュニティの迅速な対応についてレビューする。 例えば、AIを活用した画像取得は、スキャン手順の自動化に大きく貢献すると同時に、患者との接触を最小限にしてワークフローを再構築する。 また、X線やCT画像の感染の正確な脱線によって作業効率を向上し、その後の定量化を容易にすることができる。 さらに、コンピュータ支援プラットフォームは、放射線科医が臨床診断、追跡、予後などの決定を下すのに役立つ。 本報告では, 画像取得, セグメンテーション, 診断, 追跡など, COVID-19に関連する医療画像解析技術の全パイプラインについて概説する。 特に,最前線の病院で広く使われているx線およびctとaiの統合に焦点をあてて,新型コロナウイルスと闘う医用画像と放射線学の最近の進歩を描いている。

(This paper was submitted as an invited paper to IEEE Reviews in Biomedical Engineering on April 6, 2020.) The pandemic of coronavirus disease 2019 (COVID-19) is spreading all over the world. Medical imaging such as X-ray and computed tomography (CT) plays an essential role in the global fight against COVID-19, whereas the recently emerging artificial intelligence (AI) technologies further strengthen the power of the imaging tools and help medical specialists. We hereby review the rapid responses in the community of medical imaging (empowered by AI) toward COVID-19. For example, AI-empowered image acquisition can significantly help automate the scanning procedure and also reshape the workflow with minimal contact to patients, providing the best protection to the imaging technicians. Also, AI can improve work efficiency by accurate delination of infections in X-ray and CT images, facilitating subsequent quantification. Moreover, the computer-aided platforms help radiologists make clinical decisions, i.e., for disease diagnosis, tracking, and prognosis. In this review paper, we thus cover the entire pipeline of medical imaging and analysis techniques involved with COVID-19, including image acquisition, segmentation, diagnosis, and follow-up. We particularly focus on the integration of AI with X-ray and CT, both of which are widely used in the frontline hospitals, in order to depict the latest progress of medical imaging and radiology fighting against COVID-19.
翻訳日:2022-12-16 07:41:08 公開日:2020-04-07
# グラフニューラルネットワークによるコード要約の改善

Improved Code Summarization via a Graph Neural Network ( http://arxiv.org/abs/2004.02843v2 )

ライセンス: Link先を確認
Alexander LeClair, Sakib Haque, Lingfei Wu, Collin McMillan(参考訳) ソースコードの自動要約は、ソースコードの自然言語記述を生成するタスクである。 自動コード要約は急速に普及している研究分野であり、特にコミュニティはニューラルネットワークとAI技術の進歩を大いに活用している。 一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。 しかし、構造情報を入力として使用することでパフォーマンスが向上するという強いコンセンサスが生まれている。 構造情報を使用する最初のアプローチは、ASTをシーケンスに平らにした。 近年、フラット化ASTを用いたモデルでは、ランダムASTパスやグラフニューラルネットワークに基づくより複雑なアプローチが改良されている。 しかし、グラフニューラルネットワークとソースコードシーケンスをモデルへの別々の入力として使用することについては、文献にはまだ説明されていない。 そこで本稿では,これらの要約を生成するために,astのデフォルト構造に合致するグラフベースのニューラルアーキテクチャを用いたアプローチを提案する。 2100万のjavaメソッドコミットペアのデータセットを用いて手法を評価し,4つのベースライン技術,ソフトウェア工学文献から2つ,機械学習文献から2つの改善を示す。

Automatic source code summarization is the task of generating natural language descriptions for source code. Automatic code summarization is a rapidly expanding research area, especially as the community has taken greater advantage of advances in neural network and AI technologies. In general, source code summarization techniques use the source code as input and outputs a natural language description. Yet a strong consensus is developing that using structural information as input leads to improved performance. The first approaches to use structural information flattened the AST into a sequence. Recently, more complex approaches based on random AST paths or graph neural networks have improved on the models using flattened ASTs. However, the literature still does not describe the using a graph neural network together with source code sequence as separate inputs to a model. Therefore, in this paper, we present an approach that uses a graph-based neural architecture that better matches the default structure of the AST to generate these summaries. We evaluate our technique using a data set of 2.1 million Java method-comment pairs and show improvement over four baseline techniques, two from the software engineering literature, and two from machine learning literature.
翻訳日:2022-12-16 07:23:15 公開日:2020-04-07
# 都市におけるステレオDSMフィルタリングのための汎用マルチタスク学習手法

A Generalized Multi-Task Learning Approach to Stereo DSM Filtering in Urban Areas ( http://arxiv.org/abs/2004.02493v2 )

ライセンス: Link先を確認
Lukas Liebel, Ksenia Bittner, Marco K\"orner(参考訳) 都市のモデルと高さマップは、災害管理や都市計画といった多くの応用のための貴重なデータ源となっている。 この情報は世界的には入手できないが、安価な衛星画像から自動的に生成されたデジタル表面モデル(dsms)に置き換えることができる。 しかし、ステレオDSMはしばしばノイズやぼやけに悩まされる。 さらに、植物によって大きく歪められているため、ほとんどの用途ではより関連性が低い。 このような基本モデルは、デジタル標高モデル(DEM)と3D都市モデルから派生したラベルに基づいて訓練された畳み込みニューラルネットワーク(CNN)によってフィルタリングされ、洗練されたDSMが得られる。 既存のアプローチを一般化したフレームワークに統合するモジュール型マルチタスク学習の概念を提案する。 共有エンコーダと複数のタスク固有デコーダを持つエンコーダ-デコーダモデルは,屋根型分類を二次タスクとして,条件付き逆項を含む複数の目的に活用する。 寄与する単目的損失は、学習された不確実性推定に基づいて、最終マルチタスク損失関数で自動的に重み付けされる。 ネットワークアーキテクチャのこのファミリの特定のインスタンスの性能を評価した。 本手法は, 定量的, 定性的に, 共通データ上での手法の状態を常に上回り, 独立研究領域の新しいデータセットによく当てはまる。

City models and height maps of urban areas serve as a valuable data source for numerous applications, such as disaster management or city planning. While this information is not globally available, it can be substituted by digital surface models (DSMs), automatically produced from inexpensive satellite imagery. However, stereo DSMs often suffer from noise and blur. Furthermore, they are heavily distorted by vegetation, which is of lesser relevance for most applications. Such basic models can be filtered by convolutional neural networks (CNNs), trained on labels derived from digital elevation models (DEMs) and 3D city models, in order to obtain a refined DSM. We propose a modular multi-task learning concept that consolidates existing approaches into a generalized framework. Our encoder-decoder models with shared encoders and multiple task-specific decoders leverage roof type classification as a secondary task and multiple objectives including a conditional adversarial term. The contributing single-objective losses are automatically weighted in the final multi-task loss function based on learned uncertainty estimates. We evaluated the performance of specific instances of this family of network architectures. Our method consistently outperforms the state of the art on common data, both quantitatively and qualitatively, and generalizes well to a new dataset of an independent study area.
翻訳日:2022-12-16 07:20:56 公開日:2020-04-07
# グラフ畳み込みニューラルネットワークにおけるプール化

Pooling in Graph Convolutional Neural Networks ( http://arxiv.org/abs/2004.03519v1 )

ライセンス: Link先を確認
Mark Cheung, John Shi, Lavender Yao Jiang, Oren Wright, Jos\'e M.F. Moura(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は、グラフ構造化データ問題に対するディープラーニング技術の強力な拡張である。 我々は,GCNNの複数のプーリング手法と,これらのグラフプーリング手法とGCN,TAGCN,GraphSAGEの3つの異なるアーキテクチャの組み合わせを経験的に評価した。 グラフプーリング,特にdiffpoolは,一般的なグラフ分類データセットの分類精度を改善し,平均的にtagcnがgcnやgraphsageと同等あるいは優れた精度を,特に大きくスパーサーなグラフ構造を持つデータセットに対して達成していることを確認した。

Graph convolutional neural networks (GCNNs) are a powerful extension of deep learning techniques to graph-structured data problems. We empirically evaluate several pooling methods for GCNNs, and combinations of those graph pooling methods with three different architectures: GCN, TAGCN, and GraphSAGE. We confirm that graph pooling, especially DiffPool, improves classification accuracy on popular graph classification datasets and find that, on average, TAGCN achieves comparable or better accuracy than GCN and GraphSAGE, particularly for datasets with larger and sparser graph structures.
翻訳日:2022-12-16 01:01:20 公開日:2020-04-07
# 並列深層学習のための重み付き凝集確率勾配勾配

Weighted Aggregating Stochastic Gradient Descent for Parallel Deep Learning ( http://arxiv.org/abs/2004.03749v1 )

ライセンス: Link先を確認
Pengzhan Guo, Zeyang Ye, Keli Xiao, Wei Zhu(参考訳) 本稿では,ディープラーニングタスクのためのスケーラブルな並列アルゴリズムの開発に焦点をあてて,確率的最適化問題を検討する。 提案手法は,ニューラルネットワークモデルにおける確率的最適化のための客観的関数の修正と,重み付き確率的勾配降下(wasgd)と呼ばれる新しい並列戦略を含む。 新しい目的関数の特性に関する理論的分析に続いて、wasgdは現地労働者のパフォーマンスに基づく分散重み付け集約スキームを導入した。 中心変数がなければ、新しい方法はローカルワーカーの重要性を自動的に評価し、貢献に応じて受け入れる。 さらに,(1) 設計したサンプル順序を考慮し,(2) より高度な重量評価関数を適用することで,WASGD+法の改良版を開発した。 新しい手法を検証するために,我々は,分類タスクのための深層ニューラルネットワークのトレーニングにおいて,最先端技術(sgdなど)を含むいくつかの一般的なアルゴリズムに対して,そのスキームをベンチマークする。 CIFAR-100、CIFAR-10、Fashion-MNIST、MNISTの4つの古典的なデータセットで包括的な実験が行われた。 続く結果は、深層建築の訓練を加速するWASGDスキームの優位性を示している。 さらに改良されたバージョンであるwasgd+は、ベーシックバージョンよりも大幅に改善されている。

This paper investigates the stochastic optimization problem with a focus on developing scalable parallel algorithms for deep learning tasks. Our solution involves a reformation of the objective function for stochastic optimization in neural network models, along with a novel parallel strategy, coined weighted aggregating stochastic gradient descent (WASGD). Following a theoretical analysis on the characteristics of the new objective function, WASGD introduces a decentralized weighted aggregating scheme based on the performance of local workers. Without any center variable, the new method automatically assesses the importance of local workers and accepts them according to their contributions. Furthermore, we have developed an enhanced version of the method, WASGD+, by (1) considering a designed sample order and (2) applying a more advanced weight evaluating function. To validate the new method, we benchmark our schemes against several popular algorithms including the state-of-the-art techniques (e.g., elastic averaging SGD) in training deep neural networks for classification tasks. Comprehensive experiments have been conducted on four classic datasets, including the CIFAR-100, CIFAR-10, Fashion-MNIST, and MNIST. The subsequent results suggest the superiority of the WASGD scheme in accelerating the training of deep architecture. Better still, the enhanced version, WASGD+, has been shown to be a significant improvement over its basic version.
翻訳日:2022-12-16 01:01:11 公開日:2020-04-07
# Geomstats: 機械学習におけるリーマン幾何学のためのPythonパッケージ

Geomstats: A Python Package for Riemannian Geometry in Machine Learning ( http://arxiv.org/abs/2004.04667v1 )

ライセンス: Link先を確認
Nina Miolane, Alice Le Brigant, Johan Mathe, Benjamin Hou, Nicolas Guigui, Yann Thanwerdas, Stefan Heyder, Olivier Peltre, Niklas Koep, Hadi Zaatiti, Hatem Hajri, Yann Cabanes, Thomas Gerald, Paul Chauchat, Christian Shewmake, Bernhard Kainz, Claire Donnat, Susan Holmes, Xavier Pennec(参考訳) 我々は、双曲空間、対称正定値行列の空間、変換のリー群など、非線形多様体の計算と統計のためのオープンソースのpythonツールボックスであるgeomstatsを紹介する。 オブジェクト指向で広範な単体テスト実装を提供する。 なかでも、多様体はリーマン計量の族を持ち、関連する指数的および対数的写像、測地線および平行輸送を持つ。 統計学と学習アルゴリズムは、多様体上の推定、クラスタリング、次元縮小の手法を提供する。 関連するすべての操作は、バッチ計算のためにベクトル化され、異なる実行バックエンド、すなわちNumPy、PyTorch、TensorFlowをサポートし、GPUアクセラレーションを可能にする。 本稿では,そのパッケージを関連ライブラリと比較し,関連するコード例を示す。 ジオムスタットは微分幾何学と統計学の研究を促進させ、機械学習アプリケーションにおけるリーマン幾何学の使用を民主化するために信頼性の高い構成要素を提供する。 ソースコードはMITライセンスの \url{geomstats.ai} で無償公開されている。

We introduce Geomstats, an open-source Python toolbox for computations and statistics on nonlinear manifolds, such as hyperbolic spaces, spaces of symmetric positive definite matrices, Lie groups of transformations, and many more. We provide object-oriented and extensively unit-tested implementations. Among others, manifolds come equipped with families of Riemannian metrics, with associated exponential and logarithmic maps, geodesics and parallel transport. Statistics and learning algorithms provide methods for estimation, clustering and dimension reduction on manifolds. All associated operations are vectorized for batch computation and provide support for different execution backends, namely NumPy, PyTorch and TensorFlow, enabling GPU acceleration. This paper presents the package, compares it with related libraries and provides relevant code examples. We show that Geomstats provides reliable building blocks to foster research in differential geometry and statistics, and to democratize the use of Riemannian geometry in machine learning applications. The source code is freely available under the MIT license at \url{geomstats.ai}.
翻訳日:2022-12-16 01:00:47 公開日:2020-04-07
# 糖尿病網膜症診断のためのスマートフォン自動診断システム

Automated Smartphone based System for Diagnosis of Diabetic Retinopathy ( http://arxiv.org/abs/2004.03408v1 )

ライセンス: Link先を確認
Misgina Tsighe Hagos, Shri Kant, Surayya Ado Bala(参考訳) 糖尿病網膜症の早期診断は,農村部に住む糖尿病患者に届かなかった。 眼科医が不足し、医療センターが限られており、診断機器の高価さが理由である。 糖尿病網膜症における深層学習に基づく自動診断は,多くの文献で実装されているが,これらの手法はいまだにポイント・オブ・ケアの診断には至っていない。 これにより、非専門家が使用できる糖尿病網膜症の独立した診断の必要性が高まる。 近年,スマートフォンの利用が世界中で増加している。 糖尿病網膜症の自動診断は、遠隔地に住む糖尿病患者に即時診断を提供するためにスマートフォンに展開することができる。 本稿では, インセプションに基づく畳み込みニューラルネットワークと二分決定木に基づく分類器のアンサンブルを提案し, 糖尿病網膜症の検出と分類を行う。 提案手法は,糖尿病網膜症の診断のためのオフラインおよび自動診断システムを提供する携帯型分類用スマートフォンアプリケーションにさらに導入された。

Early diagnosis of diabetic retinopathy for treatment of the disease has been failing to reach diabetic people living in rural areas. Shortage of trained ophthalmologists, limited availability of healthcare centers, and expensiveness of diagnostic equipment are among the reasons. Although many deep learning-based automatic diagnosis of diabetic retinopathy techniques have been implemented in the literature, these methods still fail to provide a point-of-care diagnosis. This raises the need for an independent diagnostic of diabetic retinopathy that can be used by a non-expert. Recently the usage of smartphones has been increasing across the world. Automated diagnoses of diabetic retinopathy can be deployed on smartphones in order to provide an instant diagnosis to diabetic people residing in remote areas. In this paper, inception based convolutional neural network and binary decision tree-based ensemble of classifiers have been proposed and implemented to detect and classify diabetic retinopathy. The proposed method was further imported into a smartphone application for mobile-based classification, which provides an offline and automatic system for diagnosis of diabetic retinopathy.
翻訳日:2022-12-16 01:00:29 公開日:2020-04-07
# 過渡的クラウドgpuサーバによる分散トレーニングのキャラクタリゼーションとモデリング

Characterizing and Modeling Distributed Training with Transient Cloud GPU Servers ( http://arxiv.org/abs/2004.03072v1 )

ライセンス: Link先を確認
Shijian Li and Robert J. Walls and Tian Guo(参考訳) クラウドGPUサーバは、ディープラーニング実践者が大規模データセット上で複雑なモデルをトレーニングする事実上の方法になっている。 しかし、異なるトレーニングワークロードに対して、トレーニング時間、コスト、モデルの精度のトレードオフをバランスしながら、適切なクラスタ構成、すなわち、サーバタイプと番号を決定することは困難である。 複雑さの追加は、安価だが取り消し可能なトランジェントGPUサーバを使用することで、金銭的コストを削減する可能性がある。 本研究では,クラウドベースの計測・トレーニングフレームワークcm-dareを用いて,クラスタ構成の多様な分散トレーニング性能を分析する。 私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。 また,回帰モデルを用いた学習速度とオーバヘッドの予測の可能性を示す。 最後に,性能ボトルネックの検出や緩和といったパフォーマンスモデリングの潜在的なユースケースについて論じる。

Cloud GPU servers have become the de facto way for deep learning practitioners to train complex models on large-scale datasets. However, it is challenging to determine the appropriate cluster configuration---e.g., server type and number---for different training workloads while balancing the trade-offs in training time, cost, and model accuracy. Adding to the complexity is the potential to reduce the monetary cost by using cheaper, but revocable, transient GPU servers. In this work, we analyze distributed training performance under diverse cluster configurations using CM-DARE, a cloud-based measurement and training framework. Our empirical datasets include measurements from three GPU types, six geographic regions, twenty convolutional neural networks, and thousands of Google Cloud servers. We also demonstrate the feasibility of predicting training speed and overhead using regression-based models. Finally, we discuss potential use cases of our performance modeling such as detecting and mitigating performance bottlenecks.
翻訳日:2022-12-16 01:00:13 公開日:2020-04-07
# 網膜血管セグメンテーションのためのDense Residual Network

Dense Residual Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2004.03697v1 )

ライセンス: Link先を確認
Changlu Guo, M\'arton Szemenyei, Yugen Yi, Ying Xue, Wei Zhou, Yangyuan Li(参考訳) 網膜血管のセグメンテーションは、網膜血管構造の変化が高血圧や糖尿病などの疾患の診断に役立つため、網膜画像解析の分野で重要な役割を担っている。 近年,眼底画像のセグメンテーション手法が多数提案されている。 しかし、他の網膜画像モダリティにとって、血管抽出の研究にはさらなる研究が必要である。 本研究では,走査型レーザー眼内視鏡(slo)網膜画像において血管を分割する効率的な方法を提案する。 U-Net,「機能マップの再利用」,残差学習に触発され,DRNetと呼ばれる高密度残差ネットワーク構造を提案する。 DRNetでは、前のブロックの特徴マップを入力として後続の層に適応的に集約し、空間再構成を容易にするだけでなく、より安定した勾配のためにより効率的に学習する。 さらに,ネットワークのオーバーフィッティング問題を軽減するためにDropBlockを導入する。 私たちは、最近のSLOパブリックデータセットでこのモデルをトレーニングし、テストします。 その結果,本手法はデータ拡張を伴わずとも最先端の性能を実現することができた。

Retinal vessel segmentation plays an imaportant role in the field of retinal image analysis because changes in retinal vascular structure can aid in the diagnosis of diseases such as hypertension and diabetes. In recent research, numerous successful segmentation methods for fundus images have been proposed. But for other retinal imaging modalities, more research is needed to explore vascular extraction. In this work, we propose an efficient method to segment blood vessels in Scanning Laser Ophthalmoscopy (SLO) retinal images. Inspired by U-Net, "feature map reuse" and residual learning, we propose a deep dense residual network structure called DRNet. In DRNet, feature maps of previous blocks are adaptively aggregated into subsequent layers as input, which not only facilitates spatial reconstruction, but also learns more efficiently due to more stable gradients. Furthermore, we introduce DropBlock to alleviate the overfitting problem of the network. We train and test this model on the recent SLO public dataset. The results show that our method achieves the state-of-the-art performance even without data augmentation.
翻訳日:2022-12-16 00:53:03 公開日:2020-04-07
# インドにおける新型コロナウイルス感染症の進展予測 : ロックダウンの影響

Prediction of COVID-19 Disease Progression in India : Under the Effect of National Lockdown ( http://arxiv.org/abs/2004.03147v1 )

ライセンス: Link先を確認
Sourish Das(参考訳) 本稿では,全国および州レベルでの基本再現数 $\mathcal{r}_0$ を推定するために,疫学のsirを実装した。 また,先行して事例を予測する統計的機械学習モデルを開発した。 解析の結果, Punjab(\mathcal{R}_0\approx 16$)の状況は良くないことがわかった。 迅速な注意が必要である。 マディヤ・プラデーシュ(3.37)、マハラストラ(3.25)、タミル・ナードゥ(3.09)の$\mathcal{r}_0$は3以上である。 andhra pradesh (2.96)、delhi (2.82)、west bengal (2.77)の$\mathcal{r}_0$は、2020年3月04日の時点でインドの$\mathcal{r}_0=2.75$よりも大きい。 インドの$\mathcal{r}_0=2.75$(2020年3月04日現在)は、初期の疾患進行段階において中国と非常によく似ている。 我々の分析は、インドの初期の病気の進行は中国と類似していることを示している。 それゆえ、インドはロックダウンを実施すれば、中国に似ていなければ、できるだけ多くのケースを想定すべきである。 ロックダウンがうまくいけば、2020年5月01日までに66,224件未満のケースが予想される。 この論文のすべてのデータと \texttt{R} コードは \url{https://github.com/sourish-cmi/Covid19} から入手できる。

In this policy paper, we implement the epidemiological SIR to estimate the basic reproduction number $\mathcal{R}_0$ at national and state level. We also developed the statistical machine learning model to predict the cases ahead of time. Our analysis indicates that the situation of Punjab ($\mathcal{R}_0\approx 16$) is not good. It requires immediate aggressive attention. We see the $\mathcal{R}_0$ for Madhya Pradesh (3.37) , Maharastra (3.25) and Tamil Nadu (3.09) are more than 3. The $\mathcal{R}_0$ of Andhra Pradesh (2.96), Delhi (2.82) and West Bengal (2.77) is more than the India's $\mathcal{R}_0=2.75$, as of 04 March, 2020. India's $\mathcal{R}_0=2.75$ (as of 04 March, 2020) is very much comparable to Hubei/China at the early disease progression stage. Our analysis indicates that the early disease progression of India is that of similar to China. Therefore, with lockdown in place, India should expect as many as cases if not more like China. If lockdown works, we should expect less than 66,224 cases by May 01,2020. All data and \texttt{R} code for this paper is available from \url{https://github.com/sourish-cmi/Covid19}
翻訳日:2022-12-16 00:51:23 公開日:2020-04-07
# インキュベーションのための個別モデル学習(技術報告)

Learning Individual Models for Imputation (Technical Report) ( http://arxiv.org/abs/2004.03436v1 )

ライセンス: Link先を確認
Aoqian Zhang, Shaoxu Song, Yu Sun, Jianmin Wang(参考訳) 例えば、不均一なソース間のセンサの読み取り、収集、送信が信頼できないためである。 制限領域上の分類されたデータインプテーションとは異なり、(1)不完全タプルは(ほぼ)無限領域のため、インプテーションに対して同じ/類似の値を共有する十分な完全隣人を持たないかもしれないし、(2)異質性問題では異なるタプルは同じ(回帰)モデルに適合しないかもしれない。 本研究では,その関係ではなく,特定のタプルに条件付きで係わる条件依存性に着目して,各完全タプルに対する回帰モデルを隣人とともに学習することを提案する。 我々のIIMであるImputation via individual Modelsは、もはやk完全隣人間で同様の値を共有することに頼るのではなく、前述の学習した個人(同じではない)モデルによる回帰結果を利用する。 注目すべきは、既存の手法が、個々の学習において考慮される学習者の数 l の極端な設定の下で、我々のIIMの特別なケースであることである。 この意味では、隣人の適切な数 l は個々のモデル(過剰適合や不適合)を学ぶのに不可欠である。 提案手法は, 異なる完全タプルに対して, 近傍の様々な数 l に対して個別のモデルを適応的に学習するものである。 効率的なインクリメンタル計算を考案することにより、モデルを学習する時間の複雑さが線形から定数に減少する。 実データを用いた実験により,適応学習によるIIMは既存手法よりも高い計算精度が得られることが示された。

Missing numerical values are prevalent, e.g., owing to unreliable sensor reading, collection and transmission among heterogeneous sources. Unlike categorized data imputation over a limited domain, the numerical values suffer from two issues: (1) sparsity problem, the incomplete tuple may not have sufficient complete neighbors sharing the same/similar values for imputation, owing to the (almost) infinite domain; (2) heterogeneity problem, different tuples may not fit the same (regression) model. In this study, enlightened by the conditional dependencies that hold conditionally over certain tuples rather than the whole relation, we propose to learn a regression model individually for each complete tuple together with its neighbors. Our IIM, Imputation via Individual Models, thus no longer relies on sharing similar values among the k complete neighbors for imputation, but utilizes their regression results by the aforesaid learned individual (not necessary the same) models. Remarkably, we show that some existing methods are indeed special cases of our IIM, under the extreme settings of the number l of learning neighbors considered in individual learning. In this sense, a proper number l of neighbors is essential to learn the individual models (avoid over-fitting or under-fitting). We propose to adaptively learn individual models over various number l of neighbors for different complete tuples. By devising efficient incremental computation, the time complexity of learning a model reduces from linear to constant. Experiments on real data demonstrate that our IIM with adaptive learning achieves higher imputation accuracy than the existing approaches.
翻訳日:2022-12-16 00:50:55 公開日:2020-04-07
# 生体医学的オントロジーの多言語化

Multilingual enrichment of disease biomedical ontologies ( http://arxiv.org/abs/2004.03181v1 )

ライセンス: Link先を確認
L\'eo Bouscarrat (QARMA, TALEP), Antoine Bonnefoy, C\'ecile Capponi (LIF, QARMA), Carlos Ramisch (TALEP)(参考訳) 生物医学的オントロジーの翻訳は重要な課題であるが、手動で行うには多くの時間とお金が必要である。 バイオメディカルオントロジーの翻訳にオープンソース知識ベースを用いる可能性を検討する。 カバレッジと品質の2つの側面に重点を置いています。 我々は,9つのヨーロッパ言語(チェコ語,オランダ語,英語,フランス語,ドイツ語,イタリア語,ポーランド語,ポルトガル語,スペイン語)のWikidataに関する疾患に焦点を当てた2つの生物医学的オントロジーと,第2のオントロジーについて述べる。 まず、Wikidataと研究オントロジーの直接リンクを使用し、次に他の中間オントロジーを経由して2階リンクを使用する。 そして、Wikidataのおかげで得られた翻訳の質を、商用の機械翻訳ツールと比較する。

Translating biomedical ontologies is an important challenge, but doing it manually requires much time and money. We study the possibility to use open-source knowledge bases to translate biomedical ontologies. We focus on two aspects: coverage and quality. We look at the coverage of two biomedical ontologies focusing on diseases with respect to Wikidata for 9 European languages (Czech, Dutch, English, French, German, Italian, Polish, Portuguese and Spanish) for both ontologies, plus Arabic, Chinese and Russian for the second one. We first use direct links between Wikidata and the studied ontologies and then use second-order links by going through other intermediate ontologies. We then compare the quality of the translations obtained thanks to Wikidata with a commercial machine translation tool, here Google Cloud Translation.
翻訳日:2022-12-16 00:44:55 公開日:2020-04-07
# photo-realistic image de-quantizationのための深層注意型生成逆ネットワーク

Deep Attentive Generative Adversarial Network for Photo-Realistic Image De-Quantization ( http://arxiv.org/abs/2004.03150v1 )

ライセンス: Link先を確認
Yang Zhang, Changhui Hu, and Xiaobo Lu(参考訳) 現在のディスプレイデバイスのほとんどは、ビット深度が8以上ある。 しかし、ほとんどのマルチメディアツールの品質は、画像を生成するためのビット深度標準を達成できない。 減量子化は、高ビット深度画面に表示するための低ビット深度画像の視覚的品質を改善することができる。 本稿では,空間分解能に直交する画像強度分解能の超分解能を実現するためのDAGANアルゴリズムを提案する。 これまでは、GAN(Generative Adversarial Network)フレームワークを画像の非量子化に適用するための最初の試みである。 具体的には,高頻度情報に注意を払うために,高濃度残差ブロックを用いた高濃度残差セルフアテンション(denseresatt)モジュールを提案する。 さらに,逐次的高密度resattモジュールの直列接続は,画像非量子化における識別学習能力に優れた深層注意ネットワークを形成し,代表的特徴マップをモデル化し,可能な限り有用な情報を復元する。 また、敵対学習フレームワークは、高品質な自然画像を確実に生成できるため、特定のコンテンツ損失と敵対的損失をバックプロパゲーションしてモデルの訓練を最適化する。 DAGANは、アーティファクトをバンドリングすることなく、写真リアルな高ビット深度画像を生成することができる。 いくつかの公開ベンチマーク実験の結果、DAGANアルゴリズムは優れた視覚効果と量的性能を達成する能力を有することが示された。

Most of current display devices are with eight or higher bit-depth. However, the quality of most multimedia tools cannot achieve this bit-depth standard for the generating images. De-quantization can improve the visual quality of low bit-depth image to display on high bit-depth screen. This paper proposes DAGAN algorithm to perform super-resolution on image intensity resolution, which is orthogonal to the spatial resolution, realizing photo-realistic de-quantization via an end-to-end learning pattern. Until now, this is the first attempt to apply Generative Adversarial Network (GAN) framework for image de-quantization. Specifically, we propose the Dense Residual Self-attention (DenseResAtt) module, which is consisted of dense residual blocks armed with self-attention mechanism, to pay more attention on high-frequency information. Moreover, the series connection of sequential DenseResAtt modules forms deep attentive network with superior discriminative learning ability in image de-quantization, modeling representative feature maps to recover as much useful information as possible. In addition, due to the adversarial learning framework can reliably produce high quality natural images, the specified content loss as well as the adversarial loss are back-propagated to optimize the training of model. Above all, DAGAN is able to generate the photo-realistic high bit-depth image without banding artifacts. Experiment results on several public benchmarks prove that the DAGAN algorithm possesses ability to achieve excellent visual effect and satisfied quantitative performance.
翻訳日:2022-12-16 00:43:40 公開日:2020-04-07
# Iconify:写真をIconに変換する

Iconify: Converting Photographs into Icons ( http://arxiv.org/abs/2004.03179v1 )

ライセンス: Link先を確認
Takuro Karamatsu, Gibran Benitez-Garcia, Keiji Yanai, Seiichi Uchida(参考訳) 本稿では,写真画像とアイコン画像の領域変換課題に挑戦する。 アイコンは実際のオブジェクトイメージ(写真など)から生じることが多いが、プロのグラフィックデザイナーによってアイコン画像を生成するために厳しい抽象化と単純化が適用される。 さらに,2つの領域間の一対一対応は存在しないため,直接変換関数の学習の基盤として利用することはできない。 生成敵対ネットワーク (GAN) は, 対応のない領域変換の問題に対処できるため, 画像から区切られた物体からアイコンを生成するためにCycleGANとUNITをテストする。 複数の画像データセットを用いた実験により、cycleganはアイコンのような画像を生成するのに十分な抽象化と単純化を学習できることが証明された。

In this paper, we tackle a challenging domain conversion task between photo and icon images. Although icons often originate from real object images (i.e., photographs), severe abstractions and simplifications are applied to generate icon images by professional graphic designers. Moreover, there is no one-to-one correspondence between the two domains, for this reason we cannot use it as the ground-truth for learning a direct conversion function. Since generative adversarial networks (GAN) can undertake the problem of domain conversion without any correspondence, we test CycleGAN and UNIT to generate icons from objects segmented from photo images. Our experiments with several image datasets prove that CycleGAN learns sufficient abstraction and simplification ability to generate icon-like images.
翻訳日:2022-12-16 00:43:11 公開日:2020-04-07
# マイクロctボリュームを用いた修正サイクガンによる臨床用ctボリュームの超解像

Super-resolution of clinical CT volumes with modified CycleGAN using micro CT volumes ( http://arxiv.org/abs/2004.03272v1 )

ライセンス: Link先を確認
Tong ZHENG, Hirohisa ODA, Takayasu MORIYA, Takaaki SUGINO, Shota NAKAMURA, Masahiro ODA, Masaki MORI, Hirotsugu TAKABATAKE, Hiroshi NATORI, Kensaku MORI(参考訳) 本稿では,臨床CTおよびマイクロCTボリュームのトレーニングデータセットを欠いた超解像(SR)法を提案する。 肺癌患者の術前臨床CTボリュームから癌浸潤などの極めて詳細な情報を得るためには,臨床CTボリュームのSRを$\m$}CTレベルに設定する必要がある。 ほとんどのsr法は訓練のために低解像度画像と高解像度画像のペアを必要とするが、臨床用ctとctのペア画像の取得は不可能である。 そこで我々はCycleGANをベースとしたSRアプローチを提案し,臨床CTのSRを$\mu$CTレベルにすることができる。 ペアボリュームを使わずにトレーニングを行いながら,サイクルの一貫性を保つための新たな損失関数を提案する。 肺がん患者の臨床CT容積のSRを$\mu$CTレベルに向上させる方法が提案された。

This paper presents a super-resolution (SR) method with unpaired training dataset of clinical CT and micro CT volumes. For obtaining very detailed information such as cancer invasion from pre-operative clinical CT volumes of lung cancer patients, SR of clinical CT volumes to $\m$}CT level is desired. While most SR methods require paired low- and high- resolution images for training, it is infeasible to obtain paired clinical CT and {\mu}CT volumes. We propose a SR approach based on CycleGAN, which could perform SR on clinical CT into $\mu$CT level. We proposed new loss functions to keep cycle consistency, while training without paired volumes. Experimental results demonstrated that our proposed method successfully performed SR of clinical CT volume of lung cancer patients into $\mu$CT level.
翻訳日:2022-12-16 00:42:57 公開日:2020-04-07
# Disp R-CNN:形状優先型インスタンス分散推定によるステレオ3次元物体検出

Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation ( http://arxiv.org/abs/2004.03572v1 )

ライセンス: Link先を確認
Jiaming Sun, Linghao Chen, Yiming Xie, Siyu Zhang, Qinhong Jiang, Xiaowei Zhou, Hujun Bao(参考訳) 本稿では,ステレオ画像からの3次元物体検出のためのdisp r-cnnという新しいシステムを提案する。 多くの最近の研究は、まず異なる推定で点雲を回収し、3D検出器を適用してこの問題を解決する。 差分マップは画像全体に対して計算されるが、これはコストがかかり、カテゴリ固有の事前利用に失敗する。 対照的に,関心対象の画素に対してのみ不一致を予測し,より正確な不一致推定に先立ってカテゴリ固有の形状を学習するインスタンス不一致推定ネットワーク(idispnet)を設計する。 トレーニングにおける不均質アノテーションの不足による課題を解決するため,LiDAR点雲を必要とせず,統計的形状モデルを用いて高密度不均質な擬似地下構造を生成することを提案する。 KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。

In this paper, we propose a novel system named Disp R-CNN for 3D object detection from stereo images. Many recent works solve this problem by first recovering a point cloud with disparity estimation and then apply a 3D detector. The disparity map is computed for the entire image, which is costly and fails to leverage category-specific prior. In contrast, we design an instance disparity estimation network (iDispNet) that predicts disparity only for pixels on objects of interest and learns a category-specific shape prior for more accurate disparity estimation. To address the challenge from scarcity of disparity annotation in training, we propose to use a statistical shape model to generate dense disparity pseudo-ground-truth without the need of LiDAR point clouds, which makes our system more widely applicable. Experiments on the KITTI dataset show that, even when LiDAR ground-truth is not available at training time, Disp R-CNN achieves competitive performance and outperforms previous state-of-the-art methods by 20% in terms of average precision.
翻訳日:2022-12-16 00:42:44 公開日:2020-04-07
# シーングラフを用いた意味的画像操作

Semantic Image Manipulation Using Scene Graphs ( http://arxiv.org/abs/2004.03677v1 )

ライセンス: Link先を確認
Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari, Christian Rupprecht(参考訳) 画像操作は、生成する画像が既存の画像の修正であるような画像生成の特別な場合と考えることができる。 画像の生成と操作は、ほとんどの場合、生のピクセルで動作するタスクです。 しかし、リッチな画像やオブジェクト表現の学習における顕著な進歩は、主にセマンティクスによって駆動されるテキスト・ツー・イメージやレイアウト・ツー・イメージ生成といったタスクの道を開いた。 本研究では,画像から生成されたセマンティックグラフのノードやエッジの変更を単に適用するだけで画像を編集できるシーングラフからの画像操作という,新たな課題に対処する。 私たちの目標は、与えられた星座内の画像情報をエンコードし、元の画像から意味やスタイルを尊重しながら、オブジェクトの置き換えやオブジェクト間の関係の変更など、新たな星座を生成することです。 本研究では,星座変更や画像編集を直接監督する必要のない空間空間グラフネットワークを提案する。 これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。

Image manipulation can be considered a special case of image generation where the image to be produced is a modification of an existing image. Image generation and manipulation have been, for the most part, tasks that operate on raw pixels. However, the remarkable progress in learning rich image and object representations has opened the way for tasks such as text-to-image or layout-to-image generation that are mainly driven by semantics. In our work, we address the novel problem of image manipulation from scene graphs, in which a user can edit images by merely applying changes in the nodes or edges of a semantic graph that is generated from the image. Our goal is to encode image information in a given constellation and from there on generate new constellations, such as replacing objects or even changing relationships between objects, while respecting the semantics and style from the original image. We introduce a spatio-semantic scene graph network that does not require direct supervision for constellation changes or image edits. This makes it possible to train the system from existing real-world datasets with no additional annotation effort.
翻訳日:2022-12-16 00:35:37 公開日:2020-04-07
# 自己認識とコントラスト機能によるコンテキスト認識型グループキャプション

Context-Aware Group Captioning via Self-Attention and Contrastive Features ( http://arxiv.org/abs/2004.03708v1 )

ライセンス: Link先を確認
Zhuowan Li, Quan Tran, Long Mai, Zhe Lin, Alan Yuille(参考訳) 画像キャプションは急速に進歩しているが、既存の作品は主に単一の画像の記述に焦点を当てている。 本稿では,別の参照画像群の文脈における対象画像群を記述することを目的とした,コンテキスト認識型グループキャプションを提案する。 コンテキスト認識型グループキャプションは、ターゲット画像群と参照画像群の両方からの情報を要約するだけでなく、それらと対比する。 そこで本稿では,自己着脱機構と対比的特徴構成を組み合わせた枠組みを提案し,各画像群からの共通情報を効果的に要約し,両者の識別情報を収集する。 この課題のためのデータセットを構築するために,画像群をグループ化し,シーングラフマッチングを用いた単一キャプションに基づくグループキャプションを生成することを提案する。 私たちのデータセットは、パブリックコンセプトキャプションデータセットと、新しいストックキャプションデータセットの上に構築されています。 この2つのデータセットの実験から,本手法の有効性が示された。 関連するデータセットとコードはhttps://lizw14.github.io/project/groupcapでリリースされる。

While image captioning has progressed rapidly, existing works focus mainly on describing single images. In this paper, we introduce a new task, context-aware group captioning, which aims to describe a group of target images in the context of another group of related reference images. Context-aware group captioning requires not only summarizing information from both the target and reference image group but also contrasting between them. To solve this problem, we propose a framework combining self-attention mechanism with contrastive feature construction to effectively summarize common information from each image group while capturing discriminative information between them. To build the dataset for this task, we propose to group the images and generate the group captions based on single image captions using scene graphs matching. Our datasets are constructed on top of the public Conceptual Captions dataset and our new Stock Captions dataset. Experiments on the two datasets show the effectiveness of our method on this new task. Related Datasets and code are released at https://lizw14.github.io/project/groupcap .
翻訳日:2022-12-16 00:34:56 公開日:2020-04-07
# バナナ病検出のためのモバイル型ディープラーニングモデル

Mobile-Based Deep Learning Models for Banana Diseases Detection ( http://arxiv.org/abs/2004.03718v1 )

ライセンス: Link先を確認
Sophia Sanga, Victor Mero, Dina Machuve and Davis Mwanganda(参考訳) タンザニアの小規模農家はバナナ病の早期発見のための道具の欠如に苦しめられている。 本研究の目的は,深層学習を用いたフサリウム・ウィットレース1およびブラックシガトカバナナ病の早期発見のためのモバイルアプリケーションの開発である。 3000のバナナ葉の画像のデータセットを使いました resnet152とinceptionv3の畳み込みニューラルネットワークアーキテクチャに関するモデルを事前トレーニングした。 Resnet152は99.2%、Inceptionv3は95.41%の精度を達成した。 android携帯電話を使ったデプロイでは、resnet152よりもメモリ要件が少ないため、inceptionv3を選択しました。 実環境におけるモバイルアプリケーションでは, 捕獲葉面積の99%の信頼度を有する2つの疾患が検出された。 この結果は, 病害早期発見ツールを用いて, 小規模農家によるバナナの収量向上の可能性を示している。

Smallholder farmers in Tanzania are challenged on the lack of tools for early detection of banana diseases. This study aimed at developing a mobile application for early detection of Fusarium wilt race 1 and black Sigatoka banana diseases using deep learning. We used a dataset of 3000 banana leaves images. We pre-trained our model on Resnet152 and Inceptionv3 Convolution Neural Network architectures. The Resnet152 achieved an accuracy of 99.2% and Inceptionv3 an accuracy of 95.41%. On deployment using Android mobile phones, we chose Inceptionv3 since it has lower memory requirements compared to Resnet152. The mobile application on real environment detected the two diseases with a confidence level of 99% of the captured leaf area. This result indicates the potential in improving the yield of bananas by smallholder farmers using a tool for early detection of diseases.
翻訳日:2022-12-16 00:34:39 公開日:2020-04-07
# 時空間ネットワークを用いた明示的咬合訓練による3次元ポーズ推定

3D Human Pose Estimation using Spatio-Temporal Networks with Explicit Occlusion Training ( http://arxiv.org/abs/2004.11822v1 )

ライセンス: Link先を確認
Yu Cheng, Bo Yang, Bo Wang, Robby T. Tan(参考訳) 近年の大きな進歩にもかかわらず、単眼ビデオからの3dポーズの推定は依然として難しい課題である。 一般に、既存の手法の性能は、対象者が小さすぎる場合や、トレーニングデータの規模や速度に対して動きが速すぎる場合に低下する。 さらに、我々の知る限り、これらの手法の多くは厳密な隠蔽下で設計や訓練が行われておらず、隠蔽処理のパフォーマンスが損なわれている。 これらの問題に対処するため,ロバストな3次元ポーズ推定のための時空間ネットワークを提案する。 映像中の人間が異なるスケールで出現し、様々な動き速度を持つため、各フレームの2次元関節やキーポイント予測にマルチスケール空間特徴を適用し、マルチストライド時間畳み込みネットワーク(tcns)を用いて3次元関節やキーポイントを推定する。 さらに,身体構造に基づく時空間判別器と手足運動をデザインし,予測されたポーズが有効なポーズか有効な動きかを評価する。 訓練中,軽度咬合から重度咬合まで,様々な咬合症例をシミュレートするためのキーポイントを明示的にマスクし,ネットワークがより良く学習し,各種咬合に対して頑健になるようにした。 3次元地上データに制限があるため、2次元映像データを利用して半教師あり学習機能をネットワークに注入する。 公開データセットを用いた実験により,提案手法の有効性が検証され,ネットワーク\の個々のサブモジュールの長所が示唆された。

Estimating 3D poses from a monocular video is still a challenging task, despite the significant progress that has been made in recent years. Generally, the performance of existing methods drops when the target person is too small/large, or the motion is too fast/slow relative to the scale and speed of the training data. Moreover, to our knowledge, many of these methods are not designed or trained under severe occlusion explicitly, making their performance on handling occlusion compromised. Addressing these problems, we introduce a spatio-temporal network for robust 3D human pose estimation. As humans in videos may appear in different scales and have various motion speeds, we apply multi-scale spatial features for 2D joints or keypoints prediction in each individual frame, and multi-stride temporal convolutional net-works (TCNs) to estimate 3D joints or keypoints. Furthermore, we design a spatio-temporal discriminator based on body structures as well as limb motions to assess whether the predicted pose forms a valid pose and a valid movement. During training, we explicitly mask out some keypoints to simulate various occlusion cases, from minor to severe occlusion, so that our network can learn better and becomes robust to various degrees of occlusion. As there are limited 3D ground-truth data, we further utilize 2D video data to inject a semi-supervised learning capability to our network. Experiments on public datasets validate the effectiveness of our method, and our ablation studies show the strengths of our network\'s individual submodules.
翻訳日:2022-12-16 00:34:29 公開日:2020-04-07
# ユーザーレベルスタンス検出に十分なトピカルツイートがいくつかある

A Few Topical Tweets are Enough for Effective User-Level Stance Detection ( http://arxiv.org/abs/2004.03485v1 )

ライセンス: Link先を確認
Younes Samih and Kareem Darwish(参考訳) スタンス検出は、エンティティ、トピック、クレームなどのターゲットに対するユーザの位置を確認することを必要とする。 教師なし分類を用いた最近の研究は、ターゲットに多くのツイートがあるボイスTwitterユーザーに対してスタンス検出を行うと、非常に高い精度(+98%)が得られることを示している。 しかし、このような手法は、ターゲットに関するほんの数ツイートしか投稿していない声の少ないユーザーにとっては、パフォーマンスが悪く、あるいは完全に失敗する。 本稿では,このようなユーザの姿勢検出に2つのアプローチを用いて取り組む。 第1のアプローチでは,単語の潜在的意味をコンテキスト内にキャプチャするコンテキスト化埋め込みを用いて,ツイートを表現することで,ユーザレベルのスタンス検出を改善する。 提案手法は2つの強いベースラインを上回り,89.6%の精度,91.3%のマクロF尺度を8つの議論の的となっている。 第2のアプローチでは、Twitterタイムラインのつぶやきを使用して、特定のユーザのつぶやきを拡張し、トレーニングセット内の他のユーザとのクラスタリングを含む、教師なしのユーザ分類を実行します。 このアプローチは95.6%の精度と93.1%のマクロF測定を実現する。

Stance detection entails ascertaining the position of a user towards a target, such as an entity, topic, or claim. Recent work that employs unsupervised classification has shown that performing stance detection on vocal Twitter users, who have many tweets on a target, can yield very high accuracy (+98%). However, such methods perform poorly or fail completely for less vocal users, who may have authored only a few tweets about a target. In this paper, we tackle stance detection for such users using two approaches. In the first approach, we improve user-level stance detection by representing tweets using contextualized embeddings, which capture latent meanings of words in context. We show that this approach outperforms two strong baselines and achieves 89.6% accuracy and 91.3% macro F-measure on eight controversial topics. In the second approach, we expand the tweets of a given user using their Twitter timeline tweets, and then we perform unsupervised classification of the user, which entails clustering a user with other users in the training set. This approach achieves 95.6% accuracy and 93.1% macro F-measure.
翻訳日:2022-12-16 00:34:00 公開日:2020-04-07
# 二重継承の簡単な先史

A Brief Prehistory of Double Descent ( http://arxiv.org/abs/2004.04328v1 )

ライセンス: Link先を確認
Marco Loog, Tom Viering, Alexander Mey, Jesse H. Krijthe, David M.J. Tax(参考訳) 研究論文[1]では、リスク曲線の形状を現代の複雑度学習者の文脈で説明し、議論している。 一定のトレーニングサンプルサイズ$n$が与えられると、そのような曲線は、複雑性の(ほぼ)尺度である$n$の関数として学習者のリスクを示す。 n$ の機能数では、これらの曲線は特徴曲線(feature curve)とも呼ばれる。 [1] における注目すべき観察は、これらの曲線が、彼らが「二重降下」と呼ぶものを表示することができることである: リスクを最初に増加させることで、リスクは減少し、最小値に達し、トレーニングデータが完璧に適合する$n$ まで増加する。 さらに$N$が増加すると、リスクは2回目と最終回を減少し、ピークは$N=n$になる。 この2倍の降下は驚きかもしれないが、[1]の報告とは対照的に歴史的に見過ごされていない。 われわれの書簡は、現代の機械学習に関心を持つ、初期の発見に注意を向けている。

In their thought-provoking paper [1], Belkin et al. illustrate and discuss the shape of risk curves in the context of modern high-complexity learners. Given a fixed training sample size $n$, such curves show the risk of a learner as a function of some (approximate) measure of its complexity $N$. With $N$ the number of features, these curves are also referred to as feature curves. A salient observation in [1] is that these curves can display, what they call, double descent: with increasing $N$, the risk initially decreases, attains a minimum, and then increases until $N$ equals $n$, where the training data is fitted perfectly. Increasing $N$ even further, the risk decreases a second and final time, creating a peak at $N=n$. This twofold descent may come as a surprise, but as opposed to what [1] reports, it has not been overlooked historically. Our letter draws attention to some original, earlier findings, of interest to contemporary machine learning.
翻訳日:2022-12-16 00:33:41 公開日:2020-04-07
# FDTD法における深い分化可能な森林を用いた非分割フィールド型PMLの学習

Learning Unsplit-field-based PML for the FDTD Method by Deep Differentiable Forest ( http://arxiv.org/abs/2004.04815v1 )

ライセンス: Link先を確認
Yingshi Chen, Naixing Feng(参考訳) 有限差分時間領域(FDTD)に対するABC(Unsplit-filed-based absorbing boundary condition)の計算手法を,深い微分可能な森林に基づいて効率的に提案する。 FDTDの計算過程において、従来の完全整合層(PML)ABCを置き換えるために、DDFモデルを導入した。 DDFベースのPMLモデルをトレーニングするために、従来のPMLのインタフェース上のフィールドコンポーネントデータを採用する。 DDFは木とニューラルネットワークの両方の利点がある。 その木構造は容易に利用でき、数値pmlデータについて説明できる。 ニューラルネットワークのような完全な微分性を持つ。 DDFは深層学習の強力な技術で訓練することができる。 したがって,従来のpml実装と比較して,境界層の単細胞厚のみを含む新しいモデルにより,fdtd物理ドメインのサイズとfdtdの計算複雑性を大幅に低減することができる。 提案手法の性能をベンチマークするために, 数値シミュレーションを行った。 数値計算により,提案手法は従来のPMLを置き換えるだけでなく,FDTDの精度とFDTDとの整合性でFDTD計算プロセスに統合可能であることが示された。

Alternative unsplit-filed-based absorbing boundary condition (ABC) computation approach for the finite-difference time-domain (FDTD) is efficiently proposed based on the deep differentiable forest. The deep differentiable forest (DDF) model is introduced to replace the conventional perfectly matched layer (PML) ABC during the computation process of FDTD. The field component data on the interface of traditional PML are adopted to train the DDF-based PML model. DDF has the advantages of both trees and neural networks. Its tree structure is easy to use and explain for the numerical PML data. It has full differentiability like neural networks. DDF could be trained by powerful techniques from deep learning. So compared to the traditional PML implementation, the proposed method can greatly reduce the size of FDTD physical domain and the calculation complexity of FDTD due to the novel model which only involves the one-cell thickness of boundary layer. Numerical simulations have been carried out to benchmark the performance of the proposed approach. Numerical results illustrate that the proposed method can not only easily replace the traditional PML, but also be integrated into the FDTD computation process with satisfactory numerical accuracy and compatibility to the FDTD.
翻訳日:2022-12-16 00:33:23 公開日:2020-04-07
# 構造ワークフローのペトリネットモデルにおける動的マイグレーションに対する構造的アプローチ

A Structural Approach to Dynamic Migration in Petri Net Models of Structured Workflows ( http://arxiv.org/abs/2004.03592v1 )

ライセンス: Link先を確認
Ahana Pradhan and Rushikesh K. Joshi(参考訳) ワークフロープロセスのダイナミックな進化の文脈において、変更領域は、新しいプロセスへの移行が一貫性を欠くことが保証される古いプロセスの一部を特定する。 しかし、このアプローチは過度に見積もられ、ミスグラタブルなインスタンスを非移行可能と誤って特定する可能性がある。 この過大評価は、即時移行の延期による遅延を引き起こす。 本稿では,ペトリネットモデルのクラスにおける過大評価問題を解析する。 最小限の変化領域と過大評価をもたらす構造特性が発達し、変化領域を構造変化領域と完全な構造変化領域という2つのタイプの変化領域に分類する。 完全領域の必要十分条件が特定される。 論文はまた、古いプロセスと新しいプロセスの構造的特性の観点から、同じ計算方法についても論じている。

In the context of dynamic evolution of workflow processes, the change region identifies the part of the old process from which migration to the new process is guaranteed to be inconsistent. However, this approach may lead to overestimated regions, incorrectly identifying migratable instances as non-migratable. This overestimation causes delays due to postponement of immediate migration. The paper analyzes this overestimation problem on a class of Petri nets models. Structural properties leading to conditions for minimal change regions and overestimations are developed resulting into classification of change regions into two types of change regions called Structural Change Regions and Perfect Structural Change Regions. Necessary and sufficient conditions for perfect regions are identified. The paper also discusses ways for computing the same in terms of structural properties of the old and the new processes.
翻訳日:2022-12-16 00:33:06 公開日:2020-04-07
# 深部蒸留処理による非拘束パームプリント認識の効率化に向けて

Towards Efficient Unconstrained Palmprint Recognition via Deep Distillation Hashing ( http://arxiv.org/abs/2004.03303v1 )

ライセンス: Link先を確認
Huikai Shao, Dexing Zhong and Xuefeng Du(参考訳) 深いパームプリント認識は、ハンドヘルドとウェアラブルの消費者デバイス上での個人認証に大きな可能性を秘めている。 パームプリント認識のこれまでの研究は、主に制御された環境で専用デバイスが収集した制約付きデータセットに基づいており、柔軟性と利便性を低下させる必要がある。 さらに、一般的なパームプリント認識アルゴリズムは、組込みシステムのリアルタイム要件を満たすには重すぎることが多い。 本稿では,5つのブランドのスマートフォンが無拘束で収集した2万枚以上の画像からなるヤシプリントベンチマークを新たに構築する。 各画像には、関心領域(ROI)抽出のための14のキーポイントが手動でラベル付けされている。 さらに, 効率的な深部パームプリント認識のためのベンチマークとして, 深部蒸留ハッシュ (ddh) と呼ばれる手法が提案されている。 Palmprintイメージは、特徴マッチングの効率を改善するためにバイナリコードに変換される。 知識蒸留から得られた新しい蒸留損失関数を用いて深層モデルを圧縮し、光ネットワークにおける特徴抽出の効率をさらに向上させる。 包括的実験は制約付きおよび制約なしのpalmprintデータベース上で行われる。 DDHを用いることで、パームプリント識別の精度を最大11.37%向上し、パームプリント検証のEER(Equal Error Rate)を最大3.11%削減することができる。 その結果、データベースの実現可能性を示し、DDHは他のベースラインを上回り、最先端の性能を達成することができた。 収集されたデータセットと関連するソースコードはhttp://gr.xjtu.edu.cn/web/bell/resourceで公開されている。

Deep palmprint recognition has become an emerging issue with great potential for personal authentication on handheld and wearable consumer devices. Previous studies of palmprint recognition are mainly based on constrained datasets collected by dedicated devices in controlled environments, which has to reduce the flexibility and convenience. In addition, general deep palmprint recognition algorithms are often too heavy to meet the real-time requirements of embedded system. In this paper, a new palmprint benchmark is established, which consists of more than 20,000 images collected by 5 brands of smart phones in an unconstrained manner. Each image has been manually labeled with 14 key points for region of interest (ROI) extraction. Further, the approach called Deep Distillation Hashing (DDH) is proposed as benchmark for efficient deep palmprint recognition. Palmprint images are converted to binary codes to improve the efficiency of feature matching. Derived from knowledge distillation, novel distillation loss functions are constructed to compress deep model to further improve the efficiency of feature extraction on light network. Comprehensive experiments are conducted on both constrained and unconstrained palmprint databases. Using DDH, the accuracy of palmprint identification can be increased by up to 11.37%, and the Equal Error Rate (EER) of palmprint verification can be reduced by up to 3.11%. The results indicate the feasibility of our database, and DDH can outperform other baselines to achieve the state-of-the-art performance. The collected dataset and related source codes are publicly available at http://gr.xjtu.edu.cn/web/bell/resource.
翻訳日:2022-12-16 00:25:56 公開日:2020-04-07
# マルチパーソントラッキングアプリケーションにおける外観類似性のモデル化のためのディープマルチショットネットワーク

Deep Multi-Shot Network for modelling Appearance Similarity in Multi-Person Tracking applications ( http://arxiv.org/abs/2004.03531v1 )

ライセンス: Link先を確認
Mar\'ia J. G\'omez-Silva(参考訳) マルチオブジェクトトラッキングの自動化は、アルゴリズムが群衆、交差する人々、オクルージョン、消失、視覚的に類似した個人の存在を扱わなければならない、真の制約のないシナリオでは、要求の厳しいタスクになる。 このような状況下では、受信した検出と対応するIDとの間のデータ関連は、いくつかのトラックを見逃したり、アイデンティティスイッチを生成したりすることができる。 本稿では,これらの追跡誤差を低減し,さらにフレーム内での伝搬も抑制するため,人体観察における外観類似度(MS-DoAS)の測定を行うディープマルチショットニューラルモデルを提案する。 このモデルは、個人の外観表現に時間的一貫性を提供し、フレーム単位のデータアソシエーションを実行するための親和性指標を提供し、オンライン追跡を可能にする。 モデルは故意に訓練され、以前のアイデンティティスイッチの存在を管理し、処理されたトラックでの観察を見逃すことができる。 その目的で、このような状況をシミュレートするトレーニングトラックレットを作成するために、新しいデータ生成ツールが設計された。 このモデルは、新しい観測が特定のトラックに対応する場合の識別能力が高く、以前のミスでトラックをシミュレートするハードテストで97\%の分類精度を達成している。 さらに、監視アプリケーションにおけるモデルの追跡効率は、追跡・検出アルゴリズムのフレーム・バイ・フレーム・アソシエーションに統合することにより実証されている。

The automatization of Multi-Object Tracking becomes a demanding task in real unconstrained scenarios, where the algorithms have to deal with crowds, crossing people, occlusions, disappearances and the presence of visually similar individuals. In those circumstances, the data association between the incoming detections and their corresponding identities could miss some tracks or produce identity switches. In order to reduce these tracking errors, and even their propagation in further frames, this article presents a Deep Multi-Shot neural model for measuring the Degree of Appearance Similarity (MS-DoAS) between person observations. This model provides temporal consistency to the individuals' appearance representation, and provides an affinity metric to perform frame-by-frame data association, allowing online tracking. The model has been deliberately trained to be able to manage the presence of previous identity switches and missed observations in the handled tracks. With that purpose, a novel data generation tool has been designed to create training tracklets that simulate such situations. The model has demonstrated a high capacity to discern when a new observation corresponds to a certain track, achieving a classification accuracy of 97\% in a hard test that simulates tracks with previous mistakes. Moreover, the tracking efficiency of the model in a Surveillance application has been demonstrated by integrating that into the frame-by-frame association of a Tracking-by-Detection algorithm.
翻訳日:2022-12-16 00:25:03 公開日:2020-04-07
# 映像グラウンディングのためのDense Regression Network

Dense Regression Network for Video Grounding ( http://arxiv.org/abs/2004.03545v1 )

ライセンス: Link先を確認
Runhao Zeng, Haoming Xu, Wenbing Huang, Peihao Chen, Mingkui Tan, Chuang Gan(参考訳) 自然言語クエリからビデオグラウンド化の問題に対処する。 このタスクにおける重要な課題は、あるトレーニングビデオには、モデルトレーニングのポジティブな例として使用できるいくつかの注釈付き開始/終了フレームしか含まれていないことだ。 従来の手法では、このような不均衡データを使ってバイナリ分類器を直接訓練し、結果が劣る。 本論文の重要な考え方は,映像のグラウンドング精度を向上させるために,基底真理内のフレームと開始(終了)フレームとの間の距離を密接な監督として利用することである。 具体的には,各フレームからクエリによって記述されたビデオセグメントの開始(終了)フレームまでの距離を抑えるために,新しい高密度回帰ネットワーク(DRN)を設計する。 また,推定位置と基底真実の間のIoUの局所化品質を明示的に考慮する,単純だが効果的なIoU回帰ヘッドモジュールを提案する。 実験結果から,本手法は3つのデータセット(Charades-STA,ActivityNet-Captions,TACoS)の最先端性を大幅に向上することが示された。

We address the problem of video grounding from natural language queries. The key challenge in this task is that one training video might only contain a few annotated starting/ending frames that can be used as positive examples for model training. Most conventional approaches directly train a binary classifier using such imbalance data, thus achieving inferior results. The key idea of this paper is to use the distances between the frame within the ground truth and the starting (ending) frame as dense supervisions to improve the video grounding accuracy. Specifically, we design a novel dense regression network (DRN) to regress the distances from each frame to the starting (ending) frame of the video segment described by the query. We also propose a simple but effective IoU regression head module to explicitly consider the localization quality of the grounding results (i.e., the IoU between the predicted location and the ground truth). Experimental results show that our approach significantly outperforms state-of-the-arts on three datasets (i.e., Charades-STA, ActivityNet-Captions, and TACoS).
翻訳日:2022-12-16 00:24:38 公開日:2020-04-07
# ソフト化類似学習による教師なし人物の再識別

Unsupervised Person Re-identification via Softened Similarity Learning ( http://arxiv.org/abs/2004.03547v1 )

ライセンス: Link先を確認
Yutian Lin, Lingxi Xie, Yu Wu, Chenggang Yan, Qi Tian(参考訳) 人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。 本稿では,ラベル付き情報を必要とせず,新たなシナリオに自由にデプロイできるre-idの教師なし設定について検討する。 この設定下での研究は非常に少なく、これまでは反復的クラスタリングと分類に最も適したアプローチの1つとして、ラベルのないイメージを擬似クラスにクラスタ化して分類器を訓練し、更新されたフィーチャをクラスタリングなどに利用している。 このアプローチは、クラスタ数を決定することの難しさとクラスタリングにおけるハード量子化損失の2つの問題に悩まされる。 本稿では,反復学習機構に従うが,ハード量子化による損失が生じるためクラスタリングを破棄するが,その唯一の生成物である画像レベルの類似性は,ペアワイズ計算とソフト化分類タスクに容易に置き換えることができる。 これらの改善により、我々のアプローチはよりエレガントになり、ハイパーパラメータの変更に対してより堅牢になる。 2つの画像ベースおよびビデオベースデータセットの実験は、教師なしのre-ID設定の下で最先端のパフォーマンスを示す。

Person re-identification (re-ID) is an important topic in computer vision. This paper studies the unsupervised setting of re-ID, which does not require any labeled information and thus is freely deployed to new scenarios. There are very few studies under this setting, and one of the best approach till now used iterative clustering and classification, so that unlabeled images are clustered into pseudo classes for a classifier to get trained, and the updated features are used for clustering and so on. This approach suffers two problems, namely, the difficulty of determining the number of clusters, and the hard quantization loss in clustering. In this paper, we follow the iterative training mechanism but discard clustering, since it incurs loss from hard quantization, yet its only product, image-level similarity, can be easily replaced by pairwise computation and a softened classification task. With these improvements, our approach becomes more elegant and is more robust to hyper-parameter changes. Experiments on two image-based and video-based datasets demonstrate state-of-the-art performance under the unsupervised re-ID setting.
翻訳日:2022-12-16 00:24:17 公開日:2020-04-07
# フィーチャーピラミッドグリッド

Feature Pyramid Grids ( http://arxiv.org/abs/2004.03580v1 )

ライセンス: Link先を確認
Kai Chen, Yuhang Cao, Chen Change Loy, Dahua Lin, Christoph Feichtenhofer(参考訳) 特徴ピラミッドネットワークは、機能表現を改善し、スケールのバリエーションの扱いを改善するために、オブジェクト検出文献に広く採用されている。 本稿では,多方向の側方接続によって融合される並列ボトムアップ経路の正則格子として特徴空間を表現する,深いマルチパス特徴ピラミッドであるフィーチャーピラミッド格子(fpg)を提案する。 FPGは、同様の計算コストで性能を大幅に向上させ、深いピラミッド表現の重要性を強調することで、シングルパスの特徴ピラミッドネットワークを改善することができる。 汎用的かつ均一な構造に加えて、ニューラルネットワークの探索で発見された複雑な構造よりも、検索に頼ることなく、そのようなアプローチと好適に比較できる。 我々は、その均一で効果的な性質を持つFOGが、オブジェクト認識における将来の研究の強力な構成要素になることを期待している。

Feature pyramid networks have been widely adopted in the object detection literature to improve feature representations for better handling of variations in scale. In this paper, we present Feature Pyramid Grids (FPG), a deep multi-pathway feature pyramid, that represents the feature scale-space as a regular grid of parallel bottom-up pathways which are fused by multi-directional lateral connections. FPG can improve single-pathway feature pyramid networks by significantly increasing its performance at similar computation cost, highlighting importance of deep pyramid representations. In addition to its general and uniform structure, over complicated structures that have been found with neural architecture search, it also compares favorably against such approaches without relying on search. We hope that FPG with its uniform and effective nature can serve as a strong component for future work in object recognition.
翻訳日:2022-12-16 00:23:41 公開日:2020-04-07
# 知識グラフを用いたゼロショット生成学習

Generative Adversarial Zero-shot Learning via Knowledge Graphs ( http://arxiv.org/abs/2004.03109v1 )

ライセンス: Link先を確認
Yuxia Geng, Jiaoyan Chen, Zhuo Chen, Zhiquan Ye, Zonggang Yuan, Yantao Jia, Huajun Chen(参考訳) Zero-shot Learning (ZSL) は、ラベル付きトレーニングデータを持たない未確認クラスの予測を扱う。 近年,ZSLにおけるGAN(Generative Adversarial Networks)などの生成手法は,高い精度,一般化能力などにより広く研究されている。 しかし、現在使われているクラスのサイド情報はテキスト記述と属性アノテーションに限られており、それらはクラスのセマンティクスに不足している。 本稿では,知識グラフ(KG)にリッチセマンティクスを組み込むことにより,KG-GANという新たな生成的ZSL手法を提案する。 具体的には,グラフニューラルネットワークを基盤として,クラスビューと属性ビューという2つのビューからkgをエンコードする。 各ノードに対してよく学習されたセマンティック埋め込み(視覚圏を表す)を用いて、GANを活用して、目に見えないクラスの魅力的な視覚的特徴を合成する。 複数の画像分類データセットを用いて評価したところ、KG-GANは最先端のベースラインよりも優れた性能が得られる。

Zero-shot learning (ZSL) is to handle the prediction of those unseen classes that have no labeled training data. Recently, generative methods like Generative Adversarial Networks (GANs) are being widely investigated for ZSL due to their high accuracy, generalization capability and so on. However, the side information of classes used now is limited to text descriptions and attribute annotations, which are in short of semantics of the classes. In this paper, we introduce a new generative ZSL method named KG-GAN by incorporating rich semantics in a knowledge graph (KG) into GANs. Specifically, we build upon Graph Neural Networks and encode KG from two views: class view and attribute view considering the different semantics of KG. With well-learned semantic embeddings for each node (representing a visual category), we leverage GANs to synthesize compelling visual features for unseen classes. According to our evaluation with multiple image classification datasets, KG-GAN can achieve better performance than the state-of-the-art baselines.
翻訳日:2022-12-16 00:17:30 公開日:2020-04-07
# 野生のポーズからの人間の移動

Human Motion Transfer from Poses in the Wild ( http://arxiv.org/abs/2004.03142v1 )

ライセンス: Link先を確認
Jian Ren, Menglei Chai, Sergey Tulyakov, Chen Fang, Xiaohui Shen, Jianchao Yang(参考訳) 本稿では、人間の動き伝達の問題に取り組み、参照映像からの動きを模倣する対象人物のための新しい動き映像を合成する。 推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。 トピックの大幅な進歩にもかかわらず、以前の方法にはいくつかの問題がある。 まず、トレーニングとテストのポーズシーケンスの間にはドメインギャップがある — モデルは、難しいダンスの動きのように、トレーニング中に見られないポーズでテストされる。 さらに、ポーズ検出エラーは避けられないため、ジェネレータの動作が難しくなる。 最後に、スパースポーズからリアルなピクセルを生成することは、単一のステップで難しい。 そこで本稿では,これらの課題に対処するために,訓練中は見当たらないポーズシーケンスにおいても時間的に一貫性のある高品質ビデオを生成するための新しいポーズ・ビデオ翻訳フレームワークを提案する。 そこで本研究では,学習とテストのギャップを最小限に抑えるポーズ強化手法と,検出誤りに対するロバスト性を改善するための統合ペア化学習戦略と,テクスチャ品質の優れた2段階ネットワークアーキテクチャを提案する。 このトピックの研究をさらに進めるために、人間の動作データセットを2つ構築する。 最後に,様々なデータセットに対する広範囲な実験と評価を通じて,最先端の研究に対するアプローチの優位性を示す。

In this paper, we tackle the problem of human motion transfer, where we synthesize novel motion video for a target person that imitates the movement from a reference video. It is a video-to-video translation task in which the estimated poses are used to bridge two domains. Despite substantial progress on the topic, there exist several problems with the previous methods. First, there is a domain gap between training and testing pose sequences--the model is tested on poses it has not seen during training, such as difficult dancing moves. Furthermore, pose detection errors are inevitable, making the job of the generator harder. Finally, generating realistic pixels from sparse poses is challenging in a single step. To address these challenges, we introduce a novel pose-to-video translation framework for generating high-quality videos that are temporally coherent even for in-the-wild pose sequences unseen during training. We propose a pose augmentation method to minimize the training-test gap, a unified paired and unpaired learning strategy to improve the robustness to detection errors, and two-stage network architecture to achieve superior texture quality. To further boost research on the topic, we build two human motion datasets. Finally, we show the superiority of our approach over the state-of-the-art studies through extensive experiments and evaluations on different datasets.
翻訳日:2022-12-16 00:16:57 公開日:2020-04-07
# カメラ視点予測による3次元ポーズ推定のクロスデータセット一般化

Predicting Camera Viewpoint Improves Cross-dataset Generalization for 3D Human Pose Estimation ( http://arxiv.org/abs/2004.03143v1 )

ライセンス: Link先を確認
Zhe Wang, Daeyun Shin, Charless C. Fowlkes(参考訳) 3次元人間のポーズの単眼的推定は、大規模な地対運動キャプチャデータセットが利用可能になったことで注目を集めている。 しかしながら、利用可能なトレーニングデータの多様性は限定的であり、トレーニング対象の特定のデータセット外での一般的な方法の程度は明確ではない。 本研究では、特定のデータセットに存在する多様性とバイアスの体系的研究を行い、5つのポーズデータセットのコンペディションをまたいだデータセット間の一般化に与える影響について述べる。 具体的には、身体中心の座標フレームに対するカメラ視点の分布の系統的差異に着目する。 この観察に基づいて,ポーズに加えてカメラの視点を予測する補助タスクを提案する。 我々は,視点を協調的に予測し,体系的にデータ間の一般化を著しく改善したモデルを見いだした。

Monocular estimation of 3d human pose has attracted increased attention with the availability of large ground-truth motion capture datasets. However, the diversity of training data available is limited and it is not clear to what extent methods generalize outside the specific datasets they are trained on. In this work we carry out a systematic study of the diversity and biases present in specific datasets and its effect on cross-dataset generalization across a compendium of 5 pose datasets. We specifically focus on systematic differences in the distribution of camera viewpoints relative to a body-centered coordinate frame. Based on this observation, we propose an auxiliary task of predicting the camera viewpoint in addition to pose. We find that models trained to jointly predict viewpoint and pose systematically show significantly improved cross-dataset generalization.
翻訳日:2022-12-16 00:16:39 公開日:2020-04-07
# アンダーサンプル顔認識のための適応型マルチスケールイルミネーション不変特徴表現

Adaptive Multiscale Illumination-Invariant Feature Representation for Undersampled Face Recognition ( http://arxiv.org/abs/2004.03153v1 )

ライセンス: Link先を確認
Yang Zhang, Changhui Hu, Xiaobo Lu(参考訳) 本稿では,アンダーサンプ型顔認識における様々な照明感を排除するために,新しい照明不変特徴表現手法を提案する。 まず,入力画像の照明レベルを判定するために,特異値分解(svd)に基づく新しい照明レベル分類手法を提案する。 次に,ランベルティアンモデルに基づくlogarithm edgemaps feature (lef) を構築し,複数のスケールの局所領域に適用する。 そして、照明レベルを参照して高性能lefを構築するとともに、顔画像用複数スケールlefの適応融合を実現し、jlef機能を実行する。 また、制約操作は、不要な高周波干渉を除去し、有用な顔特徴エッジを分離し、ajlef-faceを構築するために用いられる。 最後に,拡張yale b,cmu pie,ar,および自己構築型ドライバデータベース(sdb)上で,我々の手法およびディープラーニング手法を含む最先端アルゴリズムの効果を検証した。 実験の結果,JLEF-featureとAJLEF-faceは,様々な照明下でのアンダーサンプル顔認識において,他の関連手法よりも優れていた。

This paper presents an novel illumination-invariant feature representation approach used to eliminate the varying illumination affection in undersampled face recognition. Firstly, a new illumination level classification technique based on Singular Value Decomposition (SVD) is proposed to judge the illumination level of input image. Secondly, we construct the logarithm edgemaps feature (LEF) based on lambertian model and local near neighbor feature of the face image, applying to local region within multiple scales. Then, the illumination level is referenced to construct the high performance LEF as well realize adaptive fusion for multiple scales LEFs for the face image, performing JLEF-feature. In addition, the constrain operation is used to remove the useless high-frequency interference, disentangling useful facial feature edges and constructing AJLEF-face. Finally, the effects of the our methods and other state-of-the-art algorithms including deep learning methods are tested on Extended Yale B, CMU PIE, AR as well as our Self-build Driver database (SDB). The experimental results demonstrate that the JLEF-feature and AJLEF-face outperform other related approaches for undersampled face recognition under varying illumination.
翻訳日:2022-12-16 00:16:27 公開日:2020-04-07
# 歩行者属性認識のための協調共有によるマルチタスク学習

Multi-Task Learning via Co-Attentive Sharing for Pedestrian Attribute Recognition ( http://arxiv.org/abs/2004.03164v1 )

ライセンス: Link先を確認
Haitian Zeng, Haizhou Ai, Zijie Zhuang, Long Chen(参考訳) 歩行者の複数の属性を予測することは、マルチタスク学習の問題である。 2つの個別タスクネットワーク間で特徴表現を共有するために、Cross-StitchやSluiceネットワークのような従来の手法は、特徴の線形結合や特徴部分空間を学ぶ。 しかし、線形結合はチャネル間の複雑な相互依存を規定する。 また、空間情報の交換も少ない。 本稿では,マルチタスク学習においてより効果的な特徴共有のために,識別チャネルと空間領域を抽出する新しいCASモジュールを提案する。 モジュールは3つのブランチで構成されており、タスク間の機能融合、アテンション生成、タスク固有の機能強化のためにそれぞれ異なるチャネルを利用する。 2つの歩行者属性認識データセットの実験により、我々のモジュールは従来の共有ユニットよりも優れており、多くのメトリクスを用いた最先端のアプローチよりも優れた結果が得られることが示された。

Learning to predict multiple attributes of a pedestrian is a multi-task learning problem. To share feature representation between two individual task networks, conventional methods like Cross-Stitch and Sluice network learn a linear combination of features or feature subspaces. However, linear combination rules out the complex interdependency between channels. Moreover, spatial information exchanging is less-considered. In this paper, we propose a novel Co-Attentive Sharing (CAS) module which extracts discriminative channels and spatial regions for more effective feature sharing in multi-task learning. The module consists of three branches, which leverage different channels for between-task feature fusing, attention generation and task-specific feature enhancing, respectively. Experiments on two pedestrian attribute recognition datasets show that our module outperforms the conventional sharing units and achieves superior results compared to the state-of-the-art approaches using many metrics.
翻訳日:2022-12-16 00:16:06 公開日:2020-04-07
# 画像マッチングのための階層的Opacity Propagation

Hierarchical Opacity Propagation for Image Matting ( http://arxiv.org/abs/2004.03249v1 )

ライセンス: Link先を確認
Yaoyi Li, Qingyao Xu, Hongtao Lu(参考訳) 自然画像マッチングは、計算写真とコンピュータビジョンの基本的な問題である。 近年、ディープニューラルネットワークは自然画像のマッチングで成功した手法が急増している。 従来の伝搬ベースのマッチング手法とは対照的に、最上位の深層画像マッチングアプローチでは、ニューラルネットワークで暗黙的に伝搬を行う傾向がある。 画素間のより直接的なアルファマット伝播のための新しい構造が要求されている。 そこで本稿では,異なる意味レベルにおいて各点近傍に不透明情報が伝播する階層的不透明性伝播(hop)マットング法を提案する。 階層構造は1つの大域的および複数の局所的伝播ブロックに基づいている。 ホップ構造では、高解像度特徴マップの全ての特徴点ペアは、入力画像の出現に基づいて接続される。 さらに,入力画像の未固定サイズに対処するために,画像マッティング用に調整されたスケール非感受性位置符号化を提案し,画像マッティングにランダム補間拡張を導入する。 広汎な実験とアブレーション研究により、HOPマッティングは最先端のマッティング法より優れていることが示された。

Natural image matting is a fundamental problem in computational photography and computer vision. Deep neural networks have seen the surge of successful methods in natural image matting in recent years. In contrast to traditional propagation-based matting methods, some top-tier deep image matting approaches tend to perform propagation in the neural network implicitly. A novel structure for more direct alpha matte propagation between pixels is in demand. To this end, this paper presents a hierarchical opacity propagation (HOP) matting method, where the opacity information is propagated in the neighborhood of each point at different semantic levels. The hierarchical structure is based on one global and multiple local propagation blocks. With the HOP structure, every feature point pair in high-resolution feature maps will be connected based on the appearance of input image. We further propose a scale-insensitive positional encoding tailored for image matting to deal with the unfixed size of input image and introduce the random interpolation augmentation into image matting. Extensive experiments and ablation study show that HOP matting is capable of outperforming state-of-the-art matting methods.
翻訳日:2022-12-16 00:15:05 公開日:2020-04-07
# ユーザレビューにおけるロシア薬反応コーパスと薬物反応・有効性検出のための神経モデル

The Russian Drug Reaction Corpus and Neural Models for Drug Reactions and Effectiveness Detection in User Reviews ( http://arxiv.org/abs/2004.03659v1 )

ライセンス: Link先を確認
Elena Tutubalina, Ilseyar Alimova, Zulfat Miftahutdinov, Andrey Sakhovskiy, Valentin Malykh and Sergey Nikolenko(参考訳) ロシア・ドラッグ・リアクション・コーパス (RuDReC) は、健康関連物質の検出と医薬品の有効性に関する、ロシアにおける消費者レビューの部分的に注釈付けされたコーパスである。 コーパス自体は、生の部分とラベル付き部分の2つの部分で構成されている。 生の部分は、ソーシャルメディアを含むさまざまなインターネットソースから収集された、健康関連のユーザー生成テキスト140万件を含む。 ラベル付き部分は、薬物および疾患関連情報による薬物療法に関する500の消費者レビューを含んでいる。 文のラベルには健康関連の問題や欠席などが含まれる。 1つの文は、薬種や薬物形態、薬物表示、薬物反応などの細粒度のサブタイプを識別するための発現レベルに付加される。 さらに、このコーパス上で、名前付きエンティティ認識(NER)と多ラベル文分類タスクのベースラインモデルを提案する。 NERタスクにおけるマクロF1スコア74.85%は、RuDR-BERTモデルによって達成された。 文分類タスクでは,ロシア語データを用いたBERTモデルのスコアよりも68.82%のマクロF1スコアが7.47%向上した。 RuDReCコーパスとドメイン固有BERTモデルの事前学習重量をhttps://github.com/cimm-kzn/RuDReCで無償公開します。

The Russian Drug Reaction Corpus (RuDReC) is a new partially annotated corpus of consumer reviews in Russian about pharmaceutical products for the detection of health-related named entities and the effectiveness of pharmaceutical products. The corpus itself consists of two parts, the raw one and the labelled one. The raw part includes 1.4 million health-related user-generated texts collected from various Internet sources, including social media. The labelled part contains 500 consumer reviews about drug therapy with drug- and disease-related information. Labels for sentences include health-related issues or their absence. The sentences with one are additionally labelled at the expression level for identification of fine-grained subtypes such as drug classes and drug forms, drug indications, and drug reactions. Further, we present a baseline model for named entity recognition (NER) and multi-label sentence classification tasks on this corpus. The macro F1 score of 74.85% in the NER task was achieved by our RuDR-BERT model. For the sentence classification task, our model achieves the macro F1 score of 68.82% gaining 7.47% over the score of BERT model trained on Russian data. We make the RuDReC corpus and pretrained weights of domain-specific BERT models freely available at https://github.com/cimm-kzn/RuDReC
翻訳日:2022-12-16 00:08:06 公開日:2020-04-07
# 弱教師付きセグメンテーションのためのマニフォールド駆動アテンションマップ

Manifold-driven Attention Maps for Weakly Supervised Segmentation ( http://arxiv.org/abs/2004.03046v1 )

ライセンス: Link先を確認
Sukesh Adiga V, Jose Dolz, Herve Lombaert(参考訳) 深層学習を用いたセグメンテーションは、疾患の分析と診断に役立つため、医療画像において有望な方向を示している。 それでも、ディープモデルの主な欠点は、大量のピクセルレベルのラベルを必要とすることだ。 この問題を軽減するために、イメージレベルラベル、スクリブル、ポイント、バウンディングボックスを監督として使用する効率的な代替手段として、弱教師付き学習が登場した。 これらのうち、画像レベルのラベルは入手が容易である。 しかし、このようなアノテーションは対象のカテゴリ情報のみを含むため、この学習パラダイムに基づくセグメンテーションタスクは難しい問題である。 この問題に対処するために、訓練された分類ネットワークから派生した視覚的有能な領域が典型的に使用される。 分類タスクにおいて重要な領域を特定することに成功したにもかかわらず、これらのサリエンシ領域は画像の最も差別的な領域のみに焦点を当て、セマンティックセグメンテーションでの使用を制限する。 本研究では,視覚サリエント領域を強化し,弱教師付き設定におけるセグメンテーション精度を向上させるための,多様体駆動型注意型ネットワークを提案する。 提案手法は,余分な計算を必要とせずに,推論中により優れた注意マップを生成する。 皮膚病変画像の公開ベンチマークを用いてセグメンテーション作業における本手法の利点を評価した。 その結果,本手法はDiceスコアの22%程度で最先端のGradCAMよりも優れていた。

Segmentation using deep learning has shown promising directions in medical imaging as it aids in the analysis and diagnosis of diseases. Nevertheless, a main drawback of deep models is that they require a large amount of pixel-level labels, which are laborious and expensive to obtain. To mitigate this problem, weakly supervised learning has emerged as an efficient alternative, which employs image-level labels, scribbles, points, or bounding boxes as supervision. Among these, image-level labels are easier to obtain. However, since this type of annotation only contains object category information, the segmentation task under this learning paradigm is a challenging problem. To address this issue, visual salient regions derived from trained classification networks are typically used. Despite their success to identify important regions on classification tasks, these saliency regions only focus on the most discriminant areas of an image, limiting their use in semantic segmentation. In this work, we propose a manifold driven attention-based network to enhance visual salient regions, thereby improving segmentation accuracy in a weakly supervised setting. Our method generates superior attention maps directly during inference without the need of extra computations. We evaluate the benefits of our approach in the task of segmentation using a public benchmark on skin lesion images. Results demonstrate that our method outperforms the state-of-the-art GradCAM by a margin of ~22% in terms of Dice score.
翻訳日:2022-12-16 00:05:59 公開日:2020-04-07
# LiDAR範囲を超える深度センシング

Depth Sensing Beyond LiDAR Range ( http://arxiv.org/abs/2004.03048v1 )

ライセンス: Link先を確認
Kai Zhang, Jiaxin Xie, Noah Snavely, Qifeng Chen(参考訳) 深度センサーは自動運転技術の重要な要素だが、今日のLiDARやステレオカメラベースのソリューションには限界がある。 我々は、安全のために、自動運転車の深度認識モジュールの最大範囲を増やすことを目指している。 そこで本稿では,小型の視野カメラを用いた3カメラシステムを提案する。 提案手法は, 距離の深さを計算できる新しいアルゴリズムとともに, 完全な事前校正を必要とせず, 長距離のシーンや物体に対して, 事実上許容できる精度で高密度な深度マップを出力できる。

Depth sensing is a critical component of autonomous driving technologies, but today's LiDAR- or stereo camera-based solutions have limited range. We seek to increase the maximum range of self-driving vehicles' depth perception modules for the sake of better safety. To that end, we propose a novel three-camera system that utilizes small field of view cameras. Our system, along with our novel algorithm for computing metric depth, does not require full pre-calibration and can output dense depth maps with practically acceptable accuracy for scenes and objects at long distances not well covered by most commercial LiDARs.
翻訳日:2022-12-16 00:05:34 公開日:2020-04-07
# きめ細かい名前付きエンティティ認識のためのドイツのコーパスと交通・産業イベントの関連抽出

A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry Events ( http://arxiv.org/abs/2004.03283v1 )

ライセンス: Link先を確認
Martin Schiersch, Veselina Mironova, Maximilian Schmitt, Philippe Thomas, Aleksandra Gabryszak, Leonhard Hennig(参考訳) 個人旅行計画やサプライチェーン管理といった分野では,モビリティや産業関連イベントの監視が重要であるが,ヘテロジニアスなテキストストリームから特定の企業や交通路,ロケーションに関連するイベントを抽出することは,依然として大きな課題である。 本研究は、道路、停留所、ルートなどの細かな地理的要素と標準的な名称のエンティティタイプで注釈付けされたドイツ語文書のコーパスを記述する。 また、事故、交通渋滞、買収、ストライキなど15の交通・産業関連のn-ary関係や出来事も注釈されている。 コーパスはニュースワイヤーのテキスト、Twitterメッセージ、ラジオ局、警察、鉄道会社からの交通報告で構成されている。 ジオエンティティのきめ細かいタイピングを目的とした名前付きエンティティ認識アルゴリズムとn-ary関係抽出システムの両方のトレーニングと評価を可能にする。

Monitoring mobility- and industry-relevant events is important in areas such as personal travel planning and supply chain management, but extracting events pertaining to specific companies, transit routes and locations from heterogeneous, high-volume text streams remains a significant challenge. This work describes a corpus of German-language documents which has been annotated with fine-grained geo-entities, such as streets, stops and routes, as well as standard named entity types. It has also been annotated with a set of 15 traffic- and industry-related n-ary relations and events, such as accidents, traffic jams, acquisitions, and strikes. The corpus consists of newswire texts, Twitter messages, and traffic reports from radio stations, police and railway companies. It allows for training and evaluating both named entity recognition algorithms that aim for fine-grained typing of geo-entities, as well as n-ary relation extraction systems.
翻訳日:2022-12-15 23:59:22 公開日:2020-04-07
# 企業製品の名前付きエンティティ認識と関係抽出のためのコーパススタディとアノテーションスキーマ

A Corpus Study and Annotation Schema for Named Entity Recognition and Relation Extraction of Business Products ( http://arxiv.org/abs/2004.03287v1 )

ライセンス: Link先を確認
Saskia Sch\"on, Veselina Mironova, Aleksandra Gabryszak, Leonhard Hennig(参考訳) サプライチェーンモニタリングや市場調査などの応用分野において,B2B製品や製品クラス,生産者などの非標準エンティティタイプや関係をニュースやフォーラムテキストで認識することが重要である。 しかし、このドメインには注釈付きコーパスとアノテーションガイドラインの欠如が決定されている。 本稿では,製品エンティティのアノテーションと企業と製品の関係について述べるコーパススタディ,アノテーションスキーマおよび関連するガイドラインを提案する。 積の言及はしばしば名詞句として認識されるが、境界のあいまいさとそれらの表面実現の広範な構文的・意味的多様性により、その正確な範囲を定義することは困難である。 また,現在進行中のアノテーションの取り組みについて述べるとともに,提案ガイドラインに従って注釈付き英語Webおよびソーシャルメディア文書の予備コーパスを提示する。

Recognizing non-standard entity types and relations, such as B2B products, product classes and their producers, in news and forum texts is important in application areas such as supply chain monitoring and market research. However, there is a decided lack of annotated corpora and annotation guidelines in this domain. In this work, we present a corpus study, an annotation schema and associated guidelines, for the annotation of product entity and company-product relation mentions. We find that although product mentions are often realized as noun phrases, defining their exact extent is difficult due to high boundary ambiguity and the broad syntactic and semantic variety of their surface realizations. We also describe our ongoing annotation effort, and present a preliminary corpus of English web and social media documents annotated according to the proposed guidelines.
翻訳日:2022-12-15 23:59:04 公開日:2020-04-07
# 長文の抽象要約のためのウィンドウ化モデル

Windowing Models for Abstractive Summarization of Long Texts ( http://arxiv.org/abs/2004.03324v1 )

ライセンス: Link先を確認
Leon Sch\"uller and Florian Wilhelm and Nico Kreiling and Goran Glava\v{s}(参考訳) テキストの長さがモデルの入力トークンの最大数を超えると、いくつかの文書内容(おそらく要約関連)は、最大入力サイズのウィンドウを独立に要約し、ウィンドウ間の情報フローを禁止し、一貫性のない要約につながる。 本稿では,(任意に)長文の抽象的要約のためのウィンドウモデルを提案する。 我々は,(1)エンコーダが入力文書の異なるウィンドウをスライディングし,(2)デコーダを共有でき,その状態を異なる入力ウィンドウで保持することで,ポインタジェネレータネットワークに付加したシーケンス・ツー・シーケンス・モデルを拡張する。 静的ウィンドウは、各ウィンドウからデコーダが生成すべきトークンの数を事前に計算する(トレーニングコーパス統計に基づいて)。 実験的な結果は、我々のモデルを意図したユースケースで効果的に表現する: 文書の開始に縛られない関連コンテンツで長いテキストを要約する。

Neural summarization models suffer from the fixed-size input limitation: if text length surpasses the model's maximal number of input tokens, some document content (possibly summary-relevant) gets truncated Independently summarizing windows of maximal input size disallows for information flow between windows and leads to incoherent summaries. We propose windowing models for neural abstractive summarization of (arbitrarily) long texts. We extend the sequence-to-sequence model augmented with pointer generator network by (1) allowing the encoder to slide over different windows of the input document and (2) sharing the decoder and retaining its state across different input windows. We explore two windowing variants: Static Windowing precomputes the number of tokens the decoder should generate from each window (based on training corpus statistics); in Dynamic Windowing the decoder learns to emit a token that signals encoder's shift to the next input window. Empirical results render our models effective in their intended use-case: summarizing long texts with relevant content not bound to the very document beginning.
翻訳日:2022-12-15 23:58:38 公開日:2020-04-07
# Refined Representation に基づく遠隔監視データを用いた細粒化エンティティタイピング

Fine-Grained Named Entity Typing over Distantly Supervised Data Based on Refined Representations ( http://arxiv.org/abs/2004.03554v1 )

ライセンス: Link先を確認
Muhammad Asif Ali, Yifang Sun, Bing Li, Wei Wang(参考訳) Fine-Grained Named Entity Typing (FG-NET)は自然言語処理(NLP)において重要なコンポーネントである。 エンティティ参照をさまざまなエンティティタイプに分類することを目的としている。 多数のエンティティタイプがあるため、リモート監視がタスクのトレーニングデータ収集に使われ、型ラベルをコンテキストに関係なくエンティティの参照にノイズなく割り当てる。 ノイズラベルを緩和するために、fgnetの既存のアプローチでは、エンティティの参照を互いに完全に独立に分析し、参照文固有のコンテキストのみに基づいてタイプラベルを割り当てている。 これは、高い重なり合いとノイズの多いタイプのラベルには不十分であり、文境界を越える情報を妨げている。 そこで本研究では,コーパスレベルの文脈的手がかりに先行して,ノイズの多い参照表現を洗練するエッジ重み付き注意グラフ畳み込みネットワークを提案する。 実験により,提案モデルではマクロf1とマイクロf1の相対スコアが10.2%,マクロf1が8.3%であった。

Fine-Grained Named Entity Typing (FG-NET) is a key component in Natural Language Processing (NLP). It aims at classifying an entity mention into a wide range of entity types. Due to a large number of entity types, distant supervision is used to collect training data for this task, which noisily assigns type labels to entity mentions irrespective of the context. In order to alleviate the noisy labels, existing approaches on FGNET analyze the entity mentions entirely independent of each other and assign type labels solely based on mention sentence-specific context. This is inadequate for highly overlapping and noisy type labels as it hinders information passing across sentence boundaries. For this, we propose an edge-weighted attentive graph convolution network that refines the noisy mention representations by attending over corpus-level contextual clues prior to the end classification. Experimental evaluation shows that the proposed model outperforms the existing research by a relative score of upto 10.2% and 8.3% for macro f1 and micro f1 respectively.
翻訳日:2022-12-15 23:57:28 公開日:2020-04-07
# デュアルおよびクロスアテンションエンコーダによるエンティティリンク

Entity Linking via Dual and Cross-Attention Encoders ( http://arxiv.org/abs/2004.03555v1 )

ライセンス: Link先を確認
Oshin Agarwal, Daniel M. Bikel(参考訳) Entity Linkingには2つの研究領域がある。 1)エイリアステーブルを使わずに候補エンティティを生成する。 2) 参照とエンティティの両方に対して、よりコンテキスト表現を生成する。 最近、同じ空間で言及と実体表現を学び、この空間で言及に最も近いエンティティを選択することでリンクを行うデュアルエンコーダエンティティ検索システム(gillick et al., 2019)として、前者に対して解決策が提案されている。 本研究では,この検索システムを候補エンティティ生成にのみ用いる。 次に、ターゲット参照と候補エンティティのそれぞれに対して、クロスアテンションエンコーダを使用してエンティティをリランクする。 デュアルエンコーダアプローチでは,参照やエンティティを表すために使用されるベクトル次元の小さな固定セットにすべての情報を格納する必要があるが,クロスアテンションモデルでは,<mention, context, candidate entity> タプルの全体から詳細な情報(機能)の使用が可能になる。 文書レベルのコンテキストを組み込むさまざまな方法を含む、リランカで使用される機能を実験する。 TACKBP-2010データセットの精度は92.05%である。 さらに,大規模なCoNLL-2003データセットでトレーニングし,TACKBP-2010で評価すると,再構成モデルがどのように一般化するかを示す。

Entity Linking has two main open areas of research: 1) generate candidate entities without using alias tables and 2) generate more contextual representations for both mentions and entities. Recently, a solution has been proposed for the former as a dual-encoder entity retrieval system (Gillick et al., 2019) that learns mention and entity representations in the same space, and performs linking by selecting the nearest entity to the mention in this space. In this work, we use this retrieval system solely for generating candidate entities. We then rerank the entities by using a cross-attention encoder over the target mention and each of the candidate entities. Whereas a dual encoder approach forces all information to be contained in the small, fixed set of vector dimensions used to represent mentions and entities, a crossattention model allows for the use of detailed information (read: features) from the entirety of each <mention, context, candidate entity> tuple. We experiment with features used in the reranker including different ways of incorporating document-level context. We achieve state-of-the-art results on TACKBP-2010 dataset, with 92.05% accuracy. Furthermore, we show how the rescoring model generalizes well when trained on the larger CoNLL-2003 dataset and evaluated on TACKBP-2010.
翻訳日:2022-12-15 23:57:09 公開日:2020-04-07
# 文表現近似によるBERTの非タスク特異的蒸留に向けて

Towards Non-task-specific Distillation of BERT via Sentence Representation Approximation ( http://arxiv.org/abs/2004.03097v1 )

ライセンス: Link先を確認
Bowen Wu, Huan Zhang, Mengyuan Li, Zongsheng Wang, Qihang Feng, Junhong Huang, Baoxun Wang(参考訳) 近年,BERTはその有効性と汎用性から,様々なNLP深層モデルの必須成分となっている。 しかし、BERTのオンライン展開は大規模なパラメータと高い計算コストによってブロックされることが多い。 BERTからパラメータの小さいモデルに知識を移す際に、知識蒸留が効率的であることを示す研究は数多くある。 しかしながら、現在のBERT蒸留法は主にタスク特定蒸留に焦点を当てており、そのような手法はBERTの普遍的使用性に関する一般的な意味知識の喪失につながっている。 本稿では,事前学習したBERTを,タスクを指定せずに簡単なLSTMベースモデルに蒸留できる文表現指向蒸留フレームワークを提案する。 BERTと類似した蒸留モデルでは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。 また,本モデルはタスク特異的蒸留手順とさらに連携することができる。 GLUEベンチマークによる複数のNLPタスクに対する実験結果から,本手法は,他のタスク固有の蒸留方法,すなわちELMOよりもはるかに大きなモデル,すなわち効率を良く向上することを示した。

Recently, BERT has become an essential ingredient of various NLP deep models due to its effectiveness and universal-usability. However, the online deployment of BERT is often blocked by its large-scale parameters and high computational cost. There are plenty of studies showing that the knowledge distillation is efficient in transferring the knowledge from BERT into the model with a smaller size of parameters. Nevertheless, current BERT distillation approaches mainly focus on task-specified distillation, such methodologies lead to the loss of the general semantic knowledge of BERT for universal-usability. In this paper, we propose a sentence representation approximating oriented distillation framework that can distill the pre-trained BERT into a simple LSTM based model without specifying tasks. Consistent with BERT, our distilled model is able to perform transfer learning via fine-tuning to adapt to any sentence-level downstream task. Besides, our model can further cooperate with task-specific distillation procedures. The experimental results on multiple NLP tasks from the GLUE benchmark show that our approach outperforms other task-specific distillation methods or even much larger models, i.e., ELMO, with efficiency well-improved.
翻訳日:2022-12-15 23:49:42 公開日:2020-04-07
# RYANSQL: クロスドメインデータベースにおける複雑なテキストからSQLへのSlot Fillingの反復適用

RYANSQL: Recursively Applying Sketch-based Slot Fillings for Complex Text-to-SQL in Cross-Domain Databases ( http://arxiv.org/abs/2004.03125v1 )

ライセンス: Link先を確認
DongHyun Choi, Myeong Cheol Shin, EungGyun Kim, and Dong Ryeol Shin(参考訳) Text-to-SQLは、質問とデータベースが与えられたときに、ユーザ質問をSQLクエリに変換する問題である。 本稿では,LEANSQL(Recursively Yielding Annotation Network for SQL)と呼ばれるニューラルネットワークを用いて,クロスドメインデータベースのための複雑なテキスト-SQLタスクを解決する。 State-ment Position Code (SPC)は、ネストしたSQLクエリを非ネストされたSELECT文の集合に変換するために定義され、スケッチベースのスロットフィリングアプローチにより、対応するSPCのそれぞれのSELECT文を合成する。 さらに、2つの入力操作方法により、さらなる生成性能が向上する。 RYANSQLは、挑戦的なSpiderベンチマークで58.2%の精度を達成した。 執筆時点では、ryANSQLはスパイダーのリーダーボードで最初のポジションを達成している。

Text-to-SQL is the problem of converting a user question into an SQL query, when the question and database are given. In this paper, we present a neural network approach called RYANSQL (Recursively Yielding Annotation Network for SQL) to solve complex Text-to-SQL tasks for cross-domain databases. State-ment Position Code (SPC) is defined to trans-form a nested SQL query into a set of non-nested SELECT statements; a sketch-based slot filling approach is proposed to synthesize each SELECT statement for its corresponding SPC. Additionally, two input manipulation methods are presented to improve generation performance further. RYANSQL achieved 58.2% accuracy on the challenging Spider benchmark, which is a 3.2%p improvement over previous state-of-the-art approaches. At the time of writing, RYANSQL achieves the first position on the Spider leaderboard.
翻訳日:2022-12-15 23:49:05 公開日:2020-04-07
# 教師なし長さ制約による機械翻訳

Machine Translation with Unsupervised Length-Constraints ( http://arxiv.org/abs/2004.03176v1 )

ライセンス: Link先を確認
Jan Niehues(参考訳) ディープラーニングの利用によって、機械翻訳が大幅に改善されている。 翻訳品質の改善は印象的だが、エンコーダ/デコーダアーキテクチャは、多くの可能性を実現する。 本稿では,これらの1つ,制約翻訳の生成について検討する。 我々は、翻訳を所定のフォーマットで表示すべき場合に必要となる、長さの制約に焦点を当てる。 本研究では,この課題に対するエンドツーエンドアプローチを提案する。 テキスト圧縮を最初に翻訳して実行した従来の方法と比較して、テキスト圧縮は完全に教師なしである。 このアイデアをゼロショット多言語機械翻訳と組み合わせることで,教師なし単言語文圧縮も行うことができる。 長さ制約を満たすために,モデルに制約を統合するいくつかの手法を検討した。 提案手法を用いることで,制約下での翻訳品質を大幅に向上させることができる。 さらに,教師なしの単言語文圧縮も可能である。

We have seen significant improvements in machine translation due to the usage of deep learning. While the improvements in translation quality are impressive, the encoder-decoder architecture enables many more possibilities. In this paper, we explore one of these, the generation of constraint translation. We focus on length constraints, which are essential if the translation should be displayed in a given format. In this work, we propose an end-to-end approach for this task. Compared to a traditional method that first translates and then performs sentence compression, the text compression is learned completely unsupervised. By combining the idea with zero-shot multilingual machine translation, we are also able to perform unsupervised monolingual sentence compression. In order to fulfill the length constraints, we investigated several methods to integrate the constraints into the model. Using the presented technique, we are able to significantly improve the translation quality under constraints. Furthermore, we are able to perform unsupervised monolingual sentence compression.
翻訳日:2022-12-15 23:47:56 公開日:2020-04-07
# 非自己回帰機械翻訳の流動性向上

Improving Fluency of Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2004.03227v1 )

ライセンス: Link先を確認
Zden\v{e}k Kasner, Jind\v{r}ich Libovick\'y, Jind\v{r}ich Helcl(参考訳) 機械翻訳(MT)のための非自己回帰(nAR)モデルは、出力の流速を犠牲にして、自己回帰(AR)モデルよりも優れた復号速度を示す。 我々は,ビーム探索復号時に使用するスコアリングモデルに付加的な特徴を生かして,接続性時間分類(CTC)によるnARモデルの流速を改善する。 我々のモデルにおけるビームサーチデコーディングは、単一のフォワードパスでのみネットワークを実行する必要があるため、デコーディング速度は標準的なARモデルよりも顕著に高い。 私たちは、ドイツ語、チェコ語、ルーマニア語という3つの言語ペアのモデルをトレーニングしています。 以上の結果から,提案モデルでは復号化速度が向上し,ARモデルと比較して競争的なBLEUスコアが得られることがわかった。

Non-autoregressive (nAR) models for machine translation (MT) manifest superior decoding speed when compared to autoregressive (AR) models, at the expense of impaired fluency of their outputs. We improve the fluency of a nAR model with connectionist temporal classification (CTC) by employing additional features in the scoring model used during beam search decoding. Since the beam search decoding in our model only requires to run the network in a single forward pass, the decoding speed is still notably higher than in standard AR models. We train models for three language pairs: German, Czech, and Romanian from and into English. The results show that our proposed models can be more efficient in terms of decoding speed and still achieve a competitive BLEU score relative to AR models.
翻訳日:2022-12-15 23:47:15 公開日:2020-04-07
# 野生における無拘束遠隔視線推定における頭部運動検出の学習

Learning to Detect Head Movement in Unconstrained Remote Gaze Estimation in the Wild ( http://arxiv.org/abs/2004.03737v1 )

ライセンス: Link先を確認
Zhecan Wang, Jian Zhao, Cheng Lu, Han Huang, Fan Yang, Lianji Li, Yandong Guo(参考訳) 制約のない遠隔視線推定は、主に頭部の大きな変動に対する脆弱性のため、依然として困難である。 以前のソリューションは、制約のないリモート視線追跡において、信頼できる精度を維持するのに苦労している。 その中でも外見に基づくソリューションは、視線精度を向上する大きな可能性を示している。 しかし、既存の作品はまだ頭の動きに苦しめられており、現実世界のシナリオをうまく処理できない。 特に,収集したデータセットが頭部と視線の両方の限られた範囲をカバーし,さらなるバイアスをもたらすような,制御されたシナリオ下での視線推定について研究している。 本稿では,異なるレベルの頭部表現をより堅牢に視線推定に組み込むことのできる,エンドツーエンドの視線推定手法を提案する。 提案手法は, 画像品質の低さ, 照明の異なる実世界シナリオ, 直接ヘッドポジション情報が得られないシナリオに一般化することができる。 さらに,本手法の利点をよりよく示すために,実世界のシナリオを反映したヘッド・ゲイズ・コンビネーションの最もリッチな分布を示すベンチマークデータセットを提案する。 いくつかの公開データセットと独自のデータセットに対する広範囲な評価は、我々の手法が最先端の技術を一貫して大幅に上回っていることを示している。

Unconstrained remote gaze estimation remains challenging mostly due to its vulnerability to the large variability in head-pose. Prior solutions struggle to maintain reliable accuracy in unconstrained remote gaze tracking. Among them, appearance-based solutions demonstrate tremendous potential in improving gaze accuracy. However, existing works still suffer from head movement and are not robust enough to handle real-world scenarios. Especially most of them study gaze estimation under controlled scenarios where the collected datasets often cover limited ranges of both head-pose and gaze which introduces further bias. In this paper, we propose novel end-to-end appearance-based gaze estimation methods that could more robustly incorporate different levels of head-pose representations into gaze estimation. Our method could generalize to real-world scenarios with low image quality, different lightings and scenarios where direct head-pose information is not available. To better demonstrate the advantage of our methods, we further propose a new benchmark dataset with the most rich distribution of head-gaze combination reflecting real-world scenarios. Extensive evaluations on several public datasets and our own dataset demonstrate that our method consistently outperforms the state-of-the-art by a significant margin.
翻訳日:2022-12-15 23:41:19 公開日:2020-04-07
# インタビュー:メディアダイアログの大規模オープンソースコーパス

Interview: A Large-Scale Open-Source Corpus of Media Dialog ( http://arxiv.org/abs/2004.03090v1 )

ライセンス: Link先を確認
Bodhisattwa Prasad Majumder, Shuyang Li, Jianmo Ni, Julian McAuley(参考訳) 既存の会話データセットは、対話のための書かれたプロキシか、あるいは自然言語の小規模な書き起こしからなる。 ニュースインタビューの書き起こしから収集した大規模(105k会話)メディアダイアログデータセットである「interview」を紹介する。 対話型データのための既存の大規模プロキシと比較して、データセットでトレーニングされた言語モデルは、既存の対話型データセット上でのゼロショットアウトオブドメインのパフォーマンスを示し、実世界の会話のモデリングにその有用性を示しています。 「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。 実際、2つのダイアログタスクの実験では、そのようなラベルを活用することで、強い話者非依存のベースラインよりもパフォーマンスが向上し、モデルがインタビュースタイルの会話においてより具体的で好ましくない応答を生成できることが示されている。

Existing conversational datasets consist either of written proxies for dialog or small-scale transcriptions of natural speech. We introduce 'Interview': a large-scale (105K conversations) media dialog dataset collected from news interview transcripts. Compared to existing large-scale proxies for conversational data, language models trained on our dataset exhibit better zero-shot out-of-domain performance on existing spoken dialog datasets, demonstrating its usefulness in modeling real-world conversations. 'Interview' contains speaker role annotations for each turn, facilitating the development of engaging, responsive dialog systems. In fact, experiments on two dialog tasks show that leveraging such labels improves performance over strong speaker-agnostic baselines, and enabling models to generate more specific and inquisitive responses in interview-style conversations.
翻訳日:2022-12-15 23:39:14 公開日:2020-04-07
# マルチラベルバイオメディカルテキスト分類のための経験的監査

Exemplar Auditing for Multi-Label Biomedical Text Classification ( http://arxiv.org/abs/2004.03093v1 )

ライセンス: Link先を確認
Allen Schmaltz and Andrew Beam(参考訳) 研究者は、利用可能な人間のラベルよりもきめ細かい解像度で興味のある特徴を特定することを目的としています。 これはしばしば医療アプリケーションで直面するシナリオであり、粗い高水準のラベル(例えば請求コード)が容易に利用できる唯一の情報源である。 これらの課題は、特徴空間が非常に高次元であり、しばしばかなりの量のノイズを含むテキストのようなモダリティに複雑化されている。 本研究では,最近提案されているゼロショットシーケンスラベリング手法「畳み込み分解によるバイナリラベリング」を,利用可能な文書レベルの人間ラベルが相対的に高次元である場合に一般化する。 このアプローチは"イントロスペクション(introspection)"で分類され、モデルの下で、推論時間予測のきめ細かな特徴をトレーニングセットから最も近い隣人に関連付ける。 この手法は、電子健康記録データのMIMIC-IIIマルチラベル分類タスクでよく研究されているように、効果的だが同義的であり、ニューラルモデル予測と高次元データセットの分析を組織化するためのツールとして有用である。 提案手法は,競争的に効果的な分類モデルと問合せ機構を両立させ,医療従事者がモデルの予測を駆動する特徴を理解することを支援する。

Many practical applications of AI in medicine consist of semi-supervised discovery: The investigator aims to identify features of interest at a resolution more fine-grained than that of the available human labels. This is often the scenario faced in healthcare applications as coarse, high-level labels (e.g., billing codes) are often the only sources that are readily available. These challenges are compounded for modalities such as text, where the feature space is very high-dimensional, and often contains considerable amounts of noise. In this work, we generalize a recently proposed zero-shot sequence labeling method, "binary labeling via a convolutional decomposition", to the case where the available document-level human labels are themselves relatively high-dimensional. The approach yields classification with "introspection", relating the fine-grained features of an inference-time prediction to their nearest neighbors from the training set, under the model. The approach is effective, yet parsimonious, as demonstrated on a well-studied MIMIC-III multi-label classification task of electronic health record data, and is useful as a tool for organizing the analysis of neural model predictions and high-dimensional datasets. Our proposed approach yields both a competitively effective classification model and an interrogation mechanism to aid healthcare workers in understanding the salient features that drive the model's predictions.
翻訳日:2022-12-15 23:38:58 公開日:2020-04-07
# pAElla: データセンターにおけるエッジAIベースのリアルタイムマルウェア検出

pAElla: Edge-AI based Real-Time Malware Detection in Data Centers ( http://arxiv.org/abs/2004.03670v1 )

ライセンス: Link先を確認
Antonio Libri, Andrea Bartolini, Luca Benini(参考訳) 幅広いアプリケーションを監視するためのIoT(Internet-of-Things)デバイスの利用が増加し、データ分析にしばしば必要とされる"ビッグデータ"ストリーミングサポートの課題とともに、近年、エッジコンピューティングパラダイムへの注目が高まりつつある。 特に、ネットワークエッジ上でデータを直接管理し分析するためのスマートアプローチは、ますます研究され、人工知能(AI)によるエッジコンピューティングは有望な方向であると想定されている。 本稿では,データセンター(DC)とスーパーコンピュータ(SC)に焦点をあて,次世代の高解像度監視システムが展開され,異常検出やセキュリティなどの新たな分析機会が開かれるとともに,大量のデータを扱うための新たな課題を導入する。 詳細は、高解像度電力消費におけるAI駆動エッジコンピューティングを含む、DC/SCのセキュリティを高めるための、軽量でスケーラブルな新しいアプローチについて報告する。 pAEllaと呼ばれるこの方法は、リアルタイムマルウェア検出(MD)をターゲットにしており、DC/SC用のアウトオブバンドIoTベースの監視システムで動作し、オートエンコーダとともに電力測定のパワースペクトル密度を含む。 結果は有望で、f1-scoreは1近く、偽アラームとマルウェアのミス率は0%に近い。 我々は,本手法を最先端MD手法と比較し,DC/SCの文脈では,pAEllaはより広い範囲のマルウェアをカバーできることを示す。 また,実運用環境でのDC/SCに適したオンライントレーニング手法を提案し,オープンデータセットとコードをリリースする。

The increasing use of Internet-of-Things (IoT) devices for monitoring a wide spectrum of applications, along with the challenges of "big data" streaming support they often require for data analysis, is nowadays pushing for an increased attention to the emerging edge computing paradigm. In particular, smart approaches to manage and analyze data directly on the network edge, are more and more investigated, and Artificial Intelligence (AI) powered edge computing is envisaged to be a promising direction. In this paper, we focus on Data Centers (DCs) and Supercomputers (SCs), where a new generation of high-resolution monitoring systems is being deployed, opening new opportunities for analysis like anomaly detection and security, but introducing new challenges for handling the vast amount of data it produces. In detail, we report on a novel lightweight and scalable approach to increase the security of DCs/SCs, that involves AI-powered edge computing on high-resolution power consumption. The method -- called pAElla -- targets real-time Malware Detection (MD), it runs on an out-of-band IoT-based monitoring system for DCs/SCs, and involves Power Spectral Density of power measurements, along with AutoEncoders. Results are promising, with an F1-score close to 1, and a False Alarm and Malware Miss rate close to 0%. We compare our method with State-of-the-Art MD techniques and show that, in the context of DCs/SCs, pAElla can cover a wider range of malware, significantly outperforming SoA approaches in terms of accuracy. Moreover, we propose a methodology for online training suitable for DCs/SCs in production, and release open dataset and code.
翻訳日:2022-12-15 23:32:47 公開日:2020-04-07
# CSRN:ニュース検索のための協調的シーケンスレコメンデーションネットワーク

CSRN: Collaborative Sequential Recommendation Networks for News Retrieval ( http://arxiv.org/abs/2004.04816v1 )

ライセンス: Link先を確認
Bing Bai, Guanhua Zhang, Ye Lin, Hao Li, Kun Bai, Bo Luo(参考訳) 現在、ニュースアプリは紙ベースのメディアの人気を引き継ぎ、パーソナライゼーションの絶好の機会となっている。 リカレントニューラルネットワーク(RNN)ベースのシーケンシャルレコメンデーションは、ユーザの最近のブラウジング履歴を利用して将来のアイテムを予測する一般的なアプローチである。 このアプローチは、ニュース消費の社会的な影響を考慮しない、すなわち、ユーザーが常に変化している人気トピックをフォローする、特定のホットトピックが特定のグループにのみ拡散する、という制限がある。 このような社会的な影響は、ユーザの読書履歴だけでは予測が難しい。 一方、従来のUser-based Collaborative Filtering (UserCF)は、RNNベースの手法の弱点を補う可能性を提供する"隣人"の関心に基づいて推奨する。 しかし、従来のUserCFでは、ユーザ間の関係をモデル化するために単一の類似度メトリックしか使用していません。 本稿では,RNNに基づくシーケンシャルレコメンデーションとUserCFのキーアイデアを統合するためのディープニューラルネットワークのフレームワークを提案し,CSRN(Collaborative Sequential Recommendation Networks)を開発する。 まず,ベクトル空間におけるユーザ間のトピック特有の類似性を把握するために,ユーザ間の有向共読ネットワークを構築する。 そして、CSRNモデルがユーザをRNNでエンコードし、隣人に会うことを学び、現在読んでいるニュースを要約する。 最後に、ユーザの自身の状態と隣人の要約状態の両方に応じて、ニュース記事が推奨される。 2つの公開データセットの実験では、提案されたモデルが最先端のアプローチを大幅に上回ることを示した。

Nowadays, news apps have taken over the popularity of paper-based media, providing a great opportunity for personalization. Recurrent Neural Network (RNN)-based sequential recommendation is a popular approach that utilizes users' recent browsing history to predict future items. This approach is limited that it does not consider the societal influences of news consumption, i.e., users may follow popular topics that are constantly changing, while certain hot topics might be spreading only among specific groups of people. Such societal impact is difficult to predict given only users' own reading histories. On the other hand, the traditional User-based Collaborative Filtering (UserCF) makes recommendations based on the interests of the "neighbors", which provides the possibility to supplement the weaknesses of RNN-based methods. However, conventional UserCF only uses a single similarity metric to model the relationships between users, which is too coarse-grained and thus limits the performance. In this paper, we propose a framework of deep neural networks to integrate the RNN-based sequential recommendations and the key ideas from UserCF, to develop Collaborative Sequential Recommendation Networks (CSRNs). Firstly, we build a directed co-reading network of users, to capture the fine-grained topic-specific similarities between users in a vector space. Then, the CSRN model encodes users with RNNs, and learns to attend to neighbors and summarize what news they are reading at the moment. Finally, news articles are recommended according to both the user's own state and the summarized state of the neighbors. Experiments on two public datasets show that the proposed model outperforms the state-of-the-art approaches significantly.
翻訳日:2022-12-15 23:31:47 公開日:2020-04-07
# オンライン健康記事の品質自動評価

Automatically Assessing Quality of Online Health Articles ( http://arxiv.org/abs/2004.05113v1 )

ライセンス: Link先を確認
Fariha Afsana, Muhammad Ashad Kabir, Naeemul Hassan, Manoranjan Paul(参考訳) 今日の情報エコシステムは、多彩なトピックに関する前例のない量のデータに圧倒されている。 しかし、医療分野に普及する情報の質は、健康上の誤情報の悪影響は生命を脅かす可能性があるとして疑問視されている。 現在、広範囲にわたるオンライン健康情報の品質を評価する汎用的な自動化ツールは存在しない。 このギャップに対処するために,本論文では,10の品質基準に基づいてオンライン健康記事の品質を自動評価するデータマイニング手法を適用した。 53012の機能を持つラベル付きデータセットを作成し,10の基準で84%~90%の精度で分類できる最善の機能サブセットを識別するために,特徴選択法を適用した。 特徴のセマンティック分析は,選択した特徴と評価基準の相互関係を示し,評価アプローチをさらに合理化する。 われわれの発見は、高品質な健康記事の特定に役立ち、ユーザーがオンラインから健康関連のヘルプを選びながら正しい選択をするのを助ける。

The information ecosystem today is overwhelmed by an unprecedented quantity of data on versatile topics are with varied quality. However, the quality of information disseminated in the field of medicine has been questioned as the negative health consequences of health misinformation can be life-threatening. There is currently no generic automated tool for evaluating the quality of online health information spanned over a broad range. To address this gap, in this paper, we applied a data mining approach to automatically assess the quality of online health articles based on 10 quality criteria. We have prepared a labeled dataset with 53012 features and applied different feature selection methods to identify the best feature subset with which our trained classifier achieved an accuracy of 84%-90% varied over 10 criteria. Our semantic analysis of features shows the underpinning associations between the selected features & assessment criteria and further rationalize our assessment approach. Our findings will help in identifying high-quality health articles and thus aiding users in shaping their opinion to make the right choice while picking health-related help from online.
翻訳日:2022-12-15 23:31:16 公開日:2020-04-07
# ベイズ集約は伝統的な単画像作物分類アプローチを改善する

Bayesian aggregation improves traditional single image crop classification approaches ( http://arxiv.org/abs/2004.03468v1 )

ライセンス: Link先を確認
Ivan Matvienko, Mikhail Gasanov, Anna Petrovskaia, Raghavendra Belur Jana, Maria Pukalchik, Ivan Oseledets(参考訳) 機械学習(ML)手法とニューラルネットワーク(NN)は、衛星画像に基づく作物の分類と認識のために広く実装されている。 しかし、これらの研究のほとんどは、曇りの領域には適用できない複数の時間的画像を使用している。 1つの衛星画像で作物を分類するための古典的MLアプローチとU-Net NNの比較を示す。 その結果,画素分割によるフィールドワイズ分類の利点が示された。 まず、フィールドワイド分類にベイズ集計を用い、多数決集計の1.5%で改善した。 単一の衛星画像作物分類の最良の結果は、全体的な精度77.4%とマクロf1-score 0.66である。

Machine learning (ML) methods and neural networks (NN) are widely implemented for crop types recognition and classification based on satellite images. However, most of these studies use several multi-temporal images which could be inapplicable for cloudy regions. We present a comparison between the classical ML approaches and U-Net NN for classifying crops with a single satellite image. The results show the advantages of using field-wise classification over pixel-wise approach. We first used a Bayesian aggregation for field-wise classification and improved on 1.5% results between majority voting aggregation. The best result for single satellite image crop classification is achieved for gradient boosting with an overall accuracy of 77.4% and macro F1-score 0.66.
翻訳日:2022-12-15 23:29:50 公開日:2020-04-07
# 抽象テキスト要約のためのマルチアテンション学習によるサリエンス推定

Salience Estimation with Multi-Attention Learning for Abstractive Text Summarization ( http://arxiv.org/abs/2004.03589v1 )

ライセンス: Link先を確認
Piji Li, Lidong Bing, Zhongyu Wei, Wai Lam(参考訳) アテンション機構はシーケンス生成モデルにおいて重要な役割を担い、機械翻訳や抽象テキスト要約の性能向上に利用されてきた。 ニューラルネットワーク翻訳と異なり、テキスト要約のタスクでは、出力要約が入力テキストの蒸留であるため、単語、句、文のサリエンス推定が重要な構成要素である。 典型的な注意機構は、デコーダ状態に条件付き入力テキストからテキストフラグメント選択を行うことができるが、直接的かつ効果的なサリエンス検出を行うには依然としてギャップがある。 ニューラルネットワークによる要約のための直接的なサリエンス推定を実現するために,サリエンス推定のための2つの新しいアテンション学習要素を含むマルチアテンション学習フレームワークを提案する。 注意重みは,注意度の高い意味単位がより重要となるため,注意重みをサリエンス情報とみなす。 推定されたサリエンスに基づいて得られたコンテキスト情報をデコーダの典型的な注意機構に組み込んで要約生成を行う。 異なる言語におけるいくつかのベンチマークデータセットに関する広範囲な実験は、抽象的要約タスクに対する提案フレームワークの有効性を示している。

Attention mechanism plays a dominant role in the sequence generation models and has been used to improve the performance of machine translation and abstractive text summarization. Different from neural machine translation, in the task of text summarization, salience estimation for words, phrases or sentences is a critical component, since the output summary is a distillation of the input text. Although the typical attention mechanism can conduct text fragment selection from the input text conditioned on the decoder states, there is still a gap to conduct direct and effective salience detection. To bring back direct salience estimation for summarization with neural networks, we propose a Multi-Attention Learning framework which contains two new attention learning components for salience estimation: supervised attention learning and unsupervised attention learning. We regard the attention weights as the salience information, which means that the semantic units with large attention value will be more important. The context information obtained based on the estimated salience is incorporated with the typical attention mechanism in the decoder to conduct summary generation. Extensive experiments on some benchmark datasets in different languages demonstrate the effectiveness of the proposed framework for the task of abstractive summarization.
翻訳日:2022-12-15 23:23:59 公開日:2020-04-07
# ビールの有機懐疑的最適化 : Swarm Intelligence と進化的計算手法の活用

Beer Organoleptic Optimisation: Utilising Swarm Intelligence and Evolutionary Computation Methods ( http://arxiv.org/abs/2004.03438v1 )

ライセンス: Link先を確認
Mohammad Majid al-Rifaie and Marc Cavazza(参考訳) 食品特性のカスタマイズは、生産プロセスの最適化と、代替品の存在を保証することを目的とした計算的創造性の支援の要求を伴う課題である。 本稿では,製造プロセスがより柔軟であるクラフトビールの特定事例におけるビール特性のパーソナライズについて述べる。 本研究では,3つのスワムインテリジェンスと進化的計算技術を用いて,醸造者が物理化学的特性を目的とする有機懐疑的特性にマッピングし,特定の醸造酒を設計することを可能にする。 従来の数式・化学式や、あらかじめ決定された成分量に基づいてビールの物性を決定する過程を扱う機械学習モデルなど、いくつかのツールがあるが、次のステップは自動量的成分選択アプローチを検討することである。 このプロセスは、工芸ビールを設計する多くの実験によって説明され、その成果は、その既知の特性に基づいて人気のある商業ブランドの「閉鎖」によって調査される。 アルゴリズムの性能は精度、効率、信頼性、人口多様性、イテレーションベースの改善、ソリューションの多様性を用いて評価される。 提案手法により,既存のレシピを再現する新しいレシピ,パーソナライゼーション,代替の高忠実性再現が発見できる。

Customisation in food properties is a challenging task involving optimisation of the production process with the demand to support computational creativity which is geared towards ensuring the presence of alternatives. This paper addresses the personalisation of beer properties in the specific case of craft beers where the production process is more flexible. We investigate the problem by using three swarm intelligence and evolutionary computation techniques that enable brewers to map physico-chemical properties to target organoleptic properties to design a specific brew. While there are several tools, using the original mathematical and chemistry formulas, or machine learning models that deal with the process of determining beer properties based on the pre-determined quantities of ingredients, the next step is to investigate an automated quantitative ingredient selection approach. The process is illustrated by a number of experiments designing craft beers where the results are investigated by "cloning" popular commercial brands based on their known properties. Algorithms performance is evaluated using accuracy, efficiency, reliability, population-diversity, iteration-based improvements and solution diversity. The proposed approach allows for the discovery of new recipes, personalisation and alternative high-fidelity reproduction of existing ones.
翻訳日:2022-12-15 23:22:58 公開日:2020-04-07
# ニューラルネットワークによる液体状態機械設計のための探索フレームワーク

A Neural Architecture Search based Framework for Liquid State Machine Design ( http://arxiv.org/abs/2004.07864v1 )

ライセンス: Link先を確認
Shuo Tian, Lianhua Qu, Kai Hu, Nan Li, Lei Wang and Weixia Xu(参考訳) snn(spyking neural networks)のリカレントバージョンとしても知られる液体状態機械(liquid state machine, lsm)は、高い計算能力、脳からの生物学的可溶性、単純な構造、低いトレーニング複雑性により、大きな研究の関心を集めている。 ネットワークアーキテクチャとパラメータの設計空間を探索することにより、最近の研究はLSMモデルの精度を低複雑性で向上させる大きな可能性を示している。 しかし、これらの作業は手動で定義されたネットワークアーキテクチャや事前定義されたパラメータに基づいている。 脳構造の多様性と特異性を考えると、LSMモデルの設計は可能な限り最大の探索空間で検討されるべきである。 本稿では、自動データセット指向LSMモデルのためのアーキテクチャとパラメータ設計空間の両方を探索するニューラルネットワーク検索(NAS)ベースのフレームワークを提案する。 指数関数的に増大する設計空間に対処するために,多液型アーキテクチャ探索,ニューロン数の変化,各液中のパーセンテージ接続率や興奮性ニューロン比などのパラメータ探索を含む,lsmの3段階探索を採用する。 さらに,3段階のヒューリスティック探索を実現するために,Simulated Annealing (SA)アルゴリズムを提案する。 MNISTとNMNISTの画像データセットとFSDDの音声データセットを含む3つのデータセットを用いて,提案フレームワークの有効性を検証する。 シミュレーションの結果,提案フレームワークは,高い精度と低複雑性でデータセット指向の最適LSMモデルを生成することができることがわかった。 3つのデータセットで最高の分類精度は93.2%、92.5%、そして84%であり、それぞれ1000個のスパイクニューロンしか持たず、ネットワーク接続は単一のLSMと比較して平均61.4%削減できる。 さらに、3つのデータセット上での最適LSMモデルのニューロンの総量は、約0.5%の精度損失でさらに20%削減できることがわかった。

Liquid State Machine (LSM), also known as the recurrent version of Spiking Neural Networks (SNN), has attracted great research interests thanks to its high computational power, biological plausibility from the brain, simple structure and low training complexity. By exploring the design space in network architectures and parameters, recent works have demonstrated great potential for improving the accuracy of LSM model with low complexity. However, these works are based on manually-defined network architectures or predefined parameters. Considering the diversity and uniqueness of brain structure, the design of LSM model should be explored in the largest search space possible. In this paper, we propose a Neural Architecture Search (NAS) based framework to explore both architecture and parameter design space for automatic dataset-oriented LSM model. To handle the exponentially-increased design space, we adopt a three-step search for LSM, including multi-liquid architecture search, variation on the number of neurons and parameters search such as percentage connectivity and excitatory neuron ratio within each liquid. Besides, we propose to use Simulated Annealing (SA) algorithm to implement the three-step heuristic search. Three datasets, including image dataset of MNIST and NMNIST and speech dataset of FSDD, are used to test the effectiveness of our proposed framework. Simulation results show that our proposed framework can produce the dataset-oriented optimal LSM models with high accuracy and low complexity. The best classification accuracy on the three datasets is 93.2%, 92.5% and 84% respectively with only 1000 spiking neurons, and the network connections can be averagely reduced by 61.4% compared with a single LSM. Moreover, we find that the total quantity of neurons in optimal LSM models on three datasets can be further reduced by 20% with only about 0.5% accuracy loss.
翻訳日:2022-12-15 23:22:37 公開日:2020-04-07
# 因果関係学習

Causal Relational Learning ( http://arxiv.org/abs/2004.03644v1 )

ライセンス: Link先を確認
Babak Salimi, Harsh Parikh, Moe Kayali, Sudeepa Roy, Lise Getoor, and Dan Suciu(参考訳) 因果推論は自然科学と社会科学の実証研究の中心であり、科学的発見と情報的意思決定に不可欠である。 因果推論における金の基準はランダム化制御試験を実施しているが、残念ながらこれらは倫理的、法的、あるいはコストの制約のために常に実現可能であるとは限らない。 代替として、統計学や社会科学において観測データから因果推論を行う手法が開発されている。 しかし、既存の手法は、各行が単位として参照される単一の平らなテーブルで表現できる均質な要素からなる研究人口のような制限的な仮定に批判的に依存する。 対照的に、多くの実世界の環境では、研究領域は自然に複雑な関係構造を持つ異種元素で構成され、データは複数の関連するテーブルで自然に表される。 本稿では,そのような関係データから因果推論を行うための公式な枠組みを提案する。 本稿では,因果的背景知識と仮定を抽出し,単純なデータログ型ルールを用いて因果的クエリを指定するためのCaRLという宣言型言語を提案する。 本稿では,社会科学と医療におけるCaRLの適用性を示すために,実際の関係データに関する広範な実験的評価を行う。

Causal inference is at the heart of empirical research in natural and social sciences and is critical for scientific discovery and informed decision making. The gold standard in causal inference is performing randomized controlled trials; unfortunately these are not always feasible due to ethical, legal, or cost constraints. As an alternative, methodologies for causal inference from observational data have been developed in statistical studies and social sciences. However, existing methods critically rely on restrictive assumptions such as the study population consisting of homogeneous elements that can be represented in a single flat table, where each row is referred to as a unit. In contrast, in many real-world settings, the study domain naturally consists of heterogeneous elements with complex relational structure, where the data is naturally represented in multiple related tables. In this paper, we present a formal framework for causal inference from such relational data. We propose a declarative language called CaRL for capturing causal background knowledge and assumptions and specifying causal queries using simple Datalog-like rules.CaRL provides a foundation for inferring causality and reasoning about the effect of complex interventions in relational domains. We present an extensive experimental evaluation on real relational data to illustrate the applicability of CaRL in social sciences and healthcare.
翻訳日:2022-12-15 23:22:04 公開日:2020-04-07
# サイバーセキュリティのための敵対的遺伝的プログラミング:gpが重要なアプリケーションドメイン

Adversarial Genetic Programming for Cyber Security: A Rising Application Domain Where GP Matters ( http://arxiv.org/abs/2004.04647v1 )

ライセンス: Link先を確認
Una-May O'Reilly and Jamal Toutouh and Marcos Pertierra and Daniel Prado Sanchez and Dennis Garcia and Anthony Erb Luogo and Jonathan Kelly and Erik Hemberg(参考訳) サイバーセキュリティの敵やエンゲージメントはユビキタスで絶え間ない。 我々は,遺伝的プログラミング(GP)を用いて,サイバー敵の行動と,その関与のダイナミクスを再現し,研究する研究テーマである,サイバーセキュリティのための敵対的遺伝的プログラミング(Adversarial Genetic Programming for Cyber Security)について述べる。 サイバーセキュリティの敵対的遺伝的プログラミングは、重要な問題領域において、現存する即座の研究努力を包含しており、gpの重要領域であるフロンティアにおける位置を占めている。 さらに、gpで異なる抽象化を表現し、機械学習、人工生命、エージェントベースのモデリング、サイバーセキュリティコミュニティと再接続する機会を提供することで、複雑な行動の進化に関する研究を促進させる。 本稿では、RIVALSと呼ばれるネットワークセキュリティアームレースの研究を支援するフレームワークを提案する。 その目標は、攻撃対象のサイバーネットワークのダイナミクスをコンピュータでモデル化し、シミュレーションすることで解明することである。

Cyber security adversaries and engagements are ubiquitous and ceaseless. We delineate Adversarial Genetic Programming for Cyber Security, a research topic that, by means of genetic programming (GP), replicates and studies the behavior of cyber adversaries and the dynamics of their engagements. Adversarial Genetic Programming for Cyber Security encompasses extant and immediate research efforts in a vital problem domain, arguably occupying a position at the frontier where GP matters. Additionally, it prompts research questions around evolving complex behavior by expressing different abstractions with GP and opportunities to reconnect to the Machine Learning, Artificial Life, Agent-Based Modeling and Cyber Security communities. We present a framework called RIVALS which supports the study of network security arms races. Its goal is to elucidate the dynamics of cyber networks under attack by computationally modeling and simulating them.
翻訳日:2022-12-15 23:21:43 公開日:2020-04-07
# 容器の挙動と異常検出の課題:古典的機械学習からディープラーニングへ

Challenges in Vessel Behavior and Anomaly Detection: From Classical Machine Learning to Deep Learning ( http://arxiv.org/abs/2004.03722v1 )

ライセンス: Link先を確認
Lucas May Petry, Amilcar Soares, Vania Bogorny, Bruno Brandoli, Stan Matwin(参考訳) 海上活動のグローバル展開と自動識別システム(AIS)の開発は、過去10年間の海上監視システムの進歩を加速させてきた。 船舶の挙動の監視は海洋活動の保護に不可欠であり、海洋を航行する他の船舶や海洋動物相や植物相を保護している。 連続的に生成される膨大な量の船舶データを考えると、リアルタイムな船舶行動解析は、イベントおよび異常検出方式を備えた意思決定支援システムによってのみ可能となる。 しかしながら、コンテナイベント検出に関する現在の作業は、単一のあるいはいくつかの事前定義されたタイプのコンテナ振舞いのみを処理できるアドホックな方法である。 既存のアプローチのほとんどはデータから学習せず、それぞれの振る舞いを記述するためにクエリとルールを定義する必要があります。 本稿では,コンテナイベントや異常検出における古典的機械学習とディープラーニングの課題と機会について論じる。 これらの課題に対処することは、実際のインテリジェントな海上監視システムにとって重要なステップであり、新しい方法やツールの研究を動機づけたいと考えています。

The global expansion of maritime activities and the development of the Automatic Identification System (AIS) have driven the advances in maritime monitoring systems in the last decade. Monitoring vessel behavior is fundamental to safeguard maritime operations, protecting other vessels sailing the ocean and the marine fauna and flora. Given the enormous volume of vessel data continually being generated, real-time analysis of vessel behaviors is only possible because of decision support systems provided with event and anomaly detection methods. However, current works on vessel event detection are ad-hoc methods able to handle only a single or a few predefined types of vessel behavior. Most of the existing approaches do not learn from the data and require the definition of queries and rules for describing each behavior. In this paper, we discuss challenges and opportunities in classical machine learning and deep learning for vessel event and anomaly detection. We hope to motivate the research of novel methods and tools, since addressing these challenges is an essential step towards actual intelligent maritime monitoring systems.
翻訳日:2022-12-15 23:12:59 公開日:2020-04-07
# 非負性強化ガウス過程回帰

Nonnegativity-Enforced Gaussian Process Regression ( http://arxiv.org/abs/2004.04632v1 )

ライセンス: Link先を確認
Andrew Pensoneault and Xiu Yang and Xueyu Zhu(参考訳) ガウス過程(英語版)(gp)回帰は、近似複素モデルに対する柔軟な非パラメトリックなアプローチである。 多くの場合、これらのモデルは有界な物理的性質を持つ過程に対応する。 標準GP回帰は典型的には、すべての時間的あるいは空間的な点について非有界なプロキシモデルをもたらすため、実現不可能な値を取る可能性を残している。 本稿では,GP回帰フレームワークの下で,物理制約を確率論的に強制する手法を提案する。 さらに、この新しいアプローチは、結果のGPモデルのばらつきを低減する。

Gaussian Process (GP) regression is a flexible non-parametric approach to approximate complex models. In many cases, these models correspond to processes with bounded physical properties. Standard GP regression typically results in a proxy model which is unbounded for all temporal or spacial points, and thus leaves the possibility of taking on infeasible values. We propose an approach to enforce the physical constraints in a probabilistic way under the GP regression framework. In addition, this new approach reduces the variance in the resulting GP model.
翻訳日:2022-12-15 23:12:44 公開日:2020-04-07
# クエリ制御可能なビデオ要約

Query-controllable Video Summarization ( http://arxiv.org/abs/2004.03661v1 )

ライセンス: Link先を確認
Jia-Hong Huang and Marcel Worring(参考訳) ビデオコレクションが巨大になると、ビデオ内外の両方を効率的に探索する方法は難しい。 ビデオ要約は、この問題に取り組む方法の1つだ。 従来の要約アプローチは、ユーザの情報ニーズによらず、特定の入力ビデオに対して1つの固定されたビデオ要約を生成するため、ビデオ探索の有効性を制限する。 本研究では,テキストベースのクエリを入力とし,それに対応するビデオ要約を生成する手法を提案する。 本研究では,教師付き学習問題としてビデオ要約をモデル化し,クエリ制御可能なビデオ要約のためのエンドツーエンドディープラーニング手法を提案し,クエリ依存ビデオ要約を生成する。 提案手法は,ビデオ要約コントローラ,ビデオ要約生成器,ビデオ要約出力モジュールで構成される。 問合せ制御可能なビデオ要約の研究を促進し,実験を行うために,フレームベースの関連スコアラベルを含むデータセットを提案する。 実験結果に基づき,テキストベースのクエリがビデオ要約の制御に有用であることを示す。 また、テキストベースのクエリにより、モデルのパフォーマンスが向上することを示す。 私たちのコードとデータセットは、https://github.com/Jhhuangkay/Query-controllable-Video-Summarizationです。

When video collections become huge, how to explore both within and across videos efficiently is challenging. Video summarization is one of the ways to tackle this issue. Traditional summarization approaches limit the effectiveness of video exploration because they only generate one fixed video summary for a given input video independent of the information need of the user. In this work, we introduce a method which takes a text-based query as input and generates a video summary corresponding to it. We do so by modeling video summarization as a supervised learning problem and propose an end-to-end deep learning based method for query-controllable video summarization to generate a query-dependent video summary. Our proposed method consists of a video summary controller, video summary generator, and video summary output module. To foster the research of query-controllable video summarization and conduct our experiments, we introduce a dataset that contains frame-based relevance score labels. Based on our experimental result, it shows that the text-based query helps control the video summary. It also shows the text-based query improves our model performance. Our code and dataset: https://github.com/Jhhuangkay/Query-controllable-Video-Summarization.
翻訳日:2022-12-15 23:12:36 公開日:2020-04-07
# Webスクレイプ顔画像データセットのキュレーション法

A Method for Curation of Web-Scraped Face Image Datasets ( http://arxiv.org/abs/2004.03074v1 )

ライセンス: Link先を確認
Kai Zhang, V\'itor Albiero and Kevin W. Bowyer(参考訳) Webでスクレイプされた、Wild内のデータセットは、顔認識研究の標準となっている。 webスクレイプされたデータセットで取得される主題や画像の数は、通常非常に多く、数百万の規模の画像がある。 不正なidラベルのある画像、重複した画像、重複した主題、品質のばらつきなど、wild内でデータセットを収集する場合、さまざまな問題が発生する。 何百万もの画像が存在するため、手作業によるクリーニングは不可能である。 しかし、それまでの完全に自動化された方法は、理想的ではなくクリーンなデータセットをもたらす。 本研究では,性別間の精度比較を支援するために,男性と女性に類似した品質の顔認識手法をテストするためのクリーンなデータセットを提供することを目標とする半自動手法を提案する。 提案手法では,重複に近い画像を削除し,重複した被写体をマージし,誤ラベル画像を補正し,所定のポーズと品質の範囲外の画像を削除する。 我々はAsia Face Dataset(AFD)とVGGFace2テストデータセット上でキュレーションを行う。 実験の結果、最先端の手法はデータセットのキュレーション後の精度がはるかに高いことが判明した。 最後に、両方のデータセットのクリーンバージョンを研究コミュニティにリリースします。

Web-scraped, in-the-wild datasets have become the norm in face recognition research. The numbers of subjects and images acquired in web-scraped datasets are usually very large, with number of images on the millions scale. A variety of issues occur when collecting a dataset in-the-wild, including images with the wrong identity label, duplicate images, duplicate subjects and variation in quality. With the number of images being in the millions, a manual cleaning procedure is not feasible. But fully automated methods used to date result in a less-than-ideal level of clean dataset. We propose a semi-automated method, where the goal is to have a clean dataset for testing face recognition methods, with similar quality across men and women, to support comparison of accuracy across gender. Our approach removes near-duplicate images, merges duplicate subjects, corrects mislabeled images, and removes images outside a defined range of pose and quality. We conduct the curation on the Asian Face Dataset (AFD) and VGGFace2 test dataset. The experiments show that a state-of-the-art method achieves a much higher accuracy on the datasets after they are curated. Finally, we release our cleaned versions of both datasets to the research community.
翻訳日:2022-12-15 23:12:18 公開日:2020-04-07
# PatchVAE: 認識のためのローカル遅延コード学習

PatchVAE: Learning Local Latent Codes for Recognition ( http://arxiv.org/abs/2004.03623v1 )

ライセンス: Link先を確認
Kamal Gupta, Saurabh Singh, Abhinav Shrivastava(参考訳) 教師なし表現学習は、大量のラベルのないデータを利用して一般的な表現を学ぶという約束を持っている。 教師なし学習のための有望な手法は変分オートエンコーダ(vaes)の枠組みである。 しかしながら、VAEが学習した教師なし表現は、教師付き学習によって認識するために学習された表現によって著しく優れる。 私たちの仮説は、モデルを認識するために有用な表現を学ぶためには、データの繰り返しと一貫性のあるパターンについて学ぶことを奨励する必要があります。 中レベルの表現発見作業からインスピレーションを得て,パッチレベルのイメージを理由とするpatchvaeを提案する。 我々の重要な貢献はボトルネックの定式化であり、VAEフレームワークの中級スタイルの表現を奨励します。 実験により,本手法で学習した表現は,バニラVAEで学習した表現よりも,認識タスクにおいて優れることが示された。

Unsupervised representation learning holds the promise of exploiting large amounts of unlabeled data to learn general representations. A promising technique for unsupervised learning is the framework of Variational Auto-encoders (VAEs). However, unsupervised representations learned by VAEs are significantly outperformed by those learned by supervised learning for recognition. Our hypothesis is that to learn useful representations for recognition the model needs to be encouraged to learn about repeating and consistent patterns in data. Drawing inspiration from the mid-level representation discovery work, we propose PatchVAE, that reasons about images at patch level. Our key contribution is a bottleneck formulation that encourages mid-level style representations in the VAE framework. Our experiments demonstrate that representations learned by our method perform much better on the recognition tasks compared to those learned by vanilla VAEs.
翻訳日:2022-12-15 23:11:48 公開日:2020-04-07
# Consistent and Complementary Graph Regularized Multi-view Subspace Clustering

Consistent and Complementary Graph Regularized Multi-view Subspace Clustering ( http://arxiv.org/abs/2004.03106v1 )

ライセンス: Link先を確認
Qinghai Zheng, Jihua Zhu, Zhongyu Li, Shanmin Pang, Jun Wang, Lei Chen(参考訳) 本研究では,複数のビューが一貫した情報を持ち,各ビューが補完的情報を含むマルチビュークラスタリングの問題を検討する。 すべての情報の探索は、優れたマルチビュークラスタリングに不可欠である。 しかし、従来の手法のほとんどは、クラスタリングのための複数のビューを盲目的または粗雑に組み合わせており、貴重な情報を十分に活用できない。 そこで本稿では,グラフ正規化器と補完グラフ正規化器を同時に対象関数に統合する,一貫性のあるグラフ正規化マルチビューサブスペースクラスタリング(GRMSC)を提案する。 特に、一貫性のあるグラフ正規化器は、すべてのビューで共有されるデータポイントの固有の親和関係を学習する。 補グラフ正規化器は、複数のビューの特定の情報を調べる。 一貫性と相補的な正則化器はそれぞれ、複数のビューの1階近接と2階近接から構築された2つの異なるグラフによって定式化されていることは注目に値する。 目的関数は拡張ラグランジアン乗算法によって最適化され,マルチビュークラスタリングを実現する。 6つのベンチマークデータセットに対する大規模な実験は、他の最先端のマルチビュークラスタリング手法よりも提案手法の有効性を検証するのに役立つ。

This study investigates the problem of multi-view clustering, where multiple views contain consistent information and each view also includes complementary information. Exploration of all information is crucial for good multi-view clustering. However, most traditional methods blindly or crudely combine multiple views for clustering and are unable to fully exploit the valuable information. Therefore, we propose a method that involves consistent and complementary graph-regularized multi-view subspace clustering (GRMSC), which simultaneously integrates a consistent graph regularizer with a complementary graph regularizer into the objective function. In particular, the consistent graph regularizer learns the intrinsic affinity relationship of data points shared by all views. The complementary graph regularizer investigates the specific information of multiple views. It is noteworthy that the consistent and complementary regularizers are formulated by two different graphs constructed from the first-order proximity and second-order proximity of multiple views, respectively. The objective function is optimized by the augmented Lagrangian multiplier method in order to achieve multi-view clustering. Extensive experiments on six benchmark datasets serve to validate the effectiveness of the proposed method over other state-of-the-art multi-view clustering methods.
翻訳日:2022-12-15 23:05:44 公開日:2020-04-07
# クラスタリングのための指数族PCAの反発混合モデル

Repulsive Mixture Models of Exponential Family PCA for Clustering ( http://arxiv.org/abs/2004.03112v1 )

ライセンス: Link先を確認
Maoying Qiao, Tongliang Liu, Jun Yu, Wei Bian, Dacheng Tao(参考訳) 指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。 例えば、EPCAの本質的な形式の線形性のため、非線形クラスタ構造は容易には扱えないが、これらは混合拡張によって明示的にモデル化されている。 しかし、従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。 この問題を軽減するため, 混合成分間での反発性増感前処理を導入し, ベイズフレームワーク上でのEPCA混合(DEPCAM)モデルを構築した。 具体的には、DPP(Determinantal point process)を、共同局所EPCAの多様性向上前の分布として活用する。 必要に応じて,Lアンサンブルカーネルの行列値尺度を設計し,ローカルEPCAの有効なPCの選択を容易にするために$\ell_1$制約を課し,角ベースの類似度尺度を提案する。 パラメータ学習と隠れ変数推論を行うために、効率的な変分EMアルゴリズムを導出する。 合成と実世界の両方のデータセットの実験結果から, モデルパーシモニーと一般化能力の観点から, 提案手法の有効性が確認された。

The mixture extension of exponential family principal component analysis (EPCA) was designed to encode much more structural information about data distribution than the traditional EPCA does. For example, due to the linearity of EPCA's essential form, nonlinear cluster structures cannot be easily handled, but they are explicitly modeled by the mixing extensions. However, the traditional mixture of local EPCAs has the problem of model redundancy, i.e., overlaps among mixing components, which may cause ambiguity for data clustering. To alleviate this problem, in this paper, a repulsiveness-encouraging prior is introduced among mixing components and a diversified EPCA mixture (DEPCAM) model is developed in the Bayesian framework. Specifically, a determinantal point process (DPP) is exploited as a diversity-encouraging prior distribution over the joint local EPCAs. As required, a matrix-valued measure for L-ensemble kernel is designed, within which, $\ell_1$ constraints are imposed to facilitate selecting effective PCs of local EPCAs, and angular based similarity measure are proposed. An efficient variational EM algorithm is derived to perform parameter learning and hidden variable inference. Experimental results on both synthetic and real-world datasets confirm the effectiveness of the proposed method in terms of model parsimony and generalization ability on unseen test data.
翻訳日:2022-12-15 23:05:22 公開日:2020-04-07
# テキストサリエンシーから言語オブジェクトへ:マルチチャンネル畳み込み構造を用いた言語解釈可能なマーカーの学習

From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture ( http://arxiv.org/abs/2004.03254v1 )

ライセンス: Link先を確認
Laurent Vanni, Marco Corneli, Damon Mayaffre, Fr\'ed\'eric Precioso(参考訳) 画像やテキストの分類などのタスクにおいて、深層ニューラルネットワークが印象的なパフォーマンスを解析し、理解するための方法を提供するために、現在多くの努力が払われている。 これらの手法は主に、意思決定のためにネットワークが考慮した重要な入力特徴を可視化することに基づいている。 しかし、これらのテクニック、例えば、lime、shap、grad-cam、tdsを引用すると、専門家の知識に関して可視化を解釈するのに余計な労力が必要となる。 本稿では,分類過程を利用したテキストから解釈可能な言語オブジェクトを抽出するために,cnnの隠れた層を検査する新しい手法を提案する。 特に、cnnが分類タスクを実行するために使用する関連する特徴を強調するために使用できる、wtd(text deconvolution saliency)尺度の重み付き拡張について詳述する。 我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。 すべてのデータセットにおいて、wTDSは共起や文法や構文解析に基づく複雑な言語オブジェクトを自動的に符号化する。

A lot of effort is currently made to provide methods to analyze and understand deep neural network impressive performances for tasks such as image or text classification. These methods are mainly based on visualizing the important input features taken into account by the network to build a decision. However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require extra effort to interpret the visualization with respect to expert knowledge. In this paper, we propose a novel approach to inspect the hidden layers of a fitted CNN in order to extract interpretable linguistic objects from texts exploiting classification process. In particular, we detail a weighted extension of the Text Deconvolution Saliency (wTDS) measure which can be used to highlight the relevant features used by the CNN to perform the classification task. We empirically demonstrate the efficiency of our approach on corpora from two different languages: English and French. On all datasets, wTDS automatically encodes complex linguistic objects based on co-occurrences and possibly on grammatical and syntax analysis.
翻訳日:2022-12-15 23:05:00 公開日:2020-04-07
# 局所二次近似による自動的, 動的, ほぼ最適学習速度の特定

Automatic, Dynamic, and Nearly Optimal Learning Rate Specification by Local Quadratic Approximation ( http://arxiv.org/abs/2004.03260v1 )

ライセンス: Link先を確認
Yingqiu Zhu, Yu Chen, Danyang Huang, Bo Zhang and Hansheng Wang(参考訳) ディープラーニングタスクでは、学習速度が各イテレーションの更新ステップサイズを決定し、勾配に基づく最適化において重要な役割を果たす。 しかし、実際の適切な学習率の決定は、通常主観的判断に反応する。 本研究では,局所二次近似(LQA)に基づく新しい最適化手法を提案する。 各更新ステップでは、勾配方向を考慮し、学習率の標準二次関数により局所的に損失関数を近似する。 そこで本研究では,ほぼ最適な学習率を計算効率よく得られる近似ステップを提案する。 提案手法には3つの重要な特徴がある。 まず、各更新ステップで学習率を自動的に決定する。 次に、電流損失関数値およびパラメータ推定値に応じて動的に調整する。 第3に、勾配方向を固定することにより、提案手法は損失関数の点で最大に減少する。 提案したLQA法の強度を証明するため, 大規模実験を行った。

In deep learning tasks, the learning rate determines the update step size in each iteration, which plays a critical role in gradient-based optimization. However, the determination of the appropriate learning rate in practice typically replies on subjective judgement. In this work, we propose a novel optimization method based on local quadratic approximation (LQA). In each update step, given the gradient direction, we locally approximate the loss function by a standard quadratic function of the learning rate. Then, we propose an approximation step to obtain a nearly optimal learning rate in a computationally efficient way. The proposed LQA method has three important features. First, the learning rate is automatically determined in each update step. Second, it is dynamically adjusted according to the current loss function value and the parameter estimates. Third, with the gradient direction fixed, the proposed method leads to nearly the greatest reduction in terms of the loss function. Extensive experiments have been conducted to prove the strengths of the proposed LQA method.
翻訳日:2022-12-15 23:04:39 公開日:2020-04-07
# 逆境シナリオにおけるロバストツリーアンサンブルの特徴分割と認定

Feature Partitioning for Robust Tree Ensembles and their Certification in Adversarial Scenarios ( http://arxiv.org/abs/2004.03295v1 )

ライセンス: Link先を確認
Stefano Calzavara, Claudio Lucchese, Federico Marcuzzi, Salvatore Orlando(参考訳) しかし、機械学習アルゴリズムは、悪意のあるユーザーが操作されたインスタンスを注入できる敵のシナリオでは脆弱であることが知られている。 この作業では、モデルが安全な環境でトレーニングされ、テスト時に攻撃にさらされる回避攻撃に焦点を当てています。 攻撃者は、モデル結果を変更するテストインスタンスの最小限の摂動を見つけることを目指している。 本稿では,与えられたデータセットの特徴に基づく分割を基本モデルとしてトレーニングすることにより,ロバストアンサンブルを構築するモデル非依存戦略を提案する。 我々のアルゴリズムは、アンサンブルのほとんどのモデルが攻撃者の影響を受けないことを保証する。 提案手法を決定木アンサンブル上で実験し,また,森林の最小精度を評価可能な木アンサンブルの近似認証手法を提案する。 公開データセットの実験的評価は、提案された戦略が回避攻撃に対する最先端の敵対的学習アルゴリズムよりも優れていることを示している。

Machine learning algorithms, however effective, are known to be vulnerable in adversarial scenarios where a malicious user may inject manipulated instances. In this work we focus on evasion attacks, where a model is trained in a safe environment and exposed to attacks at test time. The attacker aims at finding a minimal perturbation of a test instance that changes the model outcome. We propose a model-agnostic strategy that builds a robust ensemble by training its basic models on feature-based partitions of the given dataset. Our algorithm guarantees that the majority of the models in the ensemble cannot be affected by the attacker. We experimented the proposed strategy on decision tree ensembles, and we also propose an approximate certification method for tree ensembles that efficiently assess the minimal accuracy of a forest on a given dataset avoiding the costly computation of evasion attacks. Experimental evaluation on publicly available datasets shows that proposed strategy outperforms state-of-the-art adversarial learning algorithms against evasion attacks.
翻訳日:2022-12-15 23:04:27 公開日:2020-04-07
# ラベルノイズを伴うマルチクラス不均衡データに対するクリーニングと再サンプリングの組合せアルゴリズム

Combined Cleaning and Resampling Algorithm for Multi-Class Imbalanced Data with Label Noise ( http://arxiv.org/abs/2004.03406v1 )

ライセンス: Link先を確認
Micha{\l} Koziarski, Micha{\l} Wo\'zniak, Bartosz Krawczyk(参考訳) 不均衡なデータ分類は、現代のデータ分析に直面する最も重要なタスクの1つです。 特にノイズの存在、クラス分布の重複、小さな切断など他の難易度要素と組み合わせると、データの不均衡は分類性能に大きな影響を与える可能性がある。 さらに、データ困難要因のいくつかは、既存のオーバーサンプリング戦略、特にSMOTEとそのデリバティブのパフォーマンスに影響を与えることが知られている。 この効果は、クラス間の相互不均衡関係がさらに複雑になる多クラス設定において特に顕著である。 それにもかかわらず、データ不均衡の分野での現代の研究のほとんどはバイナリ分類の問題に焦点を合わせているが、より難しいマルチクラスの研究は比較的未調査である。 本稿では,新しいオーバーサンプリング手法,MC-CCR (Multi-class Combined Cleaning and Resampling) アルゴリズムを提案する。 提案手法は, オーバーサンプリングに適した領域をモデル化するためのエネルギーベース手法を用いて, SMOTEよりも小さな解離や外れ値の影響を受けない。 これは同時にクリーニング操作と組み合わせることで、学習アルゴリズムの性能に重複するクラス分布の影響を減らすことを目的としている。 最後に, MC-CCRは, 多クラス問題を扱うための専用戦略を取り入れることで, 従来の多クラス分解戦略よりもクラス間関係に関する情報の喪失の影響を受けない。 多くのマルチクラス不均衡ベンチマークデータセットを対象とした実験研究の結果から,提案手法の高ロバスト性と最先端手法に対する品質が示された。

The imbalanced data classification is one of the most crucial tasks facing modern data analysis. Especially when combined with other difficulty factors, such as the presence of noise, overlapping class distributions, and small disjuncts, data imbalance can significantly impact the classification performance. Furthermore, some of the data difficulty factors are known to affect the performance of the existing oversampling strategies, in particular SMOTE and its derivatives. This effect is especially pronounced in the multi-class setting, in which the mutual imbalance relationships between the classes complicate even further. Despite that, most of the contemporary research in the area of data imbalance focuses on the binary classification problems, while their more difficult multi-class counterparts are relatively unexplored. In this paper, we propose a novel oversampling technique, a Multi-Class Combined Cleaning and Resampling (MC-CCR) algorithm. The proposed method utilizes an energy-based approach to modeling the regions suitable for oversampling, less affected by small disjuncts and outliers than SMOTE. It combines it with a simultaneous cleaning operation, the aim of which is to reduce the effect of overlapping class distributions on the performance of the learning algorithms. Finally, by incorporating a dedicated strategy of handling the multi-class problems, MC-CCR is less affected by the loss of information about the inter-class relationships than the traditional multi-class decomposition strategies. Based on the results of experimental research carried out for many multi-class imbalanced benchmark datasets, the high robust of the proposed approach to noise was shown, as well as its high quality compared to the state-of-art methods.
翻訳日:2022-12-15 23:04:08 公開日:2020-04-07
# 不完全なアノテーションから学ぶ

Learning from Imperfect Annotations ( http://arxiv.org/abs/2004.03473v1 )

ライセンス: Link先を確認
Emmanouil Antonios Platanios and Maruan Al-Shedivat and Eric Xing and Tom Mitchell(参考訳) 今日、多くの機械学習システムは、大量の人間の注釈データに基づいて訓練されている。 高いレベルの能力を必要とするデータアノテーションタスクは、データ取得を高価にするが、結果として得られるラベルは、しばしば主観的で一貫性がなく、さまざまな人間のバイアスを含む。 データ品質を改善するために、実践者はサンプル毎に複数のアノテーションを収集し、モデルをトレーニングする前にそれらを集約する必要がある。 このような多段階的アプローチは冗長なアノテーションを生み出し、正確な機械学習モデルをトレーニングする可能性を制限する不完全な「根拠の真実」を生み出すことが多い。 私たちは、新しいエンドツーエンドフレームワークを提案します。 一 モデル学習と集約段階を融合することにより、深層学習システムにおいて、利用可能なデータから直接真理推定を予測できるようにし、 (2)例の難易度をモデル化し,それらの能力を考慮したアノテータの表現を学習する。 我々のアプローチは汎用的で、クラウドソースデータによるより正確なモデルのトレーニング、アンサンブル学習、ラベルなしデータからの分類器の精度推定など、多くの応用がある。 本研究では,様々な難易度を持つ5つのデータセットをクラウドソーシングし,アノテーションを集約する現在の最先端手法に対して最大25%の精度向上率を示すとともに,必要なアノテーション冗長性を大幅に削減した。

Many machine learning systems today are trained on large amounts of human-annotated data. Data annotation tasks that require a high level of competency make data acquisition expensive, while the resulting labels are often subjective, inconsistent, and may contain a variety of human biases. To improve the data quality, practitioners often need to collect multiple annotations per example and aggregate them before training models. Such a multi-stage approach results in redundant annotations and may often produce imperfect "ground truth" that may limit the potential of training accurate machine learning models. We propose a new end-to-end framework that enables us to: (i) merge the aggregation step with model training, thus allowing deep learning systems to learn to predict ground truth estimates directly from the available data, and (ii) model difficulties of examples and learn representations of the annotators that allow us to estimate and take into account their competencies. Our approach is general and has many applications, including training more accurate models on crowdsourced data, ensemble learning, as well as classifier accuracy estimation from unlabeled data. We conduct an extensive experimental evaluation of our method on 5 crowdsourcing datasets of varied difficulty and show accuracy gains of up to 25% over the current state-of-the-art approaches for aggregating annotations, as well as significant reductions in the required annotation redundancy.
翻訳日:2022-12-15 23:03:25 公開日:2020-04-07
# オンライン制約付きモデルベース強化学習

Online Constrained Model-based Reinforcement Learning ( http://arxiv.org/abs/2004.03499v1 )

ライセンス: Link先を確認
Benjamin van Niekerk, Andreas Damianou, Benjamin Rosman(参考訳) 強化学習をロボットシステムに適用することは、多くの問題を引き起こす。 重要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。 さらに、安全な運用のためには、システムは厳しい制約の下で堅牢な決定をしなければならない。 これらの課題に対処するため,ガウス過程回帰と回帰水平制御を組み合わせたモデルベースアプローチを提案する。 スパーススペクトルガウス過程を用いて,センサデータのストリームから動的モデルを漸進的に更新することにより,従来の作業を拡張した。 これにより、非線形制約下でリアルタイムで学習し計画できるエージェントが生まれる。 このアプローチをカートポールスイングアップ環境でテストし,自律走行タスクにおけるオンライン学習のメリットを実証する。 環境のダイナミクスは限られたトレーニングデータから学び、再トレーニングせずに新しいタスクインスタンスで再利用できる。

Applying reinforcement learning to robotic systems poses a number of challenging problems. A key requirement is the ability to handle continuous state and action spaces while remaining within a limited time and resource budget. Additionally, for safe operation, the system must make robust decisions under hard constraints. To address these challenges, we propose a model based approach that combines Gaussian Process regression and Receding Horizon Control. Using sparse spectrum Gaussian Processes, we extend previous work by updating the dynamics model incrementally from a stream of sensory data. This results in an agent that can learn and plan in real-time under non-linear constraints. We test our approach on a cart pole swing-up environment and demonstrate the benefits of online learning on an autonomous racing task. The environment's dynamics are learned from limited training data and can be reused in new task instances without retraining.
翻訳日:2022-12-15 23:03:03 公開日:2020-04-07
# ラベル分布からの学習の複雑さについて

On the Complexity of Learning from Label Proportions ( http://arxiv.org/abs/2004.03515v1 )

ライセンス: Link先を確認
Benjamin Fish, Lev Reyzin(参考訳) LLP学習と呼ばれるラベル比の学習では、トレーニングデータにラベルが付けられておらず、各ラベルを受信するサンプルの割合のみが与えられる。 目的は、サンプルの基礎となる分布上のラベルの割合を予測する仮説を学習することである。 この学習モデルは、投票者による政治選挙における候補者の投票数を予測することを含む、幅広い設定に適用できる。 本稿では,このクラスを正式に定義し,LPPの計算複雑性に関する基礎的な疑問を解決し,PAC学習との関係を特徴づける。 私たちの結果のうち、おそらく驚くべきことに、llpが効率的に学習できる有限のvcクラスは、標準的な複雑性仮定の下で、pacで効率的に傾けるものの厳密なサブセットである。 また、LLPにおける学習可能性が標準集合理論公理であるZFCに依存しない関数のクラスが存在することを示す。 これはLPP学習を(VC次元によるPACのような)容易に特徴付けることができないことを意味する。

In the problem of learning with label proportions, which we call LLP learning, the training data is unlabeled, and only the proportions of examples receiving each label are given. The goal is to learn a hypothesis that predicts the proportions of labels on the distribution underlying the sample. This model of learning is applicable to a wide variety of settings, including predicting the number of votes for candidates in political elections from polls. In this paper, we formally define this class and resolve foundational questions regarding the computational complexity of LLP and characterize its relationship to PAC learning. Among our results, we show, perhaps surprisingly, that for finite VC classes what can be efficiently LLP learned is a strict subset of what can be leaned efficiently in PAC, under standard complexity assumptions. We also show that there exist classes of functions whose learnability in LLP is independent of ZFC, the standard set theoretic axioms. This implies that LLP learning cannot be easily characterized (like PAC by VC dimension).
翻訳日:2022-12-15 23:02:50 公開日:2020-04-07
# 中国bert分類器のロバスト性評価に向けて

Towards Evaluating the Robustness of Chinese BERT Classifiers ( http://arxiv.org/abs/2004.03742v1 )

ライセンス: Link先を確認
Boxin Wang, Boyuan Pan, Xin Li, Bo Li(参考訳) BERTのような大規模言語表現モデルの最近の進歩は、多くのNLPタスクにおける最先端の性能を改善している。 一方、BERT for Chineseを含む漢字レベルの中国のNLPモデルは、既存のモデルよりも優れていることを示した。 本稿では,BERTをベースとしたモデルでは,文字レベルの攻撃に対して脆弱であることを示す。 BERTをベースとした分類器に対する新しい中国炭度攻撃法を提案する。 基本的に、埋め込み空間における文字レベルの「小さな」摂動を生成し、文字置換手順を導出する。 広範な実験により、中国ニュースデータセットの分類精度は、提案された攻撃に基づいて平均2文字未満で操作することで91.8%から0%に低下することが示された。 また, 人的評価により, 生成した中国語の逆数例がこれらのNLPタスクの人的パフォーマンスにほとんど影響を与えないことが確認された。

Recent advances in large-scale language representation models such as BERT have improved the state-of-the-art performances in many NLP tasks. Meanwhile, character-level Chinese NLP models, including BERT for Chinese, have also demonstrated that they can outperform the existing models. In this paper, we show that, however, such BERT-based models are vulnerable under character-level adversarial attacks. We propose a novel Chinese char-level attack method against BERT-based classifiers. Essentially, we generate "small" perturbation on the character level in the embedding space and guide the character substitution procedure. Extensive experiments show that the classification accuracy on a Chinese news dataset drops from 91.8% to 0% by manipulating less than 2 characters on average based on the proposed attack. Human evaluations also confirm that our generated Chinese adversarial examples barely affect human performance on these NLP tasks.
翻訳日:2022-12-15 22:53:26 公開日:2020-04-07
# GANのないエンドツーエンド単一画像生成装置の訓練

Training End-to-end Single Image Generators without GANs ( http://arxiv.org/abs/2004.06014v1 )

ライセンス: Link先を確認
Yael Vinker and Nir Zabari and Yedid Hoshen(参考訳) 我々は,単一画像生成モデルをトレーニングするための新しいアプローチであるAugurOneを提案する。 我々のアプローチは、特に薄板スプライン画像ワープを含む、単一入力画像の非アフィン増強を用いて、アップスケーリングニューラルネットワークを訓練する。 拡張により、高可変入力のアップスケーリングを可能にするアップサンプリングネットワークのインサンプル分布が大幅に増大する。 制御画像合成が可能なコンパクト潜在空間を共同で学習する。 Single Image GANと異なり、我々のアプローチはGANトレーニングを必要とせず、高速で安定したトレーニングを可能にするエンドツーエンドで行われます。 提案手法を実験的に評価し,条件付き生成タスク,例えばペイント・ツー・イメージやエッジ・ツー・イメージにおける最先端のアニメーションが得られることを示す。

We present AugurOne, a novel approach for training single image generative models. Our approach trains an upscaling neural network using non-affine augmentations of the (single) input image, particularly including non-rigid thin plate spline image warps. The extensive augmentations significantly increase the in-sample distribution for the upsampling network enabling the upscaling of highly variable inputs. A compact latent space is jointly learned allowing for controlled image synthesis. Differently from Single Image GAN, our approach does not require GAN training and takes place in an end-to-end fashion allowing fast and stable training. We experimentally evaluate our method and show that it obtains compelling novel animations of single-image, as well as, state-of-the-art performance on conditional generation tasks e.g. paint-to-image and edges-to-image.
翻訳日:2022-12-15 22:45:26 公開日:2020-04-07
# マルチデポット車両経路問題に対するantコロニー最適化によるハイブリッド2段階帝国主義競合アルゴリズム

Hybrid 2-stage Imperialist Competitive Algorithm with Ant Colony Optimization for Solving Multi-Depot Vehicle Routing Problem ( http://arxiv.org/abs/2005.04157v1 )

ライセンス: Link先を確認
Ivars Dzalbs, Tatiana Kalganova(参考訳) MDVRP(Multi-Depot Vehicle Routing Problem)は、複数のデポから複数の顧客要求を満たす方法を検討する簡易車両ルーティング問題(VRP)の現実モデルである。 本稿では,自然界におけるアリの振る舞いを模倣するAnt Colony Optimization (ACO) と,国家間の地政学的関係に基づく Imperialist Competitive Algorithm (ICA) という2つの集団に基づくハイブリッド2段階アプローチを提案する。 提案したハイブリッドアルゴリズムでは、ICAがデポへの顧客の割り当てを担当し、ACOが顧客のルーティングとシークエンシングを行っている。 このアルゴリズムは、非ハイブリッドacoとica、および23の共通cordreausベンチマークインスタンスにわたる4つの最先端メソッドと比較される。 その結果、単純なACOやICAよりも明らかに改善され、他の競合アルゴリズムと比較して非常に競争力のある結果が得られた。

The Multi-Depot Vehicle Routing Problem (MDVRP) is a real-world model of the simplistic Vehicle Routing Problem (VRP) that considers how to satisfy multiple customer demands from numerous depots. This paper introduces a hybrid 2-stage approach based on two population-based algorithms - Ant Colony Optimization (ACO) that mimics ant behaviour in nature and the Imperialist Competitive Algorithm (ICA) that is based on geopolitical relationships between countries. In the proposed hybrid algorithm, ICA is responsible for customer assignment to the depots while ACO is routing and sequencing the customers. The algorithm is compared to non-hybrid ACO and ICA as well as four other state-of-the-art methods across 23 common Cordreaus benchmark instances. Results show clear improvement over simple ACO and ICA and demonstrate very competitive results when compared to other rival algorithms.
翻訳日:2022-12-15 22:44:54 公開日:2020-04-07
# 入力フィルタリングニューラルネットワークを用いた短時間イベントカメラストリームからのリアルタイム分類

Real-time Classification from Short Event-Camera Streams using Input-filtering Neural ODEs ( http://arxiv.org/abs/2004.03156v1 )

ライセンス: Link先を確認
Giorgio Giannone, Asha Anoosheh, Alessio Quaglino, Pierluca D'Oro, Marco Gallieri, Jonathan Masci(参考訳) イベントベースのカメラは、人間の視覚システムにインスパイアされた新しい、効率的なセンサーであり、非同期でピクセル単位でデータストリームを生成する。 このようなデータからの学習は一般的に、重い前処理と画像へのイベント統合を通じて行われる。 これはおそらく長いシーケンスのバッファリングを必要とし、推論システムの応答時間を制限できる。 そこで本研究では,DVSカメラからのイベント,強度変化の流れ,空間座標を直接利用することを提案する。 このシーケンスは、新しい 'emph{asynchronous} RNN-like architecture, the Input-filtering Neural ODEs (INODE) の入力として使用される。 これは力学系とフィルタリング文学にインスパイアされている。 INODEはNeural ODE(NODE)の拡張であり、フィルタのように入力信号を連続的にネットワークに供給することができる。 このアプローチは、バッチフォワードオイラーソルバを実装することによって、不規則なタイムスタンプを持つ時系列のバッチを自然に処理する。 INODEは、標準のRNNのようにトレーニングされ、短いイベントシーケンスを識別し、イベントバイイベントオンライン推論を実行することを学ぶ。 我々はLSTMベースラインの集合と比較し,一連の分類課題に対するアプローチを実証する。 カメラの解像度とは独立に、INODE は ASL タスクにおいてベースラインをはるかに上回り、NAALTECH タスクのLSTM と同等であることを示す。 最後に、非常に少ないイベントが提供される場合でも、INODEは正確であることを示す。

Event-based cameras are novel, efficient sensors inspired by the human vision system, generating an asynchronous, pixel-wise stream of data. Learning from such data is generally performed through heavy preprocessing and event integration into images. This requires buffering of possibly long sequences and can limit the response time of the inference system. In this work, we instead propose to directly use events from a DVS camera, a stream of intensity changes and their spatial coordinates. This sequence is used as the input for a novel \emph{asynchronous} RNN-like architecture, the Input-filtering Neural ODEs (INODE). This is inspired by the dynamical systems and filtering literature. INODE is an extension of Neural ODEs (NODE) that allows for input signals to be continuously fed to the network, like in filtering. The approach naturally handles batches of time series with irregular time-stamps by implementing a batch forward Euler solver. INODE is trained like a standard RNN, it learns to discriminate short event sequences and to perform event-by-event online inference. We demonstrate our approach on a series of classification tasks, comparing against a set of LSTM baselines. We show that, independently of the camera resolution, INODE can outperform the baselines by a large margin on the ASL task and it's on par with a much larger LSTM for the NCALTECH task. Finally, we show that INODE is accurate even when provided with very few events.
翻訳日:2022-12-15 22:44:38 公開日:2020-04-07
# GAN研修におけるデータダイエット

Data Dieting in GAN Training ( http://arxiv.org/abs/2004.04642v1 )

ライセンス: Link先を確認
Jamal Toutouh, Una-May O'Reilly, Erik Hemberg(参考訳) 我々は、より少ないデータで生成的敵ネットワーク、GANを訓練する。 トレーニングデータセットのサブセットは、時間やメモリなどのトレーニングリソース要件を削減しながら、経験的なサンプル多様性を表現することができる。 我々は,データ削減がジェネレータの性能に与える影響を問うとともに,ジェネレータアンサンブルの加算値を測定する。 スタンドアロンのGANトレーニングとジェネレータモデルのアンサンブルの検討に加えて,Redux-Lipizzanerという進化的GANトレーニングフレームワーク上でのデータトレーニングも検討した。 redux-lipizzanerは、空間的な2dグリッド上で隣り合ったトレーニングを活用し、ganトレーニングをより堅牢かつ正確にする。 MNISTとCelebAデータセットを用いたRedux-Lipizzanerの実験実験を行った。

We investigate training Generative Adversarial Networks, GANs, with less data. Subsets of the training dataset can express empirical sample diversity while reducing training resource requirements, e.g. time and memory. We ask how much data reduction impacts generator performance and gauge the additive value of generator ensembles. In addition to considering stand-alone GAN training and ensembles of generator models, we also consider reduced data training on an evolutionary GAN training framework named Redux-Lipizzaner. Redux-Lipizzaner makes GAN training more robust and accurate by exploiting overlapping neighborhood-based training on a spatial 2D grid. We conduct empirical experiments on Redux-Lipizzaner using the MNIST and CelebA data sets.
翻訳日:2022-12-15 22:44:13 公開日:2020-04-07
# GGA-MG:音楽生成のための生成遺伝的アルゴリズム

GGA-MG: Generative Genetic Algorithm for Music Generation ( http://arxiv.org/abs/2004.04687v1 )

ライセンス: Link先を確認
Majid Farzaneh and Rahil Mahdian Toroghi(参考訳) 音楽生成(MG)は、音楽と人工知能(AI)を結びつける興味深い研究トピックである。 目標は、人工的な作曲家を訓練し、無限で新鮮で快楽な音楽作品を作り出すことである。 音楽にはメロディ、ハーモニー、リズムなど様々な部分がある。 本稿では,メロディ自動生成のための生成遺伝的アルゴリズム(GGA)を提案する。 メインのGGAは、目的関数としてLSTM(Long Short-Term Memory)リカレントニューラルネットワークを使用し、悪いから良いメロディのスペクトルでトレーニングする必要がある。 これらの旋律は異なる目的関数を持つ別のGGAによって提供されなければならない。 優れたメロディーはCAMPINsコレクションによって提供されています。 私たちはこの作品のリズムも検討した。 実験結果から,GGA法は自然遷移とリズム誤差を伴わないメロディを生成可能であることが明らかとなった。

Music Generation (MG) is an interesting research topic that links the art of music and Artificial Intelligence (AI). The goal is to train an artificial composer to generate infinite, fresh, and pleasurable musical pieces. Music has different parts such as melody, harmony, and rhythm. In this paper, we propose a Generative Genetic Algorithm (GGA) to produce a melody automatically. The main GGA uses a Long Short-Term Memory (LSTM) recurrent neural network as the objective function, which should be trained by a spectrum of bad-to-good melodies. These melodies have to be provided by another GGA with a different objective function. Good melodies have been provided by CAMPINs collection. We have considered the rhythm in this work, too. The experimental results clearly show that the proposed GGA method is able to generate eligible melodies with natural transitions and without rhythm error.
翻訳日:2022-12-15 22:43:46 公開日:2020-04-07
# DG-SpanBERTを用いた高効率長距離関係抽出

Efficient long-distance relation extraction with DG-SpanBERT ( http://arxiv.org/abs/2004.03636v1 )

ライセンス: Link先を確認
Jun Chen, Robert Hoehndorf, Mohamed Elhoseiny and Xiangliang Zhang(参考訳) 自然言語処理では、関係抽出は非構造化テキストを合理的に理解しようとする。 本稿では,事前学習された言語モデルspanbertとグラフ畳み込みネットワークを用いて,意味的特徴を生文から抽出し,潜在的特徴をプールする新しいスパンバート型グラフ畳み込みネットワーク(dg-spanbert)を提案する。 我々のDG-SpanBERTモデルは、大規模コーパスからリッチな語彙特徴を学習する上で、SpanBERTの利点を継承する。 また、依存性ツリーでGCNを使用するため、エンティティ間の長距離関係をキャプチャする機能も備えている。 実験の結果,本モデルは他の依存性ベースおよびシーケンスベースモデルよりも優れており,tacredデータセットで最先端の性能が得られることがわかった。

In natural language processing, relation extraction seeks to rationally understand unstructured text. Here, we propose a novel SpanBERT-based graph convolutional network (DG-SpanBERT) that extracts semantic features from a raw sentence using the pre-trained language model SpanBERT and a graph convolutional network to pool latent features. Our DG-SpanBERT model inherits the advantage of SpanBERT on learning rich lexical features from large-scale corpus. It also has the ability to capture long-range relations between entities due to the usage of GCN on dependency tree. The experimental results show that our model outperforms other existing dependency-based and sequence-based models and achieves a state-of-the-art performance on the TACRED dataset.
翻訳日:2022-12-15 22:37:33 公開日:2020-04-07
# 長期学習の代わりにAGAINを試す: 自動カリキュラム学習のための事前学習

Trying AGAIN instead of Trying Longer: Prior Learning for Automatic Curriculum Learning ( http://arxiv.org/abs/2004.03168v1 )

ライセンス: Link先を確認
R\'emy Portelas and Katja Hofmann and Pierre-Yves Oudeyer(参考訳) ディープ・RL(Dep RL)コミュニティにおける大きな課題は、見えない状況に対して一般化できるエージェントを訓練することである。 多様性を促進する強力な方法は、多次元分布からパラメータをサンプリングして手続き的にタスクを生成し、特に各トレーニングエピソードごとに異なるタスクを提案することである。 実際、一般化に必要な訓練タスクの多様性を高めるためには、複雑な手続き生成システムを使う必要がある。 このようなジェネレータでは、実際に学習可能なタスクのサブセット(多くの生成されたタスクは理解できないかもしれない)、その相対的な難易度と、トレーニングのための最も効率的なタスク分散順序付けについて、事前の知識を得ることが難しい。 このような場合の典型的な解決策は、サンプリング分布に適応するために、ある種のACL(Automated Curriculum Learning)に依存することである。 現在のアプローチの1つの制限は、時間の経過とともに進捗ニッチを検出するためにタスク空間を探索する必要性である。 さらに、トレーニングデータ中の誘導ノイズが脆性DRL学習者のパフォーマンスを損なう可能性があると仮定する。 2段階のACLアプローチを提案することでこの問題に対処する。 1)教師アルゴリズムは、まず、高探索カリキュラムでDRLエージェントを訓練し、次に学習する。 2) 最初の実行から学習した蒸留液は、同じエージェントをスクラッチから再トレーニングする「専門家カリキュラム」を生成する。 本研究の目的は,最先端技術よりも平均50%改善されていることを示すことに加えて,複数の学習者を対象としたACL技術の改良に向けた新たな研究の方向性を示すことにある。

A major challenge in the Deep RL (DRL) community is to train agents able to generalize over unseen situations, which is often approached by training them on a diversity of tasks (or environments). A powerful method to foster diversity is to procedurally generate tasks by sampling their parameters from a multi-dimensional distribution, enabling in particular to propose a different task for each training episode. In practice, to get the high diversity of training tasks necessary for generalization, one has to use complex procedural generation systems. With such generators, it is hard to get prior knowledge on the subset of tasks that are actually learnable at all (many generated tasks may be unlearnable), what is their relative difficulty and what is the most efficient task distribution ordering for training. A typical solution in such cases is to rely on some form of Automated Curriculum Learning (ACL) to adapt the sampling distribution. One limit of current approaches is their need to explore the task space to detect progress niches over time, which leads to a loss of time. Additionally, we hypothesize that the induced noise in the training data may impair the performances of brittle DRL learners. We address this problem by proposing a two stage ACL approach where 1) a teacher algorithm first learns to train a DRL agent with a high-exploration curriculum, and then 2) distills learned priors from the first run to generate an "expert curriculum" to re-train the same agent from scratch. Besides demonstrating 50% improvements on average over the current state of the art, the objective of this work is to give a first example of a new research direction oriented towards refining ACL techniques over multiple learners, which we call Classroom Teaching.
翻訳日:2022-12-15 22:36:01 公開日:2020-04-07
# 節インデクシングを用いたtsetlinマシンの推論と学習速度の向上

Increasing the Inference and Learning Speed of Tsetlin Machines with Clause Indexing ( http://arxiv.org/abs/2004.03188v1 )

ライセンス: Link先を確認
Saeed Rahimi Gorji, Ole-Christoffer Granmo, Sondre Glimsdal, Jonathan Edwards, Morten Goodwin(参考訳) Tsetlin Machine (TM) は、古典的なTsetlin Automaton (TA) とゲーム理論に基づいて開発された機械学習アルゴリズムである。 さらに、頻繁なパターンマイニングとリソース割り当ての原則を活用して、出力エラーの最小化に頼るのではなく、データの共通パターンを抽出する。 ニューラルネットワークにおけるパターン表現の絡み合った性質とは異なり、TMは問題を自己完結したパターンに分解し、共役節として表現する。 次に、節出力は、二元重みと単位ステップ出力関数を備えたロジスティック回帰関数に類似した和としきい値による分類決定に結合される。 本稿では,この階層構造を利用して,節を網羅的に評価しない新しいアルゴリズムを提案する。 代わりに、偽装する機能に関する節をインデックスする単純なルックアップテーブルを使用します。 この方法では、単にフィーチャを反復してルックアップテーブルを使用して、偽造された節を排除するだけで、偽化を通じて多数の節を迅速に評価することができる。 ルックアップテーブルはさらに、一定の時間更新を容易にするように構成されており、学習時の使用もサポートする。 我々は,MNISTとFashion-MNISTの画像分類とIMDbの感情分析を最大15倍,学習速度が3倍に向上したことを報告した。

The Tsetlin Machine (TM) is a machine learning algorithm founded on the classical Tsetlin Automaton (TA) and game theory. It further leverages frequent pattern mining and resource allocation principles to extract common patterns in the data, rather than relying on minimizing output error, which is prone to overfitting. Unlike the intertwined nature of pattern representation in neural networks, a TM decomposes problems into self-contained patterns, represented as conjunctive clauses. The clause outputs, in turn, are combined into a classification decision through summation and thresholding, akin to a logistic regression function, however, with binary weights and a unit step output function. In this paper, we exploit this hierarchical structure by introducing a novel algorithm that avoids evaluating the clauses exhaustively. Instead we use a simple look-up table that indexes the clauses on the features that falsify them. In this manner, we can quickly evaluate a large number of clauses through falsification, simply by iterating through the features and using the look-up table to eliminate those clauses that are falsified. The look-up table is further structured so that it facilitates constant time updating, thus supporting use also during learning. We report up to 15 times faster classification and three times faster learning on MNIST and Fashion-MNIST image classification, and IMDb sentiment analysis.
翻訳日:2022-12-15 22:35:32 公開日:2020-04-07
# どのように行動するか? 深層強化学習エージェントの挙動理解のための実験的検討

How Do You Act? An Empirical Study to Understand Behavior of Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2004.03237v1 )

ライセンス: Link先を確認
Richard Meyes, Moritz Schneider, Tobias Meisen(参考訳) 深層強化学習エージェントの意思決定プロセスの透明性向上の要求は、自律運転のような安全性に批判的かつ倫理的に困難な領域での使用の増加により、これまで以上に大きい。 この経験的研究では、神経科学の分野の研究に触発されたアイデアの後に、この透明性の欠如に対処する。 エージェントのポリシーネットワークの学習表現をアクティベーション空間を通じて特徴付け、部分的なネットワークアブレーションを行い、健康なネットワークと故意に損傷したネットワークの表現を比較する。 本研究は,ネットワークの活性化動作とエピソード中の実行動作との明確な相関パターンと,このパターンの強い変化を引き起こすネットワークアブレーションにより,エージェントが訓練された制御タスクを怠ったことを特徴とする。 さらに、当該健康剤の学習された表現は、エピソード中に異なる行動段階を反映した活性化空間の異なるパターンによって特徴づけられ、また、ネットワークアブレーションによって歪んだ場合、その訓練された制御タスクが失敗する。 結論として,我々は,神経科学的研究における生物学的ニューラルネットワークと同様に,経験的調査の対象としてのニューラルネットワークに対する新たな視点を支持し,人工知能の透明性と解釈可能性の研究に関して,科学的偽造可能性の新しい標準への道を開いた。

The demand for more transparency of decision-making processes of deep reinforcement learning agents is greater than ever, due to their increased use in safety critical and ethically challenging domains such as autonomous driving. In this empirical study, we address this lack of transparency following an idea that is inspired by research in the field of neuroscience. We characterize the learned representations of an agent's policy network through its activation space and perform partial network ablations to compare the representations of the healthy and the intentionally damaged networks. We show that the healthy agent's behavior is characterized by a distinct correlation pattern between the network's layer activation and the performed actions during an episode and that network ablations, which cause a strong change of this pattern, lead to the agent failing its trained control task. Furthermore, the learned representation of the healthy agent is characterized by a distinct pattern in its activation space reflecting its different behavioral stages during an episode, which again, when distorted by network ablations, leads to the agent failing its trained control task. Concludingly, we argue in favor of a new perspective on artificial neural networks as objects of empirical investigations, just as biological neural systems in neuroscientific studies, paving the way towards a new standard of scientific falsifiability with respect to research on transparency and interpretability of artificial neural networks.
翻訳日:2022-12-15 22:28:01 公開日:2020-04-07
# DiagNet: ジェネリックでインターネット規模の根本原因分析ソリューションを目指して

DiagNet: towards a generic, Internet-scale root cause analysis solution ( http://arxiv.org/abs/2004.03343v1 )

ライセンス: Link先を確認
Lo\"ick Bonniot (WIDE), Christoph Neumann, Fran\c{c}ois Ta\"iani (WIDE)(参考訳) インターネット規模のサービスの診断は、コンテンツプロバイダとISPの両方にとって、特に困難でコストがかかる。 インターネットは分散化されているため、そのような問題の原因はエンドユーザのデバイスとサービスデータセンタの間にある可能性がある。 さらに、考えられる問題と原因のセットは事前には分かっておらず、問題、原因、場所のあらゆる組み合わせで分類器を訓練することは事実上不可能である。 本稿では,エンドユーザーデバイスからの計測値を用いて,インターネットスケールの根本原因分析に機械学習手法をどのように利用するかを検討する。 汎用モデルを構築する方法を示します i) 基盤となるネットワークトポロジとは無関係である。 (二)訓練中に起こりうる原因の完全なセットを定義する必要はなく、 (iii) 新しいサービスの診断に迅速に適応することができる。 当社のソリューションであるDiagNetは、画像処理研究の概念を応用して、ネットワークおよびシステムメトリクスを処理する。 オンラインサービスのマルチクラウド展開によるDiagNetの評価と,自動ブラウザによるクライアントのエミュレートを行った。 推定時にのみ導入される原因を含む73.9%のリコールで有望な根本原因解析能力を示す。

Diagnosing problems in Internet-scale services remains particularly difficult and costly for both content providers and ISPs. Because the Internet is decentralized, the cause of such problems might lie anywhere between an end-user's device and the service datacenters. Further, the set of possible problems and causes is not known in advance, making it impossible in practice to train a classifier with all combinations of problems, causes and locations. In this paper, we explore how different machine learning techniques can be used for Internet-scale root cause analysis using measurements taken from end-user devices. We show how to build generic models that (i) are agnostic to the underlying network topology, (ii) do not require to define the full set of possible causes during training, and (iii) can be quickly adapted to diagnose new services. Our solution, DiagNet, adapts concepts from image processing research to handle network and system metrics. We evaluate DiagNet with a multi-cloud deployment of online services with injected faults and emulated clients with automated browsers. We demonstrate promising root cause analysis capabilities, with a recall of 73.9% including causes only being introduced at inference time.
翻訳日:2022-12-15 22:27:38 公開日:2020-04-07
# Deep Features Fusion and Ranking Technique を用いたコロナウイルス(COVID-19)の分類

Coronavirus (COVID-19) Classification using Deep Features Fusion and Ranking Technique ( http://arxiv.org/abs/2004.03698v1 )

ライセンス: Link先を確認
Umut Ozkaya, Saban Ozturk, Mucahid Barstugan(参考訳) コロナウイルス(COVID-19)は2019年末に出現した。 世界保健機関(WHO)が世界的な流行と認定した。 パンデミック病の早期診断にCT(Computerized Tomography)技術を用いることで、迅速かつ正確な結果が得られるという意見が一致した。 専門家の放射線科医は、covid-19はct画像で異なる行動を示すと述べた。 本研究では, 早期に新型コロナウイルスを検出するために, 深部特徴を融合, ランク付けする手法を提案する。 16x16 (subset-1) と32x32 (subset-2) のパッチを150のct画像から取得し, サブデータセットを生成する。 提案手法の範囲内では,3000枚のパッチイメージをCoVID-19,No find for use in training and testing phaseとラベル付けしている。 提案手法の性能を向上させるため,特徴融合とランキング手法が適用されている。 その後、処理データをSVM(Support Vector Machine)に分類した。 他の訓練済み畳み込みニューラルネットワーク(CNN)モデルによると、提案手法は、98.27%の精度、98.93%の感度、97.60%の特異性、97.63%の精度、98.28%のF1スコア、96.54%のマシューズ相関係数(MCC)メトリクスで、Subset-2上で高い性能を示す。

Coronavirus (COVID-19) emerged towards the end of 2019. World Health Organization (WHO) was identified it as a global epidemic. Consensus occurred in the opinion that using Computerized Tomography (CT) techniques for early diagnosis of pandemic disease gives both fast and accurate results. It was stated by expert radiologists that COVID-19 displays different behaviours in CT images. In this study, a novel method was proposed as fusing and ranking deep features to detect COVID-19 in early phase. 16x16 (Subset-1) and 32x32 (Subset-2) patches were obtained from 150 CT images to generate sub-datasets. Within the scope of the proposed method, 3000 patch images have been labelled as CoVID-19 and No finding for using in training and testing phase. Feature fusion and ranking method have been applied in order to increase the performance of the proposed method. Then, the processed data was classified with a Support Vector Machine (SVM). According to other pre-trained Convolutional Neural Network (CNN) models used in transfer learning, the proposed method shows high performance on Subset-2 with 98.27% accuracy, 98.93% sensitivity, 97.60% specificity, 97.63% precision, 98.28% F1-score and 96.54% Matthews Correlation Coefficient (MCC) metrics.
翻訳日:2022-12-15 22:27:20 公開日:2020-04-07
# 条件付きインシシミット最大近似を用いたマルチモーダル画像合成

Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood Estimation ( http://arxiv.org/abs/2004.03590v1 )

ライセンス: Link先を確認
Ke Li, Shichong Peng, Tianhao Zhang, Jitendra Malik(参考訳) コンピュータビジョンやグラフィックの多くのタスクは条件付き画像合成の枠組みに含まれる。 近年,GAN(Generative Adversarial Nets)は,合成画像の品質向上に寄与している。 しかしながら、モード崩壊の問題から、同一入力に対して多様で妥当な画像を生成することは依然として課題である。 本稿では,Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい汎用マルチモーダル条件付き画像合成法を開発し,シーンレイアウトからの単一画像超解像と画像合成という2つのタスクにおいて,改良されたマルチモーダル画像合成性能を示す。 私たちは実装を公開しています。

Many tasks in computer vision and graphics fall within the framework of conditional image synthesis. In recent years, generative adversarial nets (GANs) have delivered impressive advances in quality of synthesized images. However, it remains a challenge to generate both diverse and plausible images for the same input, due to the problem of mode collapse. In this paper, we develop a new generic multimodal conditional image synthesis method based on Implicit Maximum Likelihood Estimation (IMLE) and demonstrate improved multimodal image synthesis performance on two tasks, single image super-resolution and image synthesis from scene layouts. We make our implementation publicly available.
翻訳日:2022-12-15 22:26:39 公開日:2020-04-07