このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200713となっている論文です。

PDF登録状況(公開日: 20200713)

TitleAuthorsAbstract論文公表日・翻訳日
# 集積型光多イオン量子論理

Integrated optical multi-ion quantum logic ( http://arxiv.org/abs/2002.02258v2 )

ライセンス: Link先を確認
Karan K. Mehta, Chi Zhang, Maciej Malinowski, Thanh-Long Nguyen, Martin Stadler, Jonathan P. Home(参考訳) 実用的で有用な量子情報処理(QIP)は、基本的な操作のエラー率とスケールの両方において、現在のシステムに対して大幅な改善を必要とする。 個々のトラップイオン量子ビットの基本特性は長期的なシステムには有望であるが、正確な制御に関わる光学系はスケーリングの障壁である。 イオントラップデバイスに組み込まれた平面ファブリケート光学系は、単一イオンを用いた以前の研究で示唆されたように、そのようなシステムを同時に堅牢かつ並列化することができる。 ここでは、高忠実度マルチイオン量子論理ゲートを実現するために、表面電界イオントラップを併用したスケーラブル光学を用いて、量子計算に不可欠な高精度で大規模な絡み合わせを構築するための制限要素をしばしば提供する。 複数のチャネル上の直接繊維結合を介して低温環境において、光を効率的にトラップチップに供給し、真空システムやクライオスタットへのビームアライメントの必要性をなくし、振動やビームポインティングドリフトにロバスト性を貸与する。 これにより、イオン運動の基底状態レーザー冷却を行い、99.3(2)\%$の2イオン絡み合った状態を生成するゲートを実装することができる。 この研究は、センシティブな量子論理におけるノイズやドリフトを低減するハードウェアを示し、高忠実度量子プロセッサの実用的な並列化への経路を提供する。 同様のデバイスは中性原子やイオンベースの量子センシングや時間管理にも応用できる。

Practical and useful quantum information processing (QIP) requires significant improvements with respect to current systems, both in error rates of basic operations and in scale. Individual trapped-ion qubits' fundamental qualities are promising for long-term systems, but the optics involved in their precise control are a barrier to scaling. Planar-fabricated optics integrated within ion trap devices can make such systems simultaneously more robust and parallelizable, as suggested by previous work with single ions. Here we use scalable optics co-fabricated with a surface-electrode ion trap to achieve high-fidelity multi-ion quantum logic gates, often the limiting elements in building up the precise, large-scale entanglement essential to quantum computation. Light is efficiently delivered to a trap chip in a cryogenic environment via direct fibre coupling on multiple channels, eliminating the need for beam alignment into vacuum systems and cryostats and lending robustness to vibrations and beam pointing drifts. This allows us to perform ground-state laser cooling of ion motion, and to implement gates generating two-ion entangled states with fidelities $>99.3(2)\%$. This work demonstrates hardware that reduces noise and drifts in sensitive quantum logic, and simultaneously offers a route to practical parallelization for high-fidelity quantum processors. Similar devices may also find applications in neutral atom and ion-based quantum-sensing and timekeeping.
翻訳日:2023-06-04 14:04:58 公開日:2020-07-13
# 既存の量子コンピューティングレイアウト合成ツールの最適性

Optimality Study of Existing Quantum Computing Layout Synthesis Tools ( http://arxiv.org/abs/2002.09783v4 )

ライセンス: Link先を確認
Bochen Tan, Jason Cong(参考訳) 量子コンピューティングの重要なステップであるレイアウト合成は、デバイスレイアウトの制約を満たすために量子回路を処理する。 本稿では,この問題に対して最適な深さとゲート数を持つQUEKOベンチマークを構築した。 我々は、GoogleのCirq、IBMのQiskit、Cambridge Quantum Computingの$\mathsf{t}|\mathsf{ket}\rangle$、最近の学術研究など、現在のレイアウト合成ツールの最適性を評価するためにQUEKOを使用している。 驚くべきことに、量子回路のコンパイルと合成に関する10年以上の研究と開発にもかかわらず、我々は依然として大きな最適ギャップを示すことができる:小さなデバイスでは平均1.5〜12倍、大きなデバイスでは平均5~45倍である。 これは、レイアウト合成ツールの改善による量子コンピュータの効率向上の余地を示唆する。 最後に,量子コンピューティングにおけるレイアウト合成問題のnp完全性を証明する。 QUEKOベンチマークをオープンソース化しました。

Layout synthesis, an important step in quantum computing, processes quantum circuits to satisfy device layout constraints. In this paper, we construct QUEKO benchmarks for this problem, which have known optimal depths and gate counts. We use QUEKO to evaluate the optimality of current layout synthesis tools, including Cirq from Google, Qiskit from IBM, $\mathsf{t}|\mathsf{ket}\rangle$ from Cambridge Quantum Computing, and recent academic work. To our surprise, despite over a decade of research and development by academia and industry on compilation and synthesis for quantum circuits, we are still able to demonstrate large optimality gaps: 1.5-12x on average on a smaller device and 5-45x on average on a larger device. This suggests substantial room for improvement of the efficiency of quantum computer by better layout synthesis tools. Finally, we also prove the NP-completeness of the layout synthesis problem for quantum computing. We have made the QUEKO benchmarks open-source.
翻訳日:2023-06-02 09:06:16 公開日:2020-07-13
# 量子照明の基礎的限界

Fundamental limits of quantum illumination ( http://arxiv.org/abs/2002.12252v2 )

ライセンス: Link先を確認
Ranjith Nair and Mile Gu(参考訳) 量子照明(QI)では、受信機に保持されるアイドラビームと最初に絡み合った信号ビームが、熱背景光に浸されたターゲット領域を尋問する。 帰還ビームは、弱い反射目標が存在するか否かを判定するために、アイドラーと共同で測定される。 量子情報理論のツールを用いて,信号エネルギー制約を満たしたqi送信機によって従う検出対象の反射率を推定する平均二乗誤差と,スペキュラー目標とフェーディング目標の両方を検出する平均誤差確率について下限を導出する。 明るい熱背景については、低輝度2モード圧縮真空状態の複数コピーを用いたQIシステムがほぼ最適であることを示す。 より一般的には、全波長のqiシステムと全ての信号とバックグラウンドノイズレベルで実現可能な最高の性能に限界が与えられます。

In Quantum Illumination (QI), a signal beam initially entangled with an idler beam held at the receiver interrogates a target region bathed in thermal background light. The returned beam is measured jointly with the idler in order to determine whether a weakly reflecting target is present. Using tools from quantum information theory, we derive lower bounds on the average error probability of detecting both specular and fading targets and on the mean squared error of estimating the reflectance of a detected target, which are obeyed by any QI transmitter satisfying a signal energy constraint. For bright thermal backgrounds, we show that the QI system using multiple copies of low-brightness two-mode squeezed vacuum states is nearly optimal. More generally, our results place limits on the best possible performance achievable using QI systems at all wavelengths, and at all signal and background noise levels.
翻訳日:2023-06-01 12:27:15 公開日:2020-07-13
# ボース・アインシュタイン凝縮体における共鳴相互作用不純物の理論

Theory of a resonantly interacting impurity in a Bose-Einstein condensate ( http://arxiv.org/abs/2003.01982v2 )

ライセンス: Link先を確認
Moritz Drescher, Manfred Salmhofer, Tilman Enss(参考訳) ボース・アインシュタイン凝縮を単一不純物粒子と強い相互作用で研究する。 この状況は近年かなりの関心を集めているが、共鳴の近くでボゴリューボフ理論が不安定なため、強い結合の体制はほとんどのアプローチでは到達できないままである。 このような発散のないグロス・ピタエフスキイ理論の非局所拡大を示し、任意の相互作用ポテンシャルにおけるボルン近似の使用を必要としない。 誘引性ポラロンと反発性ポラロンの新たな動的遷移状態が得られ, 相互作用クエンチは媒体の密度分布と平衡に達する前の接触パラメータにおいて, 有限個のコヒーレント振動をもたらす。

We investigate a Bose-Einstein condensate in strong interaction with a single impurity particle. While this situation has received considerable interest in recent years, the regime of strong coupling remained inaccessible to most approaches due to an instability in Bogoliubov theory arising near the resonance. We present a nonlocal extension of Gross-Pitaevskii theory that is free of such divergences and does not require the use of the Born approximation in any of the interaction potentials. We find a new dynamical transition regime between attractive and repulsive polarons, where an interaction quench results in a finite number of coherent oscillations in the density profiles of the medium and in the contact parameter before equilibrium is reached.
翻訳日:2023-05-31 05:25:10 公開日:2020-07-13
# 脆弱な人口調査 : 市民社会組織を事例として

Surveying Vulnerable Populations: A Case Study of Civil Society Organizations ( http://arxiv.org/abs/2003.08580v2 )

ライセンス: Link先を確認
Nikita Samarin, Alisa Frik, Sean Brooks, Coye Cheshire, Serge Egelman(参考訳) 他の分野の組織と比較して、市民社会組織(CSO)は、自分自身を守るのに十分な資源や専門知識が不足しているため、特にセキュリティやプライバシーの脅威に弱い。 同時に、彼らのセキュリティニーズやプラクティスは研究者の間ではあまり注目を集めておらず、平均的なユーザ向けに設計された既存のソリューションは、CSO従業員が運用するコンテキストを考慮していない。 予備的な作業の一環として、102人のCSO従業員とともに匿名のオンライン調査を行い、異なるセキュリティやプライバシーの脅威に対する認識されるリスクと、その自己報告による緩和戦略に関する情報を収集しました。 予備調査の設計は,回答者との信頼関係の確立,匿名性維持のインセンティブ戦略の活用,信頼された仲介者による調査の配布といった,対象人口のユニークな要件を生かした。 しかし,我々の方法や回答者からのフィードバックを慎重に調べることで,アンケートの長さ,質問のフレーミング,採用メールのデザインなど,方法論に関するいくつかの問題を明らかにした。 我々は,CSOのセキュリティとプライバシの理解と改善に取り組む研究者や実践者に対して,この論文で提示された議論を通知し,支援することを期待している。

Compared to organizations in other sectors, civil society organizations (CSOs) are particularly vulnerable to security and privacy threats, as they lack adequate resources and expertise to defend themselves. At the same time, their security needs and practices have not gained much attention among researchers, and existing solutions designed for the average users do not consider the contexts in which CSO employees operate. As part of our preliminary work, we conducted an anonymous online survey with 102 CSO employees to collect information about their perceived risks of different security and privacy threats, and their self-reported mitigation strategies. The design of our preliminary survey accounted for the unique requirements of our target population by establishing trust with respondents, using anonymity-preserving incentive strategies, and distributing the survey with the help of a trusted intermediary. However, by carefully examining our methods and the feedback received from respondents, we uncovered several issues with our methodology, including the length of the survey, the framing of the questions, and the design of the recruitment email. We hope that the discussion presented in this paper will inform and assist researchers and practitioners working on understanding and improving the security and privacy of CSOs.
翻訳日:2023-05-28 18:00:02 公開日:2020-07-13
# 結合クラスタダウンフォールディング法によるサブシステム量子力学

Sub-system quantum dynamics using coupled cluster downfolding techniques ( http://arxiv.org/abs/2003.09566v4 )

ライセンス: Link先を確認
Karol Kowalski and Nicholas P. Bauman(参考訳) 本稿では、サブシステム埋め込みサブ代数結合クラスタ(SESCC)と二重ユニタリ結合クラスタ(DUCC)Ansatzを時間領域に拡張することについて議論する。 解析の重要な部分は、外部と内部の励起を定義する反エルミートクラスター作用素の一般的な多体形に基づく ducc ansatz の正確性を証明することである。 これらの形式を用いることで、活性空間におけるダウンフォールド・有効ハミルトニアンの固有値としてシステム全体のエネルギーを計算でき、複合システムのサブシステムと同一視することができる。 また、下降したハミルトニアンは、活性空間でカプセル化された物理学に対応しないフェルミオン次数の自由度を積分することも示せる。 本稿では、これらの結果を時間依存シュレーディンガー方程式に拡張し、時間的にゆっくりと変化するサブシステムと高速発振に対応する残りのサブシステムに、同様の構成で分割可能であることを示す。 この時間依存形式化により、結合されたクラスター量子力学はより大きな系に拡張され、近年文献で検討されている量子ランチョスアプローチに基づく新しい量子アルゴリズムの定式化が可能になる。

In this paper, we discuss extending the sub-system embedding sub-algebra coupled cluster (SESCC) formalism and the double unitary coupled cluster (DUCC) Ansatz to the time domain. An important part of the analysis is associated with proving the exactness of the DUCC Ansatz based on the general many-body form of anti-Hermitian cluster operators defining external and internal excitations. Using these formalisms, it is possible to calculate the energy of the entire system as an eigenvalue of downfolded/effective Hamiltonian in the active space, that is identifiable with the sub-system of the composite system. It can also be shown that downfolded Hamiltonians integrate out Fermionic degrees of freedom that do not correspond to the physics encapsulated by the active space. In this paper, we extend these results to the time-dependent Schroedinger equation, showing that a similar construct is possible to partition a system into a sub-system that varies slowly in time and a remaining sub-system that corresponds to fast oscillations. This time-dependent formalism allows coupled cluster quantum dynamics to be extended to larger systems and for the formulation of novel quantum algorithms based on the quantum Lanczos approach, which has recently been considered in the literature.
翻訳日:2023-05-28 13:45:59 公開日:2020-07-13
# マクロ物質波干渉計における量子古典仮説試験

Quantum-classical hypothesis tests in macroscopic matter-wave interferometry ( http://arxiv.org/abs/2004.03392v2 )

ライセンス: Link先を確認
Bj\"orn Schrinski, Stefan Nimmrichter, and Klaus Hornberger(参考訳) 重分子と低温原子アンサンブルの干渉を実証し、量子古典境界を探究する程度まで、これまでで最もマクロな物質波実験を評価した。 この目的のために、重ね合わせと再状態のマクロリアリズムを破壊する、よく研究された自然崩壊モデルを含む量子論の仮説的な修正のパラメタライズされた集合に対する厳密なベイズテストプロトコルを考える。 測定イベントによって決定される修正パラメータの範囲は、量子実験の巨視性を定量化するが、ベイズ更新による後続分布の形状は、データがマクロリアリズムをテストする際の決定性を示す。 このプロトコルは、真のマクロスケールに近い未来の物質波実験の設計のガイドとして機能する。

We assess the most macroscopic matter-wave experiments to date as to the extent to which they probe the quantum-classical boundary by demonstrating interference of heavy molecules and cold atomic ensembles. To this end, we consider a rigorous Bayesian test protocol for a parametrized set of hypothetical modifications of quantum theory, including well-studied spontaneous collapse models, that destroy superpositions and reinstate macrorealism. The range of modification parameters ruled out by the measurement events quantifies the macroscopicity of a quantum experiment, while the shape of the posterior distribution resulting from the Bayesian update reveals how conclusive the data are at testing macrorealism. This protocol may serve as a guide for the design of future matter-wave experiments ever closer to truly macroscopic scales.
翻訳日:2023-05-26 04:08:58 公開日:2020-07-13
# 創発的量子力学の理論における弱同値原理の起源について

On the origin of the weak equivalence principle in a theory of emergent quantum mechanics ( http://arxiv.org/abs/2005.12903v3 )

ライセンス: Link先を確認
Ricardo Gallego Torrom\'e(参考訳) 我々は、創発的量子力学の枠組みにおいて、弱同値原理は1ドル=リプシッツ函数の大次元空間における測度集中の結果であると主張する。 さらに、創発的枠組みと基本動力学を前提とする性質の結果として、重力は古典的な創発的相互作用でなければならないと論じられている。

We argue that in a framework for emergent quantum mechanics, the weak equivalence principle is a consequence of concentration of measure in large dimensional spaces of $1$-Lipshitz functions. Furthermore, as a consequence of the emergent framework and the properties that we assume for the fundamental dynamics, it is argued that gravity must be a classical, emergent interaction.
翻訳日:2023-05-18 23:29:21 公開日:2020-07-13
# 絡み合い尺度の統一的モノガミー関係

Unified monogamy relation of entanglement measures ( http://arxiv.org/abs/2007.04520v2 )

ライセンス: Link先を確認
Xue Yang and Ming-Xing Luo(参考訳) 量子エンタングルメントのモノガミーは、エンタングルメントの分布における制限の性質を捉えている。 量子情報処理において重要な様々な絡み合い対策のための様々なモノガミー関係が存在する。 本研究の目的は、絡み合った量子ビット系上のすべての絡み合い測度に対する一般的なモノガミー不等式を提案することである。 その結果,コンカレンス,負性,形成の絡み合い,Tsallis-qエントロピー,Renyi-qエントロピー,Unified-(q,s)エントロピーを含む様々な絡み合い対策の統一モデルが得られた。 そこで,多元系に対する厳密な単元不等式を提案する。 最終的に、高次元の絡み合った状態の絡み合いに対する一般的な結果を証明し、キュービット系を超えた特徴を示す。 これらの結果は、絡み合い理論、量子情報処理、セキュアな量子通信の探索に有用である。

The monogamy of quantum entanglement captures the property of limitation in the distribution of entanglement. Various monogamy relations exist for different entanglement measures that are important in quantum information processing. Our goal in this work is to propose a general monogamy inequality for all entanglement measures on entangled qubit systems. The present result provide a unified model for various entanglement measures including the concurrence, the negativity, the entanglement of formation, Tsallis-q entropy, Renyi-q entropy, and Unified-(q,s) entropy. We then proposed tightened monogamy inequalities for multipartite systems. We finally prove a generic result for the tangle of high-dimensional entangled states to show the distinct feature going beyond qubit systems. These results are useful for exploring the entanglement theory, quantum information processing and secure quantum communication.
翻訳日:2023-05-10 21:34:11 公開日:2020-07-13
# 物理学研究機関

Agency in Physics ( http://arxiv.org/abs/2007.05300v2 )

ライセンス: Link先を確認
Carlo Rovelli(参考訳) 物理の観点からエージェントの概念の3つの側面について論じる。 (i) 物理システムがエージェントとなるもの 二 代理店の時間志向の理由 (iii) 行為を選択する際に発生する情報の出所 私は、機関は、ダイナミクスが閉じているように見える近似の破れであると観察する。 私は異なるエージェントの概念を区別し、上記の質問に対する答えが異なるケースで異なることを観察する。 エージェンシーとメモリの構造的類似性に気付き、エージェンシーをモデル化し、その時間非対称性を熱力学的不可逆性に追跡し、エントロピーの成長においてエージェンシーが生成する情報のソースを特定する。 したがって、エージェンシーは低エントロピーを情報に変換する物理的メカニズムである。 これは、生物学が構築する情報全体の源泉の一般的なメカニズムであるかもしれない。

I discuss three aspects of the notion of agency from the standpoint of physics: (i) what makes a physical system an agent; (ii) the reason for agency's time orientation; (iii) the source of the information generated in choosing an action. I observe that agency is the breaking of an approximation under which dynamics appears closed. I distinguish different notions of agency, and observe that the answer to the questions above differ in different cases. I notice a structural similarity between agency and memory, that allows us to model agency, trace its time asymmetry to thermodynamical irreversibility, and identify the source of the information generated by agency in the growth of entropy. Agency is therefore a physical mechanism that transforms low entropy into information. This may be the general mechanism at the source of the whole information on which biology builds.
翻訳日:2023-05-10 17:24:28 公開日:2020-07-13
# Bose-Josephson系におけるカオスによる量子メロジ

Quantum metrology via chaos in a driven Bose-Josephson system ( http://arxiv.org/abs/2007.06210v1 )

ライセンス: Link先を確認
Wenjie Liu, Min Zhuang, Bo Zhu, Jiahao Huang, Chaohong Lee(参考訳) 量子パラメータ推定には絡み合いの準備と信号蓄積が不可欠であり、理論と実験の両方に重大な課題をもたらす。 本稿では,周期的に駆動されるボース・ジョセフソン系のカオス力学を用いて,標準量子限界(SQL)を超える高精度測定を実現する方法を提案する。 初期非エンタングル状態から始まり、カオスダイナミクスは量子エンタングルメントを生成し、推定されるパラメータを同時にエンコードする。 適切なカオスダイナミクスを用いることで、推定パラメータの最終的な測定精度はsqlを上回ることができる。 サブSQL測定精度のスケーリングは、最新技術で実現可能な人口測定のような、特定の観測可能性によっても得られる。 我々の研究は、量子カオスと量子古典的対応を理解するための新しい洞察を提供するだけでなく、絡み合う量子メートル法にも有望な応用をもたらす。

Entanglement preparation and signal accumulation are essential for quantum parameter estimation, which pose significant challenges to both theories and experiments. Here, we propose how to utilize chaotic dynamics in a periodically driven Bose-Josephson system for achieving a high-precision measurement beyond the standard quantum limit (SQL). Starting from an initial non-entangled state, the chaotic dynamics generates quantum entanglement and simultaneously encodes the parameter to be estimated. By using suitable chaotic dynamics, the ultimate measurement precision of the estimated parameter can beat the SQL. The sub-SQL measurement precision scaling can also be obtained via specific observables, such as population measurements, which can be realized with state-of-art techniques. Our study not only provides new insights for understanding quantum chaos and quantum-classical correspondence, but also is of promising applications in entanglement-enhanced quantum metrology.
翻訳日:2023-05-10 04:44:41 公開日:2020-07-13
# 分子系における高エネルギー励起状態の量子コンピューティングに向けて:コアレベル状態の量子位相推定

Towards quantum computing for high-energy excited states in molecular systems: quantum phase estimations of core-level states ( http://arxiv.org/abs/2007.06185v1 )

ライセンス: Link先を確認
Nicholas P. Bauman, Hongbin Liu, Eric J. Bylaska, S. Krishnamoorthy, Guang Hao Low, Christopher E. Granade, N. Wiebe, Nathan A. Baker, B. Peng, M. Roetteler, M. Troyer, K. Kowalski(参考訳) 本稿では、内部エネルギー殻を占有する電子の促進を特徴とする高エネルギー励起状態の計算における量子位相推定(QPE)の有用性について検討する。 これらの状態は過去数十年間、特に光源の実験的な取り組みを支持するために集中的に研究されてきた。 QPEを用いて得られた結果は、コアレベル状態を記述するために開発された様々な高精度多体技術と比較される。 また,高次励起効果を特徴とする揺らぎ状態のクラス同定における量子位相推定器の可能性についても論じる。

This paper explores the utility of the quantum phase estimation (QPE) in calculating high-energy excited states characterized by promotions of electrons occupying inner energy shells. These states have been intensively studied over the last few decades especially in supporting the experimental effort at light sources. Results obtained with the QPE are compared with various high-accuracy many-body techniques developed to describe core-level states. The feasibility of the quantum phase estimator in identifying classes of challenging shake-up states characterized by the presence of higher-order excitation effects is also discussed.
翻訳日:2023-05-10 04:44:20 公開日:2020-07-13
# プローブ電場と相互作用するトポロジカル絶縁体-量子ドットハイブリッドの光学応答

Optical response of a topological-insulator--quantum-dot hybrid interacting with a probe electric field ( http://arxiv.org/abs/2007.06145v1 )

ライセンス: Link先を確認
L. A. Castro-Enriquez, L. F. Quezada, and A. Mart\'in-Ruiz(参考訳) 応用電界下でのトポロジカル絶縁体ナノ粒子と量子ドットとの相互作用について検討した。 位相絶縁体の電磁応答は準静的近似における軸電磁気学から導かれる。 局在モードは、量子ドットと双極的に結合する双極子ボソニックモードによって量子化される。 そこで,このハイブリッドを1つのボソニックモードと相互作用する2レベルシステムとして扱い,結合強度はナノ粒子の非自明なトポロジーに関する情報を符号化する。 このハイブリッドと環境との相互作用は、放射出力モードの連続体貯水池とフォノンモードの貯水池とのカップリングによって実現される。 特に、スバレフの緑色関数の手法を用いて、系の光吸収スペクトルの表現を導出する。 本研究は, ポリメタクリレートメチルなどの高分子層に浸漬したセレン化カドミウム量子ドットと相互作用する, tlbise$_{2}$からなるトポロジカル絶縁体ナノ粒子からなる現実的なシステムに適用する。 光吸収スペクトルは、電界の偏光と位相的磁気電偏光性$\theta$ に強く依存する線状のファノ共鳴を示す。 この結果と手法は、cr$_{2}$o$_{3}$のような非トポロジーな磁力材料にも適用できる。

We study the interaction between a topological insulator nanoparticle and a quantum dot subject to an applied electric field. The electromagnetic response of the topological insulator is derived from axion electrodynamics in the quasistatic approximation. Localized modes are quantized in terms of dipolar bosonic modes, which couples dipolarly to the quantum dot. Hence, we treat the hybrid as a two-level system interacting with a single bosonic mode, where the coupling strength encodes the information concerning the nontrivial topology of the nanoparticle. The interaction of the hybrid with the environment is implemented through the coupling with a continuum reservoir of radiative output modes and a reservoir of phonon modes. In particular, we use the method of Zubarev's Green functions to derive an expression for the optical absorption spectrum of the system. We apply our results to a realistic system which consists of a topological insulator nanoparticle made of TlBiSe$_{2}$ interacting with a cadmium selenide quantum dot, both immersed in a polymer layer such as poly(methyl methacrylate). The optical absorption spectrum exhibits Fano resonances with a line shape that strongly depends on the polarization of the electric field as well as on the topological magnetoelectric polarizability $\theta$. Our results and methods can also be applied to nontopological magnetoelectric materials such as Cr$_{2}$O$_{3}$.
翻訳日:2023-05-10 04:44:10 公開日:2020-07-13
# 量子技術のための3Dプリントマイクロ光学:単一モードファイバへの単一量子ドット放出の最適結合

3D printed micro-optics for quantum technology: Optimized coupling of single quantum dot emission into a single mode fiber ( http://arxiv.org/abs/2007.06369v1 )

ライセンス: Link先を確認
Marc Sartison, Ksenia Weber, Simon Thiele, Lucas Bremer, Sarah Fischbach, Thomas Herzog, Sascha Kolatschek, Stephan Reitzenstein, Alois Herkommer, Peter Michler, Simone Luca Portalupi, and Harald Giessen(参考訳) 将来の量子技術は、忠実度の高い量子ネットワークの構築に大きく依存する。 この困難な目標を達成するために、単一量子系を放出される単一光子を最も高いコヒーレンス度で重ね合わせるように接続することが最も重要である。 これは異なるエミッタの発光光の完全なモードオーバーラップを必要とし、単一のモードファイバを使用する必要がある。 半球型およびワイエルシュトラスの固体没入レンズのような3dプリントされた複雑なマイクロ光学と、単一のinas量子ドット上に全内部反射型固体没入レンズと、単一モードファイバ上に3dプリント光学とを結合し、それらの重要な特徴を比較する。 興味深いことに、半球型固体浸漬レンズの使用により、マイクロフォトルミネッセンスマップの取得時にエミッタの局在精度はさらに1nm以下に向上する。 システムは結合して永久に固定することができる。 この統合システムは、液体ヘリウムに浸漬したり、スターリング冷凍機で冷却したり、光窓を必要とせずに閉サイクルヘリウム冷凍機で冷却することができる。 高いコントラストを持つハンベリー・ブラウン実験とtwiss実験により、優れた高速度単光子放出を示す理想的な光学設計と実験を行った。

Future quantum technology relies crucially on building quantum networks with high fidelity. To achieve this challenging goal, it is of utmost importance to connect single quantum systems in a way such that their emitted single-photons overlap with the highest possible degree of coherence. This requires perfect mode overlap of the emitted light of different emitters, which necessitates the use of single mode fibers. Here we present an advanced manufacturing approach to accomplish this task: we combine 3D printed complex micro-optics such as hemispherical and Weierstrass solid immersion lenses as well as total internal reflection solid immersion lenses on top of single InAs quantum dots with 3D printed optics on single mode fibers and compare their key features. Interestingly, the use of hemispherical solid immersion lenses further increases the localization accuracy of the emitters to below 1 nm when acquiring micro-photoluminescence maps. The system can be joined together and permanently fixed. This integrated system can be cooled by dipping into liquid helium, by a Stirling cryocooler or by a closed-cycle helium cryostat without the necessity for optical windows, as all access is through the integrated single mode fiber. We identify the ideal optical designs and present experiments that prove excellent high-rate single-photon emission by high-contrast Hanbury Brown and Twiss experiments.
翻訳日:2023-05-10 04:38:40 公開日:2020-07-13
# ゲルマニウム中のホールによる低パーコレーション密度と電荷ノイズ

Low percolation density and charge noise with holes in germanium ( http://arxiv.org/abs/2007.06328v1 )

ライセンス: Link先を確認
M. Lodari, N. W. Hendrickx, W. I. L. Lawrie, T. -K. Hsiao, L. M. K. Vandersypen, A. Sammak, M. Veldhorst, and G. Scappucci(参考訳) 半導体/誘電体界面の下方に歪Geチャネル55〜nmを配置することにより、低障害および静電ホール量子ドット動作のための平面Ge/SiGeヘテロ構造を設計した。 ヘテロ構造体電界効果トランジスタでは、埋設されたGeチャネルの孔で発生する非常に低い乱れポテンシャルの景観を示す2次元ホール輸送のパーコレーション密度を2.1\times10^{10}~\text{cm}^{-2}$で測定する。 これらのGeヘテロ構造はホール量子ドットの静かな操作をサポートし、検出限界である$\sqrt{S_\text{E}}=0.2~\mu \text{eV}/\sqrt{\text{Hz}}$を1Hzで測定する。 これらの結果は、2次元スピン量子ビットアレイの有望なプラットフォームとして平面Geを確立する。

We engineer planar Ge/SiGe heterostructures for low disorder and quiet hole quantum dot operation by positioning the strained Ge channel 55~nm below the semiconductor/dielectric interface. In heterostructure field effect transistors, we measure a percolation density for two-dimensional hole transport of $2.1\times10^{10}~\text{cm}^{-2}$, indicative of a very low disorder potential landscape experienced by holes in the buried Ge channel. These Ge heterostructures support quiet operation of hole quantum dots and we measure charge noise levels that are below the detection limit $\sqrt{S_\text{E}}=0.2~\mu \text{eV}/\sqrt{\text{Hz}}$ at 1 Hz. These results establish planar Ge as a promising platform for scaled two-dimensional spin qubit arrays.
翻訳日:2023-05-10 04:37:41 公開日:2020-07-13
# 点双極子近似のない分散媒体の自然放出

Spontaneous emission in dispersive media without point-dipole approximation ( http://arxiv.org/abs/2007.06320v1 )

ライセンス: Link先を確認
Giovanni Scala, Francesco V. Pepe, Paolo Facchi, Saverio Pascazio, Karolina S{\l}owik(参考訳) 分散環境に埋め込まれた2レベル量子システムと電磁場を結合した。 我々は光物質相互作用の理論を拡張し、その波動関数を考慮に入れた系の空間的拡張を含む。 これは点双極子近似を超えた発展である。 これにより,グリーンテンソルプロパゲータに関連する分散問題を克服することができる。 したがって、自然発生放出率とラムシフトの式を再構成することができる。 特に、原子系の空間構造を包含することは、これらの量における空間反転に関する原子状態の非対称性の役割を明らかにする。

We study a two-level quantum system embedded in a dispersive environment and coupled with the electromagnetic field. We expand the theory of light-matter interactions to include the spatial extension of the system, taken into account through its wavefunctions. This is a development beyond the point-dipole approximation. This ingredient enables us to overcome the divergence problem related to the Green tensor propagator. Hence, we can reformulate the expressions for the spontaneous emission rate and the Lamb shift. In particular, the inclusion of the spatial structure of the atomic system clarifies the role of the asymmetry of atomic states with respect to spatial inversion in these quantities.
翻訳日:2023-05-10 04:37:23 公開日:2020-07-13
# 非対称量子ラビ模型における隠れ対称性とトンネル力学

Hidden symmetry and tunnelling dynamics in asymmetric quantum Rabi models ( http://arxiv.org/abs/2007.06311v1 )

ライセンス: Link先を確認
Zi-Min Li and Murray T. Batchelor(参考訳) 非対称量子ラビモデル(AQRM)は、一般に非退化固有値スペクトルを持つ、$\mathbb{Z}_2$対称性の破れを持つ。 しかし、非対称パラメータがキャビティ周波数の倍数であるような特別な場合では、$\mathbb{z}_2$-symmetric量子ラビモデルに典型的な安定なレベル交差が、明らかなパリティ様対称性なしで回復される。 この未知の「対称性」は、文献において隠れ対称性と呼ばれる。 ここでは、この隠れ対称性はAQRMに限らず、非対称量子ビットバイアス項を持つ様々な関連する光-物質相互作用モデルに存在することを示す。 これらのモデルに隠れ対称性が存在する条件を決定し、議論する。 転位振動子のトンネルダイナミクスを調べることで、隠れ対称性と選択的トンネル構造の間に強い相関が認められる。

The asymmetric quantum Rabi model (AQRM) has a broken $\mathbb{Z}_2$ symmetry, with generally a non-degenerate eigenvalue spectrum. In some special cases where the asymmetric parameter is a multiple of the cavity frequency, stable level crossings typical of the $\mathbb{Z}_2$-symmetric quantum Rabi model are recovered, however, without any obvious parity-like symmetry. This unknown "symmetry" has thus been referred to as hidden symmetry in the literature. Here we show that this hidden symmetry is not limited to the AQRM, but exists in various related light-matter interaction models with an asymmetric qubit bias term. Conditions under which the hidden symmetry exists in these models are determined and discussed. By investigating tunnelling dynamics in the displaced oscillator basis, a strong connection is found between the hidden symmetry and selective tunnelling.
翻訳日:2023-05-10 04:37:06 公開日:2020-07-13
# コヒーレント背景を持つブラウン運動における調和振動子からの放射に対するg(1)(\tau)、g(3/2)(\tau)、g(2)(\tau)の比較

A comparison of g(1)(\tau), g(3/2)(\tau), and g(2)(\tau), for radiation from harmonic oscillators in Brownian motion with coherent background ( http://arxiv.org/abs/2007.06470v1 )

ライセンス: Link先を確認
Antonin Siciak, Luis A. Orozco, Mathilde Fouch\'e, William Guerin, Robin Kaiser(参考訳) 天体物理学において関係のあるモデルに対する場-体 g(1)(\tau)、強度-体 g(3/2)(\tau) および強度-強度 g(2)(\tau) 相関関数を比較する。 我々は、ブラウン運動における調和振動子のアンサンブルを持つモデルに基づいて振幅がリッチであるカオス放射の一般的な場合の式を得る。 2つの測定方法の信号対雑音比を求める。 雑音比に対する強度場相関関数信号は、|g(1)(\tau)|の第1のパワーでスケールする。 これは、よく確立された g(2)(\tau) の結果とは対照的であり、これは |g(1)(\tau)| の平方である。

We compare the field-field g(1)(\tau), intensity-field g(3/2)(\tau), and intensity-intensity g(2)(\tau) correlation functions for models that are of relevance in astrophysics. We obtain expressions for the general case of a chaotic radiation, where the amplitude is Rician based on a model with an ensemble of harmonic oscillators in Brownian motion. We obtain the signal to noise ratios for two methods of measurement. The intensity-field correlation function signal to noise ratio scales with the first power of |g(1)(\tau)|. This is in contrast with the well-established result of g(2)(\tau) which goes as the square of |g(1)(\tau)|.
翻訳日:2023-05-10 04:28:21 公開日:2020-07-13
# ルッティンガー・シーモデルにおけるボース・アインシュタイン凝縮に対する反発相互作用の効果について

On the effect of repulsive interactions on Bose-Einstein condensation in the Luttinger-Sy model ( http://arxiv.org/abs/2007.06448v1 )

ライセンス: Link先を確認
Joachim Kerner and Maximilian Pechmann(参考訳) 本稿では,Luttinger-Syモデルと呼ばれる正の温度におけるランダムな1次元系のボース・アインシュタイン凝縮に対する反発対相互作用の効果について検討する。 熱力学的限界における特定の相互作用パラメータのスケーリングを可能にするため、ハードコア相互作用とより一般的な反発相互作用のクラスを別々に研究する。 その結果, 十分強い相互作用では, 非相互作用の1粒子ルッティンガー・シ・ハミルトニアンの固有状態と十分局所化された1粒子状態が大まかに占有されないことが証明された。

In this paper we investigate the effect of repulsive pair interactions on Bose-Einstein condensation in a well-established random one-dimensional system known as the Luttinger-Sy model at positive temperature. We study separately hard core interactions as well as a class of more general repulsive interactions, also allowing for a scaling of certain interaction parameters in the thermodynamic limit. As a main result, we prove in both cases that for sufficiently strong interactions all eigenstates of the non-interacting one-particle Luttinger-Sy Hamiltonian as well as any sufficiently localized one-particle state are almost surely not macroscopically occupied.
翻訳日:2023-05-10 04:28:06 公開日:2020-07-13
# オンチップ検出器を用いた再構成可能な量子フォトニクス

Reconfigurable quantum photonics with on-chip detectors ( http://arxiv.org/abs/2007.06429v1 )

ライセンス: Link先を確認
Samuel Gyger, Julien Zichi, Lucas Schweickert, Ali W. Elshaari, Stephan Steinhauer, Saimon F. Covre da Silva, Armando Rastelli, Val Zwiller, Klaus D. J\"ons, and Carlos Errando-Herranz(参考訳) 集積量子フォトニクスは、複雑な実験装置の小型化と安定化によって量子光学実験をスケールアップする有望な経路を提供する。 量子集積フォトニクスの中心要素は、量子エミッタ、メモリ、検出器、再構成可能なフォトニック回路である。 特に、集積検出器は光学的読み出しを提供するだけでなく、再構成可能な回路でインターフェースされた場合、フィードバックと適応制御が可能であり、決定論的量子テレポーテーション、ニューラルネットワークのトレーニング、複雑な回路の安定化に不可欠である。 しかし、熱的に再構成可能なフォトニクスによって生じる熱は、熱に敏感な超伝導単光子検出器と相容れないため、オンチップの共積分は未解決のままである。 ここでは、同じチップ上に超伝導単光子検出器を接続した集積フォトニック回路の低消費電力マイクロエレクトロメカニカル再構成を示す。 古典的および量子的光の28dB高出力ルーティング、90dB高ダイナミックレンジ単光子検出、12dBの電力変動による光励起の安定化の3つの重要な機能を示す。 本プラットフォームは、大規模量子フォトニクスにおける量子状態形成と量子論理に不可欠な、熱負荷フリーな再構成可能な線形光学と適応制御を可能にする。

Integrated quantum photonics offers a promising path to scale up quantum optics experiments by miniaturizing and stabilizing complex laboratory setups. Central elements of quantum integrated photonics are quantum emitters, memories, detectors, and reconfigurable photonic circuits. In particular, integrated detectors not only offer optical readout but, when interfaced with reconfigurable circuits, allow feedback and adaptive control, crucial for deterministic quantum teleportation, training of neural networks, and stabilization of complex circuits. However, the heat generated by thermally reconfigurable photonics is incompatible with heat-sensitive superconducting single-photon detectors, and thus their on-chip co-integration remains elusive. Here we show low-power microelectromechanical reconfiguration of integrated photonic circuits interfaced with superconducting single-photon detectors on the same chip. We demonstrate three key functionalities for photonic quantum technologies: 28 dB high-extinction routing of classical and quantum light, 90 dB high-dynamic range single-photon detection, and stabilization of optical excitation over 12 dB power variation. Our platform enables heat-load free reconfigurable linear optics and adaptive control, critical for quantum state preparation and quantum logic in large-scale quantum photonics applications.
翻訳日:2023-05-10 04:27:19 公開日:2020-07-13
# エンコードを伴う量子リピータ上の量子鍵分布:誤り検出を効果的なポスト選択ツールとして用いる

Quantum key distribution over quantum repeaters with encoding: Using Error Detection as an Effective Post-Selection Tool ( http://arxiv.org/abs/2007.06376v1 )

ライセンス: Link先を確認
Yumang Jing, Daniel Alsina Leal, and Mohsen Razavi(参考訳) 符号化を伴う量子リピータ上で動作する量子鍵分布(QKD)システムに対して,量子誤り検出に基づくポストセレクション手法を提案する。 このようなリピータでは、量子エラー補正技術がエンタングルメント蒸留に用いられている。 このような量子リピータを解析的に研究することで、qkdの文脈では、エラーが検出された場合に、エラー訂正を行うよりもエラー検出を使う方が効率的であることが示されている。 本手法は,システムの重要なコンポーネントに異なるエラー源をモデル化することにより,3ビット繰り返し符号を実現する。 次に、これらの欠陥がQKDシステムの秘密鍵生成率に与える影響、およびエンタングメントスワップおよびデコード段階で得られた情報を用いて、そのレートを最大化する方法について詳細に検討する。 ベンチマークのために、以下の設定の異なるコンポーネントで許容される最大エラー率を指定する。

We propose a post-selection technique, based on quantum error detection, for quantum key distribution (QKD) systems that run over quantum repeaters with encoding. In such repeaters, quantum error correction techniques are used for entanglement distillation. By developing an analytical approach to study such quantum repeaters, we show that, in the context of QKD, it is often more efficient to use the error detection, rather than the error correction, capability of the underlying code to sift out cases where an error has been detected. We implement our technique for three-qubit repetition codes by modelling different sources of error in crucial components of the system. We then investigate in detail the impact of such imperfections on the secret key generation rate of the QKD system, and how one can use the information obtained during entanglement swapping and decoding stages to maximize the rate. For benchmarking purposes, we specify the maximum allowed error rates in different components of the setup below which positive key rates can be obtained.
翻訳日:2023-05-10 04:26:21 公開日:2020-07-13
# 超長距離Rydberg双分子

Ultralong-range Rydberg bi-molecules ( http://arxiv.org/abs/2007.06375v1 )

ライセンス: Link先を確認
Rosario Gonzalez-Ferez, Janine Shertzer, and H. R. Sadeghpour(参考訳) 超長距離リドバーグ二分子は極性分子同士の極低温および極低温での衝突によって形成されると予測する。 長寿命のRydberg NO($nf$, $ng$)分子と$\Lambda$-dublet Nitric oxide(NO)の衝突は、超長距離のRydberg双分子をGHzエネルギーとキロデバイの永久電気双極子モーメントで形成する。 ハミルトニアンは異方性電荷-分子双極子相互作用と電子-NO散乱の両方を含む。 Rydberg双分子の回転定数はMHz範囲にあり、Rydberg双分子の回転遷移のマイクロ波分光を可能にする。 NO双極子の適切な配向が達成できる。 ここで説明されるリドベルク分子は、長距離二分子相互作用の特別なクラスの研究を約束する。

We predict that ultralong-range Rydberg bi-molecules form in collisions between polar molecules in cold and ultracold settings. The collision of $\Lambda$-doublet nitric oxide (NO) with long-lived Rydberg NO($nf$, $ng$) molecules forms ultralong-range Rydberg bi-molecules with GHz energies and kilo-Debye permanent electric dipole moments. The Hamiltonian includes both the anisotropic charge-molecular dipole interaction and the electron-NO scattering. The rotational constant for the Rydberg bi-molecules is in the MHz range, allowing for microwave spectroscopy of rotational transitions in Rydberg bi-molecules. Considerable orientation of NO dipole can be achieved. The Rydberg molecules described here hold promise for studies of a special class of long-range bi-molecular interactions.
翻訳日:2023-05-10 04:26:02 公開日:2020-07-13
# 符号付きグラフ上のマッチングの量子探索

Quantum search of matching on signed graphs ( http://arxiv.org/abs/2007.07223v1 )

ライセンス: Link先を確認
Etsuo Segawa, Yusuke Yoshie(参考訳) 量子ウォークによって駆動される符号付きエッジの量子探索モデルを構築する。 この量子ウォークの時間発展演算子は、各辺への符号の割り当てによって引き起こされる重み付き隣接行列を提供する。 この記号は、エッジカラーと呼ばれるものと見なすことができる。 そして、アプリケーションとして、完備グラフ上のマッチングを与える任意のエッジカラー化の下で、完備グラフのエッジ集合から有色エッジの量子探索を考える。 この量子ウォークは、時間複雑性$O(n^{\frac{2-\alpha}{2}})$が確率1-o(1)$であるのに対し、ライングラフ上の対応するランダムウォークは時間複雑性$O(n^{2-\alpha})$が一致するエッジの数を$O(n^{\alpha})$が$0のとき、それらを見つける。

We construct a quantum searching model of a signed edge driven by a quantum walk. The time evolution operator of this quantum walk provides a weighted adjacency matrix induced by the assignment of sign to each edge. This sign can be regarded as so called the edge coloring. Then as an application, under an arbitrary edge coloring which gives a matching on a complete graph, we consider a quantum search of a colored edge from the edge set of a complete graph. We show that this quantum walk finds a colored edge within the time complexity of $O(n^{\frac{2-\alpha}{2}})$ with probability $1-o(1)$ while the corresponding random walk on the line graph finds them within the time complexity of $O(n^{2-\alpha})$ if we set the number of the edges of the matching by $O(n^{\alpha})$ for $0 \le \alpha \le 1$.
翻訳日:2023-05-10 04:20:08 公開日:2020-07-13
# 人類の誤解:フォン・ノイマンは、彼のエントロピーが現象学的熱力学エントロピーと一致するとは主張しなかった

A Man Misunderstood: Von Neumann did not claim that his entropy corresponds to the phenomenological thermodynamic entropy ( http://arxiv.org/abs/2007.06673v1 )

ライセンス: Link先を確認
Erin Sheridan(参考訳) 最近、ジョン・フォン・ノイマンが量子力学的フォン・ノイマンエントロピー(英語版) -tr $ \rho \ln \rho $ ($s_{vn}$)という形式を確立した1932年の思考実験に注目が集まっている。 hemmo and shenker (2006) はフォン・ノイマンの思考実験を再構築し、この望ましい対応を確立できないと主張している。 Prunkl (2019) と Chua (2019) はヘンモとシェンカーの結果に挑戦する。 本稿は,原文の再検討(1996年,2018年)により,現在の議論の新たな基盤を提供することを目的とする。 フォン・ノイマンの環状気体変換の完全な例が述べられ、さらに2つの思考実験がテキストから再構成された。 このより詳しく見てみると、フォン・ノイマンの目標は、現在の議論で仮定されるように、$S_{VN}$と$S_{TD}$の間のリンクを確立するのではなく、むしろ$S_{VN}$とGibs統計力学的エントロピー$S_{G}$の間の対応を確立することである。 これらの観点から、既存の文献が彼の目標を誤解し、誤解していると私は主張する。 フォン・ノイマンの可逆ガス変換の成功が決定的に認められるか否定される前に、再理解が必要である。

Recently, attention has returned to the now-famous 1932 thought experiment in which John von Neumann establishes the form of the quantum mechanical von Neumann entropy -Tr $ \rho \ln \rho $ ($S_{VN}$), supposedly by arguing for its correspondence with the phenomenological thermodynamic entropy ($S_{TD}$). Hemmo and Shenker (2006) reconstruct von Neumann's thought experiment and argue that it fails to establish this desired correspondence. Prunkl (2019) and Chua (2019) challenge Hemmo and Shenker's result in turn. This paper aims to provide a new foundation for the current debate by revisiting the original text (von Neumann (1996, 2018)). A thorough exegesis of von Neumann's cyclical gas transformation is put forth, along with a reconstruction of two additional thought experiments from the text. This closer look reveals that von Neumann's goal is not to establish a link between $S_{VN}$ and $S_{TD}$, as is assumed throughout the current debate, but rather to establish a correspondence between $S_{VN}$ and the Gibbs statistical mechanical entropy $S_{G}$. On these grounds I argue that the existing literature misunderstands and misrepresents his goals. A revised understanding is required before the success of von Neumann's reversible gas transformation can be definitively granted or denied.
翻訳日:2023-05-10 04:19:53 公開日:2020-07-13
# Urban Mobility Swarms: スケーラブルな実装

Urban Mobility Swarms: A Scalable Implementation ( http://arxiv.org/abs/2007.06653v1 )

ライセンス: Link先を確認
Alex Berke, Jason Nawyn, Thomas Sanchez Lengeling, Kent Larson(参考訳) 都市の活力とコミュニティ構造を向上しつつ、軽量で持続可能な交通機関の利用と安全性を促進するために、「都市移動群集」を連携させるシステムを提案する。 この研究は、コオロギやホタルなどの夜行性の昆虫の群れが示す行動から始まり、同期によって分散ネットワーク内の個体が統一される。 コーディネートはこれらのケースで自然に現れ、「数における強さ」の説得力のある実演を提供する。 我々の研究は、自転車などの軽量車両の協調に応用され、光の同期脈動によって自動的にアドホックな「スワーム」に誘導される。 我々は、個々のライダーを分散ネットワークのノードとしてモデル化し、個々のプライバシを保存するピアツーピアメッセージプロトコルとアルゴリズムを介して、その振る舞いを同期する。 swarmのメンバーシップをローカライズするために、送信範囲が調整されたラジオで放送されるノード。 次にノードは近接性に基づいて他のノードと結合または切断し、都市モビリティネットワークの動的に変化するトポロジーに適応する。 本稿では,本システムから発生するスワーミング行動を調整するためのプロトコルとアルゴリズムを含む技術的記述を提供する。 我々はまた、その実装をコード、回路、ハードウェアでデモし、システムのプロトタイプを都市自転車シェアリングでテストした。 そうすることで、システムのスケーラビリティが向上します。 プロトタイプは低コストのコンポーネントを使用し、自転車シェアリングプログラムは都市に分散した自転車群を管理し、都市規模でシステムを展開することができる。 フレキシブルで分散化された設計により、追加の自転車がネットワークに接続し、その規模と影響を高めることができる。

We present a system to coordinate 'urban mobility swarms' in order to promote the use and safety of lightweight, sustainable transit, while enhancing the vibrancy and community fabric of cities. This work draws from behavior exhibited by swarms of nocturnal insects, such as crickets and fireflies, whereby synchrony unifies individuals in a decentralized network. Coordination naturally emerges in these cases and provides a compelling demonstration of 'strength in numbers'. Our work is applied to coordinating lightweight vehicles, such as bicycles, which are automatically inducted into ad-hoc 'swarms', united by the synchronous pulsation of light. We model individual riders as nodes in a decentralized network and synchronize their behavior via a peer-to-peer message protocol and algorithm, which preserves individual privacy. Nodes broadcast over radio with a transmission range tuned to localize swarm membership. Nodes then join or disconnect from others based on proximity, accommodating the dynamically changing topology of urban mobility networks. This paper provides a technical description of our system, including the protocol and algorithm to coordinate the swarming behavior that emerges from it. We also demonstrate its implementation in code, circuity, and hardware, with a system prototype tested on a city bike-share. In doing so, we evince the scalability of our system. Our prototype uses low-cost components, and bike-share programs, which manage bicycle fleets distributed across cities, could deploy the system at city-scale. Our flexible, decentralized design allows additional bikes to then connect with the network, enhancing its scale and impact.
翻訳日:2023-05-10 04:19:04 公開日:2020-07-13
# 相関光子の二次元量子ウォーク

Two-Dimensional Quantum Walk of Correlated Photons ( http://arxiv.org/abs/2007.06554v1 )

ライセンス: Link先を確認
Zhi-Qiang Jiao, Jun Gao, Wen-Hao Zhou, Xiao-Wei Wang, Ruo-Jing Ren, Xiao-Yun Xu, Lu-Feng Qiao, Xian-Min Jin(参考訳) 量子ウォークは、物理的および位相的現象をシミュレートし、アナログ量子アルゴリズムを構築し、普遍量子コンピューティングを実現する強力なツールである。 統合フォトニクス技術は、様々な量子情報タスクを実装するための汎用プラットフォームとして登場し、大規模量子ウォークを行う有望な候補となっている。 物理次元の拡大と粒子の増大は、進化する系と所望の量子資源の複雑さを増大させる。 先駆的な研究は、2次元 (2d) 格子上の単一粒子の歩行と1次元構造上の複数のウォーカーの干渉を実証した。 しかし、古典的にシミュレートできない2次元多粒子量子ウォークは、10年近くも空き地となっている。 ここでは、三角フォトニック格子上に相関した光子を持つ真の2次元量子ウォークを示し、37×37次元の状態空間にマッピングすることができる。 これは、大きな空間に情報をエンコードし、量子情報処理に有益である高次元グラフを構成する単粒子進化の物理的制限を破る。 チップファセットと2dファンアウトインターフェース間のサイトバイサイトアドレッシングにより、600以上の非古典的干渉を同時に観測することができ、57までの標準偏差に違反する。 我々のプラットフォームは、多光子量子ウォークを大規模な2次元配置で実現し、古典的な状態を超えた実用的な量子シミュレーションと量子計算の道を開くことができる。

Quantum walks in an elaborately designed graph, is a powerful tool simulating physical and topological phenomena, constructing analog quantum algorithms and realizing universal quantum computing. Integrated photonics technology has emerged as a versatile platform to implement various quantum information tasks and a promising candidate to perform large-scale quantum walks. Both extending physical dimensions and involving more particles will increase the complexity of the evolving systems and the desired quantum resources. Pioneer works have demonstrated single particle walking on two-dimensional (2D) lattices and multiple walkers interfering on a one-dimensional structure. However, 2D multi-particle quantum walk, genuinely being not classically simulatable, has been a vacancy for nearly ten years. Here, we present a genuine 2D quantum walk with correlated photons on a triangular photonic lattice, which can be mapped to a state space up to 37X37 dimensions. This breaks through the physically restriction of single-particle evolution, which can encode information in a large space and constitute high-dimensional graphs indeed beneficial to quantum information processing. A site-by-site addressing between the chip facet and the 2D fanout interface enables an observation of over 600 non-classical interferences simultaneously, violating a classical limit up to 57 standard deviations. Our platform offers a promising prospect for multi-photon quantum walks in a large-scale 2D arrangement, paving the way for practical quantum simulation and quantum computation beyond classical regime.
翻訳日:2023-05-10 04:17:17 公開日:2020-07-13
# ディープニューラルネットワークにおけるディエンタングルトレーナビリティと一般化

Disentangling Trainability and Generalization in Deep Neural Networks ( http://arxiv.org/abs/1912.13053v2 )

ライセンス: Link先を確認
Lechao Xiao, Jeffrey Pennington, Samuel S. Schoenholz(参考訳) ディープラーニング理論の長年の目標は、与えられたニューラルネットワークアーキテクチャがトレーニング可能な条件を特徴づけることである。 本研究では,非常に広大かつ非常に深いネットワークの限界において,解析が大幅に単純化されるような特徴付けを提供する。 広帯域ネットワークでは、勾配勾配下の軌道はニューラル・タンジェント・カーネル(NTK)によって制御され、深層ネットワークではNTK自体が弱いデータ依存のみを保持する。 NTKのスペクトルを解析することにより、FCN(Fully Connected Networks)やCNN(Convolutional Neural Networks)など、さまざまなアーキテクチャにわたるトレーニング性と一般化に必要な条件を定式化する。 我々は、ネットワークがトレーニングセットを記憶できるが、完全に一般化できないハイパーパラメータ空間の広い領域を特定する。 グローバル平均プールのないCNNはFCNとほぼ同じ挙動を示すが、プールを持つCNNは著しく異なり、しばしば一般化性能が向上している。 これらの理論結果は、CIFAR10上で様々なネットワークアーキテクチャに対して実験的に相関し、本論文の本質的な結果を再現するコラボノートを含む。

A longstanding goal in the theory of deep learning is to characterize the conditions under which a given neural network architecture will be trainable, and if so, how well it might generalize to unseen data. In this work, we provide such a characterization in the limit of very wide and very deep networks, for which the analysis simplifies considerably. For wide networks, the trajectory under gradient descent is governed by the Neural Tangent Kernel (NTK), and for deep networks the NTK itself maintains only weak data dependence. By analyzing the spectrum of the NTK, we formulate necessary conditions for trainability and generalization across a range of architectures, including Fully Connected Networks (FCNs) and Convolutional Neural Networks (CNNs). We identify large regions of hyperparameter space for which networks can memorize the training set but completely fail to generalize. We find that CNNs without global average pooling behave almost identically to FCNs, but that CNNs with pooling have markedly different and often better generalization performance. These theoretical results are corroborated experimentally on CIFAR10 for a variety of network architectures and we include a colab notebook that reproduces the essential results of the paper.
翻訳日:2023-01-17 02:16:34 公開日:2020-07-13
# may-mustスケールによるラベルに基づく議論セマンティクスの拡張(may-must議論)

Broadening Label-based Argumentation Semantics with May-Must Scales (May-Must Argumentation) ( http://arxiv.org/abs/2001.05730v3 )

ライセンス: Link先を確認
Ryuta Arisaka and Takayuki Ito(参考訳) 与えられた議論グラフにおけるどの引数の集合が許容されるかという意味論(受容性の意味論)は、いくつかの異なる方法で特徴づけられる。 ラベル付けに基づくアプローチでは、各引数に対する受け入れ、拒絶、あるいは未決定を示すラベルを割り当てることで、引数の受け入れ可能性ステータスの簡潔で柔軟な決定が可能になる。 本研究では、拒絶され、受理された引数の数によって決定されるように、受理または拒絶される引数の5つの条件と必須条件を共用することにより、それを広める方法を考察する。 例えば、議論が受け入れられた場合や、それが拒否された場合などにおいて、受理性判断の矛盾よりも穏やかな不確定性を表すために、広義のラベルに基づく意味論が利用可能であることを示す。 各引数に対するラベル付けが満足できる条件を見つけることは決定不能な問題であり、意味論の存在に不都合な含意を持つ。 我々は,ラベル付けを強制して条件を最大限に尊重すると同時に,不確定なラベル付けを必然的に引き起こすような残余を維持して,この問題に対処することを提案する。 いくつかの意味論が提示され、それらの関係が指摘される。 最終的には、さらに追求できる研究の方向性に目を向ける。

The semantics as to which set of arguments in a given argumentation graph may be acceptable (acceptability semantics) can be characterised in a few different ways. Among them, labelling-based approach allows for concise and flexible determination of acceptability statuses of arguments through assignment of a label indicating acceptance, rejection, or undecided to each argument. In this work, we contemplate a way of broadening it by accommodating may- and must- conditions for an argument to be accepted or rejected, as determined by the number(s) of rejected and accepted attacking arguments. We show that the broadened label-based semantics can be used to express more mild indeterminacy than inconsistency for acceptability judgement when, for example, it may be the case that an argument is accepted and when it may also be the case that it is rejected. We identify that finding which conditions a labelling satisfies for every argument can be an undecidable problem, which has an unfavourable implication to existence of a semantics. We propose to address this problem by enforcing a labelling to maximally respect the conditions, while keeping the rest that would necessarily cause non-termination labelled undecided. Several semantics will be presented and the relation among them will be noted. Towards the end, we will touch upon possible research directions that can be pursued further.
翻訳日:2023-01-11 00:11:02 公開日:2020-07-13
# マルチプレイとマルコフリワードを用いた最適適応配置のためのラウンドロビン・クルバック・リーブラー上信頼境界の有限時間解析

Finite-Time Analysis of Round-Robin Kullback-Leibler Upper Confidence Bounds for Optimal Adaptive Allocation with Multiple Plays and Markovian Rewards ( http://arxiv.org/abs/2001.11201v2 )

ライセンス: Link先を確認
Vrettos Moulos(参考訳) 本稿では,複数の演奏とマルコフ報酬を含む古典的確率的マルチアームバンディット問題の拡張について検討する。 この問題に対処するために,各段階において,全アームのサンプル手段からの情報と,ラウンドロビン方式で選択された1本のアームのカルバックリーバ上信頼度バウンドとを結合した適応割当ルールを考える。 マルコフ連鎖の1パラメータ指数関数族から生成される報酬に対して、この適応割当規則から生じた後悔に対して有限時間上限を与え、それは時間軸上の後悔の対数依存性を示し、漸近的に最適である。 分析のために、マルコフ連鎖に対する最大不等式を含むマルコフ連鎖に対するいくつかの濃度結果が考案された。 分析の副産物として,複数プレイの場合の漸近的最適かつ有限時間保証,および確率密度の1パラメータ指数関数系から得られる報酬を定式化する。 さらに,kullback-leibler上限をラウンドロビン方式で計算することは,各ラウンドのアームごとに計算するよりもはるかに効率的であり,これらの2つのアプローチが期待する後悔も同じように振る舞うことを示すシミュレーション結果を提供する。

We study an extension of the classic stochastic multi-armed bandit problem which involves multiple plays and Markovian rewards in the rested bandits setting. In order to tackle this problem we consider an adaptive allocation rule which at each stage combines the information from the sample means of all the arms, with the Kullback-Leibler upper confidence bound of a single arm which is selected in round-robin way. For rewards generated from a one-parameter exponential family of Markov chains, we provide a finite-time upper bound for the regret incurred from this adaptive allocation rule, which reveals the logarithmic dependence of the regret on the time horizon, and which is asymptotically optimal. For our analysis we devise several concentration results for Markov chains, including a maximal inequality for Markov chains, that may be of interest in their own right. As a byproduct of our analysis we also establish asymptotically optimal, finite-time guarantees for the case of multiple plays, and i.i.d. rewards drawn from a one-parameter exponential family of probability densities. Additionally, we provide simulation results that illustrate that calculating Kullback-Leibler upper confidence bounds in a round-robin way, is significantly more efficient than calculating them for every arm at each round, and that the expected regrets of those two approaches behave similarly.
翻訳日:2023-01-05 11:53:42 公開日:2020-07-13
# パケット分類への計算的アプローチ

A Computational Approach to Packet Classification ( http://arxiv.org/abs/2002.07584v2 )

ライセンス: Link先を確認
Alon Rashelbach, Ori Rottenstreich, Mark Silberstein(参考訳) マルチフィールドパケット分類は、現代のソフトウェア定義データセンターネットワークにおいて重要なコンポーネントである。 高いスループットと低レイテンシを実現するために、最先端のアルゴリズムはルールのルックアップデータ構造をオンディーキャッシュに適合させようとするが、ルールの数にはうまく対応しない。 既存のメソッドのメモリスケーリングを改善する新しいアプローチであるnuevomatchを提案する。 新しいデータ構造であるRange Query Recursive Model Index (RQ-RMI)は、NuevoMatchがメインメモリへのほとんどのアクセスをモデル推論計算で置き換えることを可能にするキーコンポーネントである。 本稿では、RQ-RMIに基づく分類の正確性を保証する効率的なトレーニングアルゴリズムについて述べる。 RQ-RMIを使用することで、ルールをハードウェアキャッシュに適合するモデルウェイトに圧縮することができる。 さらに、より広いベクトル命令のような現代のCPUにおける高速ニューラルネットワーク処理のサポートの増大を活用し、ルックアップ毎に数十ナノ秒の速度を達成する。 標準クラスベンチベンチマークによる500Kマルチフィールドルールを用いた評価では, 平均圧縮係数が4.9x, 8x, 82xであり, また, CutSplit, NeuroCuts, TupleMergeと比較すると, 2.4x, 2.6x, 1.6xのスループット向上が見られた。

Multi-field packet classification is a crucial component in modern software-defined data center networks. To achieve high throughput and low latency, state-of-the-art algorithms strive to fit the rule lookup data structures into on-die caches; however, they do not scale well with the number of rules. We present a novel approach, NuevoMatch, which improves the memory scaling of existing methods. A new data structure, Range Query Recursive Model Index (RQ-RMI), is the key component that enables NuevoMatch to replace most of the accesses to main memory with model inference computations. We describe an efficient training algorithm that guarantees the correctness of the RQ-RMI-based classification. The use of RQ-RMI allows the rules to be compressed into model weights that fit into the hardware cache. Further, it takes advantage of the growing support for fast neural network processing in modern CPUs, such as wide vector instructions, achieving a rate of tens of nanoseconds per lookup. Our evaluation using 500K multi-field rules from the standard ClassBench benchmark shows a geometric mean compression factor of 4.9x, 8x, and 82x, and average performance improvement of 2.4x, 2.6x, and 1.6x in throughput compared to CutSplit, NeuroCuts, and TupleMerge, all state-of-the-art algorithms.
翻訳日:2023-01-02 09:47:18 公開日:2020-07-13
# 無限ホライゾン強化学習におけるコンファウンディング・ロバスト・ポリシーの評価

Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning ( http://arxiv.org/abs/2002.04518v2 )

ライセンス: Link先を確認
Nathan Kallus and Angela Zhou(参考訳) 教育や医療といったバッチ強化学習の応用には,観察データからの逐次決定政策のオフポリシー評価が不可欠である。 しかし、そのような設定では、観測されていない変数は観察された動作を混同し、新しいポリシーの正確な評価が不可能である。 感度モデルに従えば,非可観測性を持つ他のポリシーのデータから与えられた無限ホライゾン問題において,与えられたポリシーの(同定不能な)値の鋭い境界を推定するロバストな手法を開発した。 我々は,新しい部分的に同定された推定式と感度モデルに一致する定常状態占有率全体の集合を最適化することにより,定常あるいはベースラインの非観測結合と計算境界を考える。 結束したデータを集めることで、鋭い境界への収束を証明します。 チェックセットメンバーシップは線形プログラムであるが、サポート関数は難しい非凸最適化問題によって与えられる。 我々は,非凸射影勾配勾配に基づく近似を開発し,結果の境界を実証的に示す。

Off-policy evaluation of sequential decision policies from observational data is necessary in applications of batch reinforcement learning such as education and healthcare. In such settings, however, unobserved variables confound observed actions, rendering exact evaluation of new policies impossible, i.e., unidentifiable. We develop a robust approach that estimates sharp bounds on the (unidentifiable) value of a given policy in an infinite-horizon problem given data from another policy with unobserved confounding, subject to a sensitivity model. We consider stationary or baseline unobserved confounding and compute bounds by optimizing over the set of all stationary state-occupancy ratios that agree with a new partially identified estimating equation and the sensitivity model. We prove convergence to the sharp bounds as we collect more confounded data. Although checking set membership is a linear program, the support function is given by a difficult nonconvex optimization problem. We develop approximations based on nonconvex projected gradient descent and demonstrate the resulting bounds empirically.
翻訳日:2023-01-02 01:54:43 公開日:2020-07-13
# 繰り返し露光によるアソシエーション最適化と製品依存パテントコスト

Assortment Optimization with Repeated Exposures and Product-dependent Patience Cost ( http://arxiv.org/abs/2002.05321v2 )

ライセンス: Link先を確認
Shaojie Tang and Jing Yuan(参考訳) 本稿では,Amazonなど多くのオンライン小売業者が直面しているアソシエーション最適化問題について検討する。 従来の多項ロジットモデルに基づき,複数の段階にわたる消費者の購買行動を把握するために, \emph{cascade multinomial logit model} を開発した。 既存の研究と異なり、我々のモデルは製品の繰り返し露光を可能にし、すなわち、同じ製品を異なるステージに複数回表示することができる。 さらに、各消費者は既知の分布からサンプリングされた「emph{patience budget」を持ち、各製品は「emph{patience cost」に関連付けられ、その商品の閲覧に費やされる認知的労力をキャプチャする。 製品の種類が与えられた場合、コンシューマはステージごとにステージを順次閲覧する。 すべての製品を1つの段階で閲覧した後、製品のユーティリティが外部オプションのユーティリティを超えると、コンシューマは製品を購入してプラットフォームを離れる。 さもなければ、その時点まで閲覧したすべての製品の忍耐コストが彼女の忍耐予算より大きくない場合、彼女は次のステージを見続けます。 我々はこの問題に対する近似解を提案する。

In this paper, we study the assortment optimization problem faced by many online retailers such as Amazon. We develop a \emph{cascade multinomial logit model}, based on the classic multinomial logit model, to capture the consumers' purchasing behavior across multiple stages. Different from existing studies, our model allows for repeated exposures of a product, i.e., the same product can be displayed multiple times across different stages. In addition, each consumer has a \emph{patience budget} that is sampled from a known distribution and each product is associated with a \emph{patience cost}, which captures the cognitive efforts spent on browsing that product. Given an assortment of products, a consumer sequentially browses them stage by stage. After browsing all products in one stage, if the utility of a product exceeds the utility of the outside option, the consumer proceeds to purchase the product and leave the platform. Otherwise, if the patience cost of all products browsed up to that point is no larger than her patience budget, she continues to view the next stage. We propose an approximation solution to this problem.
翻訳日:2023-01-01 10:09:18 公開日:2020-07-13
# DNF構造上の重み付きモデル積分の近似性について

On the Approximability of Weighted Model Integration on DNF Structures ( http://arxiv.org/abs/2002.06726v3 )

ライセンス: Link先を確認
Ralph Abboud, \.Ismail \.Ilkan Ceylan, Radoslav Dimitrov(参考訳) 重み付きモデルカウント(wmc)は、命題公式のすべての充足代入の重み付き和を計算することからなる。 WMCは正確な解法として#P-hardとして知られているが、DNF構造に制限されたときに完全に多項式ランダム化近似スキーム(FPRAS)を認める。 本研究では、重み付きモデル積分(重み付きモデルカウントの一般化)について検討し、命題変数に加えて実変数を含む重み付きモデルカウントの一般化について、以下の疑問を提起する。 近似体積計算と近似重み付きモデルカウントによる古典的結果に基づいて, dnf構造上の重み付きモデル積分を重み付き関数のクラスに対して近似できることを示す。 我々の近似アルゴリズムは3つのサブルーチンに基づいており、それぞれが弱い(すなわち近似的)または強い(正確に)オラクルであり、全ての場合、正確性を保証する。 様々なサイズでランダムに生成されたDNFインスタンスに対する我々のアプローチを実験的に検証し、我々のアルゴリズムが最大1K変数を含む大きな問題インスタンスにスケールすることを示す。

Weighted model counting (WMC) consists of computing the weighted sum of all satisfying assignments of a propositional formula. WMC is well-known to be #P-hard for exact solving, but admits a fully polynomial randomized approximation scheme (FPRAS) when restricted to DNF structures. In this work, we study weighted model integration, a generalization of weighted model counting which involves real variables in addition to propositional variables, and pose the following question: Does weighted model integration on DNF structures admit an FPRAS? Building on classical results from approximate volume computation and approximate weighted model counting, we show that weighted model integration on DNF structures can indeed be approximated for a class of weight functions. Our approximation algorithm is based on three subroutines, each of which can be a weak (i.e., approximate), or a strong (i.e., exact) oracle, and in all cases, comes along with accuracy guarantees. We experimentally verify our approach over randomly generated DNF instances of varying sizes, and show that our algorithm scales to large problem instances, involving up to 1K variables, which are currently out of reach for existing, general-purpose weighted model integration solvers.
翻訳日:2022-12-31 12:55:01 公開日:2020-07-13
# 多段階モデル非依存メタラーニングの理論収束

Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2002.07836v3 )

ライセンス: Link先を確認
Kaiyi Ji, Junjie Yang, Yingbin Liang(参考訳) メタラーニングの手法として,モデルに依存しないメタラーニング(MAML)アルゴリズムが広く用いられている。 しかし、一般的な多段階MAMLの収束はいまだ未解明のままである。 本稿では, 実用的関心を持つ2種類の目的関数に対して, 収束保証を提供するための新しい理論的枠組みを考案する。 (a)再サンプリングケース(例:強化学習)では、損失関数が期待の形式をとり、アルゴリズムの実行時に新しいデータがサンプリングされる。 (b)有限サムの場合(例えば教師付き学習)、損失関数は与えられたサンプルで有限サム形式を取る。 どちらの場合も、収束率と計算複雑性を特徴付け、一般的な非凸設定における多段階MAMLに対する$\epsilon$-accurate解を得る。 特に,n$-step maml が収束を保証できるように,内段ステップ化は内段ステップの数 n$ に反比例して選択する必要があることが示唆された。 技術的な観点からは,マルチステップmamlにおけるメタ勾配のネスト構造を独立に扱う新しい手法を開発した。

As a popular meta-learning approach, the model-agnostic meta-learning (MAML) algorithm has been widely used due to its simplicity and effectiveness. However, the convergence of the general multi-step MAML still remains unexplored. In this paper, we develop a new theoretical framework to provide such convergence guarantee for two types of objective functions that are of interest in practice: (a) resampling case (e.g., reinforcement learning), where loss functions take the form in expectation and new data are sampled as the algorithm runs; and (b) finite-sum case (e.g., supervised learning), where loss functions take the finite-sum form with given samples. For both cases, we characterize the convergence rate and the computational complexity to attain an $\epsilon$-accurate solution for multi-step MAML in the general nonconvex setting. In particular, our results suggest that an inner-stage stepsize needs to be chosen inversely proportional to the number $N$ of inner-stage steps in order for $N$-step MAML to have guaranteed convergence. From the technical perspective, we develop novel techniques to deal with the nested structure of the meta gradient for multi-step MAML, which can be of independent interest.
翻訳日:2022-12-30 19:51:35 公開日:2020-07-13
# プライベートデモグラフィックデータによるフェアラーニング

Fair Learning with Private Demographic Data ( http://arxiv.org/abs/2002.11651v2 )

ライセンス: Link先を確認
Hussein Mozannar, Mesrob I. Ohannessian, Nathan Srebro(参考訳) 人種のような敏感な属性は、しばしば法律や規則によって制限されるため、現実世界の学習者にはほとんど利用できない。 我々は、個人が機密情報をプライベートに公開し、下流のエンティティが非差別的な予測子を学習できるようにするスキームを提供する。 本研究は,非差別学習者を民営化された保護属性に適応させ,その性能を理論的に保証する方法を示す。 最後に、保護された属性がデータのサブセットでのみ利用できる設定において、この方法論が公正な予測子を学習するためにどのように適用できるかを強調した。

Sensitive attributes such as race are rarely available to learners in real world settings as their collection is often restricted by laws and regulations. We give a scheme that allows individuals to release their sensitive information privately while still allowing any downstream entity to learn non-discriminatory predictors. We show how to adapt non-discriminatory learners to work with privatized protected attributes giving theoretical guarantees on performance. Finally, we highlight how the methodology could apply to learning fair predictors in settings where protected attributes are only available for a subset of the data.
翻訳日:2022-12-28 14:41:43 公開日:2020-07-13
# DA4AD: 自律運転のための深い注意に基づく視覚的位置決め

DA4AD: End-to-End Deep Attention-based Visual Localization for Autonomous Driving ( http://arxiv.org/abs/2003.03026v2 )

ライセンス: Link先を確認
Yao Zhou, Guowei Wan, Shenhua Hou, Li Yu, Gang Wang, Xiaofei Rui, Shiyu Song(参考訳) そこで本稿では,自律運転のための新しい深層注意認識機能に基づく視覚定位フレームワークを提案する。 視覚局所化問題に対する従来のアプローチは、道路上の手作りの特徴や人造物に依存している。 厳しい外観や照明の変化による不安定なマッチングの傾向や、困難なシナリオにおいて定常的で堅牢なローカライゼーションを実現するには不足していることが知られている。 本研究では,新しいエンド・ツー・エンドのディープニューラルネットワークを用いて,シーンの長期マッチングに適した,高度で特徴的で安定した特徴を探索するために,ディープ・アテンション・メカニズムを活用しようとする。 さらに,我々の学習した特徴記述子は,頑健なマッチングを確立する能力があり,高い精度で最適なカメラポーズを推定できることを示した。 提案手法の有効性を,高品質な地上真実軌跡とセンサ間のハードウェア同期を用いて総合的に検証した。 その結果,LiDARをベースとしたローカライゼーションソリューションと比較して,様々な困難な状況下で競合するローカライゼーションの精度が向上し,自動運転の低コストなローカライゼーションソリューションが実現される可能性が示唆された。

We present a visual localization framework based on novel deep attention aware features for autonomous driving that achieves centimeter level localization accuracy. Conventional approaches to the visual localization problem rely on handcrafted features or human-made objects on the road. They are known to be either prone to unstable matching caused by severe appearance or lighting changes, or too scarce to deliver constant and robust localization results in challenging scenarios. In this work, we seek to exploit the deep attention mechanism to search for salient, distinctive and stable features that are good for long-term matching in the scene through a novel end-to-end deep neural network. Furthermore, our learned feature descriptors are demonstrated to be competent to establish robust matches and therefore successfully estimate the optimal camera poses with high precision. We comprehensively validate the effectiveness of our method using a freshly collected dataset with high-quality ground truth trajectories and hardware synchronization between sensors. Results demonstrate that our method achieves a competitive localization accuracy when compared to the LiDAR-based localization solutions under various challenging circumstances, leading to a potential low-cost localization solution for autonomous driving.
翻訳日:2022-12-26 01:49:32 公開日:2020-07-13
# 残留ニューラルネットワークを用いた使用済み核燃料乾式貯蔵用キャニスタの腐食自動検出

Automated detection of corrosion in used nuclear fuel dry storage canisters using residual neural networks ( http://arxiv.org/abs/2003.03241v3 )

ライセンス: Link先を確認
Theodore Papamarkou, Hayley Guy, Bryce Kroencke, Jordan Miller, Preston Robinette, Daniel Schultz, Jacob Hinkle, Laura Pullum, Catherine Schuman, Jeremy Renshaw, Stylianos Chatzidakis(参考訳) 非破壊的評価手法は、多くの産業においてコンポーネントの完全性と安全性を確保する上で重要な役割を果たす。 オペレータ疲労は、そのような手法の信頼性において重要な役割を果たす。 これは、航空宇宙や核コンポーネントといった失敗の結果として高い価値を持つ資産や資産を検査する上で重要である。 畳み込みニューラルネットワークの最近の進歩は、これらの検査作業を支援、自動化することができる。 本稿では,使用済み核燃料を収容するステンレス鋼キャニスタにおいて,残留ニューラルネットワーク(resnets)を用いて酸化鉄変色,孔食,応力腐食割れなどの腐食をリアルタイムに検出する手法を提案する。 提案手法では,核カニスター画像をより小さなタイルに生成し,これらのタイル上の再ネットを訓練し,再ネットによって腐食されたと予測されるタイル毎の画像数を用いて,画像を腐食または無傷と分類する。 その結果,このような深層学習手法により,より小さなタイルで腐食の軌跡を検知すると同時に,腐食したキャニスタから画像が得られたかどうかを高精度に推定できることがわかった。 そこで,提案手法では,核燃料キャニスタ検査の自動化と高速化,検査コストの最小化,人道検査の部分的に置き換え,人員への放射線線量削減が期待されている。

Nondestructive evaluation methods play an important role in ensuring component integrity and safety in many industries. Operator fatigue can play a critical role in the reliability of such methods. This is important for inspecting high value assets or assets with a high consequence of failure, such as aerospace and nuclear components. Recent advances in convolution neural networks can support and automate these inspection efforts. This paper proposes using residual neural networks (ResNets) for real-time detection of corrosion, including iron oxide discoloration, pitting and stress corrosion cracking, in dry storage stainless steel canisters housing used nuclear fuel. The proposed approach crops nuclear canister images into smaller tiles, trains a ResNet on these tiles, and classifies images as corroded or intact using the per-image count of tiles predicted as corroded by the ResNet. The results demonstrate that such a deep learning approach allows to detect the locus of corrosion via smaller tiles, and at the same time to infer with high accuracy whether an image comes from a corroded canister. Thereby, the proposed approach holds promise to automate and speed up nuclear fuel canister inspections, to minimize inspection costs, and to partially replace human-conducted onsite inspections, thus reducing radiation doses to personnel.
翻訳日:2022-12-26 01:03:38 公開日:2020-07-13
# ReActNet: 一般化活性化機能を持つ高精度バイナリニューラルネットワークを目指して

ReActNet: Towards Precise Binary Neural Network with Generalized Activation Functions ( http://arxiv.org/abs/2003.03488v2 )

ライセンス: Link先を確認
Zechun Liu and Zhiqiang Shen and Marios Savvides and Kwang-Ting Cheng(参考訳) 本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。 まず、パラメータフリーのショートカットでコンパクトな実数値ネットワークを修正・バイナライズし、ダウンサンプリング層を含むすべての中間畳み込み層をバイパスしてベースラインネットワークを構築する。 このベースラインネットワークは精度と効率のトレードオフが良く、計算コストの約半分で既存のほとんどのバイナリネットワークよりも優れた性能が得られる。 実験と分析により,バイナリネットワークの性能は活性化分布の変動に敏感であることがわかった。 この重要な観測に基づいて、各一般化関数に対してRSignとRPReLUと表記される従来のSignおよびPRELU関数を一般化し、分散再生成とシフトをほぼゼロのコストで明示的に学習できるようにする。 最後に,分散損失を採用し,実数値ネットワークと類似した出力分布を学習するよう,バイナリネットワークをさらに強制する。 これらのアイデアを全て取り入れた結果、提案されたReActNetは、最先端のすべてのものを大きなマージンで上回ります。 具体的には、real-to-binary net と meliusnet29 をそれぞれ top-1 の精度で 4.0% と 3.6% で上回り、imagenet データセットの top-1 の精度は 3.0% 以下となる。 コードとモデルは、https://github.com/liuzechun/reactnetで入手できる。

In this paper, we propose several ideas for enhancing a binary network to close its accuracy gap from real-valued networks without incurring any additional computational cost. We first construct a baseline network by modifying and binarizing a compact real-valued network with parameter-free shortcuts, bypassing all the intermediate convolutional layers including the downsampling layers. This baseline network strikes a good trade-off between accuracy and efficiency, achieving superior performance than most of existing binary networks at approximately half of the computational cost. Through extensive experiments and analysis, we observed that the performance of binary networks is sensitive to activation distribution variations. Based on this important observation, we propose to generalize the traditional Sign and PReLU functions, denoted as RSign and RPReLU for the respective generalized functions, to enable explicit learning of the distribution reshape and shift at near-zero extra cost. Lastly, we adopt a distributional loss to further enforce the binary network to learn similar output distributions as those of a real-valued network. We show that after incorporating all these ideas, the proposed ReActNet outperforms all the state-of-the-arts by a large margin. Specifically, it outperforms Real-to-Binary Net and MeliusNet29 by 4.0% and 3.6% respectively for the top-1 accuracy and also reduces the gap to its real-valued counterpart to within 3.0% top-1 accuracy on ImageNet dataset. Code and models are available at: https://github.com/liuzechun/ReActNet.
翻訳日:2022-12-25 19:40:48 公開日:2020-07-13
# 埋め込みプロパゲーション:小ショット分類のための平滑マニフォールド

Embedding Propagation: Smoother Manifold for Few-Shot Classification ( http://arxiv.org/abs/2003.04151v2 )

ライセンス: Link先を確認
Pau Rodr\'iguez, Issam Laradji, Alexandre Drouin, Alexandre Lacoste(参考訳) クラスが分離しているため、トレーニングセットのデータ分布がテストセットと大きく異なる可能性があるため、少数ショットの分類は難しい。 この分布シフトは、しばしば一般化不良をもたらす。 多様体の平滑化は、決定境界を拡張し、クラス表現のノイズを減らすことで分布シフト問題に対処することが示されている。 さらに、多様体の滑らかさは半教師付き学習とトランスダクティブ学習アルゴリズムの重要な要素である。 本研究では,埋め込み伝播を非教師なし非パラメトリック正則化器として用いることを提案する。 埋め込み伝播は、類似性グラフに基づくニューラルネットワークの抽出された特徴間の補間を利用する。 埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。 また, トランスダクティブ分類器に埋め込み伝搬を適用することで, ミニイメージネット, タイレッドイメージネット, イメージネットFS, CUBにおいて, 新たな最先端結果が得られることを示す。 さらに,複数の半教師付き学習シナリオにおいて,埋め込み伝播はモデルの精度を最大16\%向上させることを示した。 提案した埋め込み伝搬操作は、ニューラルネットワークに非パラメトリック層として容易に統合できる。 トレーニングコードと使用例はhttps://github.com/ElementAI/embedding-proagation.comで公開しています。

Few-shot classification is challenging because the data distribution of the training set can be widely different to the test set as their classes are disjoint. This distribution shift often results in poor generalization. Manifold smoothing has been shown to address the distribution shift problem by extending the decision boundaries and reducing the noise of the class representations. Moreover, manifold smoothness is a key factor for semi-supervised learning and transductive learning algorithms. In this work, we propose to use embedding propagation as an unsupervised non-parametric regularizer for manifold smoothing in few-shot classification. Embedding propagation leverages interpolations between the extracted features of a neural network based on a similarity graph. We empirically show that embedding propagation yields a smoother embedding manifold. We also show that applying embedding propagation to a transductive classifier achieves new state-of-the-art results in mini-Imagenet, tiered-Imagenet, Imagenet-FS, and CUB. Furthermore, we show that embedding propagation consistently improves the accuracy of the models in multiple semi-supervised learning scenarios by up to 16\% points. The proposed embedding propagation operation can be easily integrated as a non-parametric layer into a neural network. We provide the training code and usage examples at https://github.com/ElementAI/embedding-propagation.
翻訳日:2022-12-25 08:15:40 公開日:2020-07-13
# 多関係構造進化の連成モデリングによる時間属性予測

Temporal Attribute Prediction via Joint Modeling of Multi-Relational Structure Evolution ( http://arxiv.org/abs/2003.03919v2 )

ライセンス: Link先を確認
Sankalp Garg, Navodita Sharma, Woojeong Jin, Xiang Ren(参考訳) 時系列予測は機械学習において重要な問題である。 時系列予測の以前の方法は追加情報を含んでいなかった。 多くの動的知識グラフが利用可能であるので、この追加情報を使って時系列をより正確に予測できます。 近年,動的グラフへの深層表現学習の適用に焦点が当てられている。 これらの手法は、前のステップでグラフ内の相互作用を推論することでグラフの構造を予測する。 本稿では,動的知識グラフからの情報を時系列予測に組み込む新しいフレームワークを提案する。 グラフに含まれる情報と時系列データが密接に関連している場合、この相互依存により精度が向上した時系列を予測することができることを示す。 我々のフレームワークであるDArtNetは、動的属性値(時系列)に依存する動的埋め込みと同様に、グラフ内の各ノードに対する静的埋め込みを学びます。 そして、関係特定平均を採り、近隣から情報を捕捉し、RNNを用いて履歴情報を符号化する。 我々はモデルリンク予測と属性予測を共同で訓練する。 本研究では,この問題に対する5つの特別キュレーションデータセットについて評価を行い,時系列予測結果の一貫した改善を示す。 我々は、将来の研究のためのモデルDArtNetのデータとコードをhttps://github.com/INK-USC/DArtNetでリリースします。

Time series prediction is an important problem in machine learning. Previous methods for time series prediction did not involve additional information. With a lot of dynamic knowledge graphs available, we can use this additional information to predict the time series better. Recently, there has been a focus on the application of deep representation learning on dynamic graphs. These methods predict the structure of the graph by reasoning over the interactions in the graph at previous time steps. In this paper, we propose a new framework to incorporate the information from dynamic knowledge graphs for time series prediction. We show that if the information contained in the graph and the time series data are closely related, then this inter-dependence can be used to predict the time series with improved accuracy. Our framework, DArtNet, learns a static embedding for every node in the graph as well as a dynamic embedding which is dependent on the dynamic attribute value (time-series). Then it captures the information from the neighborhood by taking a relation specific mean and encodes the history information using RNN. We jointly train the model link prediction and attribute prediction. We evaluate our method on five specially curated datasets for this problem and show a consistent improvement in time series prediction results. We release the data and code of model DArtNet for future research at https://github.com/INK-USC/DArtNet .
翻訳日:2022-12-25 07:58:03 公開日:2020-07-13
# グラフ畳み込みネットワークを用いた高忠実度3次元画像再構成に向けて

Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks ( http://arxiv.org/abs/2003.05653v3 )

ライセンス: Link先を確認
Jiangke Lin, Yi Yuan, Tianjia Shao, Kun Zhou(参考訳) 3次元形態モデル(3DMM)に基づく手法は, 単視点画像から3次元顔形状を復元することに成功した。 しかし、このような方法によって得られた顔のテクスチャは、入力画像に示される忠実性に欠ける。 最近の研究は、顔テクスチャの高解像度uvマップの大規模データベースからトレーニングされた生成ネットワークを用いて、高品質な顔テクスチャ回復を実証している。 本稿では,大規模顔テクスチャデータベースを取り込むことなく,ワンビュー画像から高精細なテクスチャで3次元顔形状を再構成する手法を提案する。 本研究の主な目的は, 3DMM法で生成した初期テクスチャを, 入力画像から顔の詳細を抽出することである。 そこで本稿では,UVマップを再構成する代わりに,グラフ畳み込みネットワークを用いてメッシュ頂点の詳細な色を再構成することを提案する。 実験により,本手法は質的,定量的両比較において,高品質な結果が得られ,最先端の手法よりも優れることが示された。

3D Morphable Model (3DMM) based methods have achieved great success in recovering 3D face shapes from single-view images. However, the facial textures recovered by such methods lack the fidelity as exhibited in the input images. Recent work demonstrates high-quality facial texture recovering with generative networks trained from a large-scale database of high-resolution UV maps of face textures, which is hard to prepare and not publicly available. In this paper, we introduce a method to reconstruct 3D facial shapes with high-fidelity textures from single-view images in-the-wild, without the need to capture a large-scale face texture database. The main idea is to refine the initial texture generated by a 3DMM based method with facial details from the input image. To this end, we propose to use graph convolutional networks to reconstruct the detailed colors for the mesh vertices instead of reconstructing the UV map. Experiments show that our method can generate high-quality results and outperforms state-of-the-art methods in both qualitative and quantitative comparisons.
翻訳日:2022-12-24 14:57:43 公開日:2020-07-13
# マージ分離型マルコフ連鎖モンテカルロによる地域発見

Merge-split Markov chain Monte Carlo for community detection ( http://arxiv.org/abs/2003.07070v4 )

ライセンス: Link先を確認
Tiago P. Peixoto(参考訳) 本稿では,確率ブロックモデル (sbm) に基づいて定義されるネットワーク分割の後方分布から効率的にサンプリングできる群のマージと分割に基づくマルコフ連鎖モンテカルロスキームを提案する。 グループ間の単一ノードの移動に基づくスキームが,小ネットワーク上でも後方分布から正しくサンプリングできないこと,マージ・スプリットアプローチの挙動が著しく良好であること,典型的な場合においてマルコフ連鎖の混合時間を数桁改善できることを実証した。 また,SBMのネストバージョンに容易に拡張可能であり,階層的ネットワーク分割の漸近的に正確なサンプルが得られることを示す。

We present a Markov chain Monte Carlo scheme based on merges and splits of groups that is capable of efficiently sampling from the posterior distribution of network partitions, defined according to the stochastic block model (SBM). We demonstrate how schemes based on the move of single nodes between groups systematically fail at correctly sampling from the posterior distribution even on small networks, and how our merge-split approach behaves significantly better, and improves the mixing time of the Markov chain by several orders of magnitude in typical cases. We also show how the scheme can be straightforwardly extended to nested versions of the SBM, yielding asymptotically exact samples of hierarchical network partitions.
翻訳日:2022-12-23 03:14:02 公開日:2020-07-13
# Depthwise Separable Convolutionsの再考 - カーネル内相関がモバイルネットワークの改善にどのように寄与するか

Rethinking Depthwise Separable Convolutions: How Intra-Kernel Correlations Lead to Improved MobileNets ( http://arxiv.org/abs/2003.13549v3 )

ライセンス: Link先を確認
Daniel Haase and Manuel Amthor(参考訳) 我々は、cnnの高効率なビルディングブロックとしてbsconv(blueprint separable convolutions)を紹介する。 それらは、深さ軸に沿った相関の優位を示す訓練されたモデルからの核特性の定量的解析によって動機付けられる。 本研究は,標準層のみを用いて効率的な実装を導出する理論的基礎を定式化した。 さらに,本手法は,近年のネットワークアーキテクチャの基盤となっている深部分離型畳み込み(DSC)の適用を,理論的に完全に導出し,解釈し,正当化するものである。 最終的に、MobileNetsのようなDSCベースのアーキテクチャはカーネル間の相関に暗黙的に依存しているのに対し、BSConvの定式化はカーネル内相関に基づいており、通常の畳み込みをより効率的に分離することができる。 大規模かつきめ細かい分類データセットに関する大規模な実験は、BSConvsがさらなる複雑さを導入することなく、MobileNetsや他のDSCベースのアーキテクチャを明確かつ一貫して改善していることを示している。 きめ細かいデータセットについては、最大13.7ポイントの改善を達成します。 さらに、ResNetsのような標準アーキテクチャのドロップイン代替として使われる場合、BSConvはImageNet上で最大9.5ポイントのベニラ性能を持つ。 コードとモデルはhttps://github.com/zeiss-microscopy/bsconvで入手できる。

We introduce blueprint separable convolutions (BSConv) as highly efficient building blocks for CNNs. They are motivated by quantitative analyses of kernel properties from trained models, which show the dominance of correlations along the depth axis. Based on our findings, we formulate a theoretical foundation from which we derive efficient implementations using only standard layers. Moreover, our approach provides a thorough theoretical derivation, interpretation, and justification for the application of depthwise separable convolutions (DSCs) in general, which have become the basis of many modern network architectures. Ultimately, we reveal that DSC-based architectures such as MobileNets implicitly rely on cross-kernel correlations, while our BSConv formulation is based on intra-kernel correlations and thus allows for a more efficient separation of regular convolutions. Extensive experiments on large-scale and fine-grained classification datasets show that BSConvs clearly and consistently improve MobileNets and other DSC-based architectures without introducing any further complexity. For fine-grained datasets, we achieve an improvement of up to 13.7 percentage points. In addition, if used as drop-in replacement for standard architectures such as ResNets, BSConv variants also outperform their vanilla counterparts by up to 9.5 percentage points on ImageNet. Code and models are available under https://github.com/zeiss-microscopy/BSConv.
翻訳日:2022-12-18 08:03:00 公開日:2020-07-13
# アップサンプリングによる画像圧縮におけるコンテキスト依存の活用

Exploiting context dependence for image compression with upsampling ( http://arxiv.org/abs/2004.03391v3 )

ライセンス: Link先を確認
Jarek Duda(参考訳) アップサンプリングによる画像圧縮は、例えば、FUIFとJPEG XLの違いを符号化することで、画像解像度を順調に向上させる。 これはプログレッシブデコーディングに有用であり、しばしば圧縮比を改善する(損失のない圧縮と損失のDC係数など)。 しかし、現在使われているソリューションは、そのようなアップスケーリング情報のエンコーディングにコンテキスト依存を利用しない。 本稿では,48の標準512\times 512$グレースケール8ビットイメージに対する最後のアップスケーリングに対して,平均0.645$/difference(0.138$と1.489$)で保存可能な,この目的のためのシンプルな安価な汎用技術について論じる。 ラプラス分布の中心を予測するために文脈の最小二乗線形回帰を用いることで、平均$0.393$bit/差分節約が得られる。 残りの貯蓄量は、このラプラス分布の幅を、最小2乗の線形回帰を用いて追加予測することで得られる。 RGB画像の場合、色変換のみの最適化は、固定変換を使用する場合の標準YCrCbと比較して$\approx 4.6\%、各画像に対して個別に変換を最適化する場合$\approx 6.3\%であった。 さらに、コンテキストに基づいてLaplaceパラメータを予測すると、$\approx 10\%$ reduceが得られた。 提案したシンプルな汎用手法は、損失画像圧縮におけるDCT係数のような様々な種類のデータにも利用できる。

Image compression with upsampling encodes information to succeedingly increase image resolution, for example by encoding differences in FUIF and JPEG XL. It is useful for progressive decoding, also often can improve compression ratio - both for lossless compression and e.g. DC coefficients of lossy. However, the currently used solutions rather do not exploit context dependence for encoding of such upscaling information. This article discusses simple inexpensive general techniques for this purpose, which allowed to save on average $0.645$ bits/difference (between $0.138$ and $1.489$) for the last upscaling for 48 standard $512\times 512$ grayscale 8 bit images - compared to assumption of fixed Laplace distribution. Using least squares linear regression of context to predict center of Laplace distribution gave on average $0.393$ bits/difference savings. The remaining savings were obtained by additionally predicting width of this Laplace distribution, also using just the least squares linear regression. For RGB images, optimization of color transform alone gave mean $\approx 4.6\%$ size reduction comparing to standard YCrCb if using fixed transform, $\approx 6.3\%$ if optimizing transform individually for each image. Then further mean $\approx 10\%$ reduction was obtained if predicting Laplace parameters based on context. The presented simple inexpensive general methodology can be also used for different types of data like DCT coefficients in lossy image compression.
翻訳日:2022-12-16 06:09:16 公開日:2020-07-13
# 学術的知識表現の改善: bertに基づく科学関係分類モデルの評価

Improving Scholarly Knowledge Representation: Evaluating BERT-based Models for Scientific Relation Classification ( http://arxiv.org/abs/2004.06153v2 )

ライセンス: Link先を確認
Ming Jiang, Jennifer D'Souza, S\"oren Auer, J. Stephen Downie(参考訳) 研究出版物の急激な成長に伴い、デジタル図書館に整理する必要がある学術的な知識が大量に存在する。 この課題に対処するために、知識グラフ構造に依存する技術が提唱されている。 このようなグラフベースのパイプラインでは、関連する科学概念間の関係型を推論することが重要なステップである。 近年,大規模コーパスで事前学習した言語モデルに基づく高度な手法が広く研究されている。 顕著な貢献にもかかわらず、これらの手法の多くは異なるシナリオで評価され、互換性が制限された。 そこで本研究では, bertに基づく8つの分類モデルについて, 2つの重要な要因に着目し, 徹底的な経験的評価を行う。 1) bertモデル変異、及び 2)分類戦略。 3つのコーパスの実験は、領域固有の事前学習コーパスが、科学関係のタイプを特定するためにバートに基づく分類モデルに利点があることを示している。 各時間に1つの関係を予測する戦略は、複数の関係型を同時に識別する戦略よりも分類精度が高いが、後者の戦略は、大小いずれかのアノテーションを持つコーパスにおいてより一貫性のある性能を示す。 本研究は,デジタル図書館の利害関係者に対して,知識グラフベースシステム構築のための適切な手法を選択するためのレコメンデーションを提供することを目的としている。

With the rapid growth of research publications, there is a vast amount of scholarly knowledge that needs to be organized in digital libraries. To deal with this challenge, techniques relying on knowledge-graph structures are being advocated. Within such graph-based pipelines, inferring relation types between related scientific concepts is a crucial step. Recently, advanced techniques relying on language models pre-trained on the large corpus have been popularly explored for automatic relation classification. Despite remarkable contributions that have been made, many of these methods were evaluated under different scenarios, which limits their comparability. To this end, we present a thorough empirical evaluation on eight Bert-based classification models by focusing on two key factors: 1) Bert model variants, and 2) classification strategies. Experiments on three corpora show that domain-specific pre-training corpus benefits the Bert-based classification model to identify the type of scientific relations. Although the strategy of predicting a single relation each time achieves a higher classification accuracy than the strategy of identifying multiple relation types simultaneously in general, the latter strategy demonstrates a more consistent performance in the corpus with either a large or small size of annotations. Our study aims to offer recommendations to the stakeholders of digital libraries for selecting the appropriate technique to build knowledge-graph-based systems for enhanced scholarly information organization.
翻訳日:2022-12-14 00:19:17 公開日:2020-07-13
# 栄養疫学における測定誤差の検討

Measurement Error in Nutritional Epidemiology: A Survey ( http://arxiv.org/abs/2004.06448v2 )

ライセンス: Link先を確認
Huimin Peng(参考訳) 本稿では,栄養疫学分野における露出変数の測定誤差のバイアス補正モデルについてレビューする。 測定誤差は通常、推定傾きをゼロに減衰させる。 測定誤差の影響により、パラメータ推定の推測は保守的であり、斜面パラメータの信頼区間は狭すぎる。 推定値と信頼区間のバイアス補正が主な関心事である。 本稿では, 回帰校正法, 確率ベースモデル, 欠落データモデル, シミュレーションベース法, 非パラメトリックモデル, サンプリングベース手順など, バイアス補正モデルについて検討する。

This article reviews bias-correction models for measurement error of exposure variables in the field of nutritional epidemiology. Measurement error usually attenuates estimated slope towards zero. Due to the influence of measurement error, inference of parameter estimate is conservative and confidence interval of the slope parameter is too narrow. Bias-correction in estimators and confidence intervals are of primary interest. We review the following bias-correction models: regression calibration methods, likelihood based models, missing data models, simulation based methods, nonparametric models and sampling based procedures.
翻訳日:2022-12-13 09:13:22 公開日:2020-07-13
# 半教師付きスパース符号化によるエネルギー分散

Energy Disaggregation with Semi-supervised Sparse Coding ( http://arxiv.org/abs/2004.10529v4 )

ライセンス: Link先を確認
Mengheng Xue, Samantha Kappagoda and David K. A. Mordecai(参考訳) 住宅用スマートメータは、消費者に効率的でレスポンシブな監視と課金を提供するため、全国の都市部に広く設置されている。 調査によると、デバイスレベルの利用情報を提供すると、消費者は相当量のエネルギーを節約でき、一方現代のスマートメーターは、低解像度で情報提供可能な全家庭データしか提供できない。 このように、集積エネルギー消費データを部品機器に分解することを目的としたエネルギー分散研究が注目されている。 本稿では,エネルギー保全のための大規模家庭用電力利用データセットを用いて,スパース符号化に基づく差別的分散モデルの評価を行った。 そこで我々は,構造化予測モデルを用いて識別的スパース符号化訓練を行い,エネルギー分散性能を最大化する。 このような大規模分散タスクの設計を解析的に検討し,実世界のスマートメータデータセットでベンチマークモデルと比較検討した。

Residential smart meters have been widely installed in urban houses nationwide to provide efficient and responsive monitoring and billing for consumers. Studies have shown that providing customers with device-level usage information can lead consumers to economize significant amounts of energy, while modern smart meters can only provide informative whole-home data with low resolution. Thus, energy disaggregation research which aims to decompose the aggregated energy consumption data into its component appliances has attracted broad attention. In this paper, a discriminative disaggregation model based on sparse coding has been evaluated on large-scale household power usage dataset for energy conservation. We utilize a structured prediction model for providing discriminative sparse coding training, accordingly, maximizing the energy disaggregation performance. Designing such large scale disaggregation task is investigated analytically, and examined in the real-world smart meter dataset compared with benchmark models.
翻訳日:2022-12-11 19:29:58 公開日:2020-07-13
# 視覚と言語を組み合わせた新しい注意型アグリゲーション関数

A Novel Attention-based Aggregation Function to Combine Vision and Language ( http://arxiv.org/abs/2004.13073v2 )

ライセンス: Link先を確認
Matteo Stefanini, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) 近年,画像キャプションや画像テキストマッチング,視覚的質問応答といったタスクが出現し,コンピュータビジョンと自然言語処理コミュニティの両方において,視覚と言語に関する合同的な理解が注目されている。 画像とテキストの両方を、領域や単語のような要素のセットやシーケンスとしてエンコードできるので、符号化された要素のセットを分類や類似度スコアのような単一の応答に変換するのに適切な還元関数が必要である。 本稿では,視覚と言語のための完全適応型削減手法を提案する。 具体的には,各モーダルの各要素のスコアの集合を,新しい異質なクロスアテンションを用いて計算し,学習可能なクロスモーダル還元を行い,分類とランク付けの両方に使用できる。 我々は、COCOとVQA 2.0データセットの両方で、画像テキストマッチングと視覚的質問応答のアプローチを検証し、他の縮小選択と公正に比較した。 実験により,本手法が両タスクのパフォーマンス向上につながることを示した。 さらに,アプローチの各コンポーネントの役割を検証するため,アブレーション研究を行う。

The joint understanding of vision and language has been recently gaining a lot of attention in both the Computer Vision and Natural Language Processing communities, with the emergence of tasks such as image captioning, image-text matching, and visual question answering. As both images and text can be encoded as sets or sequences of elements -- like regions and words -- proper reduction functions are needed to transform a set of encoded elements into a single response, like a classification or similarity score. In this paper, we propose a novel fully-attentive reduction method for vision and language. Specifically, our approach computes a set of scores for each element of each modality employing a novel variant of cross-attention, and performs a learnable and cross-modal reduction, which can be used for both classification and ranking. We test our approach on image-text matching and visual question answering, building fair comparisons with other reduction choices, on both COCO and VQA 2.0 datasets. Experimentally, we demonstrate that our approach leads to a performance increase on both tasks. Further, we conduct ablation studies to validate the role of each component of the approach.
翻訳日:2022-12-09 04:19:48 公開日:2020-07-13
# 交叉言語構文分岐の細粒度解析

Fine-Grained Analysis of Cross-Linguistic Syntactic Divergences ( http://arxiv.org/abs/2005.03436v2 )

ライセンス: Link先を確認
Dmitry Nikolaev, Ofir Arviv, Taelin Karidi, Neta Kenneth, Veronika Mitnik, Lilja Maria Saeboe, and Omri Abend(参考訳) 異なる言語の構文が収束し、発散するパターンは、しばしば言語間変換の作業を知らせるために使われる。 しかしながら、言語対における異なる構文的発散の頻度を定量化するための実証的な研究はほとんど行われていない。 本稿では,共通依存に基づく並列コーパスから任意の言語対の発散パターンを抽出するフレームワークを提案する。 我々のフレームワークは、言語間の相違の詳細な図を提供し、以前のアプローチを一般化し、完全に自動化することを示します。 さらに、5つの言語でParallel UDコーパスの単語整列サブセットである新しいデータセットを提示し、それを用いて詳細なコーパス研究を行う。 本稿では,言語間パーサの性能パターンを考慮し,解析結果の有用性を示す。

The patterns in which the syntax of different languages converges and diverges are often used to inform work on cross-lingual transfer. Nevertheless, little empirical work has been done on quantifying the prevalence of different syntactic divergences across language pairs. We propose a framework for extracting divergence patterns for any language pair from a parallel corpus, building on Universal Dependencies. We show that our framework provides a detailed picture of cross-language divergences, generalizes previous approaches, and lends itself to full automation. We further present a novel dataset, a manually word-aligned subset of the Parallel UD corpus in five languages, and use it to perform a detailed corpus study. We demonstrate the usefulness of the resulting analysis by showing that it can help account for performance patterns of a cross-lingual parser.
翻訳日:2022-12-05 23:14:43 公開日:2020-07-13
# 多視点タスク条件ニューラルネットワークを用いた連続学習

Continual Learning Using Multi-view Task Conditional Neural Networks ( http://arxiv.org/abs/2005.05080v3 )

ライセンス: Link先を確認
Honglin Li, Payam Barnaghi, Shirin Enshaeifar, Frieder Ganz(参考訳) 従来のディープラーニングモデルは、複数のタスクを逐次学習する能力に制限がある。 事前学習したタスクを継続学習で忘れてしまう問題は、破滅的な忘れや干渉として知られる。 入力データや学習目標が変化すると、連続モデルが学習し、新しいステータスに適応する。 しかし、モデルは以前の状態に対する変更を覚えたり認識したりしない。 これにより、周期的または不規則にデータや目標の変化を扱う際に、パフォーマンスの低下と再トレーニング曲線が発生する。 目標やデータの変化は、継続的な学習モデルにおける新しいタスクと呼ばれる。 ほとんどの連続学習方法は、学習モデルに先立ってタスクのアイデンティティがわかっているタスク既知の設定を持っている。 再帰的なタスクを事前に知る必要のないマルチビュータスク条件ニューラルネットワーク(Mv-TCNN)を提案する。 MNIST, CIFAR10, CIFAR100, および遠隔医療モニタリング研究(TIHMデータセット)で収集した実世界のデータセットを用いて, 標準データセットのモデルを評価する。 提案手法は,先行して定義されていない新しいタスクに適応し,継続学習における最先端のソリューションよりも優れる。

Conventional deep learning models have limited capacity in learning multiple tasks sequentially. The issue of forgetting the previously learned tasks in continual learning is known as catastrophic forgetting or interference. When the input data or the goal of learning change, a continual model will learn and adapt to the new status. However, the model will not remember or recognise any revisits to the previous states. This causes performance reduction and re-training curves in dealing with periodic or irregularly reoccurring changes in the data or goals. The changes in goals or data are referred to as new tasks in a continual learning model. Most of the continual learning methods have a task-known setup in which the task identities are known in advance to the learning model. We propose Multi-view Task Conditional Neural Networks (Mv-TCNN) that does not require to known the reoccurring tasks in advance. We evaluate our model on standard datasets using MNIST, CIFAR10, CIFAR100, and also a real-world dataset that we have collected in a remote healthcare monitoring study (i.e. TIHM dataset). The proposed model outperforms the state-of-the-art solutions in continual learning and adapting to new tasks that are not defined in advance.
翻訳日:2022-12-05 11:58:23 公開日:2020-07-13
# 認知モデルに対するamortized bayesian inference

Amortized Bayesian Inference for Models of Cognition ( http://arxiv.org/abs/2005.03899v3 )

ライセンス: Link先を確認
Stefan T. Radev, Andreas Voss, Eva Marie Wieschen, Paul-Christian B\"urkner(参考訳) 認知のモデルが複雑でパラメータの数が増えるにつれて、標準手法によるベイズ推論は、特にデータ生成モデルが未知の分析形式である場合、難解になる。 ニューラルネットワークアーキテクチャを用いたシミュレーションベース推論の最近の進歩は、近似ベイズ計算の多くの問題を回避している。 さらに、これらの特殊なニューラルネットワーク推定器の特性により、シミュレーションによるネットワークのトレーニング作業は、複数のデータセットと複数の研究者で同じネットワークを再利用可能な、その後の評価よりも改善される。 しかしながら、これらの手法は様々なモデリング問題に取り組むのに適しているにもかかわらず、これまで認知科学や心理学においてほとんど使われていなかった。 本研究は, ベイズパラメータ推定とモデル比較の一般導入と, 提案手法の適用性について, 難解応答時間モデルのよく知られたクラスに示すものである。

As models of cognition grow in complexity and number of parameters, Bayesian inference with standard methods can become intractable, especially when the data-generating model is of unknown analytic form. Recent advances in simulation-based inference using specialized neural network architectures circumvent many previous problems of approximate Bayesian computation. Moreover, due to the properties of these special neural network estimators, the effort of training the networks via simulations amortizes over subsequent evaluations which can re-use the same network for multiple datasets and across multiple researchers. However, these methods have been largely underutilized in cognitive science and psychology so far, even though they are well suited for tackling a wide variety of modeling problems. With this work, we provide a general introduction to amortized Bayesian parameter estimation and model comparison and demonstrate the applicability of the proposed methods on a well-known class of intractable response-time models.
翻訳日:2022-12-05 11:48:16 公開日:2020-07-13
# 生成潜在探索を用いたWBC分類のためのターゲット非依存領域適応

Target-Independent Domain Adaptation for WBC Classification using Generative Latent Search ( http://arxiv.org/abs/2005.05432v2 )

ライセンス: Link先を確認
Prashant Pandey, Prathosh AP, Vinay Kyatham, Deepak Mishra and Tathagato Rai Dastidar(参考訳) ホワイト血液細胞(WBC)および関連細胞サブタイプのカメラが保持する顕微鏡画像の分類を自動化することは、精巧な手作業による検査・診断のプロセスを支援するため重要視されている。 深層畳み込みニューラルネットワークを用いて開発されたステートオフ・ザ・アーツ(SOTA)メソッドは、トレーニング(ソース)とは異なる設定で得られたデータ(ターゲット)でテストされた場合、ドメインシフトの問題に悩まされる。 ターゲットデータの変化は、カメラ/顕微鏡の種類、レンズ、照明条件などの違いによって引き起こされる可能性がある。 非教師なし領域適応法(unsupervised domain adaptation:uda)の手法は、医学的画像に必ずしも当てはまらない十分な量の未ラベルのターゲットデータの存在を前提とする標準アルゴリズムである。 本稿では,対象データを必要としないUDAの手法を提案する。 対象データからテスト画像が与えられると、分類器のプロキシとして使用されるソースデータから、その 'closest-clone' が取得される。 情報源分布から無限個のデータポイントをサンプリングできることから,そのようなクローンの存在を証明した。 本稿では,変分推論に基づく潜在変数生成モデルを用いて,潜時空間の最適化手法を用いて,ソース分布から「最近クローン」を同時にサンプリングし,発見する手法を提案する。 複数の条件下で異なる画像モダリティを用いたデータセットのWBC分類のための複数のSOTA UDA法に対して提案手法の有効性を示す。

Automating the classification of camera-obtained microscopic images of White Blood Cells (WBCs) and related cell subtypes has assumed importance since it aids the laborious manual process of review and diagnosis. Several State-Of-The-Art (SOTA) methods developed using Deep Convolutional Neural Networks suffer from the problem of domain shift - severe performance degradation when they are tested on data (target) obtained in a setting different from that of the training (source). The change in the target data might be caused by factors such as differences in camera/microscope types, lenses, lighting-conditions etc. This problem can potentially be solved using Unsupervised Domain Adaptation (UDA) techniques albeit standard algorithms presuppose the existence of a sufficient amount of unlabelled target data which is not always the case with medical images. In this paper, we propose a method for UDA that is devoid of the need for target data. Given a test image from the target data, we obtain its 'closest-clone' from the source data that is used as a proxy in the classifier. We prove the existence of such a clone given that infinite number of data points can be sampled from the source distribution. We propose a method in which a latent-variable generative model based on variational inference is used to simultaneously sample and find the 'closest-clone' from the source distribution through an optimization procedure in the latent space. We demonstrate the efficacy of the proposed method over several SOTA UDA methods for WBC classification on datasets captured using different imaging modalities under multiple settings.
翻訳日:2022-12-04 20:47:59 公開日:2020-07-13
# Webスケールレコメンダシステムのためのマルチタスクマルチビューグラフ表現学習フレームワークM2GRL

M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems ( http://arxiv.org/abs/2005.10110v3 )

ライセンス: Link先を確認
Menghan Wang, Yujie Lin, Guli Lin, Keping Yang, Xiao-ming Wu(参考訳) グラフ表現学習とリコメンデーションのためのマルチビューデータ(サイド情報)を組み合わせることは、業界におけるトレンドである。 既存のメソッドのほとんどは \emph{multi-view representation fusion} に分類できる。まず1つのグラフを構築し、次にグラフの各ノードに対して1つのコンパクト表現にマルチビューデータを統合する。 しかし、これらの手法は工学的側面とアルゴリズム的側面の両方に懸念を抱いている。 1)マルチビューデータは産業において豊富で有益であり、1つのベクトルの容量を超える可能性がある。 2)多視点データはしばしば異なる分布から得られるため,帰納バイアスが生じることがある。 本稿では,この問題に対処するために,emph{multi-view representation alignment} アプローチを用いる。 特に,webスケールレコメンダシステムのためのマルチビューグラフからノード表現を学ぶためのマルチタスクマルチビューグラフ表現学習フレームワーク(m2grl)を提案する。 M2GRLは、各シングルビューデータに対して1つのグラフを構築し、複数のグラフから複数の別々の表現を学習し、モデルのクロスビュー関係にアライメントする。 M2GRLは、ビュー内表現とクロスビュー関係を共同で学習するマルチタスク学習パラダイムを選択する。 さらに、m2grlは、訓練中のタスクの損失重みを適応的に調整するためにホモシデスティック不確実性を適用する。 タオバオでM2GRLをデプロイし、57億のサンプルでトレーニングします。 オフラインメトリクスとオンラインA/Bテストによると、M2GRLは他の最先端のアルゴリズムよりも大幅に優れている。 タオバオにおける多様性勧告のさらなる検討は,異なる焦点の産業推薦業務において有望な方向性である,<method{}>による複数の表現の活用の有効性を示す。

Combining graph representation learning with multi-view data (side information) for recommendation is a trend in industry. Most existing methods can be categorized as \emph{multi-view representation fusion}; they first build one graph and then integrate multi-view data into a single compact representation for each node in the graph. However, these methods are raising concerns in both engineering and algorithm aspects: 1) multi-view data are abundant and informative in industry and may exceed the capacity of one single vector, and 2) inductive bias may be introduced as multi-view data are often from different distributions. In this paper, we use a \emph{multi-view representation alignment} approach to address this issue. Particularly, we propose a multi-task multi-view graph representation learning framework (M2GRL) to learn node representations from multi-view graphs for web-scale recommender systems. M2GRL constructs one graph for each single-view data, learns multiple separate representations from multiple graphs, and performs alignment to model cross-view relations. M2GRL chooses a multi-task learning paradigm to learn intra-view representations and cross-view relations jointly. Besides, M2GRL applies homoscedastic uncertainty to adaptively tune the loss weights of tasks during training. We deploy M2GRL at Taobao and train it on 57 billion examples. According to offline metrics and online A/B tests, M2GRL significantly outperforms other state-of-the-art algorithms. Further exploration on diversity recommendation in Taobao shows the effectiveness of utilizing multiple representations produced by \method{}, which we argue is a promising direction for various industrial recommendation tasks of different focus.
翻訳日:2022-12-01 06:17:20 公開日:2020-07-13
# グラフの学習組合せ最適化:ネットワークへの応用に関する調査

Learning Combinatorial Optimization on Graphs: A Survey with Applications to Networking ( http://arxiv.org/abs/2005.11081v2 )

ライセンス: Link先を確認
Natalia Vesselinova, Rebecca Steinert, Daniel F. Perez-Ramirez, and Magnus Boman(参考訳) グラフ上の組合せ最適化問題に対する既存のアプローチは、多くのケースで現実的な問題を繰り返しながら、アルゴリズム的に各問題を設計する必要がある。 計算複雑性のような理論計算機科学の実践的な側面に対処する必要がある。 この目的のために、グラフに関する機械学習研究の関連進展を調査した。 我々は,通信分野とその生活・研究ネットワークの継続的な発展に注目し,組合せ最適化問題を解決するために学習に関わる構造を整理・比較する。

Existing approaches to solving combinatorial optimization problems on graphs suffer from the need to engineer each problem algorithmically, with practical problems recurring in many instances. The practical side of theoretical computer science, such as computational complexity, then needs to be addressed. Relevant developments in machine learning research on graphs are surveyed for this purpose. We organize and compare the structures involved with learning to solve combinatorial optimization problems, with a special eye on the telecommunications domain and its continuous development of live and research networks.
翻訳日:2022-11-30 08:13:16 公開日:2020-07-13
# 対称テンソル分解のためのストリーミングコアセット

Streaming Coresets for Symmetric Tensor Factorization ( http://arxiv.org/abs/2006.01225v2 )

ライセンス: Link先を確認
Rachit Chhaya, Jayesh Choudhari, Anirban Dasgupta, Supratim Shit(参考訳) 最近、ファクタリングテンソルは、多くの機械学習パイプライン、特に潜在変数モデルにおいて重要な最適化モジュールになっている。 ストリーミング環境でこれを効率的に行う方法を示します。 1組の$n$ベクターが与えられ、それぞれ$\mathbb{r}^d$が与えられると、これらのベクターの部分線型数をcoresetとして選択するアルゴリズムが与えられ、一方で、コアセットの$p$-momentテンソルのcp分解は、全データから計算された$p$-momentテンソルの分解を近似する。 オンラインフィルタリングとカーネル化という2つの新しいアルゴリズム手法を提案する。 これら2つのアルゴリズムを用いて,コアセットサイズ,更新時間,作業スペースの異なるトレードオフを実現する6つのアルゴリズムを提案する。 行列(2$-ordered tensor)の場合、オンライン行サンプリングアルゴリズムは$(1 \pm \epsilon)$相対誤差スペクトル近似を保証する。 単一トピックモデリング学習におけるアルゴリズムの適用例を示す。

Factorizing tensors has recently become an important optimization module in a number of machine learning pipelines, especially in latent variable models. We show how to do this efficiently in the streaming setting. Given a set of $n$ vectors, each in $\mathbb{R}^d$, we present algorithms to select a sublinear number of these vectors as coreset, while guaranteeing that the CP decomposition of the $p$-moment tensor of the coreset approximates the corresponding decomposition of the $p$-moment tensor computed from the full data. We introduce two novel algorithmic techniques: online filtering and kernelization. Using these two, we present six algorithms that achieve different tradeoffs of coreset size, update time and working space, beating or matching various state of the art algorithms. In the case of matrices ($2$-ordered tensor), our online row sampling algorithm guarantees $(1 \pm \epsilon)$ relative error spectral approximation. We show applications of our algorithms in learning single topic modeling.
翻訳日:2022-11-26 06:50:19 公開日:2020-07-13
# ディープグラフの対比表現学習

Deep Graph Contrastive Representation Learning ( http://arxiv.org/abs/2006.04131v2 )

ライセンス: Link先を確認
Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, Liang Wang(参考訳) 現在、グラフ表現学習は、グラフ構造化データの解析において基本となる。 本稿では,最近のコントラスト的手法の成功に触発されて,ノードレベルでのコントラスト的目的を活用した教師なしグラフ表現学習のための新しいフレームワークを提案する。 具体的には,この2つのビューにおけるノード表現の一致を最大化することにより,ノード表現の破損と学習によって2つのグラフビューを生成する。 対照的な目的のための多様なノードコンテキストを提供するために,構造レベルと属性レベルのグラフビューを生成するハイブリッド方式を提案する。 さらに、相互情報と古典的三重項損失という2つの観点から、モチベーションの背後にある理論的正当性を提供する。 我々は,様々な実世界のデータセットを用いて,帰納的および帰納的学習タスクの実証実験を行った。 実験により,提案手法は単純であるにもかかわらず,既存の最先端手法を高いマージンで一貫して上回ることを示した。 さらに, 提案手法は, トランスダクティブタスクにおいて, 教師なしの手法よりも優れており, 実世界のアプリケーションにおいてその大きな可能性を示している。

Graph representation learning nowadays becomes fundamental in analyzing graph-structured data. Inspired by recent success of contrastive methods, in this paper, we propose a novel framework for unsupervised graph representation learning by leveraging a contrastive objective at the node level. Specifically, we generate two graph views by corruption and learn node representations by maximizing the agreement of node representations in these two views. To provide diverse node contexts for the contrastive objective, we propose a hybrid scheme for generating graph views on both structure and attribute levels. Besides, we provide theoretical justification behind our motivation from two perspectives, mutual information and the classical triplet loss. We perform empirical experiments on both transductive and inductive learning tasks using a variety of real-world datasets. Experimental experiments demonstrate that despite its simplicity, our proposed method consistently outperforms existing state-of-the-art methods by large margins. Moreover, our unsupervised method even surpasses its supervised counterparts on transductive tasks, demonstrating its great potential in real-world applications.
翻訳日:2022-11-24 07:38:09 公開日:2020-07-13
# CoSDA-ML: ゼロショットクロスプラットフォームNLPのための多言語コードスイッチングデータ拡張

CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP ( http://arxiv.org/abs/2006.06402v2 )

ライセンス: Link先を確認
Libo Qin, Minheng Ni, Yue Zhang, Wanxiang Che(参考訳) multilingual-bert (mbert) のような多言語文脈化埋め込みは、様々なゼロショットクロスリンガルタスクで成功を収めている。 しかし、これらのモデルは異なる言語にまたがるサブワードの一貫性のない文脈化表現を持つことで制限される。 既存の作業は、バイリンガルプロジェクションと微調整技術によってこの問題に対処している。 本稿では,mbertを微調整するための多言語コード切り換えデータを生成するためのデータ拡張フレームワークを提案する。 既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。 19言語からなる5つのタスクの実験結果から,本手法はmBERTと比較して,全タスクのパフォーマンスを著しく向上させることが示された。

Multi-lingual contextualized embeddings, such as multilingual-BERT (mBERT), have shown success in a variety of zero-shot cross-lingual tasks. However, these models are limited by having inconsistent contextualized representations of subwords across different languages. Existing work addresses this issue by bilingual projection and fine-tuning technique. We propose a data augmentation framework to generate multi-lingual code-switching data to fine-tune mBERT, which encourages model to align representations from source and multiple target languages once by mixing their context information. Compared with the existing work, our method does not rely on bilingual sentences for training, and requires only one training process for multiple target languages. Experimental results on five tasks with 19 languages show that our method leads to significantly improved performances for all the tasks compared with mBERT.
翻訳日:2022-11-22 13:49:33 公開日:2020-07-13
# 自己スーパービジョンと知識蒸留

Knowledge Distillation Meets Self-Supervision ( http://arxiv.org/abs/2006.07114v2 )

ライセンス: Link先を確認
Guodong Xu, Ziwei Liu, Xiaoxiao Li, Chen Change Loy(参考訳) 教師ネットワークから「暗知識」を抽出して学生ネットワークの学習を指導する知識蒸留は,モデル圧縮と伝達学習の重要な技術として出現している。 ここでは,事前学習した教師モデルから"より豊かな暗黒知識"を抽出するための,より汎用的でモデルに依存しないアプローチを探求したい。 一見異なる自己スーパービジョンタスクが、シンプルでパワフルなソリューションとして機能することを示します。 例えば、変換されたエンティティ間でコントラスト学習を行う場合、教師ネットワークのノイズ予測はその本質的な意味とポーズ情報の合成を反映する。 これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。 本稿では,これらのノイズの多い自己超音速信号を利用した蒸留のための選択的転送手法について述べる。 さらに, 自己超越信号は, 数ショット, ノイズラベルのシナリオにおいて, 従来型の蒸留を著しく向上させることを示した。 自己スーパービジョンから抽出した豊富な知識を考えると、私たちの知識蒸留手法は、CIFAR100やImageNetといった標準ベンチマークにおける最先端のパフォーマンスを達成する。 そこでは,CIFAR100におけるCRDの精度を6つの異なる教師と学生のペアで平均2.3%向上させる手法を提案する。

Knowledge distillation, which involves extracting the "dark knowledge" from a teacher network to guide the learning of a student network, has emerged as an important technique for model compression and transfer learning. Unlike previous works that exploit architecture-specific cues such as activation and attention for distillation, here we wish to explore a more general and model-agnostic approach for extracting "richer dark knowledge" from the pre-trained teacher model. We show that the seemingly different self-supervision task can serve as a simple yet powerful solution. For example, when performing contrastive learning between transformed entities, the noisy predictions of the teacher network reflect its intrinsic composition of semantic and pose information. By exploiting the similarity between those self-supervision signals as an auxiliary task, one can effectively transfer the hidden information from the teacher to the student. In this paper, we discuss practical ways to exploit those noisy self-supervision signals with selective transfer for distillation. We further show that self-supervision signals improve conventional distillation with substantial gains under few-shot and noisy-label scenarios. Given the richer knowledge mined from self-supervision, our knowledge distillation approach achieves state-of-the-art performance on standard benchmarks, i.e., CIFAR100 and ImageNet, under both similar-architecture and cross-architecture settings. The advantage is even more pronounced under the cross-architecture setting, where our method outperforms the state of the art CRD by an average of 2.3% in accuracy rate on CIFAR100 across six different teacher-student pairs.
翻訳日:2022-11-22 04:17:26 公開日:2020-07-13
# 塩分マップと対向ロバスト性について

On Saliency Maps and Adversarial Robustness ( http://arxiv.org/abs/2006.07828v2 )

ライセンス: Link先を確認
Puneet Mangla, Vedant Singh, Vineeth N Balasubramanian(参考訳) 非常に最近の傾向は、敵に対する優れた解釈や堅牢性にのみ焦点を絞った以前の試みとは異なり、解釈可能性と敵の堅牢性という概念を混同している。 逆向きに訓練されたモデルでは、非ロバストモデルよりも解釈可能なサリエンシマップが示され、入力画像とサリエンシマップのアライメントを考慮することで、この挙動を定量化できることが示されている。 本研究では、この結合に対する異なる視点を提供し、モデルの対角性を改善するために、サリエンシマップを使用するために、サリエンシベースの適応トレーニング(SAT)を提供する。 特に,バウンディングボックスやセグメンテーションマスクなどのアノテーションを使用することで,弱いサリエンシーマップとしてデータセットがすでに提供されており,摂動自身を生成するための追加の努力なしに,敵対的ロバスト性を改善することができることを示す。 CIFAR-10, CIFAR-100, Tiny ImageNet, Flower-17データセットに対する実験結果は、我々の主張を一貫して裏付けるものである。 敬礼地図。 さらに,より精巧でより強固なサリエンシーマップを用いることにより,より堅牢なモデルがもたらされることを示すとともに,satと既存の敵対的トレーニング手法との統合により,これらの既存手法の性能がさらに向上することを示す。

A Very recent trend has emerged to couple the notion of interpretability and adversarial robustness, unlike earlier efforts which solely focused on good interpretations or robustness against adversaries. Works have shown that adversarially trained models exhibit more interpretable saliency maps than their non-robust counterparts, and that this behavior can be quantified by considering the alignment between input image and saliency map. In this work, we provide a different perspective to this coupling, and provide a method, Saliency based Adversarial training (SAT), to use saliency maps to improve adversarial robustness of a model. In particular, we show that using annotations such as bounding boxes and segmentation masks, already provided with a dataset, as weak saliency maps, suffices to improve adversarial robustness with no additional effort to generate the perturbations themselves. Our empirical results on CIFAR-10, CIFAR-100, Tiny ImageNet and Flower-17 datasets consistently corroborate our claim, by showing improved adversarial robustness using our method. saliency maps. We also show how using finer and stronger saliency maps leads to more robust models, and how integrating SAT with existing adversarial training methods, further boosts performance of these existing methods.
翻訳日:2022-11-21 10:08:01 公開日:2020-07-13
# 条件付き無作為化試験

The leave-one-covariate-out conditional randomization test ( http://arxiv.org/abs/2006.08482v2 )

ライセンス: Link先を確認
Eugene Katsevich and Aaditya Ramdas(参考訳) 条件付き独立性テストは重要な問題ですが、仮定なしでは難しくなります。 遅くから人気になった仮定の1つは「モデルX」と呼ばれ、共変数の共分散を知っていると仮定するが、共変数が与えられた結果の条件分布については何も仮定しない。 knockoffsは、このフレームワークに関連する一般的な方法論であるが、2つの主な欠点に苦しんでいる。 各変数の推論には1ビット$p$-valuesしか使えず、メソッドは、実際に実行中にかなりの可変性を持つランダム化されている。 条件付きランダム化テスト(crt)はモデルxの「正しい」解であると考えられているが、通常は計算効率が悪いと見なされる。 本稿では,ノックオフの両欠点に対処する計算効率のよいLOCO(Left-one-covariate-out)CRTを提案する。 loco crtは、ファミリーワイズエラー率を制御するのに使用できる有効な$p$-valueを生成し、アルゴリズム的変動はほぼゼロである。 L1ME CRTとよばれるより高速な変種を考案し,不活性変数の除去にクロスバリデーションラッソの安定性に関する新たな観測を生かして計算を再利用する。 最後に、多変量ガウス共変量に対して、LOCO CRT $p$-値の閉形式式を提示する。

Conditional independence testing is an important problem, yet provably hard without assumptions. One of the assumptions that has become popular of late is called "model-X", where we assume we know the joint distribution of the covariates, but assume nothing about the conditional distribution of the outcome given the covariates. Knockoffs is a popular methodology associated with this framework, but it suffers from two main drawbacks: only one-bit $p$-values are available for inference on each variable, and the method is randomized with significant variability across runs in practice. The conditional randomization test (CRT) is thought to be the "right" solution under model-X, but usually viewed as computationally inefficient. This paper proposes a computationally efficient leave-one-covariate-out (LOCO) CRT that addresses both drawbacks of knockoffs. LOCO CRT produces valid $p$-values that can be used to control the familywise error rate, and has nearly zero algorithmic variability. For L1 regularized M-estimators, we develop an even faster variant called L1ME CRT, which reuses computation by leveraging a novel observation about the stability of the cross-validated lasso to removing inactive variables. Last, for multivariate Gaussian covariates, we present a closed form expression for the LOCO CRT $p$-value, thus completely eliminating resampling in this important special case.
翻訳日:2022-11-21 04:54:16 公開日:2020-07-13
# ピアノ演奏の制御可能な音声合成のための生成モデル

Generative Modelling for Controllable Audio Synthesis of Expressive Piano Performance ( http://arxiv.org/abs/2006.09833v2 )

ライセンス: Link先を確認
Hao Hao Tan, Yin-Jyun Luo, Dorien Herremans(参考訳) 本稿では,Gaussian Mixture Variational Autoencoders(GM-VAE)に基づく制御可能なニューラルオーディオシンセサイザーを提案する。 音声合成の過程において,モデルがどのように微細な形態変化を適用できるかを示す。 これは、前の変数からサンプリングしたり、他の要素から推論できる潜在変数である条件に基づいている。 想定されたユースケースの1つは、既存のピアノ音楽の創造的で新しい解釈を刺激することである。

We present a controllable neural audio synthesizer based on Gaussian Mixture Variational Autoencoders (GM-VAE), which can generate realistic piano performances in the audio domain that closely follows temporal conditions of two essential style features for piano performances: articulation and dynamics. We demonstrate how the model is able to apply fine-grained style morphing over the course of synthesizing the audio. This is based on conditions which are latent variables that can be sampled from the prior or inferred from other pieces. One of the envisioned use cases is to inspire creative and brand new interpretations for existing pieces of piano music.
翻訳日:2022-11-20 21:55:30 公開日:2020-07-13
# 正規化流れを伴う密度デコンボリューション

Density Deconvolution with Normalizing Flows ( http://arxiv.org/abs/2006.09396v2 )

ライセンス: Link先を確認
Tim Dockhorn, James A. Ritchie, Yaoliang Yu, Iain Murray(参考訳) 密度デコンボリューション(英: density deconvolution)は、雑音に汚染されたサンプルのみの確率密度関数を推定するタスクである。 ガウス混合モデルは, 雑音が正規分布する場合は最大確率で最大密度に適合するが, 正規化流れの優れた密度推定性能を活用し, 任意の雑音分布を可能にする。 どちらの調整も難解な可能性をもたらすので、我々は変分推論を償却する。 しかし, 実データを用いた実験により, 密度デコンボリューションにおいて, 流れがガウス混合よりも優れていることを示した。

Density deconvolution is the task of estimating a probability density function given only noise-corrupted samples. We can fit a Gaussian mixture model to the underlying density by maximum likelihood if the noise is normally distributed, but would like to exploit the superior density estimation performance of normalizing flows and allow for arbitrary noise distributions. Since both adjustments lead to an intractable likelihood, we resort to amortized variational inference. We demonstrate some problems involved in this approach, however, experiments on real data demonstrate that flows can already out-perform Gaussian mixtures for density deconvolution.
翻訳日:2022-11-20 19:36:01 公開日:2020-07-13
# オープンドメイン対話エージェントの現状と課題,今後の方向性

Open-Domain Conversational Agents: Current Progress, Open Problems, and Future Directions ( http://arxiv.org/abs/2006.12442v2 )

ライセンス: Link先を確認
Stephen Roller, Y-Lan Boureau, Jason Weston, Antoine Bordes, Emily Dinan, Angela Fan, David Gunning, Da Ju, Margaret Li, Spencer Poff, Pratik Ringshia, Kurt Shuster, Eric Michael Smith, Arthur Szlam, Jack Urbanek, Mary Williamson(参考訳) 我々は,このようなエージェントの質,これまで構築されてきたパズルのピース,そして私たちがまだ満たしていない隙間穴を網羅する,魅力的なオープンドメイン会話エージェントを構築するために必要なものについて,我々の見解を述べる。 それぞれの領域で関連する作業を引用しながら、私たち自身のグループによる作業に注目しながら、バイアスのある見解を示します。 特に、継続学習の特性、エンゲージメントコンテンツの提供、順調な行動、そしてそれらを提供することの成功を測定する方法について、詳細に議論する。 最終的には、経験と学び、コミュニティへの推奨について議論します。

We present our view of what is necessary to build an engaging open-domain conversational agent: covering the qualities of such an agent, the pieces of the puzzle that have been built so far, and the gaping holes we have not filled yet. We present a biased view, focusing on work done by our own group, while citing related work in each area. In particular, we discuss in detail the properties of continual learning, providing engaging content, and being well-behaved -- and how to measure success in providing them. We end with a discussion of our experience and learnings, and our recommendations to the community.
翻訳日:2022-11-18 04:36:34 公開日:2020-07-13
# パッチSVDD:異常検出とセグメンテーションのためのパッチレベルSVDD

Patch SVDD: Patch-level SVDD for Anomaly Detection and Segmentation ( http://arxiv.org/abs/2006.16067v2 )

ライセンス: Link先を確認
Jihun Yi and Sungroh Yoon(参考訳) 本稿では,画像の異常検出とセグメント化の問題に対処する。 異常検出は、入力画像が異常を含むかどうかを二分決定し、異常分割は画素レベルで異常を見つけることを目的としている。 サポートベクターデータ記述(svdd)は,異常検出に長く用いられてきたアルゴリズムである。 この拡張は異常セグメンテーションを可能にし、検出性能を向上させる。 その結果、MVTec ADデータセット上のAUROCで測定された異常検出とセグメンテーション性能は、従来の最先端手法と比較して、それぞれ9.8%と7.0%増加した。 本研究は,提案手法の有効性と産業応用の可能性を示すものである。 提案手法の詳細な解析は、その振る舞いに関する洞察を提供し、コードはオンラインで入手できる。

In this paper, we address the problem of image anomaly detection and segmentation. Anomaly detection involves making a binary decision as to whether an input image contains an anomaly, and anomaly segmentation aims to locate the anomaly on the pixel level. Support vector data description (SVDD) is a long-standing algorithm used for an anomaly detection, and we extend its deep learning variant to the patch-based method using self-supervised learning. This extension enables anomaly segmentation and improves detection performance. As a result, anomaly detection and segmentation performances measured in AUROC on MVTec AD dataset increased by 9.8% and 7.0%, respectively, compared to the previous state-of-the-art methods. Our results indicate the efficacy of the proposed method and its potential for industrial application. Detailed analysis of the proposed method offers insights regarding its behavior, and the code is available online.
翻訳日:2022-11-15 14:48:32 公開日:2020-07-13
# 時間的知識グラフにおける相対時間を用いたソフトウェア工学イベントモデリング

Software Engineering Event Modeling using Relative Time in Temporal Knowledge Graphs ( http://arxiv.org/abs/2007.01231v2 )

ライセンス: Link先を確認
Kian Ahrabian, Daniel Tarlow, Hehuimin Cheng, Jin L.C. Guo(参考訳) 最大規模のソーシャルコーディングプラットフォームであるGitHubのアーティファクト間の日々のインタラクションに基づいて,マルチリレーショナルな時間知識グラフを提示する。 このような表現は、多くのユーザアクティビティやプロジェクト管理の質問をリンク予測や知識グラフ上の時間クエリとして表現することができる。 特に 2つの新しいデータセットを紹介します 一 補間時間条件リンク予測及び補間 二 時間条件付きリンク/時間予測クエリで、それぞれ特有な特性を有するもの これらのデータセットの実験は、幅広いソフトウェアエンジニアリングの質問に答えるために知識グラフを適用する可能性を強調します。 一方で、外挿クエリや一般的な時間予測クエリに対する既存の時間モデルのパフォーマンスが満足できないことも明らかにしている。 これらの欠点を克服するために,過去の出来事に関する相対時間情報を用いた時間モデルの拡張を提案する。

We present a multi-relational temporal Knowledge Graph based on the daily interactions between artifacts in GitHub, one of the largest social coding platforms. Such representation enables posing many user-activity and project management questions as link prediction and time queries over the knowledge graph. In particular, we introduce two new datasets for i) interpolated time-conditioned link prediction and ii) extrapolated time-conditioned link/time prediction queries, each with distinguished properties. Our experiments on these datasets highlight the potential of adapting knowledge graphs to answer broad software engineering questions. Meanwhile, it also reveals the unsatisfactory performance of existing temporal models on extrapolated queries and time prediction queries in general. To overcome these shortcomings, we introduce an extension to current temporal models using relative temporal information with regards to past events.
翻訳日:2022-11-14 13:51:22 公開日:2020-07-13
# ドメイン適応型人物再識別のための複数のエキスパートブレインストーミング

Multiple Expert Brainstorming for Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2007.01546v3 )

ライセンス: Link先を確認
Yunpeng Zhai, Qixiang Ye, Shijian Lu, Mengxi Jia, Rongrong Ji and Yonghong Tian(参考訳) ディープ・ニューラル・モデルは、しばしば複数のベースレベル・ネットワークのアンサンブルであるが、ドメイン適応型人物のre-IDに関するアンサンブル・ラーニングは未解明のままである。 本稿では、ドメイン適応型人物再IDのための複数専門家ブレインストーミングネットワーク(MEB-Net)を提案し、教師なし条件下でのモデルアンサンブル問題に対する有望な方向性を示す。 MEB-Netは相互学習戦略を採用し、異なるアーキテクチャを持つ複数のネットワークを特定の特徴と知識を備えたエキスパートモデルとしてソースドメイン内で事前訓練し、その適応はエキスパートモデル間のブレインストーミング(相互学習)によって達成される。 MEB-Netは、異なるアーキテクチャで学んだ専門家の不均一性に対応し、専門家の権威に関する規則化スキームを導入することにより、適応されたre-IDモデルの識別能力を高める。 大規模データセット(Market-1501とDukeMTMC-reID)の大規模な実験は、最先端技術よりもMEB-Netの方が優れた性能を示す。

Often the best performing deep neural models are ensembles of multiple base-level networks, nevertheless, ensemble learning with respect to domain adaptive person re-ID remains unexplored. In this paper, we propose a multiple expert brainstorming network (MEB-Net) for domain adaptive person re-ID, opening up a promising direction about model ensemble problem under unsupervised conditions. MEB-Net adopts a mutual learning strategy, where multiple networks with different architectures are pre-trained within a source domain as expert models equipped with specific features and knowledge, while the adaptation is then accomplished through brainstorming (mutual learning) among expert models. MEB-Net accommodates the heterogeneity of experts learned with different architectures and enhances discrimination capability of the adapted re-ID model, by introducing a regularization scheme about authority of experts. Extensive experiments on large-scale datasets (Market-1501 and DukeMTMC-reID) demonstrate the superior performance of MEB-Net over the state-of-the-arts.
翻訳日:2022-11-14 05:39:20 公開日:2020-07-13
# ソーシャルメディアコンテンツに対する感性分析

Sentiment Analysis on Social Media Content ( http://arxiv.org/abs/2007.02144v2 )

ライセンス: Link先を確認
Antony Samuels, John Mcgonical(参考訳) 現在、世界中の人々がソーシャルメディアサイトを使って情報を共有している。 例えばTwitterは、ユーザーがツイートとして知られる投稿を送受信し、異なるコミュニティとやりとりするプラットフォームだ。 ユーザーは日々の生活を共有し、ブランドや場所などあらゆるものに意見を投稿する。 企業は、意見に関するデータを収集することで、この巨大なプラットフォームから恩恵を受けることができる。 本研究の目的は,Twitterから収集した実データの感情分析を行うモデルを提案することである。 Twitterのデータは非常に非構造化されており、分析が難しい。 しかし,本提案手法は,教師付き機械学習アルゴリズムと教師なし機械学習アルゴリズムの併用により,この分野の先行研究とは異なる。 感情分析を行うプロセスは以下のとおりである。 twitter apiから直接ツイートを抽出し、その後、実行されたデータのクリーニングと発見を行う。 その後、データはトレーニングのために複数のモデルに入力された。 それぞれのツイートは、肯定的か否定的か中立かという感情に基づいて分類された。 マクドナルドとKFCは、どのレストランが人気があるかを示すために、データを収集した。 異なる機械学習アルゴリズムが使われた。 これらのモデルの結果は、cross validationやf-scoreなど、さまざまなテストメトリクスを使用してテストされた。 さらに,本モデルでは,Twitterから直接抽出したテキストのマイニングに強い性能を示す。

Nowadays, people from all around the world use social media sites to share information. Twitter for example is a platform in which users send, read posts known as tweets and interact with different communities. Users share their daily lives, post their opinions on everything such as brands and places. Companies can benefit from this massive platform by collecting data related to opinions on them. The aim of this paper is to present a model that can perform sentiment analysis of real data collected from Twitter. Data in Twitter is highly unstructured which makes it difficult to analyze. However, our proposed model is different from prior work in this field because it combined the use of supervised and unsupervised machine learning algorithms. The process of performing sentiment analysis as follows: Tweet extracted directly from Twitter API, then cleaning and discovery of data performed. After that the data were fed into several models for the purpose of training. Each tweet extracted classified based on its sentiment whether it is a positive, negative or neutral. Data were collected on two subjects McDonalds and KFC to show which restaurant has more popularity. Different machine learning algorithms were used. The result from these models were tested using various testing metrics like cross validation and f-score. Moreover, our model demonstrates strong performance on mining texts extracted directly from Twitter.
翻訳日:2022-11-13 13:21:13 公開日:2020-07-13
# feedforward-feedbackループに基づく立体視覚慣性ポーズ推定

Stereo Visual Inertial Pose Estimation Based on Feedforward-Feedback Loops ( http://arxiv.org/abs/2007.02250v2 )

ライセンス: Link先を確認
Shengyang Chen, Chih-Yung Wen, Yajing Zou and Wu Chen(参考訳) 本稿では,新しい立体視覚慣性ポーズ推定法を提案する。 フィルタベースや最適化ベースのアプローチと比較して、ポーズ推定プロセスは制御系としてモデル化される。 フィードバックループの勾配低下、ロールピッチフィードフォワードループ、バイアス推定フィードバックループを含む、システムの安定的な制御を実現するために、設計されたフィードバックまたはフィードフォワードループを導入している。 FLVIS(Feedforward-feedback Loop-based Visual Inertial System)と名付けられたこのシステムは、人気のあるEuRoc MAVデータセットに基づいて評価される。 FLVISは他の最先端のビジュアルSLAMアプローチと比較して高い精度と堅牢性を達成する。 このシステムはUAVプラットフォーム上でも実装およびテストされている。 この研究のソースコードは研究コミュニティに公開されている。

In this paper, we present a novel stereo visual inertial pose estimation method. Compared to the widely used filter-based or optimization-based approaches, the pose estimation process is modeled as a control system. Designed feedback or feedforward loops are introduced to achieve the stable control of the system, which include a gradient decreased feedback loop, a roll-pitch feed forward loop and a bias estimation feedback loop. This system, named FLVIS (Feedforward-feedback Loop-based Visual Inertial System), is evaluated on the popular EuRoc MAV dataset. FLVIS achieves high accuracy and robustness with respect to other state-of-the-art visual SLAM approaches. The system has also been implemented and tested on a UAV platform. The source code of this research is public to the research community.
翻訳日:2022-11-13 08:29:37 公開日:2020-07-13
# 反射バックドア:ディープニューラルネットワークに対する自然なバックドア攻撃

Reflection Backdoor: A Natural Backdoor Attack on Deep Neural Networks ( http://arxiv.org/abs/2007.02343v2 )

ライセンス: Link先を確認
Yunfei Liu, Xingjun Ma, James Bailey, Feng Lu(参考訳) 近年の研究では、DNNは訓練時に作られたバックドア攻撃によって損なわれる可能性があることが示されている。 バックドア攻撃は、少量のトレーニングデータにバックドアパターンを注入して、被害者モデルにバックドアをインストールする。 テスト時には、犠牲者モデルは、通常クリーンなテストデータで振る舞うが、テスト例にバックドアパターンが存在するときは常に、特定の(おそらく不正確な)ターゲットクラスを予測する。 既存のバックドア攻撃は効果的だが、ステルス性はない。 トレーニングデータやラベルに対する修正はしばしば疑わしいものであり、単純なデータフィルタリングや人間の検査によって容易に検出できる。 本稿では,重要な自然現象である反射に触発された新たなバックドア攻撃について述べる。 物理反射モデルの数学的モデリングを用いて、反射をバックドアとして犠牲者モデルに植え付ける反射バックドア(Refool)を提案する。 3つのコンピュータビジョンタスクと5つのデータセットで、refoolは最先端のdnnを高い成功率で攻撃でき、最先端のバックドア防御に耐性があることを示す。

Recent studies have shown that DNNs can be compromised by backdoor attacks crafted at training time. A backdoor attack installs a backdoor into the victim model by injecting a backdoor pattern into a small proportion of the training data. At test time, the victim model behaves normally on clean test data, yet consistently predicts a specific (likely incorrect) target class whenever the backdoor pattern is present in a test example. While existing backdoor attacks are effective, they are not stealthy. The modifications made on training data or labels are often suspicious and can be easily detected by simple data filtering or human inspection. In this paper, we present a new type of backdoor attack inspired by an important natural phenomenon: reflection. Using mathematical modeling of physical reflection models, we propose reflection backdoor (Refool) to plant reflections as backdoor into a victim model. We demonstrate on 3 computer vision tasks and 5 datasets that, Refool can attack state-of-the-art DNNs with high success rate, and is resistant to state-of-the-art backdoor defenses.
翻訳日:2022-11-13 08:22:12 公開日:2020-07-13
# 全脳MRIにおけるめまい検出とラベリングへの畳み込みアプローチ

A Convolutional Approach to Vertebrae Detection and Labelling in Whole Spine MRI ( http://arxiv.org/abs/2007.02606v3 )

ライセンス: Link先を確認
Rhydian Windsor, Amir Jamaludin, Timor Kadir, Andrew Zisserman(参考訳) 脊椎MRIにおける脊椎の発見と同定のための新しい畳み込み法を提案する。 これは学習ベクトル場を用いて、検出された脊椎の角を個々の脊椎体にまとめ、畳み込み画像と画像の変換を行い、その後、自己一貫性のある方法で脊椎レベルのラベル付けを行う。 この方法は、さまざまなmr配列にわたる腰椎、頚椎、胸椎のみのスキャンに修正を加えることなく適用することができる。 その結果、全脊椎スキャンの難治な臨床データセット上で98.1%の検出率と96.5%の同定率を達成し、腰椎のみスキャンでの以前のシステムの性能と一致または上回る結果が得られる。 最後に, 腰椎mrスキャンと脊椎mrスキャンの両方において, スクリオシスの自動検出に本法を応用し, 臨床応用の可能性を示す。

We propose a novel convolutional method for the detection and identification of vertebrae in whole spine MRIs. This involves using a learnt vector field to group detected vertebrae corners together into individual vertebral bodies and convolutional image-to-image translation followed by beam search to label vertebral levels in a self-consistent manner. The method can be applied without modification to lumbar, cervical and thoracic-only scans across a range of different MR sequences. The resulting system achieves 98.1% detection rate and 96.5% identification rate on a challenging clinical dataset of whole spine scans and matches or exceeds the performance of previous systems on lumbar-only scans. Finally, we demonstrate the clinical applicability of this method, using it for automated scoliosis detection in both lumbar and whole spine MR scans.
翻訳日:2022-11-13 03:03:53 公開日:2020-07-13
# 空中映像から基本図を抽出する

Extracting the fundamental diagram from aerial footage ( http://arxiv.org/abs/2007.03227v2 )

ライセンス: Link先を確認
Rafael Makrigiorgis, Panayiotis Kolios, Stelios Timotheou, Theocharis Theocharides, Christos G. Panayiotou(参考訳) 効率的な交通監視は,交通ネットワークにおける渋滞対策に不可欠な役割を担っている。 混雑は、システム全体の挙動に影響を与える需要とネットワーク密度の2つの測定可能な特性と強く相関している。 概して、このシステムの振る舞いは、道路セグメント、地域またはネットワークの基本的なダイアグラムによって特徴づけられる。 本稿では,ドローンプラットフォームから得られた空中映像から基本図を得るための革新的な手法を考案する。 提案手法は,車両検出,車両追跡,交通状態推定の3段階からなる。 本稿では,3段階ごとに開発したアルゴリズムについて詳述し,実環境において適用可能性を示す。

Efficient traffic monitoring is playing a fundamental role in successfully tackling congestion in transportation networks. Congestion is strongly correlated with two measurable characteristics, the demand and the network density that impact the overall system behavior. At large, this system behavior is characterized through the fundamental diagram of a road segment, a region or the network. In this paper we devise an innovative way to obtain the fundamental diagram through aerial footage obtained from drone platforms. The derived methodology consists of 3 phases: vehicle detection, vehicle tracking and traffic state estimation. We elaborate on the algorithms developed for each of the 3 phases and demonstrate the applicability of the results in a real-world setting.
翻訳日:2022-11-12 20:17:38 公開日:2020-07-13
# 見た目だけでなく聞き取りも:弱視下でのマルチモーダルビオレンス検出の学習

Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision ( http://arxiv.org/abs/2007.04687v2 )

ライセンス: Link先を確認
Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu, Zhiwei Yang(参考訳) 暴力検出はコンピュータビジョンで長年研究されてきた。 しかし、以前の研究は表面的で、例えばショートクリップの分類や、単独のシナリオ、または供給不足、例えば、単一のモダリティ、手作りの特徴に基づくマルチモーダルである。 この問題に対処するため、我々はまずXD-Violenceという大規模なマルチシーンデータセットを217時間でリリースし、オーディオ信号と弱いラベルを備えた4754の未トリミングビデオを含む。 次に,ビデオスニペット間の異なる関係を捉えるために,3つの並列分岐を含むニューラルネットワークを提案する。そこでは,局所分岐は類似度を先行して長距離依存性を捉え,局所分岐は近接先行を用いて局所的な位置関係を捉え,スコア分岐は予測スコアの近接性を動的にキャプチャする。 また,本手法は,オンライン検出のニーズを満たす近似器も備えている。 提案手法は,我々のリリースデータセットや他の既存のベンチマークにおいて,最先端の手法よりも優れている。 さらに,マルチモーダル入力(視聴覚)とモデリング関係の正の効果についても実験的に検討した。 コードとデータセットはhttps://roc-ng.github.io/XD-Violence/でリリースされる。

Violence detection has been studied in computer vision for years. However, previous work are either superficial, e.g., classification of short-clips, and the single scenario, or undersupplied, e.g., the single modality, and hand-crafted features based multimodality. To address this problem, in this work we first release a large-scale and multi-scene dataset named XD-Violence with a total duration of 217 hours, containing 4754 untrimmed videos with audio signals and weak labels. Then we propose a neural network containing three parallel branches to capture different relations among video snippets and integrate features, where holistic branch captures long-range dependencies using similarity prior, localized branch captures local positional relation using proximity prior, and score branch dynamically captures the closeness of predicted score. Besides, our method also includes an approximator to meet the needs of online detection. Our method outperforms other state-of-the-art methods on our released dataset and other existing benchmark. Moreover, extensive experimental results also show the positive effect of multimodal (audio-visual) input and modeling relationships. The code and dataset will be released in https://roc-ng.github.io/XD-Violence/.
翻訳日:2022-11-12 04:43:23 公開日:2020-07-13
# EOS: 制約付きグローバル最適化のための並列・自己適応型・マルチポピュレーション進化アルゴリズム

EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm for Constrained Global Optimization ( http://arxiv.org/abs/2007.04681v2 )

ライセンス: Link先を確認
Lorenzo Federici, Boris Benedikter, Alessandro Zavoli(参考訳) 本稿では,Sapienzaにおける進化最適化(EOS)と進化最適化(Evolutionary Optimization)の主な特徴と実世界の空間軌道最適化問題への応用について述べる。 EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。 これはよく知られた微分進化(de)アルゴリズムの多くの改善、すなわち制御パラメータの自己適応、流行機構、クラスタリング技術、非線形制約を扱う$\varepsilon$-constrainedメソッド、並列に複数の個体群を扱う同期島モデルを実装している。 以上の結果から,高次元・高制約空間軌道最適化問題に適用した場合,最先端の自己適応型deアルゴリズムに比べて高い性能が得られることがわかった。

This paper presents the main characteristics of the evolutionary optimization code named EOS, Evolutionary Optimization at Sapienza, and its successful application to challenging, real-world space trajectory optimization problems. EOS is a global optimization algorithm for constrained and unconstrained problems of real-valued variables. It implements a number of improvements to the well-known Differential Evolution (DE) algorithm, namely, a self-adaptation of the control parameters, an epidemic mechanism, a clustering technique, an $\varepsilon$-constrained method to deal with nonlinear constraints, and a synchronous island-model to handle multiple populations in parallel. The results reported prove that EOSis capable of achieving increased performance compared to state-of-the-art single-population self-adaptive DE algorithms when applied to high-dimensional or highly-constrained space trajectory optimization problems.
翻訳日:2022-11-12 04:23:59 公開日:2020-07-13
# 原子炉出力の多次元回帰のためのディープサロゲートモデル

Deep Surrogate Models for Multi-dimensional Regression of Reactor Power ( http://arxiv.org/abs/2007.05435v2 )

ライセンス: Link先を確認
Akshay J. Dave, Jarod Wilson, Kaichao Sun(参考訳) 小型のモジュール式原子炉やマイクロリアクターの開発に新たな関心がある。 これらの原子炉の建設と運用には革新が不可欠であり、経済的に魅力的である。 運用分野として、完全自律型原子炉制御の開発がある。 原子力システムの自律的な制御の枠組みを実証する上で重要な努力が必要である。 我々のグループは、MIT Graphite Exponential Pileというサブクリティカルシステム上での自律的なフレームワークのデモンストレーションを提案し、サポートを受けました。 高速な応答(ミリ秒の順序)を得るためには、サロゲートモデルに汎用システムコードの特定の機能を抽出する必要がある。 そこで我々は,最先端のニューラルネットワークライブラリを用いてサロゲートモデルを構築した。 この研究は、原子炉の電力分布の正確かつ正確な多次元回帰を提供するニューラルネットワークの能力を確立することに焦点を当てている。 従来検証されたモデルであるmitリアクターのmcnp5モデルに対して,ニューラルネットワークを用いて評価を行う。 その結果、ニューラルネットワークは、自律型原子炉制御フレームワークに実装するサロゲートモデルに適した選択であることが示された。 すべてのテストデータセットのMAPEは1.16%であり、対応する標準偏差は0.77%である。 誤差は低く、7kWから30kWのコアをまたいで、ノードワイドのフィッションパワーが変化する。

There is renewed interest in developing small modular reactors and micro-reactors. Innovation is necessary in both construction and operation methods of these reactors to be financially attractive. For operation, an area of interest is the development of fully autonomous reactor control. Significant efforts are necessary to demonstrate an autonomous control framework for a nuclear system, while adhering to established safety criteria. Our group has proposed and received support for demonstration of an autonomous framework on a subcritical system: the MIT Graphite Exponential Pile. In order to have a fast response (on the order of miliseconds), we must extract specific capabilities of general-purpose system codes to a surrogate model. Thus, we have adopted current state-of-the-art neural network libraries to build surrogate models. This work focuses on establishing the capability of neural networks to provide an accurate and precise multi-dimensional regression of a nuclear reactor's power distribution. We assess using a neural network surrogate against a previously validated model: an MCNP5 model of the MIT reactor. The results indicate that neural networks are an appropriate choice for surrogate models to implement in an autonomous reactor control framework. The MAPE across all test datasets was < 1.16 % with a corresponding standard deviation of < 0.77 %. The error is low, considering that the node-wise fission power can vary from 7 kW to 30 kW across the core.
翻訳日:2022-11-11 22:44:32 公開日:2020-07-13
# sikj$\alpha$モデルによるcovid-19死亡の迅速かつ正確な予測

Fast and Accurate Forecasting of COVID-19 Deaths Using the SIkJ$\alpha$ Model ( http://arxiv.org/abs/2007.05180v2 )

ライセンス: Link先を確認
Ajitesh Srivastava, Tianjian Xu, Viktor K. Prasanna(参考訳) 新型コロナウイルス(covid-19)の影響を予測することは、パンデミックに対応するための政策を設計する上で不可欠だ。 既に多くの方法が提案されており、特に国家レベルでの報告された事例や死亡を予測している。 これらの手法の多くは、シミュレーションやベイズ推定に頼りながら同時に多くのパラメータを学習する伝統的な疫学モデルに基づいている。 これにより、オーバーフィッティングや実行が遅くなる。 死を予測するためのモデル sikj$\alpha$ の拡張を提案し、流行の過程における多くの複雑さの影響を考慮できるが、高速線形回帰を用いて学習されるいくつかのパラメータに単純化できることを示した。 また,cdcが現在使用している7つのアプローチに対する提案手法について,パンデミック時の各時期の2週間の予測に基づいて評価する。 本手法は, 評価期間の大部分において, これら7つの手法と比較して, ルート平均二乗誤差がよいことを示す。 さらに、2コアのデスクトップマシンでは、ハイパーパラメータをチューニングし、パラメータを学習し、米国のすべての州で報告されたケースと死亡の100日間の予測を生成するのに、3.18秒しかかからない。 184カ国の執行時間は11.83秒であり、アメリカ全郡(3000ドル)は101.03秒である。

Forecasting the effect of COVID-19 is essential to design policies that may prepare us to handle the pandemic. Many methods have already been proposed, particularly, to forecast reported cases and deaths at country-level and state-level. Many of these methods are based on traditional epidemiological model which rely on simulations or Bayesian inference to simultaneously learn many parameters at a time. This makes them prone to over-fitting and slow execution. We propose an extension to our model SIkJ$\alpha$ to forecast deaths and show that it can consider the effect of many complexities of the epidemic process and yet be simplified to a few parameters that are learned using fast linear regressions. We also present an evaluation of our method against seven approaches currently being used by the CDC, based on their two weeks forecast at various times during the pandemic. We demonstrate that our method achieves better root mean squared error compared to these seven approaches during majority of the evaluation period. Further, on a 2 core desktop machine, our approach takes only 3.18s to tune hyper-parameters, learn parameters and generate 100 days of forecasts of reported cases and deaths for all the states in the US. The total execution time for 184 countries is 11.83s and for all the US counties ($>$ 3000) is 101.03s.
翻訳日:2022-11-11 22:43:34 公開日:2020-07-13
# SIMBA:骨年齢評価のための特異な識別マーカー

SIMBA: Specific Identity Markers for Bone Age Assessment ( http://arxiv.org/abs/2007.05454v2 )

ライセンス: Link先を確認
Cristina Gonz\'alez and Mar\'ia Escobar and Laura Daza and Felipe Torres and Gustavo Triana and Pablo Arbel\'aez(参考訳) 骨年齢評価 (BAA) は、放射線技師が小児の異常な成長を診断するための課題である。 手動のアプローチでは、放射線科医は骨年齢、すなわち年代、性別を計算する際に異なる識別マーカーを考慮に入れる。 しかし,現在の骨年齢自動評価法は,患者のメタデータに含まれている情報を完全に活用するものではない。 この方法の欠如をモチベーションとして,骨年齢評価のためのSIMBA: specific Identity Markersを提案する。 SIMBAは、識別マーカーを用いたBAAタスクのための新しいアプローチである。 この目的のために,本研究では,識別マーカーに存在する情報と,元のハンドラジオグラフィから生成した視覚的特徴とを融合した最新技術モデルを構築した。 次に、この頑健な表現を用いて、患者の相対的な骨年齢(年代と骨年齢の差)を推定する。 我々は,放射線ハンドポース推定データセット上でSIMBAを検証し,従来の最先端手法よりも優れていることを確認した。 SIMBAは、患者に関するすべてのデータを組み込んだコンピュータ支援診断手法の新たな波の傾向を定めている。 この領域のさらなる研究を促進し、再現性を確保するため、SIMBAの事前訓練されたモデルと同様にソースコードを提供する。

Bone Age Assessment (BAA) is a task performed by radiologists to diagnose abnormal growth in a child. In manual approaches, radiologists take into account different identity markers when calculating bone age, i.e., chronological age and gender. However, the current automated Bone Age Assessment methods do not completely exploit the information present in the patient's metadata. With this lack of available methods as motivation, we present SIMBA: Specific Identity Markers for Bone Age Assessment. SIMBA is a novel approach for the task of BAA based on the use of identity markers. For this purpose, we build upon the state-of-the-art model, fusing the information present in the identity markers with the visual features created from the original hand radiograph. We then use this robust representation to estimate the patient's relative bone age: the difference between chronological age and bone age. We validate SIMBA on the Radiological Hand Pose Estimation dataset and find that it outperforms previous state-of-the-art methods. SIMBA sets a trend of a new wave of Computer-aided Diagnosis methods that incorporate all of the data that is available regarding a patient. To promote further research in this area and ensure reproducibility we will provide the source code as well as the pre-trained models of SIMBA.
翻訳日:2022-11-11 22:34:44 公開日:2020-07-13
# Word Mover 距離を用いたユーザストーリーのトピックモデリング

Topic Modeling on User Stories using Word Mover's Distance ( http://arxiv.org/abs/2007.05302v2 )

ライセンス: Link先を確認
Kim Julian G\"ulle, Nicholas Ford, Patrick Ebel, Florian Brokhausen, Andreas Vogelsang(参考訳) 近年,さまざまなメディアを通じてフィードバックを表現している,大規模で異質なユーザグループを継続的に巻き込む,クラウドベースの手法が要求を補完している。 クラウドベースの勧誘は、早期に(潜在的に)ユーザと関わり合う大きな可能性を秘めているが、結果として生のフィードバックと非構造化のフィードバックが大量に得られる。 このフィードバックの統合と分析は、ユーザ要求を適切なものにするための重要な課題です。 本稿では,多くのユーザストーリーの中からトピックを識別する手段としてトピックモデリングに注目し,(1)潜在ディリクレ割り当てに基づく従来のアプローチ,(2)単語埋め込みと主成分分析の組み合わせ,(3)単語埋め込みと単語移動者の距離の組み合わせ,の3つのアプローチを比較した。 群衆労働者による2,966件のユーザストーリーを公開して評価した。 単語埋め込みとWord MoverのDistanceの組み合わせが最も有望であることが分かりました。 私たちのアプローチで使用する単語埋め込みによっては、ユーザストーリを2つの方法でクラスタ化することが可能になります。 残念ながら、結果の質を客観的に評価する手段は存在しない。 しかし,この調査結果は,クラウドソーシングによるユーザストーリーの分析に向けた今後の取り組みの基盤となる。

Requirements elicitation has recently been complemented with crowd-based techniques, which continuously involve large, heterogeneous groups of users who express their feedback through a variety of media. Crowd-based elicitation has great potential for engaging with (potential) users early on but also results in large sets of raw and unstructured feedback. Consolidating and analyzing this feedback is a key challenge for turning it into sensible user requirements. In this paper, we focus on topic modeling as a means to identify topics within a large set of crowd-generated user stories and compare three approaches: (1) a traditional approach based on Latent Dirichlet Allocation, (2) a combination of word embeddings and principal component analysis, and (3) a combination of word embeddings and Word Mover's Distance. We evaluate the approaches on a publicly available set of 2,966 user stories written and categorized by crowd workers. We found that a combination of word embeddings and Word Mover's Distance is most promising. Depending on the word embeddings we use in our approaches, we manage to cluster the user stories in two ways: one that is closer to the original categorization and another that allows new insights into the dataset, e.g. to find potentially new categories. Unfortunately, no measure exists to rate the quality of our results objectively. Still, our findings provide a basis for future work towards analyzing crowd-sourced user stories.
翻訳日:2022-11-11 22:16:21 公開日:2020-07-13
# 画像検索のためのデータ効率の高いランキング蒸留

Data-Efficient Ranking Distillation for Image Retrieval ( http://arxiv.org/abs/2007.05299v2 )

ライセンス: Link先を確認
Zakaria Laskar, Juho Kannala(参考訳) 近年のディープラーニングの進歩は,画像検索分野の急速な発展につながっている。 しかし、最も優れたアーキテクチャは計算コストを大幅に削減する。 近年のアプローチでは、より深く重いアーキテクチャからより小さなネットワークへ知識を伝達するために知識蒸留を用いる。 本稿では,計量学習問題に対する知識蒸留について述べる。 従来の手法とは異なり,提案手法は以下の制約に対応する。 一 教師モデルに限られたクエリ 二 最終出力表現へのアクセスを有するブラックボックス教師モデル、及び 三 ゼロトラストラベルのない元の訓練データのごく一部 また, 蒸留法では, 生徒と教師が同じ次元を持つ必要はない。 これらの制約に対処することで、計算要件の削減、大規模トレーニングデータセットへの依存、教師モデルや対応するトレーニングデータ/ラベルなどのプライベートデータへの限定的あるいは部分的なアクセスの実用的なシナリオに対処することができる。 鍵となるアイデアは、最終的な出力表現空間で線形補間を行うことで、元のトレーニングセットを追加サンプルで強化することである。 蒸留は、オリジナルおよび強化された教師学生のサンプル表現のジョイント空間で行われる。 その結果,本手法は,完全監視でトレーニングしたベースラインモデルと一致できることが判明した。 低トレーニングのサンプル設定では、教師監督の可能性が低いROxford5kとRParis6k \cite{Roxf}の2つの課題の画像検索データセットに対して、完全に教師されたアプローチよりも優れている。

Recent advances in deep learning has lead to rapid developments in the field of image retrieval. However, the best performing architectures incur significant computational cost. Recent approaches tackle this issue using knowledge distillation to transfer knowledge from a deeper and heavier architecture to a much smaller network. In this paper we address knowledge distillation for metric learning problems. Unlike previous approaches, our proposed method jointly addresses the following constraints i) limited queries to teacher model, ii) black box teacher model with access to the final output representation, and iii) small fraction of original training data without any ground-truth labels. In addition, the distillation method does not require the student and teacher to have same dimensionality. Addressing these constraints reduces computation requirements, dependency on large-scale training datasets and addresses practical scenarios of limited or partial access to private data such as teacher models or the corresponding training data/labels. The key idea is to augment the original training set with additional samples by performing linear interpolation in the final output representation space. Distillation is then performed in the joint space of original and augmented teacher-student sample representations. Results demonstrate that our approach can match baseline models trained with full supervision. In low training sample settings, our approach outperforms the fully supervised approach on two challenging image retrieval datasets, ROxford5k and RParis6k \cite{Roxf} with the least possible teacher supervision.
翻訳日:2022-11-11 22:09:00 公開日:2020-07-13
# 抽象的議論を伴うケースベース推論における慎重な単調性

Cautious Monotonicity in Case-Based Reasoning with Abstract Argumentation ( http://arxiv.org/abs/2007.05284v2 )

ライセンス: Link先を確認
Guilherme Paulino-Passos, Francesca Toni(参考訳) 近年、ケースベース推論(略してaa{\text -}cbr$)の抽象的議論に基づくモデルが提案されており、元々は法領域に触発されたが、画像分類、テキストの感情分析、イギリス議会での法案通過予測など、様々なシナリオにおける分類器としても適用されている。 しかし、推論システムとしての$aa{\text -}cbr$の形式的性質はほとんど未解明である。 本稿では,通常の$AA{\text -}CBR$($AA{\text -}CBR_{\succeq}$)の非単調性を解析することに焦点を当てる。 具体的には、$AA{\text -}CBR_{\succeq}$は慎重な単調性ではなく、非単調推論の文献においてしばしば望ましい性質であることを示す。 次に、慎重に単調である$aa{\text -}cbr_{\succeq}$のバリエーションを定義し、それを取得するアルゴリズムを提供する。 さらに、そのようなバリエーションは、元のケースベースにあるすべての"サプライ"ケースで構成される制限されたケースベースを持つ$AA{\text -}CBR_{\succeq}$と等価であることを示す。

Recently, abstract argumentation-based models of case-based reasoning ($AA{\text -}CBR$ in short) have been proposed, originally inspired by the legal domain, but also applicable as classifiers in different scenarios, including image classification, sentiment analysis of text, and in predicting the passage of bills in the UK Parliament. However, the formal properties of $AA{\text -}CBR$ as a reasoning system remain largely unexplored. In this paper, we focus on analysing the non-monotonicity properties of a regular version of $AA{\text -}CBR$ (that we call $AA{\text -}CBR_{\succeq}$). Specifically, we prove that $AA{\text -}CBR_{\succeq}$ is not cautiously monotonic, a property frequently considered desirable in the literature of non-monotonic reasoning. We then define a variation of $AA{\text -}CBR_{\succeq}$ which is cautiously monotonic, and provide an algorithm for obtaining it. Further, we prove that such variation is equivalent to using $AA{\text -}CBR_{\succeq}$ with a restricted casebase consisting of all "surprising" cases in the original casebase.
翻訳日:2022-11-11 21:59:45 公開日:2020-07-13
# ExpertNet: ノイズラベルに対する敵対的学習と回復

ExpertNet: Adversarial Learning and Recovery Against Noisy Labels ( http://arxiv.org/abs/2007.05305v2 )

ライセンス: Link先を確認
Amirmasoud Ghiassi, Robert Birke, Rui Han, Lydia Y.Chen(参考訳) 今日、ソーシャルメディアやオープンプラットフォームから利用可能なデータセットは、タグ付けされた画像のかなりの部分が存在しているが、しばしばノイズ、すなわち誤ったラベルがあるため、ディープラーニングに対する大きな機会と課題を提示する。 近年の研究では、真のラベルの知識のないディープモデルのノイズラベルに対する堅牢性が改善されている。 本稿では,従来の画像に加えて,雑音ラベルを積極的に活用し,雑音ラベルを学習機能に転換する強力な分類器の導出を提唱する。 そこで本稿では,アマチュアと専門家からなる新しいフレームワークであるexpertnetを提案する。 アマチュアは、専門家のフィードバックによって訓練された通常の画像分類器であり、ノイズラベルと地上ラベルの両方の知識から学んだノイズパターンを用いて、人間の専門家がアマチュアから予測されたラベルをどのように修正するかを模倣する。 訓練されたアマチュアとエキスパートは積極的に画像とそのノイズラベルを利用して画像クラスを推論する。 cifar-10, cifar-100, and real-world data of clothing1mのノイズ評価の結果,提案モデルでは,ノイズラベルの影響を蒸留することだけに焦点を当てた最先端の深層モデルと比較して,幅広い雑音比と20~50%のトレーニングデータに対してロバストな分類が可能であった。

Today's available datasets in the wild, e.g., from social media and open platforms, present tremendous opportunities and challenges for deep learning, as there is a significant portion of tagged images, but often with noisy, i.e. erroneous, labels. Recent studies improve the robustness of deep models against noisy labels without the knowledge of true labels. In this paper, we advocate to derive a stronger classifier which proactively makes use of the noisy labels in addition to the original images - turning noisy labels into learning features. To such an end, we propose a novel framework, ExpertNet, composed of Amateur and Expert, which iteratively learn from each other. Amateur is a regular image classifier trained by the feedback of Expert, which imitates how human experts would correct the predicted labels from Amateur using the noise pattern learnt from the knowledge of both the noisy and ground truth labels. The trained Amateur and Expert proactively leverage the images and their noisy labels to infer image classes. Our empirical evaluations on noisy versions of CIFAR-10, CIFAR-100 and real-world data of Clothing1M show that the proposed model can achieve robust classification against a wide range of noise ratios and with as little as 20-50% training data, compared to state-of-the-art deep models that solely focus on distilling the impact of noisy labels.
翻訳日:2022-11-11 21:05:40 公開日:2020-07-13
# 機能シミュレーションによる筋骨格制御の強化学習

Reinforcement Learning of Musculoskeletal Control from Functional Simulations ( http://arxiv.org/abs/2007.06669v1 )

ライセンス: Link先を確認
Emanuel Joos, Fabien P\'ean, Orcun Goksel(参考訳) 筋骨格病理を診断、計画、治療するためには、複雑な運動に対する筋リクルートの理解、再生が不可欠である。 運動に対する筋肉の活性化は、しばしば非常に冗長で非線形で時間に依存するため、機械学習は解剖学固有の筋骨格シミュレーションのモデリングと制御のためのソリューションを提供することができる。 高度な生体力学的シミュレーションは、数値的に複雑で遅く、典型的なディープラーニングフレームワークとの統合を妨げる、特別な計算環境を必要とすることが多い。 本研究は、深部強化学習(DRL)に基づく逆動力学制御器を用いて、人間の肩の生体力学的モデルによる筋活動の制御を訓練する。 一般化可能なエンド・ツー・エンドの手法では、電流と所望の位置速度対から筋肉の活性化が学習される。 軌道制御のためのカスタマイズされた報酬関数を導入し、筋肉への直接的な拡張とより高い自由度を可能にした。 生体力学モデルを用いて、訓練中のDRLの進化的ニューラルモデルを用いて、複数のエピソードをクラスタ上で同時にシミュレーションする。 その結果,無作為に発生する角軌道に追従する作業に対して,肩下降の単一軸運動制御を行うことができた。

To diagnose, plan, and treat musculoskeletal pathologies, understanding and reproducing muscle recruitment for complex movements is essential. With muscle activations for movements often being highly redundant, nonlinear, and time dependent, machine learning can provide a solution for their modeling and control for anatomy-specific musculoskeletal simulations. Sophisticated biomechanical simulations often require specialized computational environments, being numerically complex and slow, hindering their integration with typical deep learning frameworks. In this work, a deep reinforcement learning (DRL) based inverse dynamics controller is trained to control muscle activations of a biomechanical model of the human shoulder. In a generalizable end-to-end fashion, muscle activations are learned given current and desired position-velocity pairs. A customized reward functions for trajectory control is introduced, enabling straightforward extension to additional muscles and higher degrees of freedom. Using the biomechanical model, multiple episodes are simulated on a cluster simultaneously using the evolving neural models of the DRL being trained. Results are presented for a single-axis motion control of shoulder abduction for the task of following randomly generated angular trajectories.
翻訳日:2022-11-11 00:54:26 公開日:2020-07-13
# SIMBA(Free-running SIMilarity-based Angiography)による心臓解剖学的MRIの簡易化

Free-running SIMilarity-Based Angiography (SIMBA) for simplified anatomical MR imaging of the heart ( http://arxiv.org/abs/2007.06544v1 )

ライセンス: Link先を確認
John Heerfordt, Kevin K. Whitehead, Jessica A.M. Bastiaansen, Lorenzo Di Sopra, Christopher W. Roy, J\'er\^ome Yerly, Bastien Milani, Mark A. Fogel, Matthias Stuber, Davide Piccini(参考訳) 目的: 全心mra法は通常、予め決められた運動状態を対象とし、心臓と呼吸の動態を独立して扱う。 本研究では, 取得したデータに固有の類似性を生かし, 生理的制約を回避できる新しい高速再構成アルゴリズムを提案する。 理論と方法: SIMBA法は, 連続的に取得したk空間データをクラスタリングして, 動き圧縮された全調波MRAに再構成可能な動作一貫性サブセットを求める。 小児心疾患患者6例, 健常者12例の非コントラストスキャンによるフリーランニング3次元放射状データセットを, 全データ(全データ), SIMBA法, 心拍・呼吸自己ゲーティング・圧縮センシングを併用したフリーランニングフレームワーク(FRF)を用いて再構成した。 血液心筋界面のシャープネス,コントラスト比,冠動脈閉塞の視認性について比較検討した。 結果: 高速simba再建法 (~20s) とfrfは全データより有意に高い血液心筋鋭さを示した(p<0.001)。 前者間に有意差は認められなかった。 simbaでは全データとfrf (p<0.01) と比較して, 血液-心筋コントラスト比が有意に高かった。 All Data (All Data: 4/36, SIMBA: 30/36, FRF: 33/36, 両者ともP<0.001) よりも, SIMBAとFRFのどちらでもより冠状狭窄を可視化できた。 結語: 自由走行シーケンスと高速SIMBA再構成の組み合わせは, 生理運動に関する前提条件なしで動作し, 鋭い解剖構造を持つ全能MRAを得るための簡単なワークフローを形成する。

Purpose: Whole-heart MRA techniques typically target pre-determined motion states and address cardiac and respiratory dynamics independently. We propose a novel fast reconstruction algorithm, applicable to ungated free-running sequences, that leverages inherent similarities in the acquired data to avoid such physiological constraints. Theory and Methods: The proposed SIMilarity-Based Angiography (SIMBA) method clusters the continuously acquired k-space data in order to find a motion-consistent subset that can be reconstructed into a motion-suppressed whole-heart MRA. Free-running 3D radial datasets from six ferumoxytol-enhanced scans of pediatric cardiac patients and twelve non-contrast scans of healthy volunteers were reconstructed with a non-motion-suppressed regridding of all the acquired data (All Data), our proposed SIMBA method, and a previously published free-running framework (FRF) that uses cardiac and respiratory self-gating and compressed sensing. Images were compared for blood-myocardium interface sharpness, contrast ratio, and visibility of coronary artery ostia. Results: Both the fast SIMBA reconstruction (~20s) and the FRF provided significantly higher blood-myocardium sharpness than All Data (P<0.001). No significant difference was observed among the former two. Significantly higher blood-myocardium contrast ratio was obtained with SIMBA compared to All Data and FRF (P<0.01). More coronary ostia could be visualized with both SIMBA and FRF than with All Data (All Data: 4/36, SIMBA: 30/36, FRF: 33/36, both P<0.001) but no significant difference was found between the first two. Conclusion: The combination of free-running sequences and the fast SIMBA reconstruction, which operates without a priori assumptions related to physiological motion, forms a simple workflow for obtaining whole-heart MRA with sharp anatomical structures.
翻訳日:2022-11-11 00:53:24 公開日:2020-07-13
# ストロークリハビリテーション治療のためのソーシャル支援ロボットの個人化インタラクション設計

Designing Personalized Interaction of a Socially Assistive Robot for Stroke Rehabilitation Therapy ( http://arxiv.org/abs/2007.06473v1 )

ライセンス: Link先を確認
Min Hun Lee, Daniel P. Siewiorek, Asim Smailagic, Alexandre Bernardino, and Sergi Berm\'udez i Badia(参考訳) 社会支援ロボットの研究は、神経学的および筋骨格疾患(例えば脳卒中)患者の理学療法セッションを増強し、補助する可能性がある。 理学療法のセッションでは、パーソナライズされたフィードバックの生成が患者の関与を改善する上で重要である。 しかし, 理学療法における社会支援ロボティクスの先行研究は, 様々な身体的, 機能的能力を有する患者でも, 事前に定義された矯正フィードバックを主に活用している。 本稿では, 運動の質を予測するために, 個々の運動の運動特性を動的に選択し, ロボット運動コーチの個人的インタラクションに対して, 患者固有の補正フィードバックを提供する, 社会支援型ロボットの対話的アプローチを提案する。

The research of a socially assistive robot has a potential to augment and assist physical therapy sessions for patients with neurological and musculoskeletal problems (e.g. stroke). During a physical therapy session, generating personalized feedback is critical to improve patient's engagement. However, prior work on socially assistive robotics for physical therapy has mainly utilized pre-defined corrective feedback even if patients have various physical and functional abilities. This paper presents an interactive approach of a socially assistive robot that can dynamically select kinematic features of assessment on individual patient's exercises to predict the quality of motion and provide patient-specific corrective feedback for personalized interaction of a robot exercise coach.
翻訳日:2022-11-11 00:51:36 公開日:2020-07-13
# もし私の選択が気に入らなかったら? 参加型アルゴリズム設計における選好誘発の限界

What If I Don't Like Any Of The Choices? The Limits of Preference Elicitation for Participatory Algorithm Design ( http://arxiv.org/abs/2007.06718v1 )

ライセンス: Link先を確認
Samantha Robertson and Niloufar Salehi(参考訳) 参加型アルゴリズム設計の創発的手法は、利害関係者の価値観を考慮したアルゴリズムシステムを構築するために、個々の利害関係者の好みを収集し集約することを提案した。 アルゴリズムによる学生割当を事例として,限られた資源の分布における個人の選好満足度を最適化することは,実際には社会的・分散的正義への進歩を阻害する可能性があると論じた。 個人の嗜好は有用な信号であるが、より表現力があり包括的な民主的参加を支援するために拡張されるべきである。

Emerging methods for participatory algorithm design have proposed collecting and aggregating individual stakeholder preferences to create algorithmic systems that account for those stakeholders' values. Using algorithmic student assignment as a case study, we argue that optimizing for individual preference satisfaction in the distribution of limited resources may actually inhibit progress towards social and distributive justice. Individual preferences can be a useful signal but should be expanded to support more expressive and inclusive forms of democratic participation.
翻訳日:2022-11-11 00:50:53 公開日:2020-07-13
# 埋め込みによるDNN話者追跡

DNN Speaker Tracking with Embeddings ( http://arxiv.org/abs/2007.10248v1 )

ライセンス: Link先を確認
Carlos Rodrigo Castillo-Sanchez, Leibny Paola Garcia-Perera, Anabel Martin-Gonzalez(参考訳) マルチスピーカーアプリケーションは、登録された話者から事前計算されたモデルを持つのが一般的である。 これらのモデルを使用して、これらの話者が録音に介入するインスタンスを特定することは、話者追跡のタスクである。 本稿では,新しい埋め込み型話者追跡手法を提案する。 具体的には,典型的な話者照合plda(probabilistic linear discriminant analysis)分類器を模倣した畳み込みニューラルネットワークに基づいて,対象話者が発する領域をオンライン形式で探索する。 このシステムはダイアリゼーションとトラッキングという2つの異なる視点から研究され、同じ実験条件下ではPLDAベースラインよりも大きな改善が見られた。 CALLHOMEとDIHARD IIという2つの標準パブリックデータセットは、重複する領域と重複しない領域を持つ2つのスピーカーサブセットを作成するように修正された。 我々は,セグメント長の異なるモデルを用いて,教師付きアプローチのロバスト性を評価する。 DIHARD IIシングルチャネルにおけるDERの17%の相対的な改善は、有望なパフォーマンスを示している。 さらに, 話者追跡と同様のベースラインシステムを構築するために, 非ターゲット話者を録音に加えた。 このような悪条件下であっても,PLDAベースラインを上回り得るほど,我々のアプローチは堅牢である。

In multi-speaker applications is common to have pre-computed models from enrolled speakers. Using these models to identify the instances in which these speakers intervene in a recording is the task of speaker tracking. In this paper, we propose a novel embedding-based speaker tracking method. Specifically, our design is based on a convolutional neural network that mimics a typical speaker verification PLDA (probabilistic linear discriminant analysis) classifier and finds the regions uttered by the target speakers in an online fashion. The system was studied from two different perspectives: diarization and tracking; results on both show a significant improvement over the PLDA baseline under the same experimental conditions. Two standard public datasets, CALLHOME and DIHARD II single channel, were modified to create two-speaker subsets with overlapping and non-overlapping regions. We evaluate the robustness of our supervised approach with models generated from different segment lengths. A relative improvement of 17% in DER for DIHARD II single channel shows promising performance. Furthermore, to make the baseline system similar to speaker tracking, non-target speakers were added to the recordings. Even in these adverse conditions, our approach is robust enough to outperform the PLDA baseline.
翻訳日:2022-11-11 00:50:43 公開日:2020-07-13
# Catmull-Rom Spline補間を用いた双曲型タンジェント関数のハードウェア実装

Hardware Implementation of Hyperbolic Tangent Function using Catmull-Rom Spline Interpolation ( http://arxiv.org/abs/2007.13516v1 )

ライセンス: Link先を確認
Mahesh Chandra(参考訳) ディープニューラルネットワークは、オブジェクト認識や音声認識など、多くのコンピュータビジョンやヒューマンマシンインタフェースタスクにおいて、最先端の技術結果をもたらす。 これらのネットワークは計算コストがかかるため、低コストで必要な性能を達成するためにカスタマイズされたアクセラレータが設計されている。 これらのニューラルネットワークの重要な構成要素の1つは、シグモノイド、双曲タンジェント(tanh)、ReLUのような非線形活性化関数である。 ニューラルネットワークアクセラレータの性能と領域目標を満たすためには,アクティベーション関数のハードウェア実装が低複雑性である必要がある。 本稿では, catmull-rom スプライン補間を用いた tanh 関数の実装について述べる。 この手法は論理領域が比較的小さいため, 技術結果が得られている。

Deep neural networks yield the state of the art results in many computer vision and human machine interface tasks such as object recognition, speech recognition etc. Since, these networks are computationally expensive, customized accelerators are designed for achieving the required performance at lower cost and power. One of the key building blocks of these neural networks is non-linear activation function such as sigmoid, hyperbolic tangent (tanh), and ReLU. A low complexity accurate hardware implementation of the activation function is required to meet the performance and area targets of the neural network accelerators. This paper presents an implementation of tanh function using the Catmull-Rom spline interpolation. State of the art results are achieved using this method with comparatively smaller logic area.
翻訳日:2022-11-11 00:44:12 公開日:2020-07-13
# 製造環境におけるand/ORグラフに基づくフレキシブルロボット協調モデルの展開と評価

Deployment and Evaluation of a Flexible Human-Robot Collaboration Model Based on AND/OR Graphs in a Manufacturing Environment ( http://arxiv.org/abs/2007.06720v1 )

ライセンス: Link先を確認
Prajval Kumar Murali, Kourosh Darvish, Fulvio Mastrogiovanni(参考訳) industry 4.0パラダイムは、開発時間の短縮、エルゴノミーの向上、柔軟性の向上、製造環境における資源効率を保証している。 このようなパラダイムを実装する上で,協調型ロボットは重要な有形技術である。 協力型ロボットを製造業に効果的に展開するための大きなボトルネックは、生産サイクル時間の観点から全体的な効率を確保すると同時に、さまざまな予測不能な人間の行動を認識し、自然に適応できるタスク計画アルゴリズムの開発である。 この文脈では、実際の産業環境でタスク表現、タスク計画、センシング、ロボット制御を含むアーキテクチャが設計され、開発され、評価されている。 本研究では,人間とロボットの協調を必要とするパレット化作業について検討した。 このアーキテクチャは、オンラインの人間とロボットのコラボレーションモデルを表現および推論するためにAND/ORグラフを使用する。 さらに,人間とロボットの協調作業における総合的計算性能と主観的自然性尺度の客観的尺度を生産ライン操作者との実験により評価した。 本研究は,我々が提案するような人間とロボットのコラボレーションモデルが,職場における作業者の柔軟性と快適さをいかに活用できるかを実証するものである。 この点に関して、最近のモデル間の広範囲な比較研究が行われている。

The Industry 4.0 paradigm promises shorter development times, increased ergonomy, higher flexibility, and resource efficiency in manufacturing environments. Collaborative robots are an important tangible technology for implementing such a paradigm. A major bottleneck to effectively deploy collaborative robots to manufacturing industries is developing task planning algorithms that enable them to recognize and naturally adapt to varying and even unpredictable human actions while simultaneously ensuring an overall efficiency in terms of production cycle time. In this context, an architecture encompassing task representation, task planning, sensing, and robot control has been designed, developed and evaluated in a real industrial environment. A pick-and-place palletization task, which requires the collaboration between humans and robots, is investigated. The architecture uses AND/OR graphs for representing and reasoning upon human-robot collaboration models online. Furthermore, objective measures of the overall computational performance and subjective measures of naturalness in human-robot collaboration have been evaluated by performing experiments with production-line operators. The results of this user study demonstrate how human-robot collaboration models like the one we propose can leverage the flexibility and the comfort of operators in the workplace. In this regard, an extensive comparison study among recent models has been carried out.
翻訳日:2022-11-11 00:43:37 公開日:2020-07-13
# 多層パーセプトロン分類器におけるICE推定器の実装

Implementing the ICE Estimator in Multilayer Perceptron Classifiers ( http://arxiv.org/abs/2007.06157v1 )

ライセンス: Link先を確認
Tyler Ward(参考訳) 本稿では,多層パーセプトロンモデルにおける氷推定器の実装手法について述べるとともに,得られたモデルの性能について検討する。 ICE推定器はApache Spark MultilayerPerceptron Classifierで実装され、非調整のMLE損失(クロスエントロピー)を使用するストックMultilayerPerceptron Classifierを上回るようにクロスバリデーションで表示される。 結果として得られたモデルは実行時と同一の性能を持ち、標準のMLP実装と同等の性能を持つ。 さらに、このアプローチはハイパーパラメータを必要とせず、オーバーフィッティングが懸念される部分でクロスエントロピー最適化多層パーセプトロン分類器の代替として使用可能である。

This paper describes the techniques used to implement the ICE estimator for a multilayer perceptron model, and reviews the performance of the resulting models. The ICE estimator is implemented in the Apache Spark MultilayerPerceptronClassifier, and shown in cross-validation to outperform the stock MultilayerPerceptronClassifier that uses unadjusted MLE (cross-entropy) loss. The resulting models have identical runtime performance, and similar fitting performance to the stock MLP implementations. Additionally, this approach requires no hyper-parameters, and is therefore viable as a drop-in replacement for cross-entropy optimizing multilayer perceptron classifiers wherever overfitting may be a concern.
翻訳日:2022-11-11 00:42:55 公開日:2020-07-13
# ベクトル量子化音色表現

Vector-Quantized Timbre Representation ( http://arxiv.org/abs/2007.06349v1 )

ライセンス: Link先を確認
Adrien Bitton, Philippe Esling, Tatsuya Harada(参考訳) Timbreは、異なるタイプの音源を識別する知覚特性のセットである。 その定義は通常は理解できないが、信号処理の観点からは、ピッチやラウドネスとは独立に知覚されるすべてのスペクトル特徴として見ることができる。 いくつかの研究は、異なる楽器の特徴的関係を分析して高レベルの音色合成を研究しているが、音響特性は絡み合い、個々の音に結びついている。 本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。 本稿では,与えられた音色分布の量子化表現を学習するために,ラウドネスから切り離された離散潜在空間を持つオートエンコーダを導入する。 音色変換は、任意の可変長入力信号を学習した音色に従って復号された量子化潜在特徴に符号化することで行うことができる。 本稿では,管弦楽楽器と歌唱音声の音声変換結果と,音声模倣から楽器への変換結果について,音声合成を促進するための直感的モダリティとして詳述する。 さらに、離散潜在空間を音響記述子にマッピングし、直接記述子に基づく合成を行う。

Timbre is a set of perceptual attributes that identifies different types of sound sources. Although its definition is usually elusive, it can be seen from a signal processing viewpoint as all the spectral features that are perceived independently from pitch and loudness. Some works have studied high-level timbre synthesis by analyzing the feature relationships of different instruments, but acoustic properties remain entangled and generation bound to individual sounds. This paper targets a more flexible synthesis of an individual timbre by learning an approximate decomposition of its spectral properties with a set of generative features. We introduce an auto-encoder with a discrete latent space that is disentangled from loudness in order to learn a quantized representation of a given timbre distribution. Timbre transfer can be performed by encoding any variable-length input signals into the quantized latent features that are decoded according to the learned timbre. We detail results for translating audio between orchestral instruments and singing voice, as well as transfers from vocal imitations to instruments as an intuitive modality to drive sound synthesis. Furthermore, we can map the discrete latent space to acoustic descriptors and directly perform descriptor-based synthesis.
翻訳日:2022-11-11 00:42:42 公開日:2020-07-13
# intel(r) x86アーキテクチャのディープグラフライブラリ最適化

Deep Graph Library Optimizations for Intel(R) x86 Architecture ( http://arxiv.org/abs/2007.06354v1 )

ライセンス: Link先を確認
Sasikanth Avancha, Vasimuddin Md, Sanchit Misra, Ramanarayan Mohanty(参考訳) Deep Graph Library(DGL)は、人気のあるGraph Neural Networks(GNN)を含むグラフのコア抽象化をサポートすることで、グラフから構造学習を可能にするツールとして設計された。 DGLにはCPUとGPUの両方のコアグラフ操作の実装が含まれている。 本稿では,dgl(0.4.3)の最新バージョンを用いて,gnnアプリケーション群におけるcpu実装と性能解析,最適化,結果について述べる。 7つのアプリケーションにわたって、ベースラインCPU実装よりも1.5x-13xのスピードアップを実現しています。

The Deep Graph Library (DGL) was designed as a tool to enable structure learning from graphs, by supporting a core abstraction for graphs, including the popular Graph Neural Networks (GNN). DGL contains implementations of all core graph operations for both the CPU and GPU. In this paper, we focus specifically on CPU implementations and present performance analysis, optimizations and results across a set of GNN applications using the latest version of DGL(0.4.3). Across 7 applications, we achieve speed-ups ranging from1 1.5x-13x over the baseline CPU implementations.
翻訳日:2022-11-11 00:42:24 公開日:2020-07-13
# ニューラルネットワーク, 支持ベクトルマシン, 決定木を用いた企業クレジットレーティング予測の比較研究

A comparative study of forecasting Corporate Credit Ratings using Neural Networks, Support Vector Machines, and Decision Trees ( http://arxiv.org/abs/2007.06617v1 )

ライセンス: Link先を確認
Parisa Golbayani, Ionu\c{t} Florescu, Rupak Chatterjee(参考訳) 信用格付けは、企業の財務上の義務を満たすためのリスクと信頼性のレベルを反映する鍵の1つだ。 格付け機関は新しい格付けを提供し、古い格付けを更新するのに長時間かかる傾向がある。 そのため,近年,人工知能を用いた信用スコア評価が注目されている。 成功した機械学習手法は、日々の時間スケールで古いものを更新しながら、クレジットスコアを迅速に分析することができる。 関連する研究では、ニューラルネットワークとベクターマシンが予測精度の向上によって他の技術よりも優れていることが示されている。 この論文の目的は2つある。 まず,クレジットカード評価の予測に機械学習技術を適用した文献の調査結果と比較分析を行った。 第2に,従来の研究から有用と考えられる4つの機械学習手法(袋入り決定木,ランダムフォレスト,サポートベクターマシン,多層パーセプトロン)を,同じデータセットに適用する。 10倍のクロスバリデーション手法を用いて結果を評価する。 選択したデータセットの実験結果から,決定木に基づくモデルでは優れた性能を示した。 従来の分類器の精度測定に加えて、「ノッチ距離」(Notch Distance)と呼ばれるノッチに基づく精度測定を導入し、これらの分類器の性能を信用評価の特定の文脈で分析する。 この指標は、予測が真の評価からどこまで遠いかを示しています。 さらに、3つの主要な格付け機関(標準の$\&$ poors、moody's、fitch)のパフォーマンスを比較して、格付けの違いは、テストデータセットの実際の格付けと決定木予測に匹敵することを示した。

Credit ratings are one of the primary keys that reflect the level of riskiness and reliability of corporations to meet their financial obligations. Rating agencies tend to take extended periods of time to provide new ratings and update older ones. Therefore, credit scoring assessments using artificial intelligence has gained a lot of interest in recent years. Successful machine learning methods can provide rapid analysis of credit scores while updating older ones on a daily time scale. Related studies have shown that neural networks and support vector machines outperform other techniques by providing better prediction accuracy. The purpose of this paper is two fold. First, we provide a survey and a comparative analysis of results from literature applying machine learning techniques to predict credit rating. Second, we apply ourselves four machine learning techniques deemed useful from previous studies (Bagged Decision Trees, Random Forest, Support Vector Machine and Multilayer Perceptron) to the same datasets. We evaluate the results using a 10-fold cross validation technique. The results of the experiment for the datasets chosen show superior performance for decision tree based models. In addition to the conventional accuracy measure of classifiers, we introduce a measure of accuracy based on notches called "Notch Distance" to analyze the performance of the above classifiers in the specific context of credit rating. This measure tells us how far the predictions are from the true ratings. We further compare the performance of three major rating agencies, Standard $\&$ Poors, Moody's and Fitch where we show that the difference in their ratings is comparable with the decision tree prediction versus the actual rating on the test dataset.
翻訳日:2022-11-11 00:42:15 公開日:2020-07-13
# 埋め込み操作のための運動分類法

A Motion Taxonomy for Manipulation Embedding ( http://arxiv.org/abs/2007.06695v1 )

ライセンス: Link先を確認
David Paulius, Nicholas Eales and Yu Sun(参考訳) 機械的観点からの動作を表現するため,運動分類学を用いた動作埋め込みについて検討する。 この分類法では、操作を動き符号と呼ばれる二進文字列として記述し表現することができる。 モーションコードは、ディープラーニングや強化学習のための動きや損失関数間の適切な距離メトリクスを定義するために使用される、コンタクトタイプや軌道などの機械的特性をキャプチャする。 モーションコードは、同様の特性を持つエイリアスやクラスタモーションタイプを統合するためにも使用できる。 既存のデータセットを参考に,実データと同様に直感に基づく日常生活活動において一般的に見られる行動に対して,動作コードを作成し,割り当てる方法について検討する。 動作符号は、事前訓練されたWord2Vecモデルのベクトルと比較し、動作符号が操作の現実によく一致する距離を維持することを示す。

To represent motions from a mechanical point of view, this paper explores motion embedding using the motion taxonomy. With this taxonomy, manipulations can be described and represented as binary strings called motion codes. Motion codes capture mechanical properties, such as contact type and trajectory, that should be used to define suitable distance metrics between motions or loss functions for deep learning and reinforcement learning. Motion codes can also be used to consolidate aliases or cluster motion types that share similar properties. Using existing data sets as a reference, we discuss how motion codes can be created and assigned to actions that are commonly seen in activities of daily living based on intuition as well as real data. Motion codes are compared to vectors from pre-trained Word2Vec models, and we show that motion codes maintain distances that closely match the reality of manipulation.
翻訳日:2022-11-11 00:41:46 公開日:2020-07-13
# RNA-2QCFA:RNA二次構造のための古典状態を持つ二方向量子有限オートマトン

RNA-2QCFA: Evolving Two-way Quantum Finite Automata with Classical States for RNA Secondary Structures ( http://arxiv.org/abs/2007.06273v1 )

ライセンス: Link先を確認
Amandeep Singh Bhatia, Shenggen Zheng(参考訳) 近年, 生物学者や生物学者の間で, 数学的手法や計算機科学の応用が大きな影響を与えている。 計算および数学的手法は、デオキシリボ核酸(DNA)とリボ核酸(RNA)の構造をモデル化する大きな可能性を持っている。 オートマトン理論を用いたDNAとRNA二次構造のモデリングは、コンピュータ科学の分野に大きな影響を与えた。 量子計算モデルを用いてRNA二次生体分子構造をモデル化することは自然な目標である。 古典状態を持つ二方向量子有限オートマトンは、言語認識における二方向確率有限オートマトンよりも支配的である。 本論文の目的は,古典状態を持つ2方向量子有限オートマトンを用いてリボ核酸(rna)配列をシミュレートし,モデル化し,解析することである。

Recently, the use of mathematical methods and computer science applications have got significant response among biochemists and biologists to modeling the biological systems. The computational and mathematical methods have enormous potential for modeling the deoxyribonucleic acid (DNA) and ribonucleic acid (RNA) structures. The modeling of DNA and RNA secondary structures using automata theory had a significant impact in the fields of computer science. It is a natural goal to model the RNA secondary biomolecular structures using quantum computational models. Two-way quantum finite automata with classical states are more dominant than two-way probabilistic finite automata in language recognition. The main objective of this paper is on using two-way quantum finite automata with classical states to simulate, model and analyze the ribonucleic acid (RNA) sequences.
翻訳日:2022-11-11 00:35:58 公開日:2020-07-13
# MS-NAS:医療画像分割のためのマルチスケールニューラルネットワーク探索

MS-NAS: Multi-Scale Neural Architecture Search for Medical Image Segmentation ( http://arxiv.org/abs/2007.06151v1 )

ライセンス: Link先を確認
Xingang Yan, Weiwen Jiang, Yiyu Shi, and Cheng Zhuo(参考訳) ニューラルアーキテクチャサーチ(NAS)の最近の進歩は、医療画像セグメンテーションに様々な応用を動機付けている。 しかし、既存のほとんどの作業は単にハイパーパラメータチューニングに依存するか、固定されたネットワークバックボーンに固執しているため、より効率的なアーキテクチャを特定するために基盤となる検索スペースを制限している。 本稿では,ネットワークバックボーンからセル操作までのマルチスケール検索空間と,異なるサイズの機能を融合するマルチスケール融合機能を備えた多スケールnas(ms-nas)フレームワークを提案する。 より広い検索空間による計算オーバーヘッドを軽減するため、最適化品質を維持しつつ計算オーバーヘッドを低減するために、部分チャネル接続方式と2ステップ復号法を用いる。 実験の結果、セグメント化のための様々なデータセットにおいて、MS-NASは最先端の手法より優れ、0.6-5.4% mIOUと0.4-3.5% DSCの改善を実現し、計算資源の消費は18.0-24.9%削減された。

The recent breakthroughs of Neural Architecture Search (NAS) have motivated various applications in medical image segmentation. However, most existing work either simply rely on hyper-parameter tuning or stick to a fixed network backbone, thereby limiting the underlying search space to identify more efficient architecture. This paper presents a Multi-Scale NAS (MS-NAS) framework that is featured with multi-scale search space from network backbone to cell operation, and multi-scale fusion capability to fuse features with different sizes. To mitigate the computational overhead due to the larger search space, a partial channel connection scheme and a two-step decoding method are utilized to reduce computational overhead while maintaining optimization quality. Experimental results show that on various datasets for segmentation, MS-NAS outperforms the state-of-the-art methods and achieves 0.6-5.4% mIOU and 0.4-3.5% DSC improvements, while the computational resource consumption is reduced by 18.0-24.9%.
翻訳日:2022-11-11 00:35:44 公開日:2020-07-13
# ライブ超音波画像解析法の臨床翻訳のためのスクリーントラッキング

Screen Tracking for Clinical Translation of Live Ultrasound Image Analysis Methods ( http://arxiv.org/abs/2007.06272v1 )

ライセンス: Link先を確認
Simona Treivase, Alberto Gomez, Jacqueline Matthew, Emily Skelton, Julia A. Schnabel, Nicolas Toussaint(参考訳) 超音波(US)イメージングは、最も一般的に使用される非侵襲イメージング技術の一つである。 しかし、米国の画像取得にはトランスデューサの同時指導と画像の解釈が必要であり、これは長年の訓練を必要とする非常に困難な課題である。 近年の米国内画像解析の進歩にもかかわらず,臨床現場への翻訳は容易ではない。 本稿では,米国における画像抽出と分析タスクの結果の重畳を,物理的接続や米国システムへの変更を必要とせずに実現するための汎用フレームワークを提案する。 提案手法は、ソノグラフィの視点で固定されたカメラでスクリーンをトラッキングし、撮像された画像を平均87.66 + 3.73msで正しいアスペクト比に再構成する。 これにより、取得した画像を画像処理パイプラインに入力して、検査を改善するのに役立つ情報を抽出できるという仮説が立てられている。 この情報は最終的に、例えば拡張現実(ar)ヘッドセットを使用して、超音波撮影者の視野にリアルタイムで投影することができる。

Ultrasound (US) imaging is one of the most commonly used non-invasive imaging techniques. However, US image acquisition requires simultaneous guidance of the transducer and interpretation of images, which is a highly challenging task that requires years of training. Despite many recent developments in intra-examination US image analysis, the results are not easy to translate to a clinical setting. We propose a generic framework to extract the US images and superimpose the results of an analysis task, without any need for physical connection or alteration to the US system. The proposed method captures the US image by tracking the screen with a camera fixed at the sonographer's view point and reformats the captured image to the right aspect ratio, in 87.66 +- 3.73ms on average. It is hypothesized that this would enable to input such retrieved image into an image processing pipeline to extract information that can help improve the examination. This information could eventually be projected back to the sonographer's field of view in real time using, for example, an augmented reality (AR) headset.
翻訳日:2022-11-11 00:35:23 公開日:2020-07-13
# OpenStreetMap: マシンラーニングとリモートセンシングにおける課題と機会

OpenStreetMap: Challenges and Opportunities in Machine Learning and Remote Sensing ( http://arxiv.org/abs/2007.06277v1 )

ライセンス: Link先を確認
John Vargas, Shivangi Srivastava, Devis Tuia, Alexandre Falcao(参考訳) OpenStreetMap (OSM) は、コミュニティベースの、自由に利用できる、編集可能な地図サービスである。 主に異なるマッピングスキルを持つボランティアによって編集されていることを考えると、アノテーションの完全性と質は地理的に異なる場所で異質である。 それにもかかわらず、OSMは地球科学、地球観測、環境科学などの分野で広く利用されている。 本稿では,OSMデータの改良と利用を目的とした機械学習に基づく最近の手法について述べる。 このような方法は 1)osm層のカバレッジと品質を改善するには,一般的にgisやリモートセンシング技術を用いるか,あるいは 2) 既存のOSMレイヤを使用してイメージデータに基づいてモデルをトレーニングし、ナビゲーションや {land use} 分類のようなアプリケーションに役立てる。 我々は、OSM(および他のオープンランドマップのソース)は、リモートセンシングデータの解釈方法を変え、機械学習とのシナジーによって、参加型マップ作成とその品質を、グローバルかつ最新のランドマッピングに必要なレベルまで拡張できると考えている。

OpenStreetMap (OSM) is a community-based, freely available, editable map service that was created as an alternative to authoritative ones. Given that it is edited mainly by volunteers with different mapping skills, the completeness and quality of its annotations are heterogeneous across different geographical locations. Despite that, OSM has been widely used in several applications in {Geosciences}, Earth Observation and environmental sciences. In this work, we present a review of recent methods based on machine learning to improve and use OSM data. Such methods aim either 1) at improving the coverage and quality of OSM layers, typically using GIS and remote sensing technologies, or 2) at using the existing OSM layers to train models based on image data to serve applications like navigation or {land use} classification. We believe that OSM (as well as other sources of open land maps) can change the way we interpret remote sensing data and that the synergy with machine learning can scale participatory map making and its quality to the level needed to serve global and up-to-date land mapping.
翻訳日:2022-11-11 00:35:06 公開日:2020-07-13
# CT画像再構成のための高速化FBP

Accelerated FBP for computed tomography image reconstruction ( http://arxiv.org/abs/2007.06289v1 )

ライセンス: Link先を確認
Anastasiya Dolmatova, Marina Chukalina and Dmitry Nikolaev(参考訳) フィルタバックプロジェクション (FBP) は, 許容品質を示す断層画像再構成において一般的に用いられる手法である。 このアルゴリズムの古典的な直接実装では、$\theta(n^3)$演算の実行が必要であり、ここで$n$は2dスライスの線形サイズである。 フーリエスライス定理による再構成を含む最近の手法は、$\Theta(N^2\log N)$乗算演算を必要とする。 本稿では,アルゴリズムの計算複雑性を$\Theta(N^2\log N)$に減らし,フーリエ空間を回避した加算演算を提案する。 畳み込みを高速化するために、ランプフィルタは1対の因果的および反因果的再帰的フィルタ(Infinite Impulse Response filter)によって近似される。 バックプロジェクションは高速離散ハフ変換によって実行される。 シミュレーションデータによる実験結果から,提案手法の有効性が示された。

Filtered back projection (FBP) is a commonly used technique in tomographic image reconstruction demonstrating acceptable quality. The classical direct implementations of this algorithm require the execution of $\Theta(N^3)$ operations, where $N$ is the linear size of the 2D slice. Recent approaches including reconstruction via the Fourier slice theorem require $\Theta(N^2\log N)$ multiplication operations. In this paper, we propose a novel approach that reduces the computational complexity of the algorithm to $\Theta(N^2\log N)$ addition operations avoiding Fourier space. For speeding up the convolution, ramp filter is approximated by a pair of causal and anticausal recursive filters, also known as Infinite Impulse Response filters. The back projection is performed with the fast discrete Hough transform. Experimental results on simulated data demonstrate the efficiency of the proposed approach.
翻訳日:2022-11-11 00:34:48 公開日:2020-07-13
# DeU-Net:3次元心臓MRI画像セグメンテーションのための変形可能なU-Net

DeU-Net: Deformable U-Net for 3D Cardiac MRI Video Segmentation ( http://arxiv.org/abs/2007.06341v1 )

ライセンス: Link先を確認
Shunjie Dong, Jinlong Zhao, Maojun Zhang, Zhengxue Shi, Jianing Deng, Yiyu Shi, Mei Tian, Cheng Zhuo(参考訳) 心臓磁気共鳴画像(MRI)の自動セグメンテーションは、臨床応用において効率的かつ正確な体積測定を促進する。 しかし、異方性分解能と曖昧な境界(右室心内膜など)により、既存の手法は3D心筋MRIビデオセグメンテーションの精度と堅牢性の低下に悩まされている。 本稿では,時間的変形型アグリゲーションモジュール (tdam) と変形可能なグローバル位置注意 (dgpa) ネットワークを含む3次元心臓mri映像からの時空間情報を完全に活用する新しい変形型u-net (deu-net) を提案する。 まず、TDAMは、オフセット予測ネットワークによって抽出された時間情報により、心臓MRIビデオクリップを入力として取る。 次に,時間集約変形可能な畳み込みにより抽出した時間情報を融合し,融合特徴マップを作成する。 さらに、意味のある特徴を集約するために、多次元のコンテキスト情報をグローバル・ローカルな特徴にエンコードできる変形可能な注意U-Netを用いてDGPAネットワークを考案する。 実験の結果,DeU-Netは,特に心境界情報(ASSD,HD)において,一般的な評価指標の最先端性能を実現していることがわかった。

Automatic segmentation of cardiac magnetic resonance imaging (MRI) facilitates efficient and accurate volume measurement in clinical applications. However, due to anisotropic resolution and ambiguous border (e.g., right ventricular endocardium), existing methods suffer from the degradation of accuracy and robustness in 3D cardiac MRI video segmentation. In this paper, we propose a novel Deformable U-Net (DeU-Net) to fully exploit spatio-temporal information from 3D cardiac MRI video, including a Temporal Deformable Aggregation Module (TDAM) and a Deformable Global Position Attention (DGPA) network. First, the TDAM takes a cardiac MRI video clip as input with temporal information extracted by an offset prediction network. Then we fuse extracted temporal information via a temporal aggregation deformable convolution to produce fused feature maps. Furthermore, to aggregate meaningful features, we devise the DGPA network by employing deformable attention U-Net, which can encode a wider range of multi-dimensional contextual information into global and local features. Experimental results show that our DeU-Net achieves the state-of-the-art performance on commonly used evaluation metrics, especially for cardiac marginal information (ASSD and HD).
翻訳日:2022-11-11 00:34:33 公開日:2020-07-13
# GPU上のHDR画像の翻訳画像登録の高速化

Accelerating Translational Image Registration for HDR Images on GPU ( http://arxiv.org/abs/2007.06483v1 )

ライセンス: Link先を確認
Kadir Cenk Alpay, Kadir Berkay Aydemir, Alptekin Temizel(参考訳) シーンの複数の露出を用いて高ダイナミックレンジ(hdr)画像を生成する。 静止シーンを撮影するために手持ちのカメラを使用する場合、これらの画像は両次元で各画像をグローバルにシフトさせることで整列する必要がある。 高速でロバストなアライメントのために、シフト量はMedian Threshold Bitmaps (MTB) を用いて一般的に計算され、画像ピラミッドを生成する。 本研究では,GPUを用いた並列処理手法を用いて,これらの計算を最適化する。 実験により,提案手法は,画像ペアのアライメントによるベースラインマルチスレッドCPU実装の最大6.24倍の高速化を実現している。 ソースコードはhttps://github.com/kadircenk/WardMTBCudaで入手できる。

High Dynamic Range (HDR) images are generated using multiple exposures of a scene. When a hand-held camera is used to capture a static scene, these images need to be aligned by globally shifting each image in both dimensions. For a fast and robust alignment, the shift amount is commonly calculated using Median Threshold Bitmaps (MTB) and creating an image pyramid. In this study, we optimize these computations using a parallel processing approach utilizing GPU. Experimental evaluation shows that the proposed implementation achieves a speed-up of up to 6.24 times over the baseline multi-threaded CPU implementation on the alignment of one image pair. The source code is available at https://github.com/kadircenk/WardMTBCuda
翻訳日:2022-11-11 00:33:53 公開日:2020-07-13
# U-Netによる地すべりセグメンテーション:異なるサンプリング法とパッチサイズの評価

Landslide Segmentation with U-Net: Evaluating Different Sampling Methods and Patch Sizes ( http://arxiv.org/abs/2007.06672v1 )

ライセンス: Link先を確認
Lucas P. Soares, Helen C. Dias, Carlos H. Grohmann(参考訳) 地すべりインベントリマップは予測地すべりモデルを検証するために重要であるが、ほとんどのマッピング手法は視覚的解釈や専門家の知識に依存しているため、詳細なインベントリマップはまだ不足している。 この研究は、ブラジル南東部リオデジャネイロの山岳地帯にあるノバス・フリブルゴ市の地すべりを自動的に分割するために、U-netという完全な畳み込み深層学習モデルを用いた。 目的は、パッチサイズ、サンプリング方法、データセットがモデル全体の精度に与える影響を評価することである。 トレーニングデータは、RapidEye衛星からの光学情報と、ALOS衛星のLバンドセンサーから得られたデジタル高度モデル(DEM)を使用した。 データはランダムグリッド法と正規グリッド法を用いてサンプリングされ、3つのサイズ(32x32, 64x64, 128x128ピクセル)でパッチされた。 モデルの精度はre recall, f1-score, mean intersect over union (miou) の2つの領域で評価した。 その結果,32×32タイルでトレーニングしたモデルでは,真の正の値が高いため,リコール値が高い傾向が見られたが,背景領域を地すべり(偽陽性)と誤分類した。 128x128タイルで訓練されたモデルは通常、偽陽性エラーが少ないため、より高い精度の値が得られる。 いずれのテスト領域においても、DEMと拡張によりモデルの精度が向上した。 ランダムサンプリングはモデル一般化に役立った。 ラピッドアイ画像、DEM情報、拡張データから128x128のランダムタイルをトレーニングしたモデルは、テストエリア1で0.55、テストエリア2で0.58、最高f1スコアを達成した。 この研究で得られた結果は、文献に見られる他の完全畳み込みモデルに匹敵し、この分野の知識を増加させた。

Landslide inventory maps are crucial to validate predictive landslide models; however, since most mapping methods rely on visual interpretation or expert knowledge, detailed inventory maps are still lacking. This study used a fully convolutional deep learning model named U-net to automatically segment landslides in the city of Nova Friburgo, located in the mountainous range of Rio de Janeiro, southeastern Brazil. The objective was to evaluate the impact of patch sizes, sampling methods, and datasets on the overall accuracy of the models. The training data used the optical information from RapidEye satellite, and a digital elevation model (DEM) derived from the L-band sensor of the ALOS satellite. The data was sampled using random and regular grid methods and patched in three sizes (32x32, 64x64, and 128x128 pixels). The models were evaluated on two areas with precision, recall, f1-score, and mean intersect over union (mIoU) metrics. The results show that the models trained with 32x32 tiles tend to have higher recall values due to higher true positive rates; however, they misclassify more background areas as landslides (false positives). Models trained with 128x128 tiles usually achieve higher precision values because they make less false positive errors. In both test areas, DEM and augmentation increased the accuracy of the models. Random sampling helped in model generalization. Models trained with 128x128 random tiles from the data that used the RapidEye image, DEM information, and augmentation achieved the highest f1-score, 0.55 in test area one, and 0.58 in test area two. The results achieved in this study are comparable to other fully convolutional models found in the literature, increasing the knowledge in the area.
翻訳日:2022-11-11 00:33:21 公開日:2020-07-13
# ディープニューラルネットワーク層の活性化解析による画像検索のための記述子生成の新しいアプローチ

A new approach to descriptors generation for image retrieval by analyzing activations of deep neural network layers ( http://arxiv.org/abs/2007.06624v1 )

ライセンス: Link先を確認
Pawe{\l} Staszewski, Maciej Jaworski, Jinde Cao, Leszek Rutkowski(参考訳) 本稿では,ディープニューラルネットワークを用いたコンテンツベース画像検索における記述子構築の問題について考察する。 完全連結層アクティベーションに基づくニューラルコードの概念は、畳み込み層に含まれる情報を取り込むことによって拡張される。 ネットワークの畳み込み部分におけるニューロンの総数は多く、そのほとんどが最終分類決定にほとんど影響を与えていないことが知られている。 そこで本稿では,最も重要なニューロンの活性化を抽出し,その情報を利用して効果的な記述子を構築する新しいアルゴリズムを提案する。 完全連結層と畳み込み層の両方から取り出された値からなるディスクリプタは、画像コンテンツ全体を完全に表現する。 これらの記述子を用いて検索した画像は、クエリ画像と意味的に非常によく一致し、背景、テクスチャ、色分布といった他の二次的な特徴にも類似している。 提案するディスクリプタの特徴は、vgg16ニューラルネットワークを用いてimagenet1mデータセットに基づいて実験的に検証される。

In this paper, we consider the problem of descriptors construction for the task of content-based image retrieval using deep neural networks. The idea of neural codes, based on fully connected layers activations, is extended by incorporating the information contained in convolutional layers. It is known that the total number of neurons in the convolutional part of the network is large and the majority of them have little influence on the final classification decision. Therefore, in the paper we propose a novel algorithm that allows us to extract the most significant neuron activations and utilize this information to construct effective descriptors. The descriptors consisting of values taken from both the fully connected and convolutional layers perfectly represent the whole image content. The images retrieved using these descriptors match semantically very well to the query image, and also they are similar in other secondary image characteristics, like background, textures or color distribution. These features of the proposed descriptors are verified experimentally based on the IMAGENET1M dataset using the VGG16 neural network.
翻訳日:2022-11-11 00:26:49 公開日:2020-07-13
# 弱教師付き時間的活動局所化の背景認識損失

Adversarial Background-Aware Loss for Weakly-supervised Temporal Activity Localization ( http://arxiv.org/abs/2007.06643v1 )

ライセンス: Link先を確認
Kyle Min, Jason J. Corso(参考訳) 近年,ビデオ内の時間的局所化活動が広く研究されている。 近年の進歩にもかかわらず、時間的活動の局所化を弱める方法では、活動が起こっていないことを認識できない。 そこで本研究では,A2CL-PTという新しい手法を提案する。 特徴空間の2つの三重項は,1つの三重項を用いて各活動クラスの識別的特徴を学習し,もう1つの三重項は,活動が起こらない特徴(背景特徴)と各映像のアクティビティ関連特徴とを区別する。 性能をさらに向上するため,第1のブランチはビデオの最も健全なアクティビティをローカライズし,第2のブランチはビデオの非局所的な部分から他の補助的なアクティビティを見つける。 THUMOS14およびActivityNetデータセット上で行った大規模な実験により,提案手法が有効であることを実証した。 具体的には、THUMOS14データセットにおけるIoU閾値の平均mAPは、27.9%から30.0%に大幅に改善されている。

Temporally localizing activities within untrimmed videos has been extensively studied in recent years. Despite recent advances, existing methods for weakly-supervised temporal activity localization struggle to recognize when an activity is not occurring. To address this issue, we propose a novel method named A2CL-PT. Two triplets of the feature space are considered in our approach: one triplet is used to learn discriminative features for each activity class, and the other one is used to distinguish the features where no activity occurs (i.e. background features) from activity-related features for each video. To further improve the performance, we build our network using two parallel branches which operate in an adversarial way: the first branch localizes the most salient activities of a video and the second one finds other supplementary activities from non-localized parts of the video. Extensive experiments performed on THUMOS14 and ActivityNet datasets demonstrate that our proposed method is effective. Specifically, the average mAP of IoU thresholds from 0.1 to 0.9 on the THUMOS14 dataset is significantly improved from 27.9% to 30.0%.
翻訳日:2022-11-11 00:26:33 公開日:2020-07-13
# サンプルセグメンテーションのための中間距離回帰監督による画素埋め込み学習の改善

Improving Pixel Embedding Learning through Intermediate Distance Regression Supervision for Instance Segmentation ( http://arxiv.org/abs/2007.06660v1 )

ライセンス: Link先を確認
Yuli Wu, Long Chen, Dorit Merhof(参考訳) 提案のないアプローチとして,ピクセル埋め込み学習とクラスタリングによるインスタンスセグメンテーションが注目されている。 Mask R-CNNのようなバウンディングボックスリファインメントアプローチと比較すると、複雑な形状や高密度オブジェクトを扱う上で潜在的に有利である。 本稿では,オブジェクト指向組込み学習のための簡易かつ高効率なアーキテクチャを提案する。 距離回帰モジュールをアーキテクチャに組み込んで,高速クラスタリングのためのシードを生成する。 同時に, 距離回帰モジュールが学習した特徴が, 学習対象認識の埋め込みの精度を著しく向上させることができることを示す。 CVPPPリーフセグメンテーションチャレンジのmSBDスコアは、画像への距離回帰モジュールの特徴を埋め込みモジュールの入力として簡単に結合することにより、連結のない同一のセットアップに比べて8%以上改善することができ、CodaLabのリーダーボードで最高の総合結果が得られる。

As a proposal-free approach, instance segmentation through pixel embedding learning and clustering is gaining more emphasis. Compared with bounding box refinement approaches, such as Mask R-CNN, it has potential advantages in handling complex shapes and dense objects. In this work, we propose a simple, yet highly effective, architecture for object-aware embedding learning. A distance regression module is incorporated into our architecture to generate seeds for fast clustering. At the same time, we show that the features learned by the distance regression module are able to promote the accuracy of learned object-aware embeddings significantly. By simply concatenating features of the distance regression module to the images as inputs of the embedding module, the mSBD scores on the CVPPP Leaf Segmentation Challenge can be further improved by more than 8% compared to the identical set-up without concatenation, yielding the best overall result amongst the leaderboard at CodaLab.
翻訳日:2022-11-11 00:26:15 公開日:2020-07-13
# グラフ畳み込みネットワークを用いた共起スーパービジョンによる皮膚条件の鑑別診断

Learning Differential Diagnosis of Skin Conditions with Co-occurrence Supervision using Graph Convolutional Networks ( http://arxiv.org/abs/2007.06666v1 )

ライセンス: Link先を確認
Junyan Wu, Hao Jiang, Xiaowei Ding, Anudeep Konda, Jin Han, Yang Zhang, Qian Li(参考訳) 皮膚疾患は世界で4番目に重篤な疾患である。 しかし、皮膚疾患の余剰スペクトルが臨床的に定義され、皮膚科学の専門知識が不足していることを考えると、皮膚の状態をタイムリーかつ正確な方法で診断することは難しい課題である。 コンピュータビジョン技術を用いて、深層学習システムは放射線学、眼科などの画像診断において臨床医を効果的に支援することが証明されている。 本稿では,臨床画像を用いた皮膚疾患の鑑別診断が可能な深層学習システム(DLS)を提案する。 DLSは,画像ラベルが不完全である場合に,80以上の条件を多ラベル分類タスクとして定義する。 ラベル共起を特徴付ける分類ネットワークとグラフ畳み込みネットワーク(gcn)を組み合わせることでラベル不完全性問題に対処し、スパース表現に向けて効果的に規則化する。 本手法は臨床画像136,462枚に示され,分類精度は共起監督の利点が大きいと結論された。 我々のDLSは12,378枚のテスト画像に対して93.6%の精度でトップ5を達成し、ベースライン分類網を一貫して上回っている。

Skin conditions are reported the 4th leading cause of nonfatal disease burden worldwide. However, given the colossal spectrum of skin disorders defined clinically and shortage in dermatology expertise, diagnosing skin conditions in a timely and accurate manner remains a challenging task. Using computer vision technologies, a deep learning system has proven effective assisting clinicians in image diagnostics of radiology, ophthalmology and more. In this paper, we propose a deep learning system (DLS) that may predict differential diagnosis of skin conditions using clinical images. Our DLS formulates the differential diagnostics as a multi-label classification task over 80 conditions when only incomplete image labels are available. We tackle the label incompleteness problem by combining a classification network with a Graph Convolutional Network (GCN) that characterizes label co-occurrence and effectively regularizes it towards a sparse representation. Our approach is demonstrated on 136,462 clinical images and concludes that the classification accuracy greatly benefit from the Co-occurrence supervision. Our DLS achieves 93.6% top-5 accuracy on 12,378 test images and consistently outperform the baseline classification network.
翻訳日:2022-11-11 00:25:59 公開日:2020-07-13
# 線形二次レギュレータの構造的ポリシーイテレーション

Structured Policy Iteration for Linear Quadratic Regulator ( http://arxiv.org/abs/2007.06202v1 )

ライセンス: Link先を確認
Youngsuk Park, Ryan A. Rossi, Zheng Wen, Gang Wu, Handong Zhao(参考訳) 線形二次規制(LQR)は、マルコフ決定プロセスタスクに対処する最も一般的なフレームワークの1つである。 基本理論と抽出可能な最適ポリシーにより、LQRはモデルフリーやモデルベース設定のような強化学習シナリオにおいて近年再検討され分析されている。 本稿では,LQRに対して,構造化線形ポリシーを導出する手法であるtextit{Structured Policy Iteration} (S-PI)を導入する。 このような(ブロック)間隔や低ランクの構造化ポリシは、より解釈可能で、メモリ効率が良く、分散設定に適した標準的なLQRポリシーよりも大きな利点を持つ。 このようなポリシーを導出するために、モデルが分かっているときにまず正規化LQR問題を発生させる。 そして、ポリシー評価ステップとポリシー改善ステップを反復的に行う構造化ポリシー反復(s-pi)アルゴリズムにより、この正規化lqrを効率的に解くことができる。 さらに、S-PIアルゴリズムをスムースな手順を採用して勾配を推定するモデルフリー設定に拡張する。 既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明する。 最後に、重みパラメータを変化させることで、LQR性能と構造レベルのバランスの点でS-PIの利点を示す。

Linear quadratic regulator (LQR) is one of the most popular frameworks to tackle continuous Markov decision process tasks. With its fundamental theory and tractable optimal policy, LQR has been revisited and analyzed in recent years, in terms of reinforcement learning scenarios such as the model-free or model-based setting. In this paper, we introduce the \textit{Structured Policy Iteration} (S-PI) for LQR, a method capable of deriving a structured linear policy. Such a structured policy with (block) sparsity or low-rank can have significant advantages over the standard LQR policy: more interpretable, memory-efficient, and well-suited for the distributed setting. In order to derive such a policy, we first cast a regularized LQR problem when the model is known. Then, our Structured Policy Iteration (S-PI) algorithm, which takes a policy evaluation step and a policy improvement step in an iterative manner, can solve this regularized LQR efficiently. We further extend the S-PI algorithm to the model-free setting where a smoothing procedure is adopted to estimate the gradient. In both the known-model and model-free setting, we prove convergence analysis under the proper choice of parameters. Finally, the experiments demonstrate the advantages of S-PI in terms of balancing the LQR performance and level of structure by varying the weight parameter.
翻訳日:2022-11-11 00:25:12 公開日:2020-07-13
# 項目集合に基づく生成モデルを用いた合成データセット生成

Synthetic Dataset Generation with Itemset-Based Generative Models ( http://arxiv.org/abs/2007.06300v1 )

ライセンス: Link先を確認
Christian Lezcano, Marta Arias(参考訳) 本稿では,既存のアイテムセットに基づく生成モデルに基づいて,トランザクショナルデータセットに合わせた3つのデータジェネレータを提案する。 これらのジェネレータはすべて直感的で実装が容易で、良好なパフォーマンスを示している。 各ジェネレータの品質は、元のデータセット構造がどれだけよく保存されているかをキャプチャする3つの異なる方法によって評価される。

This paper proposes three different data generators, tailored to transactional datasets, based on existing itemset-based generative models. All these generators are intuitive and easy to implement and show satisfactory performance. The quality of each generator is assessed by means of three different methods that capture how well the original dataset structure is preserved.
翻訳日:2022-11-11 00:24:50 公開日:2020-07-13
# 教室におけるスマートテクノロジー : 体系的レビュー アルゴリズム的説明責任に関する考察

Smart technology in the classroom: a systematic review.Prospects for algorithmic accountability ( http://arxiv.org/abs/2007.06374v1 )

ライセンス: Link先を確認
Arian Garshi and Malin Wist Jakobsen and J{\o}rgen Nyborg-Christensen and Daniel Ostnes and Maria Ovchinnikova(参考訳) 人工知能(AI)アルゴリズムは、学習をより効率的にするためのツールとして、教育分野に登場した。 特定のスキルを習得し、新しい言語を学習し、進捗を追跡するための異なるアプリケーションは、子供によって使用される。 このスマートなテクノロジーが子供たちに与える影響は? 我々は,芸術の現状を理解するために,体系的なレビューを行った。 われわれは、ウェアラブル、児童心理学、aiと教育、学校の監視、説明責任など、いくつかの分野の文献を調査した。 我々のレビューは、確立されたトピックごとにさらなる研究の必要性を特定した。 ウェアラブルの使用によるポジティブな効果とネガティブな効果の両方を見出すことができたが、スマートテクノロジーが子供のパフォーマンスを低下させるかどうかを結論付けることはできなかった。 本稿では,教育におけるスマートテクノロジーのアカウンタビリティを効果的に識別する枠組みを提案する。

Artificial intelligence (AI) algorithms have emerged in the educational domain as a tool to make learning more efficient. Different applications for mastering particular skills, learning new languages, and tracking their progress are used by children. What is the impact on children from using this smart technology? We conducted a systematic review to understand the state of the art. We explored the literature in several sub-disciplines: wearables, child psychology, AI and education, school surveillance, and accountability. Our review identified the need for more research for each established topic. We managed to find both positive and negative effects of using wearables, but cannot conclude if smart technology use leads to lowering the young children's performance. Based on our insights we propose a framework to effectively identify accountability for smart technology in education.
翻訳日:2022-11-11 00:24:44 公開日:2020-07-13
# Inertial Sensingが人工知能に挑戦:チャンスか挑戦か?

Inertial Sensing Meets Artificial Intelligence: Opportunity or Challenge? ( http://arxiv.org/abs/2007.06727v1 )

ライセンス: Link先を確認
You Li, Ruizhi Chen, Xiaoji Niu, Yuan Zhuang, Zhouzheng Gao, Xin Hu, Naser El-Sheimy(参考訳) 慣性航法システム(INS)は、インテリジェント輸送システムにおいて自己完結型かつ連続的な運動推定を提供するために広く利用されている。 近年,チップレベルの慣性センサの出現により,位置決めやナビゲーション,モバイルマッピングから位置情報サービス,無人システム,輸送ビッグデータに至るまで,関連する応用が拡大されている。 一方、ビッグデータの出現とアルゴリズムと計算能力の改善の恩恵を受け、人工知能(AI)は様々な分野で成功しているコンセンサスツールとなっている。 本稿では,センサ設計と選択,キャリブレーションとエラーモデリング,ナビゲーションとモーションセンシングアルゴリズム,マルチセンサ情報融合,システム評価,実用化など,さまざまな側面から慣性感覚を強化するためにAI技術を用いた研究についてレビューする。 本稿は,300近い関連出版物の中から選択された30以上の代表記事をもとに,各分野における技術の現状,長所,課題をまとめたものである。 最後に、aiによる慣性センシングの9つの利点と9つの課題を要約し、今後の研究の方向性を指摘する。

The inertial navigation system (INS) has been widely used to provide self-contained and continuous motion estimation in intelligent transportation systems. Recently, the emergence of chip-level inertial sensors has expanded the relevant applications from positioning, navigation, and mobile mapping to location-based services, unmanned systems, and transportation big data. Meanwhile, benefit from the emergence of big data and the improvement of algorithms and computing power, artificial intelligence (AI) has become a consensus tool that has been successfully applied in various fields. This article reviews the research on using AI technology to enhance inertial sensing from various aspects, including sensor design and selection, calibration and error modeling, navigation and motion-sensing algorithms, multi-sensor information fusion, system evaluation, and practical application. Based on the over 30 representative articles selected from the nearly 300 related publications, this article summarizes the state of the art, advantages, and challenges on each aspect. Finally, it summarizes nine advantages and nine challenges of AI-enhanced inertial sensing and then points out future research directions.
翻訳日:2022-11-11 00:24:18 公開日:2020-07-13
# 連続学習のための色と形状表現の絡み合い

Disentanglement of Color and Shape Representations for Continual Learning ( http://arxiv.org/abs/2007.06356v1 )

ライセンス: Link先を確認
David Berga, Marc Masana and Joost Van de Weijer(参考訳) 我々は、不連続な特徴表現は破滅的な忘れに苦しむことが少なくなると仮定する。 ケーススタディとして,ネットワークアーキテクチャを調整し,色と形状の明瞭な絡み合いを行う。 オックスフォード102フラワースデータセットを用いたタスクインクリメンタル設定において,分類精度を検証した。 提案手法と弾力的重み強化, フォーッティングなし学習, シナプティックインテリジェンス, メモリ・アウェア・シナプスを組み合わせることで, 特徴の絡み合いが連続学習性能に肯定的な影響を及ぼすことを示す。

We hypothesize that disentangled feature representations suffer less from catastrophic forgetting. As a case study we perform explicit disentanglement of color and shape, by adjusting the network architecture. We tested classification accuracy and forgetting in a task-incremental setting with Oxford-102 Flowers dataset. We combine our method with Elastic Weight Consolidation, Learning without Forgetting, Synaptic Intelligence and Memory Aware Synapses, and show that feature disentanglement positively impacts continual learning performance.
翻訳日:2022-11-11 00:17:22 公開日:2020-07-13
# 医用画像分類のためのクラス間視覚相関の学習と展開

Learning and Exploiting Interclass Visual Correlations for Medical Image Classification ( http://arxiv.org/abs/2007.06371v1 )

ライセンス: Link先を確認
Dong Wei, Shilei Cao, Kai Ma, Yefeng Zheng(参考訳) ディープニューラルネットワークに基づく医療画像分類では、正しいカテゴリの確率が1で、他のカテゴリの確率が0のトレーニングに「ハード」ラベルを使用することが多い。 しかし、これらのハードターゲットはネットワークの予測を過度に確証し、モデルの一般化と適応に影響を与えるトレーニングデータに過剰に適合しがちである。 ラベルの平滑化と軟化は分類性能を向上させることが研究で示されている。 それでも、既存のアプローチは非データ駆動か、適用性に制限がある。 本稿では,クラス相関学習ネットワーク(ccl-net)を用いて,与えられた学習データからクラス間視覚相関を学習し,分類作業を支援するソフトラベルを作成する。 ネットワークに望ましい相関を直接学習させる代わりに,軽量プラグインcclブロックを用いたクラス固有組込みの距離メトリック学習を通じて暗黙的に学習することを提案する。 相関の幾何学的説明に基づく直感的損失は、クラス間相関の学習を促進するために設計されている。 さらに,提案するCCLブロックをプラグインヘッドとして,分類バックボーンとともに,ソフトラベルをオンザフライで生成し,エンドツーエンドのトレーニングを行う。 国際スキンイメージングコラボレーション2018データセットの実験結果は、トレーニングデータからのクラス間相関の効果的な学習と、cclブロックを用いたいくつかの現代的なネットワーク構造のパフォーマンスの一貫した改善を示しています。

Deep neural network-based medical image classifications often use "hard" labels for training, where the probability of the correct category is 1 and those of others are 0. However, these hard targets can drive the networks over-confident about their predictions and prone to overfit the training data, affecting model generalization and adaption. Studies have shown that label smoothing and softening can improve classification performance. Nevertheless, existing approaches are either non-data-driven or limited in applicability. In this paper, we present the Class-Correlation Learning Network (CCL-Net) to learn interclass visual correlations from given training data, and produce soft labels to help with classification tasks. Instead of letting the network directly learn the desired correlations, we propose to learn them implicitly via distance metric learning of class-specific embeddings with a lightweight plugin CCL block. An intuitive loss based on a geometrical explanation of correlation is designed for bolstering learning of the interclass correlations. We further present end-to-end training of the proposed CCL block as a plugin head together with the classification backbone while generating soft labels on the fly. Our experimental results on the International Skin Imaging Collaboration 2018 dataset demonstrate effective learning of the interclass correlations from training data, as well as consistent improvements in performance upon several widely used modern network structures with the CCL block.
翻訳日:2022-11-11 00:17:10 公開日:2020-07-13
# fashion-iq 2020が2位チームのソリューションに挑戦

Fashion-IQ 2020 Challenge 2nd Place Team's Solution ( http://arxiv.org/abs/2007.06404v1 )

ライセンス: Link先を確認
Minchul Shin, Yoonjae Cho, Seongwuk Hong(参考訳) 本稿では,CVPR 2020におけるFashion-IQチャレンジへのチームVOAのアプローチについて述べる。 画像とテキストのペアが与えられた場合、テキストと画像のモダリティを効果的に意味空間に結合できる新しいマルチモーダル合成法RTICを提案する。 画像とテキストの特徴をそれぞれcnnとシーケンシャルモデル(lstmやgrgなど)で符号化して抽出する。 RTICは、目標と候補との間の特徴の残差の意味を強調するために、チャネルワイドアテンションモジュールを備えたNブロックで構成されている。 次に、符号化残差を候補画像の特徴に付加して合成特徴量を得る。 また,モデルの変種によるアンサンブル戦略についても検討し,最良単一モデルと比較して性能が大幅に向上した。 最終的に、我々のアプローチはFashion-IQ 2020 Challengeで2位となり、テストスコアは48.02となった。

This paper is dedicated to team VAA's approach submitted to the Fashion-IQ challenge in CVPR 2020. Given a pair of the image and the text, we present a novel multimodal composition method, RTIC, that can effectively combine the text and the image modalities into a semantic space. We extract the image and the text features that are encoded by the CNNs and the sequential models (e.g., LSTM or GRU), respectively. To emphasize the meaning of the residual of the feature between the target and candidate, the RTIC is composed of N-blocks with channel-wise attention modules. Then, we add the encoded residual to the feature of the candidate image to obtain a synthesized feature. We also explored an ensemble strategy with variants of models and achieved a significant boost in performance comparing to the best single model. Finally, our approach achieved 2nd place in the Fashion-IQ 2020 Challenge with a test score of 48.02 on the leaderboard.
翻訳日:2022-11-11 00:16:48 公開日:2020-07-13
# マルチタスク非自己回帰モデルによる人間の動作予測

Multitask Non-Autoregressive Model for Human Motion Prediction ( http://arxiv.org/abs/2007.06426v1 )

ライセンス: Link先を確認
Bin Li, Jian Tian, Zhongfei Zhang, Hailin Feng, and Xi Li(参考訳) 人間の動作予測は、過去に与えられた人間の骨格を予測することを目的としており、典型的なシーケンス・ツー・シーケンスの問題である。 そのため、様々なRNNベースのエンコーダデコーダアーキテクチャの探索が続けられている。 しかし、以前に生成されたターゲットポーズを条件に生成することで、これらのモデルはエラー蓄積問題などの問題を引き起こす傾向にある。 本稿では,このような問題は主に自己回帰的手法によるものであると論じる。 したがって、新しい非自己回帰モデル(nat)は、コンテクストエンコーダと位置符号化モジュールとともに完全な非自己回帰復号スキームと共に提案されている。 より具体的には、コンテキストエンコーダは時間的および空間的視点から与えられたポーズを埋め込む。 フレームデコーダは、各将来のポーズを独立して予測する責任を負う。 位置符号化モジュールは、時間順を示すために位置信号をモデルに注入する。 さらに、低レベルヒト骨格予測と高レベルヒト行動認識の両方にマルチタスクトレーニングパラダイムを提示し、予測タスクに説得力のある改善をもたらす。 提案手法はHuman3.6MとCMU-Mocapのベンチマークで評価され,最先端の自己回帰手法よりも優れている。

Human motion prediction, which aims at predicting future human skeletons given the past ones, is a typical sequence-to-sequence problem. Therefore, extensive efforts have been continued on exploring different RNN-based encoder-decoder architectures. However, by generating target poses conditioned on the previously generated ones, these models are prone to bringing issues such as error accumulation problem. In this paper, we argue that such issue is mainly caused by adopting autoregressive manner. Hence, a novel Non-auToregressive Model (NAT) is proposed with a complete non-autoregressive decoding scheme, as well as a context encoder and a positional encoding module. More specifically, the context encoder embeds the given poses from temporal and spatial perspectives. The frame decoder is responsible for predicting each future pose independently. The positional encoding module injects positional signal into the model to indicate temporal order. Moreover, a multitask training paradigm is presented for both low-level human skeleton prediction and high-level human action recognition, resulting in the convincing improvement for the prediction task. Our approach is evaluated on Human3.6M and CMU-Mocap benchmarks and outperforms state-of-the-art autoregressive methods.
翻訳日:2022-11-11 00:16:32 公開日:2020-07-13
# シングルイメージデハージングのための暗黙のEuler ODEネットワーク

Implicit Euler ODE Networks for Single-Image Dehazing ( http://arxiv.org/abs/2007.06443v1 )

ライセンス: Link先を確認
Jiawei Shen, Zhuoyan Li, Lei Yu, Gui-Song Xia, Wen Yang(参考訳) 深層畳み込みニューラルネットワーク(cnn)は画像デハージングタスクに応用されており、残差ネットワーク(resnet)が消滅勾配問題を回避する基本コンポーネントとして採用されることが多い。 近年、ResNetは通常の微分方程式(ODE)の明示的なオイラー前方近似とみなすことができることが多くの研究で示されている。 本稿では,imブロックと呼ばれる再帰的ニューラルネットワークによって実現可能な暗黙の後方近似に明示的な前方近似を拡張した。 そこで本研究では,単一画像デハージング問題に対して,効率的なマルチレベル暗黙ネットワーク(MI-Net)を提案する。 さらに,ネットワークの性能向上のため,マルチレベル・フュージング(MLF)機構と残留チャネルアテンションブロック(RCAブロック)を採用した。 いくつかのデハージングベンチマークデータセットの実験により、我々の手法は既存の手法より優れ、最先端のパフォーマンスを実現することが示された。

Deep convolutional neural networks (CNN) have been applied for image dehazing tasks, where the residual network (ResNet) is often adopted as the basic component to avoid the vanishing gradient problem. Recently, many works indicate that the ResNet can be considered as the explicit Euler forward approximation of an ordinary differential equation (ODE). In this paper, we extend the explicit forward approximation to the implicit backward counterpart, which can be realized via a recursive neural network, named IM-block. Given that, we propose an efficient end-to-end multi-level implicit network (MI-Net) for the single image dehazing problem. Moreover, multi-level fusing (MLF) mechanism and residual channel attention block (RCA-block) are adopted to boost performance of our network. Experiments on several dehazing benchmark datasets demonstrate that our method outperforms existing methods and achieves the state-of-the-art performance.
翻訳日:2022-11-11 00:16:13 公開日:2020-07-13
# Uncertain-DeepSSM:画像から確率的形状モデルへ

Uncertain-DeepSSM: From Images to Probabilistic Shape Models ( http://arxiv.org/abs/2007.06516v1 )

ライセンス: Link先を確認
Jadie Adams, Riddhish Bhalodia, Shireen Elhabian(参考訳) 統計的形状モデリング(SSM)は、最近、解剖学的セグメント化、形状登録、人口レベルの形状表現の最適化といった、時間を要する専門家主導のワークフローの必要性を軽減するために、ディープラーニングの進歩を生かした。 DeepSSMはエンドツーエンドのディープラーニングアプローチであり、手動によるオーバーヘッドが少なく、未分割画像から直接統計的形状表現を抽出する。 下流タスクに有効な形態を推定するための最先端形状モデリング手法と互換性がある。 それでも、DeepSSMは、視覚的に正確なものと仮定できない、不確実な形状の推定を生成する。 したがって、不確実性の詳細な見積もりを定量化することで、deepssmが知らないことを伝えることは、モデル出力がどの程度信頼できるかを決定するためのオンデマンド診断ツールとして、その直接臨床応用に不可欠である。 そこで,本論文では,ネットワークを用いて本質的入力ばらつきを予測し,モデル依存の認識の不確かさをモンテカルロ・ドロップアウトサンプリングにより推定し,ネットワークパラメータの変動分布を近似する統一モデルとして不確実性深層モデルを提案する。 実験では、DeepSSMよりも精度が向上し、前処理がほとんどないエンドツーエンドであることのメリットも維持されている。

Statistical shape modeling (SSM) has recently taken advantage of advances in deep learning to alleviate the need for a time-consuming and expert-driven workflow of anatomy segmentation, shape registration, and the optimization of population-level shape representations. DeepSSM is an end-to-end deep learning approach that extracts statistical shape representation directly from unsegmented images with little manual overhead. It performs comparably with state-of-the-art shape modeling methods for estimating morphologies that are viable for subsequent downstream tasks. Nonetheless, DeepSSM produces an overconfident estimate of shape that cannot be blindly assumed to be accurate. Hence, conveying what DeepSSM does not know, via quantifying granular estimates of uncertainty, is critical for its direct clinical application as an on-demand diagnostic tool to determine how trustworthy the model output is. Here, we propose Uncertain-DeepSSM as a unified model that quantifies both, data-dependent aleatoric uncertainty by adapting the network to predict intrinsic input variance, and model-dependent epistemic uncertainty via a Monte Carlo dropout sampling to approximate a variational distribution over the network parameters. Experiments show an accuracy improvement over DeepSSM while maintaining the same benefits of being end-to-end with little pre-processing.
翻訳日:2022-11-11 00:15:57 公開日:2020-07-13
# 複合行動認識のためのユニバーサル・ツー・スペクティフィック・フレームワーク

Universal-to-Specific Framework for Complex Action Recognition ( http://arxiv.org/abs/2007.06149v1 )

ライセンス: Link先を確認
Peisen Zhao, Lingxi Xie, Ya Zhang, Qi Tian(参考訳) 映像に基づく行動認識はコンピュータビジョンの分野で最近注目を集めている。 より複雑な認識課題を解決するためには、クラス間変異の異なるレベルを区別する必要がある。 ヒューマン意思決定プロセスに基づく共通のフローチャートに着想を得て,まず確率クラスを絞り込み,その後,より詳細な認識のための「再考」プロセスを適用し,複雑なアクション認識のための効果的なu2sフレームワークを提案する。 u2sフレームワークは、ユニバーサルネットワーク、カテゴリ固有ネットワーク、マスクネットワークの3つのサブネットワークで構成されている。 ユニバーサルネットワークはまず普遍的特徴表現を学習する。 マスクネットワークは、ユニバーサルネットワークの出力に基づいてカテゴリの正規化を通じてクラスを混乱させるための注意マスクを生成する。 マスクはさらに、クラス固有の特徴表現のカテゴリ固有のネットワークをガイドするために使用される。 フレームワーク全体がエンドツーエンドで最適化されている。 様々なベンチマークデータセット、例えば、Something、UCF101、HMDB51データセットの実験は、U2Sフレームワークの有効性を示している。 さらに、異なるクラス間の関係を可視化し、U2Sが実際に学習した特徴の識別性を向上させることを示す。 さらに、提案したU2Sモデルは一般的なフレームワークであり、任意のベース認識ネットワークを採用することができる。

Video-based action recognition has recently attracted much attention in the field of computer vision. To solve more complex recognition tasks, it has become necessary to distinguish different levels of interclass variations. Inspired by a common flowchart based on the human decision-making process that first narrows down the probable classes and then applies a "rethinking" process for finer-level recognition, we propose an effective universal-to-specific (U2S) framework for complex action recognition. The U2S framework is composed of three subnetworks: a universal network, a category-specific network, and a mask network. The universal network first learns universal feature representations. The mask network then generates attention masks for confusing classes through category regularization based on the output of the universal network. The mask is further used to guide the category-specific network for class-specific feature representations. The entire framework is optimized in an end-to-end manner. Experiments on a variety of benchmark datasets, e.g., the Something-Something, UCF101, and HMDB51 datasets, demonstrate the effectiveness of the U2S framework; i.e., U2S can focus on discriminative spatiotemporal regions for confusing categories. We further visualize the relationship between different classes, showing that U2S indeed improves the discriminability of learned features. Moreover, the proposed U2S model is a general framework and may adopt any base recognition network.
翻訳日:2022-11-11 00:09:43 公開日:2020-07-13
# Aggregated Fields of View を用いた低次元・高次元モダリティ幻覚

Low to High Dimensional Modality Hallucination using Aggregated Fields of View ( http://arxiv.org/abs/2007.06166v1 )

ライセンス: Link先を確認
Kausic Gunasekar, Qiang Qiu and Yezhou Yang(参考訳) 現実世界のロボットシステムは、多くのモダリティ、特にナビゲーションや認識などのタスクからのデータを扱う。 これらのシステムの性能は、センサーの故障や悪環境などの要因により、1つ以上のモダリティがアクセス不能になったときに劇的に低下する可能性がある。 ここでは、モダリティ幻覚を一貫したモダリティの可利用性を確保するための効果的な方法として論じる。 rgbから奥行きなど、よりリッチな情報を含むモダリティのデータに対する幻覚は広く研究されているが、ロボット工学や自律システムにおける興味深いユースケースを用いて、より困難な低-高モダリティ幻覚について調査する。 本稿では,周辺地域の複数の視点から情報を集約して,現在あるモダリティから失われた情報を復元する,新しい幻覚アーキテクチャを提案する。 このプロセスは、データモダリティ間の非線形マッピングをキャプチャして実装され、学習されたマッピングは、モダリティ損失を伴う悪シナリオにおいてシステムに与えるリスクを軽減するために既存のモダリティを支援するために使用される。 また, uwrgbdおよびnyudデータセットの広範な分類および分割実験を行い, 幻覚がモダリティ損失の悪影響を和らげることを示した。 実装とモデル: https://github.com/kausic94/hallucination

Real-world robotics systems deal with data from a multitude of modalities, especially for tasks such as navigation and recognition. The performance of those systems can drastically degrade when one or more modalities become inaccessible, due to factors such as sensors' malfunctions or adverse environments. Here, we argue modality hallucination as one effective way to ensure consistent modality availability and thereby reduce unfavorable consequences. While hallucinating data from a modality with richer information, e.g., RGB to depth, has been researched extensively, we investigate the more challenging low-to-high modality hallucination with interesting use cases in robotics and autonomous systems. We present a novel hallucination architecture that aggregates information from multiple fields of view of the local neighborhood to recover the lost information from the extant modality. The process is implemented by capturing a non-linear mapping between the data modalities and the learned mapping is used to aid the extant modality to mitigate the risk posed to the system in the adverse scenarios which involve modality loss. We also conduct extensive classification and segmentation experiments on UWRGBD and NYUD datasets and demonstrate that hallucination allays the negative effects of the modality loss. Implementation and models: https://github.com/kausic94/Hallucination
翻訳日:2022-11-11 00:09:03 公開日:2020-07-13
# スケーラブルな入力画像のためのパラメータ分類ネットワークの学習

Learning to Learn Parameterized Classification Networks for Scalable Input Images ( http://arxiv.org/abs/2007.06181v1 )

ライセンス: Link先を確認
Duo Li, Anbang Yao and Qifeng Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。 これにより、特定のモデルに対する異なる入力画像解像度へのデプロイが実現可能になる。 実行時に効率よくフレキシブルな画像分類を実現するため,各種入力スケールのメインネットワークの畳み込み重みを生成するメタラーナを用い,各スケールごとのプライベートなバッチ正規化層を維持する。 学習性能を向上させるために,入力解像度の異なるモデル予測よりもフライでの知識蒸留を利用する。 学習されたメタネットワークは、メインネットワークを動的にパラメータ化して任意のサイズの入力画像に対して、個別に訓練されたモデルと比較して一貫して精度良く動作させることができる。 ImageNetの大規模な実験により,適応推論過程における精度・効率トレードオフの改善が示された。 実行可能入力解像度を切り替えることで、資源制約の異なる環境において高速適応の要求を満たすことができる。 コードとモデルはhttps://github.com/d-li14/sanで入手できる。

Convolutional Neural Networks (CNNs) do not have a predictable recognition behavior with respect to the input resolution change. This prevents the feasibility of deployment on different input image resolutions for a specific model. To achieve efficient and flexible image classification at runtime, we employ meta learners to generate convolutional weights of main networks for various input scales and maintain privatized Batch Normalization layers per scale. For improved training performance, we further utilize knowledge distillation on the fly over model predictions based on different input resolutions. The learned meta network could dynamically parameterize main networks to act on input images of arbitrary size with consistently better accuracy compared to individually trained models. Extensive experiments on the ImageNet demonstrate that our method achieves an improved accuracy-efficiency trade-off during the adaptive inference process. By switching executable input resolutions, our method could satisfy the requirement of fast adaption in different resource-constrained environments. Code and models are available at https://github.com/d-li14/SAN.
翻訳日:2022-11-11 00:08:38 公開日:2020-07-13
# psconv: 機能ピラミッドを1つのコンパクトなポリスケール畳み込み層に絞り込む

PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale Convolutional Layer ( http://arxiv.org/abs/2007.06191v1 )

ライセンス: Link先を確認
Duo Li, Anbang Yao and Qifeng Chen(参考訳) 強力なモデリング能力にもかかわらず、畳み込みニューラルネットワーク(CNN)はしばしばスケールに敏感である。 分散をスケールするためにCNNの堅牢性を高めるために、異なるレイヤやフィルタからのマルチスケール機能融合は既存のソリューションに大きな注目を集め、より粒度の細かいカーネル空間は見過ごされている。 我々はこの後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。 提案した畳み込み演算は、PSConv (Poly-Scale Convolution) と呼ばれ、拡散率のスペクトルを混合し、各フィルタの個々の畳み込みカーネルに1つの畳み込み層を正確に割り当てる。 具体的には, フィルタの入力チャネルと出力チャネルの軸に沿って拡散速度が周期的に変化し, 広い範囲にわたる特徴を巧妙に集約する。 PSConvは、多くの一般的なCNNバックボーンにおけるバニラ畳み込みの代替となり、新たなパラメータや計算複雑性を導入することなく、より良い表現学習を可能にする。 ImageNetとMS COCOベンチマークの総合的な実験により、PSConvの優れた性能が検証された。 コードとモデルはhttps://github.com/d-li14/psconvで入手できる。

Despite their strong modeling capacities, Convolutional Neural Networks (CNNs) are often scale-sensitive. For enhancing the robustness of CNNs to scale variance, multi-scale feature fusion from different layers or filters attracts great attention among existing solutions, while the more granular kernel space is overlooked. We bridge this regret by exploiting multi-scale features in a finer granularity. The proposed convolution operation, named Poly-Scale Convolution (PSConv), mixes up a spectrum of dilation rates and tactfully allocate them in the individual convolutional kernels of each filter regarding a single convolutional layer. Specifically, dilation rates vary cyclically along the axes of input and output channels of the filters, aggregating features over a wide range of scales in a neat style. PSConv could be a drop-in replacement of the vanilla convolution in many prevailing CNN backbones, allowing better representation learning without introducing additional parameters and computational complexities. Comprehensive experiments on the ImageNet and MS COCO benchmarks validate the superior performance of PSConv. Code and models are available at https://github.com/d-li14/PSConv.
翻訳日:2022-11-11 00:08:22 公開日:2020-07-13
# アンカー型単発物体検出のための位置認識ボックス推論

Location-Aware Box Reasoning for Anchor-Based Single-Shot Object Detection ( http://arxiv.org/abs/2007.06233v1 )

ライセンス: Link先を確認
Wenchi Ma, Kaidong Li, Guanghui Wang(参考訳) オブジェクト検出フレームワークの大部分では、非最大抑圧(NMS)における信頼性に基づくランキングのように、予測境界ボックスの品質基準として、インスタンス分類の信頼性が使用される。 しかし,空間的関係を示す境界ボックスの品質は,分類スコアとのみ相関するわけではない。 地域提案ネットワーク(RPN)ベースの検出器と比較して、単発物体検出器はボックス提案の事前選択がないため、ボックス品質を損なう。 本稿では,単発物体検出器を目標とし,バウンディングボックスに対する位置認識型アンカーベース推論(LAAR)を提案する。 laarは、境界ボックスの品質評価のために、位置と分類の信頼度の両方を考慮に入れている。 そこで本研究では,アンカーと基底真理の相対的な位置を学習するための新しいネットワークブロックを提案する。 提案するローカライズスコアは独立回帰分枝となり,予測したローカライズスコアを採点することで境界ボックス品質を調整し,nmsで最良判定された境界ボックスを拾い上げることができる。 MS COCOとPASCAL VOCベンチマークの実験により、提案された位置認識フレームワークは、現在のアンカーベースのシングルショットオブジェクト検出フレームワークの性能を高め、一貫性と堅牢な検出結果を得ることを示した。

In the majority of object detection frameworks, the confidence of instance classification is used as the quality criterion of predicted bounding boxes, like the confidence-based ranking in non-maximum suppression (NMS). However, the quality of bounding boxes, indicating the spatial relations, is not only correlated with the classification scores. Compared with the region proposal network (RPN) based detectors, single-shot object detectors suffer the box quality as there is a lack of pre-selection of box proposals. In this paper, we aim at single-shot object detectors and propose a location-aware anchor-based reasoning (LAAR) for the bounding boxes. LAAR takes both the location and classification confidences into consideration for the quality evaluation of bounding boxes. We introduce a novel network block to learn the relative location between the anchors and the ground truths, denoted as a localization score, which acts as a location reference during the inference stage. The proposed localization score leads to an independent regression branch and calibrates the bounding box quality by scoring the predicted localization score so that the best-qualified bounding boxes can be picked up in NMS. Experiments on MS COCO and PASCAL VOC benchmarks demonstrate that the proposed location-aware framework enhances the performances of current anchor-based single-shot object detection frameworks and yields consistent and robust detection results.
翻訳日:2022-11-11 00:07:44 公開日:2020-07-13
# Dual-Teacher: アノテーション効率向上のためのドメイン内教師とドメイン間教師の統合

Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for Annotation-efficient Cardiac Segmentation ( http://arxiv.org/abs/2007.06279v1 )

ライセンス: Link先を確認
Kang Li, Shujun Wang, Lequan Yu, and Pheng-Ann Heng(参考訳) 医用画像アノテーションは、非常に時間がかかり、入手するのに費用がかかる。 アノテーションの不足を軽減するために、豊富なラベルなしデータ、マルチモダリティ学習を含むドメイン適応、追加モダリティから事前知識に依存する教師なしドメイン適応など、追加情報を有効に活用する多くの手法が開発されている。 本稿では,注釈効率の良い医用画像分割のための,豊富なラベル付きデータと確立されたクロスモダリティデータの同時活用の可能性を検討することを目的とする。 そこで本研究では,2つの教師モデルを用いて,ラベル付き対象データ(CTなど)から学習するだけでなく,ラベル付き対象データとラベル付き情報源データ(MRなど)を探索する,新たな半教師付きドメイン適応手法であるDual-Teacherを提案する。 具体的には、予測一貫性を奨励することで、ドメイン内教師からラベル付き対象データの知識を学習し、知識蒸留によってドメイン間教師からラベル付きソースデータに埋め込まれた形状を学習する。 これにより、3つのデータリソースすべてから情報を効果的に活用し、総合的に統合してパフォーマンスを向上させることができる。 我々はMM-WHS 2017データセットの広範な実験を行い、未ラベルデータとクロスモダリティデータを優れた性能で同時に利用し、半教師あり学習とドメイン適応法を大きなマージンで向上させることができることを示した。

Medical image annotations are prohibitively time-consuming and expensive to obtain. To alleviate annotation scarcity, many approaches have been developed to efficiently utilize extra information, e.g.,semi-supervised learning further exploring plentiful unlabeled data, domain adaptation including multi-modality learning and unsupervised domain adaptation resorting to the prior knowledge from additional modality. In this paper, we aim to investigate the feasibility of simultaneously leveraging abundant unlabeled data and well-established cross-modality data for annotation-efficient medical image segmentation. To this end, we propose a novel semi-supervised domain adaptation approach, namely Dual-Teacher, where the student model not only learns from labeled target data (e.g., CT), but also explores unlabeled target data and labeled source data (e.g., MR) by two teacher models. Specifically, the student model learns the knowledge of unlabeled target data from intra-domain teacher by encouraging prediction consistency, as well as the shape priors embedded in labeled source data from inter-domain teacher via knowledge distillation. Consequently, the student model can effectively exploit the information from all three data resources and comprehensively integrate them to achieve improved performance. We conduct extensive experiments on MM-WHS 2017 dataset and demonstrate that our approach is able to concurrently utilize unlabeled data and cross-modality data with superior performance, outperforming semi-supervised learning and domain adaptation methods with a large margin.
翻訳日:2022-11-11 00:07:20 公開日:2020-07-13
# バスケットボール映像におけるセマンティックイベント認識のためのハウジング動作パターンとキービジュアル情報

Fusing Motion Patterns and Key Visual Information for Semantic Event Recognition in Basketball Videos ( http://arxiv.org/abs/2007.06288v1 )

ライセンス: Link先を確認
Lifang Wu, Zhou Yang, Qi Wang, Meng Jian, Boxuan Zhao, Junchi Yan, Chang Wen Chen(参考訳) チームスポーツ活動における多くのセマンティックイベント、例えばバスケットボールは、グループ活動と結果(スコアか否かに関わらず)の両方を巻き込む。 運動パターンは、異なる活動を特定する効果的な方法である。 グローバルな動きとローカルな動きはそれぞれ異なる活動に重点を置いており、グローバルな動きとローカルな動きが混在しているため、光学的流れから捉えることは困難である。 そのため、グローバルモーションとローカルモーションを分離するより効果的な方法が求められている。 バスケットボールゲーム分析の特定の場合については、バスケットの周囲の外観変化により、各ラウンドの成功点を確実に検出することができる。 バスケットボールビデオにおける意味的事象認識のための,グローバル・ローカル・モーション・パターン(MP)とキー視覚情報(KVI)を融合する手法を提案する。 まず,カメラ調整の固有特性に基づいて混合動作から大域的な動きを推定するアルゴリズムを提案する。 そして局所的な動きは、混合と大域的な動きから得られる。 第2に,2ストリームの3d cnnフレームワークを使用して,分離したグローバルおよびローカル動作パターンに対するグループアクティビティ認識を行う。 第3に、バスケットを検出し、その外観特徴をcnn構造を介して抽出する。 これらの機能は成功または失敗を予測するために利用される。 最後に、イベント認識のためのkronecker製品を用いて、グループアクティビティ認識および成功/失敗予測結果を統合する。 NCAAデータセットの実験により,提案手法が最先端の性能を得ることを示す。

Many semantic events in team sport activities e.g. basketball often involve both group activities and the outcome (score or not). Motion patterns can be an effective means to identify different activities. Global and local motions have their respective emphasis on different activities, which are difficult to capture from the optical flow due to the mixture of global and local motions. Hence it calls for a more effective way to separate the global and local motions. When it comes to the specific case for basketball game analysis, the successful score for each round can be reliably detected by the appearance variation around the basket. Based on the observations, we propose a scheme to fuse global and local motion patterns (MPs) and key visual information (KVI) for semantic event recognition in basketball videos. Firstly, an algorithm is proposed to estimate the global motions from the mixed motions based on the intrinsic property of camera adjustments. And the local motions could be obtained from the mixed and global motions. Secondly, a two-stream 3D CNN framework is utilized for group activity recognition over the separated global and local motion patterns. Thirdly, the basket is detected and its appearance features are extracted through a CNN structure. The features are utilized to predict the success or failure. Finally, the group activity recognition and success/failure prediction results are integrated using the kronecker product for event recognition. Experiments on NCAA dataset demonstrate that the proposed method obtains state-of-the-art performance.
翻訳日:2022-11-11 00:06:50 公開日:2020-07-13
# 自然言語の高速対応例の生成

Generating Fluent Adversarial Examples for Natural Languages ( http://arxiv.org/abs/2007.06174v1 )

ライセンス: Link先を確認
Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li(参考訳) 自然言語処理(NLP)タスクの敵攻撃を効果的に構築することは、真の課題である。 第一に、文空間が離散であるため、勾配の方向に沿って小さな摂動を作ることは困難である。 第二に、生成された例の流布は保証できない。 本稿では,メトロポリス・ハスティングスサンプリングによって両問題に対処するMHAを提案する。 imdbとsnliによる実験では,提案するmhaが攻撃能力のベースラインモデルを上回ることが示された。 MAHによる敵対的なトレーニングも、堅牢性とパフォーマンスの向上につながります。

Efficiently building an adversarial attacker for natural language processing (NLP) tasks is a real challenge. Firstly, as the sentence space is discrete, it is difficult to make small perturbations along the direction of gradients. Secondly, the fluency of the generated examples cannot be guaranteed. In this paper, we propose MHA, which addresses both problems by performing Metropolis-Hastings sampling, whose proposal is designed with the guidance of gradients. Experiments on IMDB and SNLI show that our proposed MHA outperforms the baseline model on attacking capability. Adversarial training with MAH also leads to better robustness and performance.
翻訳日:2022-11-11 00:00:44 公開日:2020-07-13
# 奥行きLSTMを用いた変圧器

Transformer with Depth-Wise LSTM ( http://arxiv.org/abs/2007.06257v1 )

ライセンス: Link先を確認
Hongfei Xu and Qiuhui Liu and Deyi Xiong and Josef van Genabith(参考訳) モデルの深さを増やすことで、ニューラルネットワークは複雑な関数をモデル化できるが、最適化の問題につながることもある。 トランス変換モデルは、その収束を保証するために残差接続を用いる。 In this paper, we suggest that the residual connection has its drawbacks, and propose to train Transformers with the depth-wise LSTM which regards outputs of layers as steps in time series instead of residual connections, under the motivation that the vanishing gradient problem suffered by deep networks is the same as recurrent networks applied to long sequences, while LSTM (Hochreiter and Schmidhuber, 1997) has been proven of good capability in capturing long-distance relationship, and its design may alleviate some drawbacks of residual connections while ensuring the convergence. マルチヘッドアテンションネットワークとフィードフォワードネットワークの計算をトランスフォーマーの深度ワイドLSTMと統合し、残差接続のように深度ワイドLSTMを利用する方法を示す。 6層トランスを用いた実験により,WMT14とWMT14の両タスクにおいてBLEUの大幅な改善がもたらされることを示すとともに,深層トランスフォーマーの収束に対する深部的LSTMの有効性を実証した。 さらに, 学習モデルの解析層を線形変換に蒸留し, 代替による性能劣化を観察することで, 性能に対する非線型性の影響を測定することを提案する。 解析結果は, 層間非直線性, 深度的LSTM, 残差接続性よりも効率的である。

Increasing the depth of models allows neural models to model complicated functions but may also lead to optimization issues. The Transformer translation model employs the residual connection to ensure its convergence. In this paper, we suggest that the residual connection has its drawbacks, and propose to train Transformers with the depth-wise LSTM which regards outputs of layers as steps in time series instead of residual connections, under the motivation that the vanishing gradient problem suffered by deep networks is the same as recurrent networks applied to long sequences, while LSTM (Hochreiter and Schmidhuber, 1997) has been proven of good capability in capturing long-distance relationship, and its design may alleviate some drawbacks of residual connections while ensuring the convergence. We integrate the computation of multi-head attention networks and feed-forward networks with the depth-wise LSTM for the Transformer, which shows how to utilize the depth-wise LSTM like the residual connection. Our experiment with the 6-layer Transformer shows that our approach can bring about significant BLEU improvements in both WMT 14 English-German and English-French tasks, and our deep Transformer experiment demonstrates the effectiveness of the depth-wise LSTM on the convergence of deep Transformers. Additionally, we propose to measure the impacts of the layer's non-linearity on the performance by distilling the analyzing layer of the trained model into a linear transformation and observing the performance degradation with the replacement. Our analysis results support the more efficient use of per-layer non-linearity with depth-wise LSTM than with residual connections.
翻訳日:2022-11-11 00:00:33 公開日:2020-07-13
# VLSPキャンペーン2019におけるHSD共有タスク:ソーシャルグッズに対するヘイトスピーチ検出

HSD Shared Task in VLSP Campaign 2019:Hate Speech Detection for Social Good ( http://arxiv.org/abs/2007.06493v1 )

ライセンス: Link先を確認
Xuan-Son Vu, Thanh Vu, Mai-Vu Tran, Thanh Le-Cong, Huyen T M. Nguyen(参考訳) ベトナムで最も人気のあるsns(sns)であるfacebookから抽出されたベトナム語テクストアイテム(すなわちメッセージ)におけるヘイトスピーチのきめ細かい存在を検出することを目的とした、vlsp workshop 2019におけるhatespeech detection(hsd)タスクの組織化について述べる。 このタスクは、マルチクラス分類タスクとして編成され、facebookから25,431のベトナム語のテキストアイテムを含む大規模データセットに基づいている。 課題参加者は、項目を「HATE」「OFFENSIVE」「CLEAN」という3つのクラスのいずれかに分類できる分類モデルを構築するよう求められた。 HSDは多くの参加者を集め、VLSP 2019で人気のタスクとなった。 特にこのタスクには71チームが参加し、そのうち14チームが2019年9月20日から2019年10月4日までの380回の有効応募の結果を提出した。

The paper describes the organisation of the "HateSpeech Detection" (HSD) task at the VLSP workshop 2019 on detecting the fine-grained presence of hate speech in Vietnamese textual items (i.e., messages) extracted from Facebook, which is the most popular social network site (SNS) in Vietnam. The task is organised as a multi-class classification task and based on a large-scale dataset containing 25,431 Vietnamese textual items from Facebook. The task participants were challenged to build a classification model that is capable of classifying an item to one of 3 classes, i.e., "HATE", "OFFENSIVE" and "CLEAN". HSD attracted a large number of participants and was a popular task at VLSP 2019. In particular, there were 71 teams signed up for the task, 14 of them submitted results with 380 valid submissions from 20th September 2019 to 4th October 2019.
翻訳日:2022-11-10 23:59:53 公開日:2020-07-13
# 地域交代の強化

Strengthening neighbourhood substitution ( http://arxiv.org/abs/2007.06282v1 )

ライセンス: Link先を確認
Martin C. Cooper(参考訳) ドメインリダクションは制約満足度問題(CSP)を解決するための重要なツールである。 バイナリ CSP において、近傍置換は、各制約に代用できる別の値が存在する場合、その値を削除することである。 近傍置換の概念は, 時間的複雑性を増すことなく, 2つの異なる方法で強化できることを示す。 また、近隣の置換とは異なり、これらの新しい操作の最適なシーケンスを見つけることはNPハードであることの理論的結果を示す。

Domain reduction is an essential tool for solving the constraint satisfaction problem (CSP). In the binary CSP, neighbourhood substitution consists in eliminating a value if there exists another value which can be substituted for it in each constraint. We show that the notion of neighbourhood substitution can be strengthened in two distinct ways without increasing time complexity. We also show the theoretical result that, unlike neighbourhood substitution, finding an optimal sequence of these new operations is NP-hard.
翻訳日:2022-11-10 23:58:19 公開日:2020-07-13
# きめ細かい群衆数

Fine-Grained Crowd Counting ( http://arxiv.org/abs/2007.06146v1 )

ライセンス: Link先を確認
Jia Wan, Nikil Senthil Kumar, Antoni B. Chan(参考訳) 現在の群衆カウントアルゴリズムは、群衆の低レベルな詳細な情報を欠いている画像の人数のみを意識している。 多くの実用的な応用において、画像中の人の総数は、各サブカテゴリの人の数ほど役に立たない。 例えば、インラインやブラウジングで待っている人の数を知ることは小売店の助けになり、立っている人や座っている人の数を知ることはレストランやカフェテリアを助ける。 本稿では,個人の低レベルの行動特性(立位・立位・立位・暴力的行動など)に基づいて群集を分類し,各カテゴリーの人数をカウントする細粒度群集計数法を提案する。 この領域の研究を可能にするために, 歩道上, 立位, 座位, 列に並んで待っているか, 暴力的行動を示すかの4つの実世界の細粒度計数タスクの新しいデータセットを構築した。 異なる群集カテゴリーの外観特徴は類似しているため、粒度の細かい群集カウントの課題は、文脈情報を効果的に活用してカテゴリーを区別することである。 本稿では,密度マップ推定枝とセマンティックセグメンテーション枝からなる2つの分岐アーキテクチャを提案する。 2つの分岐の予測を改善するための2つの改良戦略を提案する。 まず、文脈情報をエンコードするために、密度マップ予測によって導かれる特徴伝搬を提案し、伝播中の背景特徴の影響を除去する。 次に,2つのブランチ間で情報を共有するための補完的注意モデルを提案する。 実験結果から本手法の有効性を確認した。

Current crowd counting algorithms are only concerned about the number of people in an image, which lacks low-level fine-grained information of the crowd. For many practical applications, the total number of people in an image is not as useful as the number of people in each sub-category. E.g., knowing the number of people waiting inline or browsing can help retail stores; knowing the number of people standing/sitting can help restaurants/cafeterias; knowing the number of violent/non-violent people can help police in crowd management. In this paper, we propose fine-grained crowd counting, which differentiates a crowd into categories based on the low-level behavior attributes of the individuals (e.g. standing/sitting or violent behavior) and then counts the number of people in each category. To enable research in this area, we construct a new dataset of four real-world fine-grained counting tasks: traveling direction on a sidewalk, standing or sitting, waiting in line or not, and exhibiting violent behavior or not. Since the appearance features of different crowd categories are similar, the challenge of fine-grained crowd counting is to effectively utilize contextual information to distinguish between categories. We propose a two branch architecture, consisting of a density map estimation branch and a semantic segmentation branch. We propose two refinement strategies for improving the predictions of the two branches. First, to encode contextual information, we propose feature propagation guided by the density map prediction, which eliminates the effect of background features during propagation. Second, we propose a complementary attention model to share information between the two branches. Experiment results confirm the effectiveness of our method.
翻訳日:2022-11-10 23:57:42 公開日:2020-07-13
# DETCID:Deep Adversarial Networkを用いた非均一照明による伸長タッチ細胞の検出

DETCID: Detection of Elongated Touching Cells with Inhomogeneous Illumination using a Deep Adversarial Network ( http://arxiv.org/abs/2007.06716v1 )

ライセンス: Link先を確認
Ali Memariani and Ioannis A. Kakadiaris(参考訳) clostridioides difficile infection (c. diff) は、アメリカ合衆国の病院における二次感染による最も一般的な死因である。 走査型電子顕微鏡(SEM)画像におけるC. diff細胞の検出は, 未開発処理の有効性を定量化する重要な課題である。 しかし, sem画像におけるc. diff細胞の検出は, 不均質な照明や咬合の存在による課題である。 照明正規化前処理ステップはテクスチャを破壊し、画像にノイズを加える。 さらに、しばしば細胞は集団化され、触覚細胞や閉塞が生じる。 本稿では,不均質な照明や咬合に特に頑健な,逆行訓練を用いた深部細胞検出法であるdetcidを提案する。 地域提案を提供し、提案を特徴抽出ネットワークに渡すために、逆ネットワークが開発されている。 さらに,様々な方向の接触細胞を検出するための改良iouメトリックを開発した。 その結果,SEM画像における触覚細胞検出におけるDECIDの精度は,平均精度の20%以上向上した。

Clostridioides difficile infection (C. diff) is the most common cause of death due to secondary infection in hospital patients in the United States. Detection of C. diff cells in scanning electron microscopy (SEM) images is an important task to quantify the efficacy of the under-development treatments. However, detecting C. diff cells in SEM images is a challenging problem due to the presence of inhomogeneous illumination and occlusion. An Illumination normalization pre-processing step destroys the texture and adds noise to the image. Furthermore, cells are often clustered together resulting in touching cells and occlusion. In this paper, DETCID, a deep cell detection method using adversarial training, specifically robust to inhomogeneous illumination and occlusion, is proposed. An adversarial network is developed to provide region proposals and pass the proposals to a feature extraction network. Furthermore, a modified IoU metric is developed to allow the detection of touching cells in various orientations. The results indicate that DETCID outperforms the state-of-the-art in detection of touching cells in SEM images by at least 20 percent improvement of mean average precision.
翻訳日:2022-11-10 23:51:28 公開日:2020-07-13
# 深層学習に基づくスタッタ診断・治療システム

Stutter Diagnosis and Therapy System Based on Deep Learning ( http://arxiv.org/abs/2007.08003v1 )

ライセンス: Link先を確認
Gresha Bhatia, Binoy Saha, Mansi Khamkar, Ashish Chandwani, Reshma Khot(参考訳) シュタリング(stuttering)またはシュタミング(stammering)は、発話の連続性を損なうコミュニケーション障害である。 この作業プログラムは、混乱した流血を評価できる自動認識手順を開発し、これらの評価を用いて個人の音声治療をフィルターする試みである。 発声は、繰り返し、延長、または音節や音節の異常な停止の形で行われることがある。 本システムでは,ストッターの重症度とタイプを把握し,またストッター記述子と音声治療の効果との相関を学習し,実践のための適切な治療を提案することで,ストッターを支援することを目的としている。 本稿では,MFCC音声特徴に対するGated Recurrent CNNを用いたスタッター診断エージェントの実装と,SVMを用いた治療勧告エージェントの実装に焦点を当てた。 また, 得られた結果と, 開発したシステムの様々な重要な知見を提示する。

Stuttering, also called stammering, is a communication disorder that breaks the continuity of the speech. This program of work is an attempt to develop automatic recognition procedures to assess stuttered dysfluencies and use these assessments to filter out speech therapies for an individual. Stuttering may be in the form of repetitions, prolongations or abnormal stoppages of sounds and syllables. Our system aims to help stutterers by diagnosing the severity and type of stutter and also by suggesting appropriate therapies for practice by learning the correlation between stutter descriptors and the effectiveness of speech therapies on them. This paper focuses on the implementation of a stutter diagnosis agent using Gated Recurrent CNN on MFCC audio features and therapy recommendation agent using SVM. It also presents the results obtained and various key findings of the system developed.
翻訳日:2022-11-10 23:50:28 公開日:2020-07-13
# あなたは正しいはさみを持っていますか。 モンテカルロ法による事前学習言語モデルの調整

Do You Have the Right Scissors? Tailoring Pre-trained Language Models via Monte-Carlo Methods ( http://arxiv.org/abs/2007.06162v1 )

ライセンス: Link先を確認
Ning Miao, Yuxuan Song, Hao Zhou, Lei Li(参考訳) これは、大きなコーパスで言語モデルを事前学習し、タスク固有のデータで微調整する一般的なアプローチである。 実際には、訓練済みのモデルを小さなデータセットで微調整すると過大評価や過小評価の問題が発生する可能性がある。 本稿では,テキスト生成タスクにおいて,過大推定領域から過大推定領域への確率質量の移動と移動によって,上記の問題を緩和するMC-Tailorを提案する。 様々なテキスト生成データセットの実験により、MC-Tailorは微調整のアプローチよりも一貫して、はるかに優れていることが示された。 私たちのコードはこの url で利用可能です。

It has been a common approach to pre-train a language model on a large corpus and fine-tune it on task-specific data. In practice, we observe that fine-tuning a pre-trained model on a small dataset may lead to over- and/or under-estimation problem. In this paper, we propose MC-Tailor, a novel method to alleviate the above issue in text generation tasks by truncating and transferring the probability mass from over-estimated regions to under-estimated ones. Experiments on a variety of text generation datasets show that MC-Tailor consistently and significantly outperforms the fine-tuning approach. Our code is available at this url.
翻訳日:2022-11-10 23:48:41 公開日:2020-07-13
# 原始-双対座標降下に対するランダム外挿法

Random extrapolation for primal-dual coordinate descent ( http://arxiv.org/abs/2007.06528v1 )

ライセンス: Link先を確認
Ahmet Alacaoglu, Olivier Fercoq, Volkan Cevher(参考訳) 本稿では,データ行列のスパーシティと目的関数の好適な構造に適応するランダムに外挿した原始二元座標降下法を提案する。 提案手法は,スパースデータを用いた基本変数と双変数のサブセットのみを更新し,各ケース用に設計した特定のメソッドの利点を保ちながら,高密度データを用いた大きなステップサイズを使用する。 スパーシリティに適応することに加えて、我々の手法は、いかなる修正も伴わない好ましい場合において、高速収束を保証する。 特に、計量部分正則性の下での線型収束を証明し、強い凸強凸凸問題や分数次二次函数に適用する。 一般凸凹の場合, 主対差と目的値に対するシーケンスのほぼ確実に収束と最適サブ線形収束率を示す。 数値的エビデンスにより,提案手法のスパースおよび密接な設定における最先端の実証的性能,マッチングと既存手法の改良が実証された。

We introduce a randomly extrapolated primal-dual coordinate descent method that adapts to sparsity of the data matrix and the favorable structures of the objective function. Our method updates only a subset of primal and dual variables with sparse data, and it uses large step sizes with dense data, retaining the benefits of the specific methods designed for each case. In addition to adapting to sparsity, our method attains fast convergence guarantees in favorable cases \textit{without any modifications}. In particular, we prove linear convergence under metric subregularity, which applies to strongly convex-strongly concave problems and piecewise linear quadratic functions. We show almost sure convergence of the sequence and optimal sublinear convergence rates for the primal-dual gap and objective values, in the general convex-concave case. Numerical evidence demonstrates the state-of-the-art empirical performance of our method in sparse and dense settings, matching and improving the existing methods.
翻訳日:2022-11-10 23:42:47 公開日:2020-07-13
# 緊急時需要に対する時系列予測への統一機械学習アプローチ

A unified machine learning approach to time series forecasting applied to demand at emergency departments ( http://arxiv.org/abs/2007.06566v1 )

ライセンス: Link先を確認
Michaela A. C. Vollmer, Ben Glampson, Thomas A. Mellan, Swapnil Mishra, Luca Mercuri, Ceire Costello, Robert Klaber, Graham Cooke, Seth Flaxman, Samir Bhatt(参考訳) 2019年にはイングランドの救急省(ED)に2560万人が出席しており、過去10年間で1200万人が出席した。 EDsの着実に増加する需要は、標準と生産性を維持しつつ、適切な品質のケアを提供することに常に挑戦する。 病院の需要管理は、入院率の適切な知識を効果的に必要としている。 ロンドンにある2大救急病院からの8年間の電子的入院データを用いて, 今後1, 3, 7日間の需要予測を高精度に行うため, ベストパフォーマンス時系列と機械学習アプローチの結果を組み合わせた, 新たなアンサンブル手法を開発した。 どちらの病院も毎日208人、そして106人という平均的な需要に直面している。 しかし,本手法は,平均絶対パーセンテージ誤差6.8%と8.6%に対応する+/-14患者と+/-10患者の平均絶対誤差までの1日前において,これらの救急部門への出席を予測できる。 我々の分析は、機械学習アルゴリズムをより伝統的な線形モデルと比較する。 線形モデルはしばしば機械学習の手法よりも優れており、1、3、7日の予測地平線に対する予測の質は、maeで測定されるものと同等である。 病院の需要予測のための最先端予測手法の比較と組み合わせに加えて,2つの異なるハイパーパラメータチューニング手法も検討し,性能を損なうことなく,モデルの迅速な展開を可能にした。 当社のフレームワークは,幅広い政策関連指標の予測に容易に利用できると考えている。

There were 25.6 million attendances at Emergency Departments (EDs) in England in 2019 corresponding to an increase of 12 million attendances over the past ten years. The steadily rising demand at EDs creates a constant challenge to provide adequate quality of care while maintaining standards and productivity. Managing hospital demand effectively requires an adequate knowledge of the future rate of admission. Using 8 years of electronic admissions data from two major acute care hospitals in London, we develop a novel ensemble methodology that combines the outcomes of the best performing time series and machine learning approaches in order to make highly accurate forecasts of demand, 1, 3 and 7 days in the future. Both hospitals face an average daily demand of 208 and 106 attendances respectively and experience considerable volatility around this mean. However, our approach is able to predict attendances at these emergency departments one day in advance up to a mean absolute error of +/- 14 and +/- 10 patients corresponding to a mean absolute percentage error of 6.8% and 8.6% respectively. Our analysis compares machine learning algorithms to more traditional linear models. We find that linear models often outperform machine learning methods and that the quality of our predictions for any of the forecasting horizons of 1, 3 or 7 days are comparable as measured in MAE. In addition to comparing and combining state-of-the-art forecasting methods to predict hospital demand, we consider two different hyperparameter tuning methods, enabling a faster deployment of our models without compromising performance. We believe our framework can readily be used to forecast a wide range of policy relevant indicators.
翻訳日:2022-11-10 23:41:46 公開日:2020-07-13
# 現実世界におけるセキュリティと機械学習

Security and Machine Learning in the Real World ( http://arxiv.org/abs/2007.07205v1 )

ライセンス: Link先を確認
Ivan Evtimov, Weidong Cui, Ece Kamar, Emre Kiciman, Tadayoshi Kohno, Jerry Li(参考訳) 多くの安全およびビジネスクリティカルなシステムにデプロイされた機械学習(ML)モデルは、敵の例によるエクスプロイトに対して脆弱である。 多数の学術研究がこれらの盲点の原因を徹底的に調査し、それらを見つけるための高度なアルゴリズムを開発し、いくつかの有望な防御を提案した。 しかし、ほとんどの研究はスタンドアロンのニューラルネットワークモデルを研究している。 本研究では、大規模にデプロイされた機械学習ソフトウェア製品のセキュリティを評価する経験に基づいて、これらの脆弱性のシステムセキュリティビューを含む会話を広げる。 MLコンポーネントを使用したソフトウェアでシステムセキュリティのベストプラクティスを実装する上での新たな課題について述べる。 さらに,機械学習モジュールをデプロイする実践者がシステムを保護するために使用できる,短期的緩和提案のリストを提案する。 最後に、機械学習システムセキュリティの進展に寄与する機械学習攻撃と防御に関する新たな研究の方向性について概説する。

Machine learning (ML) models deployed in many safety- and business-critical systems are vulnerable to exploitation through adversarial examples. A large body of academic research has thoroughly explored the causes of these blind spots, developed sophisticated algorithms for finding them, and proposed a few promising defenses. A vast majority of these works, however, study standalone neural network models. In this work, we build on our experience evaluating the security of a machine learning software product deployed on a large scale to broaden the conversation to include a systems security view of these vulnerabilities. We describe novel challenges to implementing systems security best practices in software with ML components. In addition, we propose a list of short-term mitigation suggestions that practitioners deploying machine learning modules can use to secure their systems. Finally, we outline directions for new research into machine learning attacks and defenses that can serve to advance the state of ML systems security.
翻訳日:2022-11-10 23:40:54 公開日:2020-07-13
# 顔分析アルゴリズムにおけるバイアスの因果ベンチマークに向けて

Towards causal benchmarking of bias in face analysis algorithms ( http://arxiv.org/abs/2007.06570v1 )

ライセンス: Link先を確認
Guha Balakrishnan, Yuanjun Xiong, Wei Xia, Pietro Perona(参考訳) アルゴリズムバイアスの測定は、アルゴリズムの公平性を評価することと、アルゴリズムの改善を導くために重要である。 観測データセットに基づくコンピュータビジョンにおけるアルゴリズムバイアスを測定する現在の方法は、アルゴリズムバイアスとデータセットバイアスを区別するため、このタスクには不十分である。 この問題に対処するため, 顔分析アルゴリズムのアルゴリズムバイアスを測定する実験手法を開発し, 属性変動と性能変化の因果関係を明らかにするために, 性別や肌のトーンなどの興味の属性を直接操作する。 提案手法は,他の属性を一定に残しながら,特定の属性に沿って異なるように設計したサンプル画像の<transects''を生成する。 このアプローチの重要な側面は、操作のガイドとアルゴリズムバイアスの測定の両方において、人間の観察者の知覚に依存することです。 アルゴリズムバイアスの測定を可能にすることに加えて、合成トランクトリクスは観察データセットに関して他の利点がある: 彼らはより均一に属性をサンプリングし、少数派および交差するグループのより直接的なバイアス分析を可能にし、新しいシナリオにおけるバイアスの予測を可能にし、倫理的および法的課題を大幅に減らし、経済的かつ迅速に入手でき、バイアステストが安価で広く利用可能になる。 本手法を従来の観察法を用いて性別分類アルゴリズムのバイアスを解析した研究と比較することで検証した。 2つの方法は異なる結論に達する。 観察方法は、性別や肌の色バイアスを報告するが、実験では、性別、髪の長さ、年齢、顔の毛によるバイアスが明らかにされる。

Measuring algorithmic bias is crucial both to assess algorithmic fairness, and to guide the improvement of algorithms. Current methods to measure algorithmic bias in computer vision, which are based on observational datasets, are inadequate for this task because they conflate algorithmic bias with dataset bias. To address this problem we develop an experimental method for measuring algorithmic bias of face analysis algorithms, which manipulates directly the attributes of interest, e.g., gender and skin tone, in order to reveal causal links between attribute variation and performance change. Our proposed method is based on generating synthetic ``transects'' of matched sample images that are designed to differ along specific attributes while leaving other attributes constant. A crucial aspect of our approach is relying on the perception of human observers, both to guide manipulations, and to measure algorithmic bias. Besides allowing the measurement of algorithmic bias, synthetic transects have other advantages with respect to observational datasets: they sample attributes more evenly allowing for more straightforward bias analysis on minority and intersectional groups, they enable prediction of bias in new scenarios, they greatly reduce ethical and legal challenges, and they are economical and fast to obtain, helping make bias testing affordable and widely available. We validate our method by comparing it to a study that employs the traditional observational method for analyzing bias in gender classification algorithms. The two methods reach different conclusions. While the observational method reports gender and skin color biases, the experimental method reveals biases due to gender, hair length, age, and facial hair.
翻訳日:2022-11-10 23:40:04 公開日:2020-07-13
# 品質多様性によるGANの進化を探る

Exploring the Evolution of GANs through Quality Diversity ( http://arxiv.org/abs/2007.06251v1 )

ライセンス: Link先を確認
Victor Costa, Nuno Louren\c{c}o, Jo\~ao Correia, Penousal Machado(参考訳) GAN(Generative Adversarial Network)は、生成アルゴリズムの分野で重要な進歩を遂げ、主に画像のコンテキストにおいて高品質な結果を示す。 しかし、ganは訓練が困難であり、モデルのいくつかの側面は、トレーニングの成功を確実にするために手動で設計されるべきである。 この文脈では、COEGANのような進化的アルゴリズムがGANトレーニングの課題を解決するために提案されている。 それでも、多様性の欠如と早期最適化は、これらのソリューションのいくつかに見ることができる。 本稿では,GANの進化における品質多様性アルゴリズムの適用について述べる。 このソリューションは、この新しい提案にcoeganで使われる概念を適応させる、nslcアルゴリズムによるノベルティサーチに基づいている。 提案手法は,従来のCOEGANモデルと,グローバルコンペティションアプローチを用いた代替バージョンとの比較を行った。 実験結果から,提案手法は検出した解の多様性を増大させ,アルゴリズムによるモデルの性能を活用できることが判明した。 さらに、グローバルな競争アプローチは、GANのより良いモデルを見つけることができた。

Generative adversarial networks (GANs) achieved relevant advances in the field of generative algorithms, presenting high-quality results mainly in the context of images. However, GANs are hard to train, and several aspects of the model should be previously designed by hand to ensure training success. In this context, evolutionary algorithms such as COEGAN were proposed to solve the challenges in GAN training. Nevertheless, the lack of diversity and premature optimization can be found in some of these solutions. We propose in this paper the application of a quality-diversity algorithm in the evolution of GANs. The solution is based on the Novelty Search with Local Competition (NSLC) algorithm, adapting the concepts used in COEGAN to this new proposal. We compare our proposal with the original COEGAN model and with an alternative version using a global competition approach. The experimental results evidenced that our proposal increases the diversity of the discovered solutions and leverage the performance of the models found by the algorithm. Furthermore, the global competition approach was able to consistently find better models for GANs.
翻訳日:2022-11-10 23:33:27 公開日:2020-07-13
# 半定常Jayaアルゴリズム

Semi-steady-state Jaya Algorithm ( http://arxiv.org/abs/2007.06463v1 )

ライセンス: Link先を確認
Uday K. Chakraborty(参考訳) Jayaアルゴリズムは、進化計算ファミリーの最新のメンバーの中で、おそらく最も早く進化するメタヒューリスティックの1つである。 本稿では,人口の最も良いメンバーと最悪のメンバーの更新戦略を変更することにより,新しい改良されたjayaアルゴリズムを提案する。 12機能ベンチマークのシミュレーション結果と実践的重要性の現実的な問題から,提案手法がほとんどの場合,より良く,より高速な結果を生み出すことが示唆された。 重要な統計テストは、パフォーマンス改善を検証するために使用されます。

The Jaya algorithm is arguably one of the fastest-emerging metaheuristics amongst the newest members of the evolutionary computation family. The present paper proposes a new, improved Jaya algorithm by modifying the update strategies of the best and the worst members in the population. Simulation results on a twelve-function benchmark test-suite as well as a real-world problem of practical importance show that the proposed strategy produces results that are better and faster in the majority of cases. Statistical tests of significance are used to validate the performance improvement.
翻訳日:2022-11-10 23:33:11 公開日:2020-07-13
# ai対応システムのためのインタフェース記述テンプレートに向けて

Towards an Interface Description Template for AI-enabled Systems ( http://arxiv.org/abs/2007.07250v1 )

ライセンス: Link先を確認
Niloofar Shadab, Alejandro Salado(参考訳) 再利用は、システムアーキテクチャを既存のコンポーネントでインスタンス化しようとする一般的なシステムアーキテクチャアプローチである。 しかしながら、AI機能を備えたコンポーネントの再利用は、コンポーネントが当初目的とされていたものとは異なるシステムで運用する可搬性を評価するために必要な情報の選択をガイドするフレームワークが現在存在しないため、新たなリスクをもたらす可能性がある。 SW集約システムでは、AIアルゴリズムは一般的に脆弱であり、コンテキストや境界条件の変化に対して予期しない振る舞いをする。 本稿では,ai対応システムやコンポーネントのインターフェース制御文書 (icd) において,本来設計されていないシステムとの互換性を評価するために,どのような情報を取り込むべきかを問う。 本稿では,ai対応コンポーネントの主要情報を取り込み,異なるシステムと運用コンテキスト間の適切な再利用を容易にするインターフェース記述テンプレートの確立に向けて,現在進行中の作業について述べる。 我々の研究は、同じ目標で開発されたがaiアルゴリズムの再利用性に重点を置いたgoogleのmodel cardコンセプトに触発されたものです。 私たちはこの概念を拡張し、AI対応のサイバー物理システムのシステムレベルの自律性に対処します。

Reuse is a common system architecture approach that seeks to instantiate a system architecture with existing components. However, reusing components with AI capabilities might introduce new risks as there is currently no framework that guides the selection of necessary information to assess their portability to operate in a system different than the one for which the component was originally purposed. We know from SW-intensive systems that AI algorithms are generally fragile and behave unexpectedly to changes in context and boundary conditions. The question we address in this paper is, what type of information should be captured in the Interface Control Document (ICD) of an AI-enabled system or component to assess its compatibility with a system for which it was not designed originally. We present ongoing work on establishing an interface description template that captures the main information of an AI-enabled component to facilitate its adequate reuse across different systems and operational contexts. Our work is inspired by Google's Model Card concept, which was developed with the same goal but focused on the reusability of AI algorithms. We extend that concept to address system-level autonomy capabilities of AI-enabled cyber-physical systems.
翻訳日:2022-11-10 23:32:48 公開日:2020-07-13
# Deep Claim: ディープラーニングによる請求データからの支払応答予測

Deep Claim: Payer Response Prediction from Claims Data with Deep Learning ( http://arxiv.org/abs/2007.06229v1 )

ライセンス: Link先を確認
Byung-Hak Kim, Seshadri Sridharan, Andy Atwal and Varun Ganapathi(参考訳) 毎年約10%の請求が支払者(すなわち健康保険計画)によって拒否される。 これらの否定や未払いの回収コストにより、高い精度と精度のクレームデータから支払者の反応(支払の支払いなど)を予測することで、医療スタッフのパフォーマンス生産性を向上し、患者の財政経験と収益サイクルの満足度を向上させることが期待されている(Barkholz, 2017)。 しかし、先進的な予測分析モデルの構築は、過去20年間に困難だと考えられてきた。 以上より,高次クレーム入力における複雑な依存関係を効果的に学習することにより,患者の歴史的クレーム記録の(低次)文脈依存型コンパクト表現を提案する。 この新たな潜伏表現に基づいて、深層学習ベースのフレームワークであるDeep Claimが、米国の2つの医療システムからの2,905,026件の非特定クレームデータを使用して、複数の支払者からのさまざまな応答を正確に予測できることを実証した。 ディープ・クレイムが慎重に選択した基準線に対する改善は、主張拒否の予測において最も顕著に発音され、健康システムAの相対的リコールゲイン(95%精度)は22.21%である。

Each year, almost 10% of claims are denied by payers (i.e., health insurance plans). With the cost to recover these denials and underpayments, predicting payer response (likelihood of payment) from claims data with a high degree of accuracy and precision is anticipated to improve healthcare staffs' performance productivity and drive better patient financial experience and satisfaction in the revenue cycle (Barkholz, 2017). However, constructing advanced predictive analytics models has been considered challenging in the last twenty years. That said, we propose a (low-level) context-dependent compact representation of patients' historical claim records by effectively learning complicated dependencies in the (high-level) claim inputs. Built on this new latent representation, we demonstrate that a deep learning-based framework, Deep Claim, can accurately predict various responses from multiple payers using 2,905,026 de-identified claims data from two US health systems. Deep Claim's improvements over carefully chosen baselines in predicting claim denials are most pronounced as 22.21% relative recall gain (at 95% precision) on Health System A, which implies Deep Claim can find 22.21% more denials than the best baseline system.
翻訳日:2022-11-10 23:31:28 公開日:2020-07-13
# グローバル応答マップを用いたエンドツーエンド多対象追跡

End-to-End Multi-Object Tracking with Global Response Map ( http://arxiv.org/abs/2007.06344v1 )

ライセンス: Link先を確認
Xingyu Wan, Jiakai Cao, Sanping Zhou, Jinjun Wang(参考訳) 既存のほとんどのマルチオブジェクトトラッキング(mot)アプローチは、トラッキングバイ検出パラダイムとデータアソシエーションフレームワークに従い、まずオブジェクトを検出して関連づける。 ディープラーニングベースの手法は,オブジェクト検出性能を顕著に向上させると同時に,フレーム間関連に優れた外観機能を提供することができるが,フレームワークの完全なエンドツーエンドではない。 この問題に対処するために,画像シーケンス/映像を入力とし,学習対象の位置と追跡対象を直接出力する,エンドツーエンドのアプローチを提案する。 具体的には,新たに導入されたマルチオブジェクト表現戦略により,検出者が画像の入力や検出対象のバウンディングボックスの出力のように,追跡対象の軌跡を容易に拾い上げることのできるフレーム上で,グローバル応答マップを高精度に生成することができる。 提案モデルは高速で正確である。 MOT16 と MOT17 のベンチマークによる実験結果から,提案したオンライントラッカーは,いくつかのトラッキング指標において最先端の性能を達成した。

Most existing Multi-Object Tracking (MOT) approaches follow the Tracking-by-Detection paradigm and the data association framework where objects are firstly detected and then associated. Although deep-learning based method can noticeably improve the object detection performance and also provide good appearance features for cross-frame association, the framework is not completely end-to-end, and therefore the computation is huge while the performance is limited. To address the problem, we present a completely end-to-end approach that takes image-sequence/video as input and outputs directly the located and tracked objects of learned types. Specifically, with our introduced multi-object representation strategy, a global response map can be accurately generated over frames, from which the trajectory of each tracked object can be easily picked up, just like how a detector inputs an image and outputs the bounding boxes of each detected object. The proposed model is fast and accurate. Experimental results based on the MOT16 and MOT17 benchmarks show that our proposed on-line tracker achieved state-of-the-art performance on several tracking metrics.
翻訳日:2022-11-10 23:25:01 公開日:2020-07-13
# 画像分割のための能動学習における不確実性推定について

On uncertainty estimation in active learning for image segmentation ( http://arxiv.org/abs/2007.06364v1 )

ライセンス: Link先を確認
Bo Li, Tommy Sonne Alstr{\o}m(参考訳) 不確実性推定は、機械学習モデルの信頼性を多くのアプリケーションで解釈するために重要である。 これは、最小限のラベル付け努力で一定の精度を達成することが目標とする、データ駆動のアクティブな学習環境では特に重要である。 このような設定において、モデルは、その推定不確実性に基づいて、最も情報に富む未ラベルのサンプルを選択することを学習する。 非常に不確実な予測は、モデル性能を改善するためにより有益なものと考えられる。 本稿では,ラベルの少ない領域である医用画像セグメンテーションのためのアクティブラーニングフレームワークにおける不確実性校正について検討する。 様々な不確実性推定手法と取得戦略(地域とフルイメージ)について検討した。 完全な画像の代わりにアノテートする領域を選択すると、よりよく校正されたモデルが得られる。 また,注記領域は,注記領域に比べて人間がラベル付けする必要のある画素の50%を削減できることを実験的に示した。

Uncertainty estimation is important for interpreting the trustworthiness of machine learning models in many applications. This is especially critical in the data-driven active learning setting where the goal is to achieve a certain accuracy with minimum labeling effort. In such settings, the model learns to select the most informative unlabeled samples for annotation based on its estimated uncertainty. The highly uncertain predictions are assumed to be more informative for improving model performance. In this paper, we explore uncertainty calibration within an active learning framework for medical image segmentation, an area where labels often are scarce. Various uncertainty estimation methods and acquisition strategies (regions and full images) are investigated. We observe that selecting regions to annotate instead of full images leads to more well-calibrated models. Additionally, we experimentally show that annotating regions can cut 50% of pixels that need to be labeled by humans compared to annotating full images.
翻訳日:2022-11-10 23:24:39 公開日:2020-07-13
# オブジェクト検出とLSTMに基づくサッカービデオストリームからの自動パスアノテーション

Automatic Pass Annotation from Soccer VideoStreams Based on Object Detection and LSTM ( http://arxiv.org/abs/2007.06475v1 )

ライセンス: Link先を確認
Danilo Sorano, Fabio Carrara, Paolo Cintia, Fabrizio Falchi, Luca Pappalardo(参考訳) サッカーのアナリティクスは,各試合で発生した時空間的な出来事をすべて記述したデータの提供によって,学界や産業への関心が高まっている。 これらのイベント(パス、ショット、ファウルなど)は人手によって収集され、時間と経済資源の観点からデータ提供者にとってかなりのコストがかかる。 本稿では,サッカーにおける最も頻繁なイベント,すなわちパスをビデオストリームから認識する手法であるPassNetについて述べる。 本モデルでは,映像ストリームから特徴抽出を行うニューラルネットワークのセットと,ボールの位置とプレイヤを識別するオブジェクト検出と,パスするか否かのフレームシーケンスの分類を組み合わせた。 異なるシナリオでパスネットをテストするが、トレーニングに使用するマッチと条件の類似性によって異なる。 その結果,テストセットとトレーニングセットの一致条件がかなり異なる場合でも,分類結果が良好であり,ベースライン分類器に対するパス検出精度が大幅に向上した。 passnetは、イベントアノテーションの時間とコストを損なう可能性のある自動イベントアノテーションシステムへの第一歩であり、マイナーおよび非プロの部門、ユースリーグ、そして一般に、現在データプロバイダによってアノテートされていないコンペティションのためのデータコレクションを可能にする。

Soccer analytics is attracting increasing interest in academia and industry, thanks to the availability of data that describe all the spatio-temporal events that occur in each match. These events (e.g., passes, shots, fouls) are collected by human operators manually, constituting a considerable cost for data providers in terms of time and economic resources. In this paper, we describe PassNet, a method to recognize the most frequent events in soccer, i.e., passes, from video streams. Our model combines a set of artificial neural networks that perform feature extraction from video streams, object detection to identify the positions of the ball and the players, and classification of frame sequences as passes or not passes. We test PassNet on different scenarios, depending on the similarity of conditions to the match used for training. Our results show good classification results and significant improvement in the accuracy of pass detection with respect to baseline classifiers, even when the match's video conditions of the test and training sets are considerably different. PassNet is the first step towards an automated event annotation system that may break the time and the costs for event annotation, enabling data collections for minor and non-professional divisions, youth leagues and, in general, competitions whose matches are not currently annotated by data providers.
翻訳日:2022-11-10 23:23:53 公開日:2020-07-13
# 複合イベント処理における時空間イベントパターンマッチングのための知識グラフ駆動型ビデオストリーム表現手法

Knowledge Graph Driven Approach to Represent Video Streams for Spatiotemporal Event Pattern Matching in Complex Event Processing ( http://arxiv.org/abs/2007.06292v1 )

ライセンス: Link先を確認
Piyush Yadav, Dhaval Salwala, Edward Curry(参考訳) 複合イベント処理(cep)は、ストリーミングデータ上でリアルタイム分析を行い、ハイレベルなイベントパターンにマッチするイベント処理パラダイムである。 現在、CEPは構造化データストリームに限られている。 ビデオストリームは、構造化されていないデータモデルとCEPシステムの制限により複雑である。 この研究は連続的に進化するビデオストリームのためのグラフベースの構造を導入し、CEPシステムは複雑なビデオイベントパターンをクエリできる。 本稿では,ビデオデータのグラフ駆動表現であるビデオイベント知識グラフ(VEKG)を提案する。 VEKGはビデオオブジェクトをノードとしてモデル化し、その関係を時間と空間とともにエッジとしてモデル化する。 深層学習モデルのアンサンブルを用いて、ビデオから高レベルなセマンティック概念を検出することによって、ビデオデータのセマンティック知識表現を生成する。 CEPに基づく状態最適化 - VEKG-Time Aggregated Graph (VEKG-TAG) を提案する。 VEKG-TAGは、VEKGグラフの所定の時間長を要約したビューを提供する時空間グラフ集計法である。 私たちは2つのドメインの9つのイベントパターンルール(アクティビティ認識とトラフィック管理)を定義しました。 提案手法の有効性を示すため,10データセットにまたがる801本のビデオクリップを広範囲に実験した。 提案手法は他の最先端手法と比較し,fスコア0.44から0.90までの動画上で複雑なイベントパターンを検出することができた。 与えられた実験では、最適化されたVEKG-TAGは、それぞれVEKGノードとエッジの99%と93%を削減し、5.19倍高速な探索時間を実現し、4-20ミリ秒のサブ秒中央遅延を実現した。

Complex Event Processing (CEP) is an event processing paradigm to perform real-time analytics over streaming data and match high-level event patterns. Presently, CEP is limited to process structured data stream. Video streams are complicated due to their unstructured data model and limit CEP systems to perform matching over them. This work introduces a graph-based structure for continuous evolving video streams, which enables the CEP system to query complex video event patterns. We propose the Video Event Knowledge Graph (VEKG), a graph driven representation of video data. VEKG models video objects as nodes and their relationship interaction as edges over time and space. It creates a semantic knowledge representation of video data derived from the detection of high-level semantic concepts from the video using an ensemble of deep learning models. A CEP-based state optimization - VEKG-Time Aggregated Graph (VEKG-TAG) is proposed over VEKG representation for faster event detection. VEKG-TAG is a spatiotemporal graph aggregation method that provides a summarized view of the VEKG graph over a given time length. We defined a set of nine event pattern rules for two domains (Activity Recognition and Traffic Management), which act as a query and applied over VEKG graphs to discover complex event patterns. To show the efficacy of our approach, we performed extensive experiments over 801 video clips across 10 datasets. The proposed VEKG approach was compared with other state-of-the-art methods and was able to detect complex event patterns over videos with F-Score ranging from 0.44 to 0.90. In the given experiments, the optimized VEKG-TAG was able to reduce 99% and 93% of VEKG nodes and edges, respectively, with 5.19X faster search time, achieving sub-second median latency of 4-20 milliseconds.
翻訳日:2022-11-10 23:22:23 公開日:2020-07-13
# 深層線形分類におけるインシシットバイアス:初期化尺度とトレーニング精度

Implicit Bias in Deep Linear Classification: Initialization Scale vs Training Accuracy ( http://arxiv.org/abs/2007.06738v1 )

ライセンス: Link先を確認
Edward Moroshko, Suriya Gunasekar, Blake Woodworth, Jason D. Lee, Nathan Srebro, Daniel Soudry(参考訳) 直交線形ネットワーク上での指数損失を最小化する際の勾配流軌跡とその暗黙の最適化バイアスに関する漸近的研究について述べる。 これは「カーネル」と非カーネル(「リッチ」または「アクティブ」)レジーム間の遷移を示す最も単純なモデルである。 移行が初期化尺度とトレーニング損失の最小化の関係によってどのように制御されるかを示す。 以上の結果から,勾配降下の限界挙動は,ばかばかしいトレーニング確率(10~100ドル以上)でのみ開始できることが示唆された。 さらに、合理的初期化スケールでの暗黙の偏見とトレーニングの精度はより複雑であり、これらの制限によって捉えられていない。

We provide a detailed asymptotic study of gradient flow trajectories and their implicit optimization bias when minimizing the exponential loss over "diagonal linear networks". This is the simplest model displaying a transition between "kernel" and non-kernel ("rich" or "active") regimes. We show how the transition is controlled by the relationship between the initialization scale and how accurately we minimize the training loss. Our results indicate that some limit behaviors of gradient descent only kick in at ridiculous training accuracies (well beyond $10^{-100}$). Moreover, the implicit bias at reasonable initialization scales and training accuracies is more complex and not captured by these limits.
翻訳日:2022-11-10 23:15:12 公開日:2020-07-13
# 顔画像における性別分類とバイアス緩和

Gender Classification and Bias Mitigation in Facial Images ( http://arxiv.org/abs/2007.06141v1 )

ライセンス: Link先を確認
Wenying Wu, Pavlos Protopapas, Zheng Yang, Panagiotis Michalatos(参考訳) ジェンダー分類アルゴリズムは、人口統計学、法執行、人間とコンピュータの相互作用など、今日多くの領域で重要な応用がある。 最近の研究では、バイアス付きベンチマークデータベースでトレーニングされたアルゴリズムがアルゴリズム的バイアスをもたらす可能性があることが示されている。 しかし、lgbtqや非バイナリ人口など、性別表現に異なる特徴を持つ性マイノリティサブグループに対する性別分類アルゴリズムのバイアスについては、これまではほとんど研究されていない。 本稿では,顔認識および性別分類タスクのための既存のベンチマークデータベースの調査から始める。 現在のベンチマークデータベースには、性別マイノリティサブグループの表現が欠けていることが分かりました。 我々は、現在二分性分類器を拡張して、非二分性クラスを含むようにした。 私たちは2つの新しい顔画像データベースを組み立てました。 1)LGBTQ人口のサブセットを有する人種的バランスの取れた包括的データベース 2)非二元性を持つ人々からなる包括性を持つデータベース。 私たちは、拡張ベンチマークデータベースでトレーニングされたベースラインモデルにおける分類精度の向上とアルゴリズムバイアスの軽減に取り組みました。 我々のアンサンブルモデルは、Adienceで訓練されたベースラインの2進性分類器から38.72%の精度で90.39%の精度を達成している。 これは、性別分類のバイアスを軽減する最初の試みであるが、より包括的なデータベースを組み立てることで、連続体としてジェンダーをモデル化するのにより多くの作業が必要である。

Gender classification algorithms have important applications in many domains today such as demographic research, law enforcement, as well as human-computer interaction. Recent research showed that algorithms trained on biased benchmark databases could result in algorithmic bias. However, to date, little research has been carried out on gender classification algorithms' bias towards gender minorities subgroups, such as the LGBTQ and the non-binary population, who have distinct characteristics in gender expression. In this paper, we began by conducting surveys on existing benchmark databases for facial recognition and gender classification tasks. We discovered that the current benchmark databases lack representation of gender minority subgroups. We worked on extending the current binary gender classifier to include a non-binary gender class. We did that by assembling two new facial image databases: 1) a racially balanced inclusive database with a subset of LGBTQ population 2) an inclusive-gender database that consists of people with non-binary gender. We worked to increase classification accuracy and mitigate algorithmic biases on our baseline model trained on the augmented benchmark database. Our ensemble model has achieved an overall accuracy score of 90.39%, which is a 38.72% increase from the baseline binary gender classifier trained on Adience. While this is an initial attempt towards mitigating bias in gender classification, more work is needed in modeling gender as a continuum by assembling more inclusive databases.
翻訳日:2022-11-10 23:14:40 公開日:2020-07-13
# 多視点学習のためのディープバイリニアインタラクティブ情報と選択融合

Embedded Deep Bilinear Interactive Information and Selective Fusion for Multi-view Learning ( http://arxiv.org/abs/2007.06143v1 )

ライセンス: Link先を確認
Jinglin Xu, Wenbin Li, Jiantao Shen, Xinwang Liu, Peicheng Zhou, Xiangsen Zhang, Xiwen Yao, and Junwei Han(参考訳) 多視点学習の具体的な応用として、多視点分類は様々な視点を最適に統合することにより従来の分類方法を大幅に改善する。 従来の取り組みの多くはマルチビュー学習の優位性を示すものであるが、より強力なクロスビューインタラクティブ情報とより信頼性の高いマルチビュー融合戦略を集中的な研究に包括的に組み込むことにより、さらに改善することができる。 この目的を達成するために,上述した2つの側面を対象とする多視点分類を実現するための,新しい多視点学習フレームワークを提案する。 すなわち、様々なビュー内情報、クロスビュー多次元双線形インタラクティブ情報、および新しいビューアンサンブル機構を統合されたフレームワークにシームレスに埋め込み、最適化を通じて決定を行う。 特に、様々な深層ニューラルネットワークを訓練し、様々なビュー内表現を学習し、ビュー間の双線形関数を介して異なる双線形類似性から動的に多次元双線形インタラクティブ情報を学習する。 その後、重みの自明な解を避けるだけでなく、多視点分類の決定に有用ないくつかの識別的ビューを選択する新しい方法を提供するため、ビューウェイトのパラメータを柔軟に調整することで、複数のビューの表現を適応的に融合する。 6つの公開データセットに関する広範囲な実験が提案手法の有効性を実証している。

As a concrete application of multi-view learning, multi-view classification improves the traditional classification methods significantly by integrating various views optimally. Although most of the previous efforts have been demonstrated the superiority of multi-view learning, it can be further improved by comprehensively embedding more powerful cross-view interactive information and a more reliable multi-view fusion strategy in intensive studies. To fulfill this goal, we propose a novel multi-view learning framework to make the multi-view classification better aimed at the above-mentioned two aspects. That is, we seamlessly embed various intra-view information, cross-view multi-dimension bilinear interactive information, and a new view ensemble mechanism into a unified framework to make a decision via the optimization. In particular, we train different deep neural networks to learn various intra-view representations, and then dynamically learn multi-dimension bilinear interactive information from different bilinear similarities via the bilinear function between views. After that, we adaptively fuse the representations of multiple views by flexibly tuning the parameters of the view-weight, which not only avoids the trivial solution of weight but also provides a new way to select a few discriminative views that are beneficial to make a decision for the multi-view classification. Extensive experiments on six publicly available datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-10 23:14:20 公開日:2020-07-13
# ai playground: ディープラーニングのためのunreal engineベースのデータアブレーションツール

AI Playground: Unreal Engine-based Data Ablation Tool for Deep Learning ( http://arxiv.org/abs/2007.06153v1 )

ライセンス: Link先を確認
Mehdi Mousavi, Aashis Khanal, Rolando Estrada(参考訳) 機械学習はデータを必要とするが、実際のデータの取得とラベル付けは難しく、高価で、時間がかかる。 さらに重要なことは、実際のデータ取得後の変更(例えば、部屋の照明の変更)はほとんど不可能であり、データの特定の特性がパフォーマンスにどのように影響するかを測定することは非常に困難である。 本稿では,仮想画像データの生成とラベル付けを行うオープンソースUnreal EngineベースのツールであるAI Playground(AIP)を提案する。 aipでは、異なる条件(例えば、忠実度、照明など)と異なる基底真理(例えば、深さまたは表面の正常値)で同じ画像をキャプチャすることは自明である。 AIPは容易に拡張可能で、コードの有無に関わらず使用することができる。 提案するツールを検証するために,異なる照明条件と忠実度条件の8つのデータセットを作成した。 次に深部ニューラルネットワークをトレーニングし,(1)深度値,(2)表面正規値,(3)オブジェクトラベルの予測を行い,各ネットワークのイントラおよびクロスデータセットのパフォーマンスを評価した。 その他の洞察として,異なる設定に対する感受性が問題依存であることを確認した。 セグメンテーションモデルが忠実性に非常に敏感であるという他の研究の結果を確認したが、照明にも感受性があることも判明した。 対照的に、深さと通常の推定モデルは、忠実さや照明に対する感度が低く、画像の構造に敏感であるように見える。 最後に、2つの実世界のデータセット上でトレーニングされた奥行き推定ネットワークをテストし、実データだけでのトレーニングに匹敵する結果を得た。

Machine learning requires data, but acquiring and labeling real-world data is challenging, expensive, and time-consuming. More importantly, it is nearly impossible to alter real data post-acquisition (e.g., change the illumination of a room), making it very difficult to measure how specific properties of the data affect performance. In this paper, we present AI Playground (AIP), an open-source, Unreal Engine-based tool for generating and labeling virtual image data. With AIP, it is trivial to capture the same image under different conditions (e.g., fidelity, lighting, etc.) and with different ground truths (e.g., depth or surface normal values). AIP is easily extendable and can be used with or without code. To validate our proposed tool, we generated eight datasets of otherwise identical but varying lighting and fidelity conditions. We then trained deep neural networks to predict (1) depth values, (2) surface normals, or (3) object labels and assessed each network's intra- and cross-dataset performance. Among other insights, we verified that sensitivity to different settings is problem-dependent. We confirmed the findings of other studies that segmentation models are very sensitive to fidelity, but we also found that they are just as sensitive to lighting. In contrast, depth and normal estimation models seem to be less sensitive to fidelity or lighting and more sensitive to the structure of the image. Finally, we tested our trained depth-estimation networks on two real-world datasets and obtained results comparable to training on real data alone, confirming that our virtual environments are realistic enough for real-world tasks.
翻訳日:2022-11-10 23:13:57 公開日:2020-07-13
# 画像と摂動の相互影響による逆例の理解

Understanding Adversarial Examples from the Mutual Influence of Images and Perturbations ( http://arxiv.org/abs/2007.06189v1 )

ライセンス: Link先を確認
Chaoning Zhang, Philipp Benz, Tooba Imtiaz, In-So Kweon(参考訳) 様々な研究が敵の例の存在の理由を探っているが、その説明には意見が一致していない。 本稿では,DNNロジットを特徴表現のベクトルとして扱い,Pearson相関係数(PCC)に基づいて2つの独立入力の相互影響を分析することを提案する。 このベクトル表現を用いて、クリーンな画像と敵の摂動を遠ざけることで敵の例を理解し、互いに影響を解析する。 普遍摂動は支配的な特徴を含み、画像はそれらに対するノイズのように振る舞う。 この特徴的視点は、ランダムなソース画像を用いて、対象とする普遍的対角摂動を生成する新しい方法をもたらす。 我々は,最初の訓練データを用いずに,目標とするユニバーサルアタックの課題を初めて達成した。 プロキシデータセットを用いた我々のアプローチは、元のトレーニングデータセットを使用した最先端のベースラインに匹敵するパフォーマンスを実現する。

A wide variety of works have explored the reason for the existence of adversarial examples, but there is no consensus on the explanation. We propose to treat the DNN logits as a vector for feature representation, and exploit them to analyze the mutual influence of two independent inputs based on the Pearson correlation coefficient (PCC). We utilize this vector representation to understand adversarial examples by disentangling the clean images and adversarial perturbations, and analyze their influence on each other. Our results suggest a new perspective towards the relationship between images and universal perturbations: Universal perturbations contain dominant features, and images behave like noise to them. This feature perspective leads to a new method for generating targeted universal adversarial perturbations using random source images. We are the first to achieve the challenging task of a targeted universal attack without utilizing original training data. Our approach using a proxy dataset achieves comparable performance to the state-of-the-art baselines which utilize the original training dataset.
翻訳日:2022-11-10 23:13:29 公開日:2020-07-13
# モデルからのデータ:非ロバストモデルとロバストモデルからのデータ抽出

Data from Model: Extracting Data from Non-robust and Robust Models ( http://arxiv.org/abs/2007.06196v1 )

ライセンス: Link先を確認
Philipp Benz, Chaoning Zhang, Tooba Imtiaz, In-So Kweon(参考訳) ディープラーニングの本質は、データを利用してディープニューラルネットワーク(DNN)モデルをトレーニングすることだ。 この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。 我々は,データからモデルへのデータ(DtM)とモデルへのデータ(DfM)の連続的なプロセスを繰り返し,元の検証データセットの精度低下を測定して特徴マッピング情報の損失を探索する。 非ロバストおよびロバストな原点モデルの両方でこの実験を行う。 以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。 このサイクリング変換の成功は、データとモデルに存在する共有機能マッピングに起因する可能性がある。 同じデータを用いて、異なるDtMプロセスが異なる特徴を持つモデル、特に異なるネットワークアーキテクチャファミリーに対して、同等のパフォーマンスを達成できたとしても、結果が得られます。

The essence of deep learning is to exploit data to train a deep neural network (DNN) model. This work explores the reverse process of generating data from a model, attempting to reveal the relationship between the data and the model. We repeat the process of Data to Model (DtM) and Data from Model (DfM) in sequence and explore the loss of feature mapping information by measuring the accuracy drop on the original validation dataset. We perform this experiment for both a non-robust and robust origin model. Our results show that the accuracy drop is limited even after multiple sequences of DtM and DfM, especially for robust models. The success of this cycling transformation can be attributed to the shared feature mapping existing in data and model. Using the same data, we observe that different DtM processes result in models having different features, especially for different network architecture families, even though they achieve comparable performance.
翻訳日:2022-11-10 23:13:11 公開日:2020-07-13
# ラグランジュ緩和による線形量子レギュレータの効率的な最適探索

Efficient Optimistic Exploration in Linear-Quadratic Regulators via Lagrangian Relaxation ( http://arxiv.org/abs/2007.06482v1 )

ライセンス: Link先を確認
Marc Abeille and Alessandro Lazaric(参考訳) 線形2次レギュレータ(LQR)における探索・探索ジレンマについて検討した。 有限 MDP に対する楽観的なアルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て, 楽観的な最適化を緩和し, それを制約付き \textit{extended} LQR 問題に投入することを提案する。 次に、強い双対性を証明する対応するラグランジュ形式に移行する。 その結果、最大$O\big(\log(1/\epsilon)\big)$ Riccati方程式を解くことで、$\epsilon$-optimisticControllerを効率的に計算できることを示した。 最後に、元の \ofu 問題を緩和することは学習性能に影響を与えないことを証明し、$\tilde{O}(\sqrt{T})$ regret of \ofulq を回復する。 我々の知る限りでは、これはlqrに対する計算効率の良い信頼性に基づく最初のアルゴリズムであり、最悪の場合の最適後悔を保証している。

We study the exploration-exploitation dilemma in the linear quadratic regulator (LQR) setting. Inspired by the extended value iteration algorithm used in optimistic algorithms for finite MDPs, we propose to relax the optimistic optimization of \ofulq and cast it into a constrained \textit{extended} LQR problem, where an additional control variable implicitly selects the system dynamics within a confidence interval. We then move to the corresponding Lagrangian formulation for which we prove strong duality. As a result, we show that an $\epsilon$-optimistic controller can be computed efficiently by solving at most $O\big(\log(1/\epsilon)\big)$ Riccati equations. Finally, we prove that relaxing the original \ofu problem does not impact the learning performance, thus recovering the $\tilde{O}(\sqrt{T})$ regret of \ofulq. To the best of our knowledge, this is the first computationally efficient confidence-based algorithm for LQR with worst-case optimal regret guarantees.
翻訳日:2022-11-10 23:07:09 公開日:2020-07-13
# PRI-VAE: 関連情報変分オートエンコーダの原理

PRI-VAE: Principle-of-Relevant-Information Variational Autoencoders ( http://arxiv.org/abs/2007.06503v1 )

ライセンス: Link先を確認
Yanjun Li, Shujian Yu, Jose C. Principe, Xiaolin Li, and Dapeng Wu(参考訳) 変分オートエンコーダ (VAE) フレームワークで非絡み合い表現を学習するためのかなりの努力が続けられているが、ほとんどのVAEモデルの学習のダイナミクスの基本的な性質はいまだ不明であり、未解明のままである。 そこで本研究では,本論文で提案するpri-vae(principle-of-relevant-information variational autoencoder)と呼ばれる新しい学習目標を提案する。 次に,既存のvaeモデルを分析するための情報理論的な視点を提示し,訓練時代における重要な情報理論量の進化を考察する。 我々の観測では、VAEの基本的な性質が明らかにされている。 また、4つのベンチマークデータセットに対するPRI-VAEの有効性を実証した。

Although substantial efforts have been made to learn disentangled representations under the variational autoencoder (VAE) framework, the fundamental properties to the dynamics of learning of most VAE models still remain unknown and under-investigated. In this work, we first propose a novel learning objective, termed the principle-of-relevant-information variational autoencoder (PRI-VAE), to learn disentangled representations. We then present an information-theoretic perspective to analyze existing VAE models by inspecting the evolution of some critical information-theoretic quantities across training epochs. Our observations unveil some fundamental properties associated with VAEs. Empirical results also demonstrate the effectiveness of PRI-VAE on four benchmark data sets.
翻訳日:2022-11-10 23:06:48 公開日:2020-07-13
# S2RM:空間構造リカレントモジュール

S2RMs: Spatially Structured Recurrent Modules ( http://arxiv.org/abs/2007.06533v1 )

ライセンス: Link先を確認
Nasim Rahaman, Anirudh Goyal, Muhammad Waleed Gondal, Manuel Wuthrich, Stefan Bauer, Yash Sharma, Yoshua Bengio, Bernhard Sch\"olkopf(参考訳) 適切な帰納バイアスによってデータ生成プロセスの構造を捉えることは、よく一般化され、入力分布の変化にロバストな学習モデルに役立つ。 空間的構造と時間的構造を利用する手法は広く応用されているが、最近の研究はスパースとモジュラー構造を利用するモデルの可能性を示した。 本研究では,モジュール構造と時空間構造の両方を同時に活用できる動的モデルへの一歩を踏み出す。 モデル化された力学系を,自律的だが軽微に相互作用するサブシステムの集合として抽象化することで,これを実現する。 サブシステムは、学習されるトポロジーに従って相互作用するが、基礎となる実世界のシステムの空間構造にも影響される。 これにより、状態への局所的なビューのみを提供するシステムのダイナミクスと、それらのビューの対応する空間的位置のモデリングによく適合するモデルクラスが生まれる。 クロッピングフレームからの映像予測や,starcraft2領域における部分的観測による多エージェント世界モデリングの課題について,我々は,本モデルが利用可能なビュー数に対してより堅牢であり,トレーニングを伴わずに新たなタスクに一般化できることを見出した。

Capturing the structure of a data-generating process by means of appropriate inductive biases can help in learning models that generalize well and are robust to changes in the input distribution. While methods that harness spatial and temporal structures find broad application, recent work has demonstrated the potential of models that leverage sparse and modular structure using an ensemble of sparingly interacting modules. In this work, we take a step towards dynamic models that are capable of simultaneously exploiting both modular and spatiotemporal structures. We accomplish this by abstracting the modeled dynamical system as a collection of autonomous but sparsely interacting sub-systems. The sub-systems interact according to a topology that is learned, but also informed by the spatial structure of the underlying real-world system. This results in a class of models that are well suited for modeling the dynamics of systems that only offer local views into their state, along with corresponding spatial locations of those views. On the tasks of video prediction from cropped frames and multi-agent world modeling from partial observations in the challenging Starcraft2 domain, we find our models to be more robust to the number of available views and better capable of generalization to novel tasks without additional training, even when compared against strong baselines that perform equally well or better on the training distribution.
翻訳日:2022-11-10 23:06:34 公開日:2020-07-13
# 体験リプレイの基礎の再検討

Revisiting Fundamentals of Experience Replay ( http://arxiv.org/abs/2007.06700v1 )

ライセンス: Link先を確認
William Fedus, Prajit Ramachandran, Rishabh Agarwal, Yoshua Bengio, Hugo Larochelle, Mark Rowland, Will Dabney(参考訳) experience replayは、深層強化学習(rl)におけるオフポリシーアルゴリズムの中心ですが、私たちの理解には大きなギャップがあります。 そこで本研究では,q-learning法における経験リプレイの体系的かつ広範な分析を行い,リプレイ能力と学習更新率(リプレイ率)の2つの基本的な特性に着目した。 当社の加法とアブレーションによる研究は、経験リプレイに関する従来の知恵を裏付けるものです -- 高いキャパシティは、特定のアルゴリズムのパフォーマンスを大きく向上させると同時に、他のアルゴリズムに影響を与えないのです。 直観に反することに、理論上は根拠がなく、修正されていないnステップのリターンは一意に有益であるが、他のテクニックではより大きなメモリをシフティングすることの利点が限定されている。 第2に、リプレイ率を直接制御することで、文献における過去の観察を文脈化し、様々な深いRLアルゴリズムでその重要性を実証的に測定する。 最後に、これらのパフォーマンスの利点の性質に関する一連の仮説をテストすることで締めくくります。

Experience replay is central to off-policy algorithms in deep reinforcement learning (RL), but there remain significant gaps in our understanding. We therefore present a systematic and extensive analysis of experience replay in Q-learning methods, focusing on two fundamental properties: the replay capacity and the ratio of learning updates to experience collected (replay ratio). Our additive and ablative studies upend conventional wisdom around experience replay -- greater capacity is found to substantially increase the performance of certain algorithms, while leaving others unaffected. Counterintuitively we show that theoretically ungrounded, uncorrected n-step returns are uniquely beneficial while other techniques confer limited benefit for sifting through larger memory. Separately, by directly controlling the replay ratio we contextualize previous observations in the literature and empirically measure its importance across a variety of deep RL algorithms. Finally, we conclude by testing a set of hypotheses on the nature of these performance benefits.
翻訳日:2022-11-10 23:03:51 公開日:2020-07-13
# 弱線形関数近似を用いた大規模mdpの効率的な計画法

Efficient Planning in Large MDPs with Weak Linear Function Approximation ( http://arxiv.org/abs/2007.06184v1 )

ライセンス: Link先を確認
Roshan Shariff and Csaba Szepesv\'ari(参考訳) 大規模マルコフ決定プロセス (MDPs) は、MPPの状態を独立に実行するための計画アルゴリズムを必要とする。 最適値関数に対する近似誤差の低さや,特徴が他の状態にまたがる"コア"状態の小さなセットなど,弱要求のみを伴う線形値関数近似を用いて,mdpの計画問題を考える。 特に、最適でない政策の政策や価値関数の表現可能性について仮定はしない。 本アルゴリズムはmdpのための生成的オラクル(シミュレータ)を用いて任意の状態に対してほぼ最適なアクションを生成するが,その計算時間は特徴数,コア状態,アクション数,有効地平線数と多項式的にスケールする。

Large-scale Markov decision processes (MDPs) require planning algorithms with runtime independent of the number of states of the MDP. We consider the planning problem in MDPs using linear value function approximation with only weak requirements: low approximation error for the optimal value function, and a small set of "core" states whose features span those of other states. In particular, we make no assumptions about the representability of policies or value functions of non-optimal policies. Our algorithm produces almost-optimal actions for any state using a generative oracle (simulator) for the MDP, while its computation time scales polynomially with the number of features, core states, and actions and the effective horizon.
翻訳日:2022-11-10 22:57:10 公開日:2020-07-13
# LSTMを用いたADITYAトカマクの破壊予測

Using LSTM for the Prediction of Disruption in ADITYA Tokamak ( http://arxiv.org/abs/2007.06230v1 )

ライセンス: Link先を確認
Aman Agarwal, Aditya Mishra, Priyanka Sharma, Swati Jain, Sutapa Ranjan, Ranjana Manchanda(参考訳) トカマクにおける大きな混乱は、船とその周辺機器に深刻な脅威をもたらす。 システムが破壊につながるあらゆる行動を検出する能力は、事前にシステムを警告し、その有害な影響を防ぐのに役立ちます。 JET や ASDEX のような大規模トカマクではすでに多くの機械学習技術が使用されているが、比較的小さい ADITYA には適していない。 本研究では,ADITYAトカマクの破壊時期を予測し,実験データセット上で結果を検証するための新しいリアルタイムアプローチについて論じる。 このシステムは、トカマクから選択された診断と、いくつかの前処理ステップの後、時間列長短期記憶(LSTM)ネットワークに送信する。 このモデルは、リアルタイムアプリケーションでデプロイするのに十分な速さで計算コストを削減し、事前に12ミリ秒の予測を行うことができる。

Major disruptions in tokamak pose a serious threat to the vessel and its surrounding pieces of equipment. The ability of the systems to detect any behavior that can lead to disruption can help in alerting the system beforehand and prevent its harmful effects. Many machine learning techniques have already been in use at large tokamaks like JET and ASDEX, but are not suitable for ADITYA, which is comparatively small. Through this work, we discuss a new real-time approach to predict the time of disruption in ADITYA tokamak and validate the results on an experimental dataset. The system uses selected diagnostics from the tokamak and after some pre-processing steps, sends them to a time-sequence Long Short-Term Memory (LSTM) network. The model can make the predictions 12 ms in advance at less computation cost that is quick enough to be deployed in real-time applications.
翻訳日:2022-11-10 22:56:58 公開日:2020-07-13
# 生産におけるモデルのモニタリングと説明可能性

Monitoring and explainability of models in production ( http://arxiv.org/abs/2007.06299v1 )

ライセンス: Link先を確認
Janis Klaise, Arnaud Van Looveren, Clive Cox, Giovanni Vacanti, Alexandru Coca(参考訳) マシンラーニングライフサイクルは、デプロイメントステージを超えて拡張される。 デプロイされたモデルの監視は、高品質な機械学習対応サービスの継続的な提供に不可欠である。 主な領域は、モデルパフォーマンスとデータモニタリング、統計技術を用いたアウトレーヤとデータドリフトの検出、歴史的予測の説明の提供である。 これらの領域でソリューションの実装を成功させる上での課題を,オープンソースツールを使用した製品対応ソリューションの最近の例で論じる。

The machine learning lifecycle extends beyond the deployment stage. Monitoring deployed models is crucial for continued provision of high quality machine learning enabled services. Key areas include model performance and data monitoring, detecting outliers and data drift using statistical techniques, and providing explanations of historic predictions. We discuss the challenges to successful implementation of solutions in each of these areas with some recent examples of production ready solutions using open source tools.
翻訳日:2022-11-10 22:56:35 公開日:2020-07-13
# TrustNet:(A)対称ラベルノイズに対する信頼データからの学習

TrustNet: Learning from Trusted Data Against (A)symmetric Label Noise ( http://arxiv.org/abs/2007.06324v1 )

ライセンス: Link先を確認
Amirmasoud Ghiassi, Taraneh Younesian, Robert Birke, Lydia Y.Chen(参考訳) ラベルノイズに対するロバスト性は、大量のデータセットで訓練された弱い教師付き分類器にとって重要な特性である。 ラベルノイズに対するロバスト性は、大量のデータセットで訓練された弱い教師付き分類器にとって重要な特性である。 本稿ではまず,任意の雑音パターンに対して解析的境界を導出する。 この知見に基づいて、信頼されたデータの小さなセットから、まずノイズの破損パターンを対称的または非対称的に学習するTrustNetを設計する。 そして、TrustNetはロバストな損失関数によってトレーニングされ、学習されたノイズパターンから推測されたラベルに対して与えられたラベルを重み付けする。 重量は訓練エポック間のモデル不確実性に基づいて調整される。 我々は、CIFAR-10とCIFAR-100の合成ラベルノイズに関するTrustNetと、ラベルノイズを持つ実世界のデータ、すなわちCloting1Mを評価する。 我々は,様々なノイズパターンを用いたtrustnetの強靭性を示す最先端手法との比較を行った。

Robustness to label noise is a critical property for weakly-supervised classifiers trained on massive datasets. Robustness to label noise is a critical property for weakly-supervised classifiers trained on massive datasets. In this paper, we first derive analytical bound for any given noise patterns. Based on the insights, we design TrustNet that first adversely learns the pattern of noise corruption, being it both symmetric or asymmetric, from a small set of trusted data. Then, TrustNet is trained via a robust loss function, which weights the given labels against the inferred labels from the learned noise pattern. The weight is adjusted based on model uncertainty across training epochs. We evaluate TrustNet on synthetic label noise for CIFAR-10 and CIFAR-100, and real-world data with label noise, i.e., Clothing1M. We compare against state-of-the-art methods demonstrating the strong robustness of TrustNet under a diverse set of noise patterns.
翻訳日:2022-11-10 22:56:28 公開日:2020-07-13
# 直交分離した変分フーリエ特徴

Orthogonally Decoupled Variational Fourier Features ( http://arxiv.org/abs/2007.06363v1 )

ライセンス: Link先を確認
Dario Azzimonti, Manuel Sch\"urch, Alessio Benavoli, Marco Zaffalon(参考訳) スパース誘導ポイントは、ガウス過程をビッグデータに適合させる標準的な方法である。 ここ数年、共分散核の近似を利用するスペクトル法が競争的であることが示されている。 本研究では, スペクトル法とスパース誘導点法を組み合わせて, 最近導入された直交分離変分基底を活用した。 本手法は,合成および実世界のデータに対する最先端技術と競合することを示す。

Sparse inducing points have long been a standard method to fit Gaussian processes to big data. In the last few years, spectral methods that exploit approximations of the covariance kernel have shown to be competitive. In this work we exploit a recently introduced orthogonally decoupled variational basis to combine spectral methods and sparse inducing points methods. We show that the method is competitive with the state-of-the-art on synthetic and on real-world data.
翻訳日:2022-11-10 22:56:14 公開日:2020-07-13
# 正規分布とモンテカルロ分布に対する最小相対エントロピー推定

Minimum Relative Entropy Inference for Normal and Monte Carlo Distributions ( http://arxiv.org/abs/2007.06461v1 )

ライセンス: Link先を確認
Marcello Colasante, Attilio Meucci(参考訳) 指数族分布のアフィン部分多様体を最小相対エントロピー部分多様体として表現する。 このような表現を用いて,多変量正規分布の期待と共分散に関する部分情報から推定のための解析式を導出し,一般化期待型部分情報から推定のためのモンテカルロシミュレーションによる数値的実装を改善する。

We represent affine sub-manifolds of exponential family distributions as minimum relative entropy sub-manifolds. With such representation we derive analytical formulas for the inference from partial information on expectations and covariances of multivariate normal distributions; and we improve the numerical implementation via Monte Carlo simulations for the inference from partial information of generalized expectation type.
翻訳日:2022-11-10 22:54:48 公開日:2020-07-13
# スパイクニューラルネットワークの粗いスケール表現:スパイクによるバックプロパゲーションとニューロモルフィックハードウェアへの応用

Coarse scale representation of spiking neural networks: backpropagation through spikes and application to neuromorphic hardware ( http://arxiv.org/abs/2007.06176v1 )

ライセンス: Link先を確認
Angel Yanguas-Gil(参考訳) 本研究では,その絶対屈折時間に等しい時間スケールで作動する漏洩積分と発火ニューロンの繰り返し表現について検討する。 我々の粗い時間スケール近似は、この時間間隔で均一に分布するスパイク到着の確率分布関数を用いて得られる。 これは、連続したモデルと同じダイナミクスを示す離散表現をもたらし、反復的な実装による効率的な大規模シミュレーションとバックプロパゲーションを可能にします。 このアプローチは、畳み込み、all-to-all接続、maxpool層を含むディープスパイキングニューラルネットワークのトレーニングをpytorch内で直接行うために使用します。 トレーニング中に4本のスパイク列車のみを用いて,再帰モデルにより高い分類精度が得られた。 我々はまた、漏れやすい統合と発火ニューロンの継続的な実装への良い回帰も観察した。 最後に,本手法をニューロモルフィックチップを用いた強化学習の第1ステップとして,標準的な制御問題に適用した。

In this work we explore recurrent representations of leaky integrate and fire neurons operating at a timescale equal to their absolute refractory period. Our coarse time scale approximation is obtained using a probability distribution function for spike arrivals that is homogeneously distributed over this time interval. This leads to a discrete representation that exhibits the same dynamics as the continuous model, enabling efficient large scale simulations and backpropagation through the recurrent implementation. We use this approach to explore the training of deep spiking neural networks including convolutional, all-to-all connectivity, and maxpool layers directly in Pytorch. We found that the recurrent model leads to high classification accuracy using just 4-long spike trains during training. We also observed a good transfer back to continuous implementations of leaky integrate and fire neurons. Finally, we applied this approach to some of the standard control problems as a first step to explore reinforcement learning using neuromorphic chips.
翻訳日:2022-11-10 22:48:23 公開日:2020-07-13
# 臨床テキストからのICD符号化のためのラベルアテンションモデル

A Label Attention Model for ICD Coding from Clinical Text ( http://arxiv.org/abs/2007.06351v1 )

ライセンス: Link先を確認
Thanh Vu, Dat Quoc Nguyen, Anthony Nguyen(参考訳) icdコーディング(icd coding)は、医療専門家(例えば臨床医)が記録した臨床・医療記録に、疾病診断符号の国際分類を割り当てるプロセスである。 このプロセスには相当な人的資源が必要で、コストがかかりエラーを起こしやすい。 この問題に対処するため、機械学習は自動ICD符号化に利用されている。 従来の最先端モデルでは、単一の固定ウィンドウサイズを使用して畳み込みニューラルネットワークをベースとしていた。 しかし, 臨床テキスト中のICD符号に関連するテキスト断片の長さと相互依存性は著しく異なり, 最適なウィンドウサイズを決定するのが困難である。 本稿では,ICDコード関連テキストフラグメントの様々な長さと相互依存性を扱える自動ICD符号化のための新しいラベルアテンションモデルを提案する。 さらに,多くのICD符号が頻繁には使われていないため,非常に不均衡なデータ問題につながるため,符号間の階層的関係を利用して,ラベルアテンションモデルを拡張した階層的共同学習機構も提案する。 ラベルアテンションモデルは3つのベンチマーク模倣データセットで新たな最先端結果を達成し,共同学習機構は不適切なコードのパフォーマンス向上に寄与する。

ICD coding is a process of assigning the International Classification of Disease diagnosis codes to clinical/medical notes documented by health professionals (e.g. clinicians). This process requires significant human resources, and thus is costly and prone to error. To handle the problem, machine learning has been utilized for automatic ICD coding. Previous state-of-the-art models were based on convolutional neural networks, using a single/several fixed window sizes. However, the lengths and interdependence between text fragments related to ICD codes in clinical text vary significantly, leading to the difficulty of deciding what the best window sizes are. In this paper, we propose a new label attention model for automatic ICD coding, which can handle both the various lengths and the interdependence of the ICD code related text fragments. Furthermore, as the majority of ICD codes are not frequently used, leading to the extremely imbalanced data issue, we additionally propose a hierarchical joint learning mechanism extending our label attention model to handle the issue, using the hierarchical relationships among the codes. Our label attention model achieves new state-of-the-art results on three benchmark MIMIC datasets, and the joint learning mechanism helps improve the performances for infrequent codes.
翻訳日:2022-11-10 22:48:08 公開日:2020-07-13
# パラノイドトランスフォーマー:創造性への計算的アプローチとしての狂気の物語を読む

Paranoid Transformer: Reading Narrative of Madness as Computational Approach to Creativity ( http://arxiv.org/abs/2007.06290v1 )

ライセンス: Link先を確認
Yana Agafonova, Alexey Tikhonov, Ivan P. Yamshchikov(参考訳) 本稿では、計算創造性の文脈で受容理論を再考する。 これはパラノイド変換器(Paranoid Transformer)のケーススタディで、人間のポストフィルターなしでマッドデジタルペルソナの物語として読むことができる、生の出力を備えた完全自律テキスト生成エンジンである。 本稿では,生成システムの技術的詳細を述べるとともに,生成の例を示し,受容理論,機会発見,循環的精神状態のシミュレーションが創造性理解に与える影響について論じる。

This papers revisits the receptive theory in context of computational creativity. It presents a case study of a Paranoid Transformer - a fully autonomous text generation engine with raw output that could be read as the narrative of a mad digital persona without any additional human post-filtering. We describe technical details of the generative system, provide examples of output and discuss the impact of receptive theory, chance discovery and simulation of fringe mental state on the understanding of computational creativity.
翻訳日:2022-11-10 22:47:32 公開日:2020-07-13
# 移動ロボットの位置的マルチモーダル制御:仮想環境を通したナビゲーション

Situated Multimodal Control of a Mobile Robot: Navigation through a Virtual Environment ( http://arxiv.org/abs/2007.09053v1 )

ライセンス: Link先を確認
Katherine Krajovic, Nikhil Krishnaswamy, Nathaniel J. Dimick, R. Pito Salas, and James Pustejovsky(参考訳) 本稿では,協調ジェスチャーと言語を用いた新しい環境下でのナビゲーションロボット制御のための新しいインタフェースを提案する。 我々は、LIDARとカメラを備えたTurtleBot3ロボット、探索中にロボットが遭遇したことを具体化したシミュレーション、汎用通信を容易にするクロスプラットフォームブリッジを使用する。 人間のパートナーは、音声英語と模擬環境に対するジェスチャーを用いてロボットに指示を与え、ナビゲーションタスクを通じてロボットを誘導することができる。

We present a new interface for controlling a navigation robot in novel environments using coordinated gesture and language. We use a TurtleBot3 robot with a LIDAR and a camera, an embodied simulation of what the robot has encountered while exploring, and a cross-platform bridge facilitating generic communication. A human partner can deliver instructions to the robot using spoken English and gestures relative to the simulated environment, to guide the robot through navigation tasks.
翻訳日:2022-11-10 22:47:20 公開日:2020-07-13
# Kullbackを用いたモデル融合--Leibler Divergence

Model Fusion with Kullback--Leibler Divergence ( http://arxiv.org/abs/2007.06168v1 )

ライセンス: Link先を確認
Sebastian Claici, Mikhail Yurochkin, Soumya Ghosh and Justin Solomon(参考訳) 異種データセットから得られた後続分布を融合する手法を提案する。 本アルゴリズムは、融合モデルと個別データセットの両方の平均場仮定に依拠し、単純な代入平均法を用いて進行する。 データセットの後方のコンポーネントは、割り当て問題の正規化変種を解決することにより、提案されたグローバルモデルコンポーネントに割り当てられる。 グローバルコンポーネントは、klの発散の下で、これらの割り当てに基づいて、平均で更新される。 指数関数的家族変分分布に対して,本定式化は融合モデルを計算するための効率的な非パラメトリックアルゴリズムをもたらす。 このアルゴリズムは,ベイズ型ニューラルネットワークの動作キャプチャ解析,トピックモデリング,フェデレーション学習といった最先端技術と,容易に記述し,実装し,効率的に,競合する。

We propose a method to fuse posterior distributions learned from heterogeneous datasets. Our algorithm relies on a mean field assumption for both the fused model and the individual dataset posteriors and proceeds using a simple assign-and-average approach. The components of the dataset posteriors are assigned to the proposed global model components by solving a regularized variant of the assignment problem. The global components are then updated based on these assignments by their mean under a KL divergence. For exponential family variational distributions, our formulation leads to an efficient non-parametric algorithm for computing the fused model. Our algorithm is easy to describe and implement, efficient, and competitive with state-of-the-art on motion capture analysis, topic modeling, and federated learning of Bayesian neural networks.
翻訳日:2022-11-10 22:46:00 公開日:2020-07-13
# エキスパートトレーニング:タスクのハードネスを意識したメタラーニング

Expert Training: Task Hardness Aware Meta-Learning for Few-Shot Classification ( http://arxiv.org/abs/2007.06240v1 )

ライセンス: Link先を確認
Yucan Zhou, Yu Wang, Jianfei Cai, Yu Zhou, Qinghua Hu, Weiping Wang(参考訳) ディープニューラルネットワークは、多くのラベル付きサンプルが利用可能だが、少数の分類タスクで失敗する場合に非常に効果的である。 近年,メタラーニング手法が注目され,大量の追加タスクを学習し,マイナショット分類を指導する知識を得た。 通常、トレーニングタスクはランダムにサンプリングされ、無差別に実行される。 ディープニューラルネットワークの最適化におけるいくつかの研究は、より優れたトレーニングデータの配置により、分類器の収束が早くなり、性能が向上することを示した。 このアイデアに触発されて,第1フェーズでは簡単なタスクが優先され,第2フェーズでは難しいタスクが強調される,訓練タスクを適切に手配する,簡単な専門家によるメタトレーニング戦略を提案する。 タスクハードネス認識モジュールは、そのカテゴリの識別性に基づいてタスクのハードネスを推定するために、トレーニング手順に設計および統合される。 さらに, 意味関係, 対ユークリッド距離, ハウスドルフ距離, ヒルベルト・シュミット独立基準を含む複数の硬度測定について検討した。 miniImageNet と tieredImageNetSketch のデータセットによる実験結果から,メタラーナーは専門家のトレーニング戦略によりより良い結果が得られることが示された。

Deep neural networks are highly effective when a large number of labeled samples are available but fail with few-shot classification tasks. Recently, meta-learning methods have received much attention, which train a meta-learner on massive additional tasks to gain the knowledge to instruct the few-shot classification. Usually, the training tasks are randomly sampled and performed indiscriminately, often making the meta-learner stuck into a bad local optimum. Some works in the optimization of deep neural networks have shown that a better arrangement of training data can make the classifier converge faster and perform better. Inspired by this idea, we propose an easy-to-hard expert meta-training strategy to arrange the training tasks properly, where easy tasks are preferred in the first phase, then, hard tasks are emphasized in the second phase. A task hardness aware module is designed and integrated into the training procedure to estimate the hardness of a task based on the distinguishability of its categories. In addition, we explore multiple hardness measurements including the semantic relation, the pairwise Euclidean distance, the Hausdorff distance, and the Hilbert-Schmidt independence criterion. Experimental results on the miniImageNet and tieredImageNetSketch datasets show that the meta-learners can obtain better results with our expert training strategy.
翻訳日:2022-11-10 22:40:26 公開日:2020-07-13
# マルチグラニュラータスクのためのネスト学習

Nested Learning For Multi-Granular Tasks ( http://arxiv.org/abs/2007.06402v1 )

ライセンス: Link先を確認
Rapha\"el Achddou, J.Matias di Martino, Guillermo Sapiro(参考訳) 標準ディープニューラルネットワーク(DNN)は、オブジェクト認識、顔識別、文字認識などの特定のタスクに対して、エンドツーエンドで一般的に訓練されている。 この特異性はしばしば、元のトレーニング分布からでないサンプルにあまり一般化しない過信モデルをもたらす。 さらに、このような標準的なDNNでは、例えばラベルに異なるレベルの粒度を付与するなど、異種アノテートされたトレーニングデータの情報を利用できない。 さらに、DNNは、異なるレベルの詳細に対して、同時に異なるレベルの信頼度を持つ結果を生成しない。 これらの課題に対処するために,まず粗いラベルを抽出できるように入力の階層的表現をどのように獲得するか,そして,サンプルが許せばその表現を逐次的に洗練し,逐次的に洗練された予測を得るか,といったネスト学習の概念を導入する。 ネストした情報のボトルネックのシーケンスを作成することで、この動作を明示的に実施します。 情報理論の観点からネスト学習の問題を考えると、2つの重要な特性を持つネットワークトポロジーを設計する。 まず、低次元(ネステッド)な特徴埋め込みの列を強制する。 次に,ネスト出力の明示的な組み合わせにより,より詳細な予測のロバスト性と精度が向上することを示す。 cifar-10, cifar-100, mnist, fashion-mnist, dbpedia, plantvillageの実験結果は、ネスト学習が標準的なエンドツーエンドでトレーニングされたネットワークよりも優れていることを示している。

Standard deep neural networks (DNNs) are commonly trained in an end-to-end fashion for specific tasks such as object recognition, face identification, or character recognition, among many examples. This specificity often leads to overconfident models that generalize poorly to samples that are not from the original training distribution. Moreover, such standard DNNs do not allow to leverage information from heterogeneously annotated training data, where for example, labels may be provided with different levels of granularity. Furthermore, DNNs do not produce results with simultaneous different levels of confidence for different levels of detail, they are most commonly an all or nothing approach. To address these challenges, we introduce the concept of nested learning: how to obtain a hierarchical representation of the input such that a coarse label can be extracted first, and sequentially refine this representation, if the sample permits, to obtain successively refined predictions, all of them with the corresponding confidence. We explicitly enforce this behavior by creating a sequence of nested information bottlenecks. Looking at the problem of nested learning from an information theory perspective, we design a network topology with two important properties. First, a sequence of low dimensional (nested) feature embeddings are enforced. Then we show how the explicit combination of nested outputs can improve both the robustness and the accuracy of finer predictions. Experimental results on Cifar-10, Cifar-100, MNIST, Fashion-MNIST, Dbpedia, and Plantvillage demonstrate that nested learning outperforms the same network trained in the standard end-to-end fashion.
翻訳日:2022-11-10 22:39:48 公開日:2020-07-13
# 非線形方程式系を解くための進化的アルゴリズムと可変還元戦略の統合

Integrating Variable Reduction Strategy with Evolutionary Algorithm for Solving Nonlinear Equations Systems ( http://arxiv.org/abs/2008.04223v1 )

ライセンス: Link先を確認
Aijuan Song, Guohua Wu, Witold Pedrycz(参考訳) 非線形方程式系(NES)は実世界の問題で広く用いられているが、非線形性や多重根の特徴から解くのが難しい。 進化的アルゴリズム(Evolutionary algorithm, EA)は、NESのグローバル検索能力と、NESの複数のルーツを1回のランで同時に特定できることから、NESを解く方法の1つである。 現在、NESの問題を解決するためにEAを使用する研究の大部分は、変換技術と使用済みEAの性能向上に重点を置いている。 そこで本研究では,この問題領域におけるnessの知識を特に研究し,可変還元戦略 (vrs) をeasに組み込んでnessを解くことを提案する。 VRSは、NESを表現するシステムを完全に利用し、方程式系に存在する変数関係を通して他の変数(例えば、還元変数)を表現するためにいくつかの変数(コア変数)を使用する。 これにより、部分変数や方程式を減らし、決定空間を縮小し、問題の複雑さを減らし、EAの探索効率を向上させることができる。 本報告では,VRSのNES処理における有効性を検証するために,VRSを既存の2つのEA手法(MONESとDRJADE)に統合する。 実験結果から, EA法はVRSの補助により, 従来の方法や比較手法よりも有意に優れた結果が得られることが示された。

Nonlinear equations systems (NESs) are widely used in real-world problems while they are also difficult to solve due to their characteristics of nonlinearity and multiple roots. Evolutionary algorithm (EA) is one of the methods for solving NESs, given their global search capability and an ability to locate multiple roots of a NES simultaneously within one run. Currently, the majority of research on using EAs to solve NESs focuses on transformation techniques and improving the performance of the used EAs. By contrast, the problem domain knowledge of NESs is particularly investigated in this study, using which we propose to incorporate the variable reduction strategy (VRS) into EAs to solve NESs. VRS makes full use of the systems of expressing a NES and uses some variables (i.e., core variable) to represent other variables (i.e., reduced variables) through the variable relationships existing in the equation systems. It enables to reduce partial variables and equations and shrink the decision space, thereby reducing the complexity of the problem and improving the search efficiency of the EAs. To test the effectiveness of VRS in dealing with NESs, this paper integrates VRS into two existing state-of-the-art EA methods (i.e., MONES and DRJADE), respectively. Experimental results show that, with the assistance of VRS, the EA methods can significantly produce better results than the original methods and other compared methods.
翻訳日:2022-11-10 22:38:04 公開日:2020-07-13
# 軽量アーキテクチャによる高密度群衆の検出と計数

Dense Crowds Detection and Counting with a Lightweight Architecture ( http://arxiv.org/abs/2007.06630v1 )

ライセンス: Link先を確認
Javier Antonio Gonzalez-Trejo, Diego Alberto Mercado-Ravell(参考訳) 群集カウントの文脈では、ほとんどの研究は、組込みアプリケーションには適さないアルゴリズムに繋がる性能によらず、精度の向上に重点を置いている。 本稿では,数量精度を損なうことなく,少ないコンピュータリソースで群衆検出とカウントを行う軽量畳み込みニューラルネットワークアーキテクチャを提案する。 アーキテクチャはベイズ損失関数を使って精度をさらに向上させ、さらに計算資源を減らすために刈り取るように訓練された。 提案されたアーキテクチャはUSF-QNRF上でテストされ、平均誤差は154.07、平均誤差は241.77、競合パラメータは0.067万である。 得られた結果は,ベイズ損失を他のアーキテクチャと併用してさらに改善できることを示唆している。また,最後の畳み込み層は重要な情報を提供しず,トレーニングの過剰フィッティングも促進する。

In the context of crowd counting, most of the works have focused on improving the accuracy without regard to the performance leading to algorithms that are not suitable for embedded applications. In this paper, we propose a lightweight convolutional neural network architecture to perform crowd detection and counting using fewer computer resources without a significant loss on count accuracy. The architecture was trained using the Bayes loss function to further improve its accuracy and then pruned to further reduce the computational resources used. The proposed architecture was tested over the USF-QNRF achieving a competitive Mean Average Error of 154.07 and a superior Mean Square Error of 241.77 while maintaining a competitive number of parameters of 0.067 Million. The obtained results suggest that the Bayes loss can be used with other architectures to further improve them and also the last convolutional layer provides no significant information and even encourage over-fitting at training.
翻訳日:2022-11-10 22:37:41 公開日:2020-07-13
# リレーショナルニューラルネットワークを用いたグラフニューラルネットワークを超えて

Beyond Graph Neural Networks with Lifted Relational Neural Networks ( http://arxiv.org/abs/2007.06286v1 )

ライセンス: Link先を確認
Gustav Sourek, Filip Zelezny, Ondrej Kuzelka(参考訳) 本稿では,Lfted Relational Neural Networksの言語に基づく宣言型微分可能プログラミングフレームワークについて紹介する。 各種グラフなどの関係データを提示すると、プログラムインタプリタは、プログラムパラメータ最適化に使用する微分可能な計算グラフを標準手段で動的に展開する。 使用する宣言型データログの抽象化に従えば、計算グラフのレベルで直接動作する既存の手続き的アプローチとは対照的に、コンパクトでエレガントな学習プログラムが得られる。 このアイデアが、グラフニューラルネットワーク(GNN)に特に焦点をあてた、さまざまな高度なニューラルネットワークアーキテクチャの効率的なエンコーディングにどのように使用できるかを説明する。 さらに,同時代のGNNモデルを高関係表現性に向けて容易に拡張できることを示す。 実験では,既存のGNNモデルの学習性能に光を当てつつ,特殊なGNN深層学習フレームワークとの比較により,正確さと計算効率を実証した。

We demonstrate a declarative differentiable programming framework based on the language of Lifted Relational Neural Networks, where small parameterized logic programs are used to encode relational learning scenarios. When presented with relational data, such as various forms of graphs, the program interpreter dynamically unfolds differentiable computational graphs to be used for the program parameter optimization by standard means. Following from the used declarative Datalog abstraction, this results into compact and elegant learning programs, in contrast with the existing procedural approaches operating directly on the computational graph level. We illustrate how this idea can be used for an efficient encoding of a diverse range of existing advanced neural architectures, with a particular focus on Graph Neural Networks (GNNs). Additionally, we show how the contemporary GNN models can be easily extended towards higher relational expressiveness. In the experiments, we demonstrate correctness and computation efficiency through comparison against specialized GNN deep learning frameworks, while shedding some light on the learning performance of existing GNN models.
翻訳日:2022-11-10 22:30:24 公開日:2020-07-13
# 排他と包含 --dnnにおける特徴の重要性に対するモデル非依存アプローチ

Exclusion and Inclusion -- A model agnostic approach to feature importance in DNNs ( http://arxiv.org/abs/2007.16010v1 )

ライセンス: Link先を確認
Subhadip Maji, Arijit Ghosh Chowdhury, Raghav Bali and Vamsi M Bhandaru(参考訳) nlpのディープニューラルネットワークにより、システムは複雑な非線形関係を学習することができる。 現実世界のアプリケーションでDNNを使用する上での大きなボトルネックのひとつは、ブラックボックスとして特徴づけられることだ。 この問題を解決するために,入力特徴のフレーズ単位の重要度を計算するモデル非依存アルゴリズムを提案する。 回帰と分類の両方の実験を行うことにより,本手法は多様なタスクに一般化可能であると論じる。 また、我々のアプローチは外れ値に対して堅牢であり、入力の本質的な側面のみを捉えていることを示唆している。

Deep Neural Networks in NLP have enabled systems to learn complex non-linear relationships. One of the major bottlenecks towards being able to use DNNs for real world applications is their characterization as black boxes. To solve this problem, we introduce a model agnostic algorithm which calculates phrase-wise importance of input features. We contend that our method is generalizable to a diverse set of tasks, by carrying out experiments for both Regression and Classification. We also observe that our approach is robust to outliers, implying that it only captures the essential aspects of the input.
翻訳日:2022-11-10 22:28:57 公開日:2020-07-13
# DinerDash Gym: 高次元アクション空間におけるポリシー学習のベンチマーク

DinerDash Gym: A Benchmark for Policy Learning in High-Dimensional Action Space ( http://arxiv.org/abs/2007.06207v1 )

ライセンス: Link先を確認
Siwei Chen, Xiao Ma, David Hsu(参考訳) 一般的に受け入れられているベンチマークの欠如により、高次元のアクション空間を持つ階層的タスク領域におけるポリシー学習アルゴリズムの進歩を評価するのは難しい。 本研究では,高次元動作空間を持つ複雑なタスクにおける性能を評価するために,ダイナーダッシュと呼ばれる新しい軽量ベンチマークタスクを提案する。 目標の平坦な構造とアクションの少ない従来のアタリゲームとは対照的に、提案したベンチマークタスクは、アクション空間の階層的なタスク構造と57のサイズを持ち、複雑なタスクにおけるポリシー学習の開発を促進することができる。 このアルゴリズムは、グラフモデリングとディープラーニングの両方を組み合わせて、明示的なドメイン知識の埋め込みを可能にし、ベースラインと比較して大幅な改善を達成します。 実験では,特別に設計された模倣アルゴリズムと他の一般的なアルゴリズムの結果を用いて,ドメイン知識注入の有効性を示した。

It has been arduous to assess the progress of a policy learning algorithm in the domain of hierarchical task with high dimensional action space due to the lack of a commonly accepted benchmark. In this work, we propose a new light-weight benchmark task called Diner Dash for evaluating the performance in a complicated task with high dimensional action space. In contrast to the traditional Atari games that only have a flat structure of goals and very few actions, the proposed benchmark task has a hierarchical task structure and size of 57 for the action space and hence can facilitate the development of policy learning in complicated tasks. On top of that, we introduce Decomposed Policy Graph Modelling (DPGM), an algorithm that combines both graph modelling and deep learning to allow explicit domain knowledge embedding and achieves significant improvement comparing to the baseline. In the experiments, we have shown the effectiveness of the domain knowledge injection via a specially designed imitation algorithm as well as results of other popular algorithms.
翻訳日:2022-11-10 22:28:47 公開日:2020-07-13
# 熱マップ説明に対する敵攻撃に対する簡単な防御

A simple defense against adversarial attacks on heatmap explanations ( http://arxiv.org/abs/2007.06381v1 )

ライセンス: Link先を確認
Laura Rieger, Lars Kai Hansen(参考訳) より敏感なアプリケーションに機械学習モデルが使用されているため、分類に識別属性が使用されていないことを証明するために、解釈可能性法に依存しています。 潜在的な懸念は、いわゆる「フェアウォッシング(fair-washing)」である - 実際に使用される機能が隠され、より無害な機能が重要であることが示されるようなモデルを操作する。 本研究では,ニューラルネットワークに対する攻撃に対して効果的な防御を行う。 複数の説明手法の単純な集約により、ネットワークは操作に対して堅牢になる。 これは、攻撃者がモデル重みと使用する説明方法について正確な知識を持っている場合でも成り立つ。

With machine learning models being used for more sensitive applications, we rely on interpretability methods to prove that no discriminating attributes were used for classification. A potential concern is the so-called "fair-washing" - manipulating a model such that the features used in reality are hidden and more innocuous features are shown to be important instead. In our work we present an effective defence against such adversarial attacks on neural networks. By a simple aggregation of multiple explanation methods, the network becomes robust against manipulation. This holds even when the attacker has exact knowledge of the model weights and the explanation methods used.
翻訳日:2022-11-10 22:28:18 公開日:2020-07-13
# alpha$-divergence による最大確率と逆学習の橋渡し

Bridging Maximum Likelihood and Adversarial Learning via $\alpha$-Divergence ( http://arxiv.org/abs/2007.06178v1 )

ライセンス: Link先を確認
Miaoyun Zhao, Yulai Cong, Shuyang Dai, Lawrence Carin(参考訳) 最大可能性(ML)と逆学習は、生成モデルを訓練するための2つの一般的なアプローチであり、多くの観点からこれらの手法は相補的である。 ml学習は、すべてのデータモードのキャプチャを奨励し、典型的には安定したトレーニングによって特徴付けられる。 しかし、ML学習はデータ空間に拡散する確率質量を$e.$で分散し、ぼやけた合成画像を生成する傾向がある。 対戦学習は、モードドロップや微妙な訓練といった実践的な課題にもかかわらず、非常に現実的な自然画像を合成することがよく知られている。 我々は、mlと逆学習の利点を統一する$\alpha$-bridgeを提案し、$\alpha$-divergenceを介して一方から他方へのスムーズな転送を可能にする。 我々は、$\alpha$-Bridgeの一般化が、最近開発された逆学習を正規化するためのアプローチと密接に関連していることを明らかにし、それ以前の作業に対する洞察を提供し、なぜ$\alpha$-Bridgeが実際にうまく機能するのかをさらに理解する。

Maximum likelihood (ML) and adversarial learning are two popular approaches for training generative models, and from many perspectives these techniques are complementary. ML learning encourages the capture of all data modes, and it is typically characterized by stable training. However, ML learning tends to distribute probability mass diffusely over the data space, $e.g.$, yielding blurry synthetic images. Adversarial learning is well known to synthesize highly realistic natural images, despite practical challenges like mode dropping and delicate training. We propose an $\alpha$-Bridge to unify the advantages of ML and adversarial learning, enabling the smooth transfer from one to the other via the $\alpha$-divergence. We reveal that generalizations of the $\alpha$-Bridge are closely related to approaches developed recently to regularize adversarial learning, providing insights into that prior work, and further understanding of why the $\alpha$-Bridge performs well in practice.
翻訳日:2022-11-10 22:28:07 公開日:2020-07-13