このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210119となっている論文です。

PDF登録状況(公開日: 20210119)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般化不確実性原理

The Generalized Uncertainty Principle ( http://arxiv.org/abs/2003.08705v2 )

ライセンス: Link先を確認
Jun-Li Li, Cong-Feng Qiao(参考訳) 不確実性原理は量子物理学の中心にあり、不整合可観測物の測定精度の基本的な限界として広く考えられている。 ここで、従来の不確実性関係は、実際には一般化不確実性関係の先行次近似に属することを示す。 すなわち、観測可能な主次線型依存は不確かさ関係のハイゼンベルク型を与えるが、高次非線形依存はより異なる興味深い相関性を示すかもしれない。 量子情報科学における一般化不確実性関係と観測可能性間の高次非線形依存の応用についても考察した。

The uncertainty principle lies at the heart of quantum physics, and is widely thought of as a fundamental limit on the measurement precisions of incompatible observables. Here we show that the traditional uncertainty relation in fact belongs to the leading order approximation of a generalized uncertainty relation. That is, the leading order linear dependence of observables gives the Heisenberg type of uncertainty relations, while higher order nonlinear dependence may reveal more different and interesting correlation properties. Applications of the generalized uncertainty relation and the high order nonlinear dependence between observables in quantum information science are also discussed.
翻訳日:2023-05-28 18:02:10 公開日:2021-01-19
# 大都市ファイバネットワーク上の時間ビン量子ビット伝送の高品質量子プロセストモグラフィとその応用

High-quality quantum process tomography of time-bin qubit's transmission over a metropolitan fiber network and its application ( http://arxiv.org/abs/2004.05594v2 )

ライセンス: Link先を確認
Peiyu Zhang, Liangliang Lu, Fangchao Qu, Xinhe Jiang, Xiaodong Zheng, Yanqing Lu, Shining Zhu, Xiao-Song Ma(参考訳) 都市全体の量子通信システムのベンチマークには,量子状態とプロセストモグラフィーとタイムビン量子ビットを用いた。 このネットワーク上で、時間ビン量子ビットの位相を安定化するためのリアルタイムフィードバック制御システムを実装し、理想チャネルに対する99.3%の量子プロセス忠実度を求め、量子通信システム全体の高品質を示す。 これにより、平均量子ビット誤り率と視認率0.25%と99.2%のコヒーレントワンウェイプロトコルを用いて、61km以上の12時間で高性能な量子キー分布のフィールドトライアルを行うことができる。 その結果,大都市ファイバを用いた高性能量子ネットワークの実現が期待できる。

We employ quantum state and process tomography with time-bin qubits to benchmark a city-wide metropolitan quantum communication system. Over this network, we implement real-time feedback control systems for stabilizing the phase of the time-bin qubits, and obtain a 99.3% quantum process fidelity to the ideal channel, indicating the high quality of the whole quantum communication system. This allows us to implement field trial of high performance quantum key distribution using coherent one way protocol with average quantum bit error rate and visibility of 0.25% and 99.2% during 12 hours over 61 km. Our results pave the way for the high-performance quantum network with metropolitan fibers.
翻訳日:2023-05-25 02:27:37 公開日:2021-01-19
# 量子知識の古典的証明

Classical proofs of quantum knowledge ( http://arxiv.org/abs/2005.01691v2 )

ライセンス: Link先を確認
Thomas Vidick, Tina Zhang(参考訳) 検証者が古典的だが証明者が量子的であり、証明者が保持する証人が一般に量子状態である設定において、知識の証明の概念を定義する。 量子知識の非破壊的古典的証明が何らかの状態に存在する場合、その状態は境界のない敵によってクローン化され、我々の定義のパラメータの特定の条件下では、ハード・トゥ・クローン状態に対する知識プロトコルの証明が(破壊的な)量子マネー検証プロトコルとして使用できることを含む、我々の定義の単純な性質を確立する。 さらに、2つのプロトコルの例(どちらも量子マネースキームのためのプライベートキーの古典的検証プロトコルにインスパイアされた)を提供し、我々が定義した量子知識の証明であることを証明します。 そこで本研究では,非ローカルゲームに関する文献から得られた結果に基づくプロトコルの分析手法を紹介する。 最後に、mahadev(focs 2018)によって導入された検証プロトコルは、qma関係に対する量子知識の古典的な議論であることを示す。 いずれの場合も、証明者へのブラックボックス量子(巻き戻し)アクセスを与えられた量子証人を生成できる明示的な量子抽出器を構築し、後者は検証者からのメッセージの重ね合わせによって制御される証明者のブラックボックス回路をコヒーレントに実行する能力を含む。

We define the notion of a proof of knowledge in the setting where the verifier is classical, but the prover is quantum, and where the witness that the prover holds is in general a quantum state. We establish simple properties of our definition, including that, if a nondestructive classical proof of quantum knowledge exists for some state, then that state can be cloned by an unbounded adversary, and that, under certain conditions on the parameters in our definition, a proof of knowledge protocol for a hard-to-clone state can be used as a (destructive) quantum money verification protocol. In addition, we provide two examples of protocols (both inspired by private-key classical verification protocols for quantum money schemes) which we can show to be proofs of quantum knowledge under our definition. In so doing, we introduce techniques for the analysis of such protocols which build on results from the literature on nonlocal games. Finally, we show that, under our definition, the verification protocol introduced by Mahadev (FOCS 2018) is a classical argument of quantum knowledge for QMA relations. In all cases, we construct an explicit quantum extractor that is able to produce a quantum witness given black-box quantum (rewinding) access to the prover, the latter of which includes the ability to coherently execute the prover's black-box circuit controlled on a superposition of messages from the verifier.
翻訳日:2023-05-21 05:03:10 公開日:2021-01-19
# 多ラウンドプロセス行列

The Multi-round Process Matrix ( http://arxiv.org/abs/2005.04204v2 )

ライセンス: Link先を確認
Timoth\'ee Hoffreumon, Ognyan Oreshkov(参考訳) 本研究では,局所的に定義されたイベントの因果順序を仮定して,各パーティ間で複数の情報交換を行うことのできる因果順序のない量子演算間の相関関係のためのプロセス行列(PM)フレームワークの拡張を開発する。 マルチラウンドプロセス行列 (MPM) という相関関係を記述した高次過程を特徴付け, 標準PMの行列を拡張した因果非分離性の概念を定式化する。 マルチラウンドの場合,標準PMフォーマリズムのナイーブな適用によって捉えられていない因果非分離性の新規な徴候があることが示される: 有効なPMと有効なPMの双方である演算子のインスタンスを示すが,第1のケースでは因果非分離性であり,第2のケースでは副チャネルの使用の可能性により因果非分離性に反する可能性がある。

We develop an extension of the process matrix (PM) framework for correlations between quantum operations with no causal order that allows multiple rounds of information exchange for each party compatibly with the assumption of well-defined causal order of events locally. We characterise the higher-order process describing such correlations, which we name the multi-round process matrix (MPM), and formulate a notion of causal nonseparability for it that extends the one for standard PMs. We show that in the multi-round case there are novel manifestations of causal nonseparability that are not captured by a naive application of the standard PM formalism: we exhibit an instance of an operator that is both a valid PM and a valid MPM, but is causally separable in the first case and can violate causal inequalities in the second case due to the possibility of using a side channel.
翻訳日:2023-05-20 20:08:16 公開日:2021-01-19
# 伝播固有モードの効率的なスクイーズに基づくスケーラブルなマルチモード絡み合い

Scalable multimode entanglement based on efficient squeezing of propagation eigenmodes ( http://arxiv.org/abs/2005.07241v2 )

ライセンス: Link先を確認
D. Barral, K. Bencheikh, J.A. Levenson and N. Belabas(参考訳) 光領域における量子情報の連続変数エンコーディングは、量子コンピューティングや量子通信に有用な大きな時間的およびスペクトル的絡み合い状態を生み出した。 モノリシックフォトニックデバイスにおける伝搬固有モードの位相マッチングに基づく2次非線形導波路アレイに基づく空間多部絡み合わせ発生プロトコルを提案する。 自発的パラメトリック・ダウンコンバージョン・レジームでは、マルチモード量子ネットワークに有用な大きなマルチパーティタイト・エンタングル状態の生成を理論的に実証する。 私たちのプロトコルは結合性、非線形性、またはサンプルの長さの特定の値に依存しないので、驚くほどシンプルで堅牢です。

Continuous-variable encoding of quantum information in the optical domain has recently yielded large temporal and spectral entangled states instrumental for quantum computing and quantum communication. We introduce a protocol for the generation of spatial multipartite entanglement based on phase-matching of a propagation eigenmode in a monolithic photonic device: the array of quadratic nonlinear waveguides. We theoretically demonstrate in the spontaneous parametric downconversion regime the generation of large multipartite entangled states useful for multimode quantum networks. Our protocol is remarkably simple and robust as it does not rely on specific values of coupling, nonlinearity or length of the sample.
翻訳日:2023-05-20 05:10:10 公開日:2021-01-19
# 確率的パラメータシフト則による一般量子進化の解析的勾配の測定

Measuring Analytic Gradients of General Quantum Evolution with the Stochastic Parameter Shift Rule ( http://arxiv.org/abs/2005.10299v2 )

ライセンス: Link先を確認
Leonardo Banchi, Gavin E. Crooks(参考訳) ハイブリッド量子古典最適化アルゴリズムは、短期量子コンピュータにおける最も有望な応用の1つである。 これらのアルゴリズムでは、量子デバイス上で測定された測定結果からのフィードバックを用いて、いくつかの古典的パラメータに関して観測可能な量を最適化することが目的である。 本稿では,量子計測から直接に最適化される関数の勾配を推定し,パラメータシフト則などの文献に存在するいくつかのアプローチを一般化し,単純化する問題について検討する。 連立量子ビットの導入やハミルトニアンシミュレーション技術を用いることなく、任意のマルチキュービットパラメトリック量子進化の勾配を推定するための確率的アルゴリズムを提供する数学的に正確な公式を導出する。 勾配測定は、係数がパラメータに依存するハミルトニアンの拡大において、基礎となる装置が全てのパウリ回転を実現できる場合に可能である。 私たちのアルゴリズムは、例えば量子デバイスと未知の環境とのカップリングのために、利用可能な全ての量子ゲートがノイズである場合でも、いくつかの近似で動作し続ける。

Hybrid quantum-classical optimization algorithms represent one of the most promising application for near-term quantum computers. In these algorithms the goal is to optimize an observable quantity with respect to some classical parameters, using feedback from measurements performed on the quantum device. Here we study the problem of estimating the gradient of the function to be optimized directly from quantum measurements, generalizing and simplifying some approaches present in the literature, such as the so-called parameter-shift rule. We derive a mathematically exact formula that provides a stochastic algorithm for estimating the gradient of any multi-qubit parametric quantum evolution, without the introduction of ancillary qubits or the use of Hamiltonian simulation techniques. The gradient measurement is possible when the underlying device can realize all Pauli rotations in the expansion of the Hamiltonian whose coefficients depend on the parameter. Our algorithm continues to work, although with some approximations, even when all the available quantum gates are noisy, for instance due to the coupling between the quantum device and an unknown environment.
翻訳日:2023-05-19 05:41:51 公開日:2021-01-19
# リレーショナル・オブザーバブル、参照フレーム、条件付き確率

Relational observables, reference frames, and conditional probabilities ( http://arxiv.org/abs/2006.05526v2 )

ライセンス: Link先を確認
Leonardo Chataignier(参考訳) 時間再パラメータ化不変量子力学における関係オブザーバブルの構成を議論し、それらの物理的解釈は、ページ・ウーター形式論の一般化における量子制約方程式の解から定義される条件付き確率の観点で理解できると主張する。 本稿では,ワールドラインテンソル場の条件付き期待値が,適切に定義されたリレーショナル観測値の量子平均とどのように関連しているかを示す。 また、これらの可観測体の力学が量子参照フレームの概念とどのように関係するかについてもコメントする。 一般形式論を提示した後、再結合宇宙論モデルを解析し、一元的に進化する量子関係観測可能性を構成する。 量子重力における微分同相不変作用素の構成と解釈におけるこれらの結果の関連性について、いくつかの考察で結論付けている。

We discuss the construction of relational observables in time-reparametrization invariant quantum mechanics and we argue that their physical interpretation can be understood in terms of conditional probabilities, which are defined from the solutions of the quantum constraint equation in a generalization of the Page-Wootters formalism. In this regard, we show how conditional expectation values of worldline tensor fields are related to quantum averages of suitably defined relational observables. We also comment on how the dynamics of these observables can be related to a notion of quantum reference frames. After presenting the general formalism, we analyze a recollapsing cosmological model, for which we construct unitarily evolving quantum relational observables. We conclude with some remarks about the relevance of these results for the construction and interpretation of diffeomorphism-invariant operators in quantum gravity.
翻訳日:2023-05-16 04:49:17 公開日:2021-01-19
# 区別不能な混合系は量子ギブスパラドックスにつながる

Mixing indistinguishable systems leads to a quantum Gibbs paradox ( http://arxiv.org/abs/2006.12482v2 )

ライセンス: Link先を確認
Benjamin Yadin, Benjamin Morris and Gerardo Adesso(参考訳) 古典的なギブスパラドックスは、2つの気体を混合するとエントロピーが変化する。 観察者がエントロピーの増加をプロセスに割り当てるかどうかは、ガスを識別する能力に依存する。 分解能は、ガスを区別できない「無知」観察者は、それらを混合することで作業を引き出す方法がないということである。 思考実験を量子領域に移すと、新しい驚くべき振る舞いが明らかになります。無知な観察者は、ガスを直接区別できない場合でも、異なる気体の混合から仕事を抽出することができます。 さらに、マクロ的な極限では、量子ケースは古典的な理想気体から分岐し、気体が完全に区別できるかのように多くの作業が抽出される。 半古典的統計力学において, 無知な観測者はナイーブ数よりも多くのミクロ状態を系に割り当てることを示した。 これは観測者の知識のレベルを計算することの重要性と、熱力学に対する真の量子修正に対するその影響を示している。

The classical Gibbs paradox concerns the entropy change upon mixing two gases. Whether an observer assigns an entropy increase to the process depends on their ability to distinguish the gases. A resolution is that an "ignorant" observer, who cannot distinguish the gases, has no way of extracting work by mixing them. Moving the thought experiment into the quantum realm, we reveal new and surprising behaviour: the ignorant observer can extract work from mixing different gases, even if the gases cannot be directly distinguished. Moreover, in the macroscopic limit, the quantum case diverges from the classical ideal gas: as much work can be extracted as if the gases were fully distinguishable. We show that the ignorant observer assigns more microstates to the system than found by naive counting in semiclassical statistical mechanics. This demonstrates the importance of accounting for the level of knowledge of an observer, and its implications for genuinely quantum modifications to thermodynamics.
翻訳日:2023-05-13 04:50:57 公開日:2021-01-19
# 2つの強いコヒーレント場による2色駆動量子ドットの高分解能分光

High-resolution spectroscopy of a quantum dot driven bichromatically by two strong coherent fields ( http://arxiv.org/abs/2006.15778v3 )

ライセンス: Link先を確認
Chris Gustin, Lukas Hanschke, Katarina Boos, Jonathan R. A. M\"uller, Malte Kremser, Jonathan J. Finley, Stephen Hughes, Kai M\"uller(参考訳) 2つの強いコヒーレントレーザーによる双色駆動量子ドットの分光実験と理論を提案する。 特に、駆動強度が一般的な非摂動解析の利点を十分に発揮できる体制を探求し、より高階のフロッケ装束エネルギー構造をもたらす。 単一InGaAs量子ドット上で様々なレーザーデチューニングを施した高分解能分光測定を行い,その特徴を時間依存性の量子マスター方程式とフロケ解析でよく説明する。 特に、量子ドット共鳴とそれに続くモルロー三重項のサイドピークの1つを駆動すると、高調波レーザーポンプ強度でのデチューンレーザーによる中心遷移と遷移共振の消失と再出現、さらに高次効果(高調波における三重項の放出、高次フロッケ状態の署名など)が観察される。 同様の励起条件では、非共鳴一次レーザーでは、同様のスペクトル特性を観測するが、スペクトル非対称性は強化される。

We present spectroscopic experiments and theory of a quantum dot driven bichromatically by two strong coherent lasers. In particular, we explore the regime where the drive strengths are substantial enough to merit a general non-perturbative analysis, resulting in a rich higher-order Floquet dressed-state energy structure. We show high resolution spectroscopy measurements with a variety of laser detunings performed on a single InGaAs quantum dot, with the resulting features well explained with a time-dependent quantum master equation and Floquet analysis. Notably, driving the quantum dot resonance and one of the subsequent Mollow triplet sidepeaks, we observe the disappearance and subsequent reappearance of the central transition and transition resonant with detuned-laser at high detuned-laser pump strengths and additional higher-order effects, e.g. emission triplets at higher harmonics and signatures of higher order Floquet states. For a similar excitation condition but with an off-resonant primary laser, we observe similar spectral features but with an enhanced inherent spectral asymmetry.
翻訳日:2023-05-12 03:46:15 公開日:2021-01-19
# 超伝導量子プロセッサ上での16要素量子探索アルゴリズムのベンチマーク

Benchmarking 16-element quantum search algorithms on superconducting quantum processors ( http://arxiv.org/abs/2007.06539v3 )

ライセンス: Link先を確認
Jan Gwinner, Marcin Bria\'nski, Wojciech Burkot, {\L}ukasz Czerwi\'nski, Vladyslav Hlembotskyi(参考訳) IBM量子プロセッサ上で4ビット非構造探索を行う実験結果を示す。 我々の最善策は24.5%の確率に達した。 いくつかのアルゴリズムを試行し、量子探索における最新の発展を利用して、現在量子計算における主要なエラー源と考えられている絡み合うゲートの数を減らす。 アルゴリズム性能の理論的期待を実際のデータと比較し,量子プロセッサの性能の鋭い位相遷移様の低下を示すハードウェア限界について検討した。 結論として,ハードウェア対応アルゴリズムの設計や,nisqデバイス上での低レベル最適化は極めて重要である。

We present experimental results on running 4-qubit unstructured search on IBM quantum processors. Our best attempt attained probability of success around 24.5%. We try several algorithms and use the most recent developments in quantum search to reduce the number of entangling gates that are currently considered the main source of errors in quantum computations. Comparing theoretical expectations of an algorithm performance with the actual data, we explore the hardware limits, showing sharp, phase-transition-like degradation of performance on quantum processors. We conclude that it is extremely important to design hardware-aware algorithms and to include any other low level optimizations on NISQ devices.
翻訳日:2023-05-10 04:28:48 公開日:2021-01-19
# 臨界量子センシングのための動的枠組み

Dynamic framework for criticality-enhanced quantum sensing ( http://arxiv.org/abs/2008.11381v2 )

ライセンス: Link先を確認
Yaoming Chu, Shaoliang Zhang, Baiyi Yu, and Jianming Cai(参考訳) 量子臨界は、魅力的な量子現象として、量子センシングに大きな利点をもたらす可能性がある。 ここでは,量子相転移(qpt)を受けるハミルトニアンの族を持つ量子センシングのための動的フレームワークを提案する。 臨界量子力学に基づく量子センシングのための量子フィッシャー情報(QFI)の定式化を与えることにより、臨界点に近づく際にその分岐特性を実証する。 量子ラビモデルを用いた実験実装の基本原理と詳細を説明する。 このフレームワークは様々な例に適用でき、特定の状態の準備や断熱的な進化のための厳密な要件に依存しない。 臨界エンハンス量子センシングの実装への道筋を提供することが期待されている。

Quantum criticality, as a fascinating quantum phenomenon, may provide significant advantages for quantum sensing. Here we propose a dynamic framework for quantum sensing with a family of Hamiltonians that undergo quantum phase transitions (QPT). By giving the formalism of the quantum Fisher information (QFI) for quantum sensing based on critical quantum dynamics, we demonstrate its divergent feature when approaching the critical point. We illustrate the basic principle and the details of experimental implementation using quantum Rabi model. The framework is applicable to a variety of examples and does not rely on the stringent requirement for particular state preparation or adiabatic evolution. It is expected to provide a route towards the implementation of criticality-enhanced quantum sensing.
翻訳日:2023-05-04 21:57:15 公開日:2021-01-19
# 全対全量子回路、量子木、ランダウ・ギンズバーグ理論における測定と絡み合い相転移

Measurement and entanglement phase transitions in all-to-all quantum circuits, on quantum trees, and in Landau-Ginsburg theory ( http://arxiv.org/abs/2009.11311v2 )

ライセンス: Link先を確認
Adam Nahum, Sthitadhi Roy, Brian Skinner, and Jonathan Ruhman(参考訳) 非ゼロ速度での局所的な測定を含む量子多体系は、異なる絡み合い特性を持つ異なる動的相を持つことができる。 測定誘起相転移(MPT)とランダムテンソルネットワークの絡み合い遷移に関する理論的アプローチを紹介する。 この結果の多くは、任意の量子ビットが他の任意の量子ビットとカップリングできる「オール・ツー・オール」量子回路と、低次元モデルの複雑さが減少する関連する設定に関するものである。 また,有限次元の空間的局所系の場の理論記述も提案する。 直観を構築するために、我々はまず、全ての回路の絡み合いダイナミクスのための最も単純な「最小カット」トイモデルを解き、この近似内でスケーリング形式と指数を求める。 そこで, 回路形状の局所木状構造を利用して, 実測回路が正確な結果を得られることを示す。 このような理由から、絡み合い相がランダムなツリーテンソルネットワークに遷移する際の一般的な普遍的な結果を与えるため、木上の古典的な配向ポリマーと接続する。 次に,MPTとFMPT(Forced Measurement Phase Transition)の両回路において,これらの結果と全回路の数値を比較した。 我々は,初期時間と最終時間の間に伝播する情報量に敏感な観測値を用いて,全回路の2つの異なる位相を特徴付ける。 簡単なモデルから理解できる2つの相のシグネチャを実証する。 最後に,ランダムテンソルネットワークにおけるMPT,FMPT,絡み合い遷移に対するランダウ・ギンズバーグ・ウィルソン型場の理論を提案する。 この分析は、MPTと他のケースの驚くべき違いを示している。 追加構造(自由フェルミ構造など)による測定ダイナミクスと今後の課題について考察する。

A quantum many-body system whose dynamics includes local measurements at a nonzero rate can be in distinct dynamical phases, with differing entanglement properties. We introduce theoretical approaches to measurement-induced phase transitions (MPT) and also to entanglement transitions in random tensor networks. Many of our results are for "all-to-all" quantum circuits with unitaries and measurements, in which any qubit can couple to any other, and related settings where some of the complications of low-dimensional models are reduced. We also propose field theory descriptions for spatially local systems of any finite dimensionality. To build intuition, we first solve the simplest "minimal cut" toy model for entanglement dynamics in all-to-all circuits, finding scaling forms and exponents within this approximation. We then show that certain all-to-all measurement circuits allow exact results by exploiting local tree-like structure in the circuit geometry. For this reason, we make a detour to give general universal results for entanglement phase transitions random tree tensor networks, making a connection with classical directed polymers on a tree. We then compare these results with numerics in all-to-all circuits, both for the MPT and for the simpler "Forced Measurement Phase Transition" (FMPT). We characterize the two different phases in all-to-all circuits using observables sensitive to the amount of information propagated between initial and final time. We demonstrate signatures of the two phases that can be understood from simple models. Finally we propose Landau-Ginsburg-Wilson-like field theories for the MPT, the FMPT, and entanglement transitions in random tensor networks. This analysis shows a surprising difference between the MPT and the other cases. We discuss measurement dynamics with additional structure (e.g. free-fermion structure), and questions for the future.
翻訳日:2023-05-01 04:47:43 公開日:2021-01-19
# 一般化 aubry-andre モデルのロバストな $\mathcal{pt}$-symmetric phase におけるアンダーソン局在遷移

Anderson localization transition in a robust $\mathcal{PT}$-symmetric phase of a generalized Aubry-Andre model ( http://arxiv.org/abs/2010.09510v2 )

ライセンス: Link先を確認
Sebastian Schiffer and Xia-Ji Liu and Hui Hu and Jia Wang(参考訳) 一般化 Aubry-Andre モデルは $\mathcal{PT}$-symmetric に従う。 我々は、ハミルトニアンが非エルミート的であるにもかかわらずすべての固有値が実数であるような系の大きさと乱れ強さに関して、ロバストな $\mathcal{pt}$-symmetric phase を観測する。 このロバストな$\mathcal{PT}$-対称相はアンダーソン局在化遷移をサポートし、障害と$\mathcal{PT}$-対称性の間の相互作用の結果、豊かな位相図を与える。 本モデルは,$\mathcal{pt}$-symmetricシステムにおいて,障害駆動型局在現象を研究するための完璧なプラットフォームを提供する。

We study a generalized Aubry-Andre model that obeys $\mathcal{PT}$-symmetry. We observe a robust $\mathcal{PT}$-symmetric phase with respect to system size and disorder strength, where all eigenvalues are real despite the Hamiltonian being non-hermitian. This robust $\mathcal{PT}$-symmetric phase can support an Anderson localization transition, giving a rich phase diagram as a result of the interplay between disorder and $\mathcal{PT}$-symmetry. Our model provides a perfect platform to study disorder-driven localization phenomena in a $\mathcal{PT}$-symmetric system.
翻訳日:2023-04-28 08:00:04 公開日:2021-01-19
# 崩壊超対称性に対する半古典量子化則の有効性

Exactness of Semiclassical Quantization Rule for Broken Supersymmetry ( http://arxiv.org/abs/2012.05053v2 )

ライセンス: Link先を確認
Asim Gangopadhyaya, Jonathan Bougie, Constantin Rasinariu(参考訳) 半古典的手法は量子力学における解を近似するための重要なツールを提供する。 いくつかのケースでは、特定の系の直接計算によって示されるように、これらの手法は近似よりも興味をそそるほど正確である。 本稿では、超対称性に基づく半古典的量子化条件の破れが、対応するポテンシャルに対する加法的形状不変性の結果であることを示す。

Semiclassical methods provide important tools for approximating solutions in quantum mechanics. In several cases these methods are intriguingly exact rather than approximate, as has been shown by direct calculations on particular systems. In this paper we prove that the long-conjectured exactness of the supersymmetry-based semiclassical quantization condition for broken supersymmetry is a consequence of the additive shape invariance for the corresponding potentials.
翻訳日:2023-04-22 05:08:24 公開日:2021-01-19
# フォトニックフロッケ時間結晶

Photonic Floquet time crystals ( http://arxiv.org/abs/2012.08217v2 )

ライセンス: Link先を確認
Bing Wang, Jiaqi Quan, Jianfei Han, Xiaopeng Shen, Hongwei Wu, and Yiming Pan(参考訳) 市民と科学者は常に異なる視点を持っている。 タイムクリスタルでは、彼らは並んで、タイムクリスタルとは何か? 時間内に自然に結晶化する物質を見せて下さい。 本研究はフロケ時間結晶のフォトニック材料を合成し,その示差周期-2Tを実験的に観察する。 離散時間-結晶基底状態を明示的に再構成し、離散時間-遷移対称性の自発的崩壊の兆候として厳密な周期二重化を適切に設計したフォトニックフロッケシミュレータを用いて明らかにする。 精巧な多体相互作用の結果と異なり、フォトニック時間結晶は、多くの関連する非平衡および周期的に駆動されるプラットフォームによって広くアクセス可能な単粒子位相相に由来する。 我々の観測は、凝縮物質物理学やトポロジカルフォトニクスへの理論的および技術的な関心を喚起し、非科学的な人々のために時間結晶を復調する。

The public and scientists constantly have different perspectives. While on a time crystal, they stand in line and ask: What is a time crystal? Show me a material that is spontaneously crystalline in time? This study synthesizes a photonic material of Floquet time crystals and experimentally observes its indicative period-2T beating. We explicitly reconstruct a discrete time-crystalline ground state and reveal using an appropriately-designed photonic Floquet simulator the rigid period-doubling as a signature of the spontaneous breakage of the discrete time-translational symmetry. Unlike the result of the exquisite many-body interaction, the photonic time crystal is derived from a single-particle topological phase that can be extensively accessed by many pertinent nonequilibrium and periodically-driven platforms. Our observation will drive theoretical and technological interests toward condensed matter physics and topological photonics, and demystify time crystals for the non-scientific public.
翻訳日:2023-04-20 19:04:22 公開日:2021-01-19
# スピン鎖の局所作用素絡み合い

Local Operator Entanglement in Spin Chains ( http://arxiv.org/abs/2012.14609v3 )

ライセンス: Link先を確認
Eric Mascot, Masahiro Nozaki, Masaki Tezuka(参考訳) 磁場をもつ一次元イジングモデルと不整合ハイゼンベルクモデルにおいて、時間進化作用素とパウリのスピン作用素の双方向および三部演算子の時間発展について検討する。 イジングモデルでは、早期進化は有効光円錐像を定性的に追従し、後期値はランダムな純粋な状態に対するページ値によってよく説明される。 強い障害を持つハイゼンベルクモデルでは,多体局在が情報の伝播や非局在化を妨げている。 また、イジング・ハミルトニアン (Ising Hamiltonian) は、大きな障害状態におけるハイゼンベルクモデルに対する二部および三部演算子の相互情報の時間発展を記述する。

We study the time evolution of bi- and tripartite operator mutual information of the time-evolution operator and Pauli's spin operators in the one-dimensional Ising model with magnetic field and the disordered Heisenberg model. In the Ising model, the early-time evolution qualitatively follows an effective light cone picture, and the late-time value is well described by Page's value for a random pure state. In the Heisenberg model with strong disorder, we find many-body localization prevents the information from propagating and being delocalized. We also find an effective Ising Hamiltonian describes the time evolution of bi- and tripartite operator mutual information for the Heisenberg model in the large disorder regime.
翻訳日:2023-04-18 12:08:21 公開日:2021-01-19
# wi-fiのウォードライブ研究は、重要な統計問題の原因となる必要がある

Wi-Fi Wardriving Studies Must Account for Important Statistical Issues ( http://arxiv.org/abs/2101.06301v2 )

ライセンス: Link先を確認
Edward J Oughton, Julius Kusuma, Thibault Peyronel, Jon Crowcroft(参考訳) Wi-Fiネットワークの知識は、将来のエンジニアリングとスペクトル政策の決定を導くのに役立つ。 しかし、Wi-Fiアクセスポイントの設置は許可されていないため、研究者はリモートで収集または受動的に検知された測定によって、これらの資産の有効性について、教育的な推測を残されている。 基本的には、車両が無線ネットワーク上の地理空間統計データを収集し、モバイルコンピューティングとネットワークセキュリティ研究に知らせるために使用される。 驚くべきことに、このアプローチを用いた多くの分析が文献に発表されているにもかかわらず、軍用運転データに関する統計的な問題についてはほとんど調査されていない。 本稿では,Wi-Fiアクセスポイントの予測モデルと比較した。 この結果は、選択バイアス、サンプル代表性、修正可能な素数単位問題など、将来のウォードライブ研究が考慮しなければならないいくつかの統計問題を示している。

Knowledge of Wi-Fi networks helps to guide future engineering and spectrum policy decisions. However, due to its unlicensed nature, the deployment of Wi-Fi Access Points is undocumented meaning researchers are left making educated guesses as to the prevalence of these assets through remotely collected or passively sensed measurements. One commonly used method is referred to as `wardriving` essentially where a vehicle is used to collect geospatial statistical data on wireless networks to inform mobile computing and networking security research. Surprisingly, there has been very little examination of the statistical issues with wardriving data, despite the vast number of analyses being published in the literature using this approach. In this paper, a sample of publicly collected wardriving data is compared to a predictive model for Wi-Fi Access Points. The results demonstrate several statistical issues which future wardriving studies must account for, including selection bias, sample representativeness and the modifiable areal unit problem.
翻訳日:2023-04-15 02:55:11 公開日:2021-01-19
# リングコア光ファイバへの多重化情報の最適条件

Optimal conditions for multiplexing information into ring-core optical fibers ( http://arxiv.org/abs/2101.06280v2 )

ライセンス: Link先を確認
Santiago Rojas-Rojas, Gustavo Ca\~nas, Gabriel Saavedra, Esteban Sepulveda, Stephen Walborn, Gustavo Lima(参考訳) 光通信において、空間分割多重化はファイバーネットワークの容量を増強する有望な戦略である。 これは、複数の空間モードの伝播をサポートする現代の繊維設計に依存している。 これらのファイバーの1つ、リングコアファイバー(RCF)は軌道角運動量(OAM)を伝達するモードを伝播することができ、古典的だけでなく量子通信システムも強化することが示されている。 通常、RCF空間モードは、異なるラゲール・ガウスアン(LG)ビームを用いてファイバに結合されたデータストリームの直交伝送チャネルとして使用される。 本稿では,リングコアファイバに情報を多重化する最適条件について検討する。 検討すべきlgビームはどれで,その結合効率はファイバパラメータに対してビーム幅を適切に調整することにより最大化できるかを決定する。 その結果, 結合効率はOAM値に依存し, 達成可能な伝送速度を抑えることができることがわかった。 本稿では,LGビームが情報をRCFに結合する最適な選択肢ではないことを示す。 むしろ、完全な渦ビームであるOAMを担持する別の種類のビームは、これらのファイバーによって支えられる全ての空間モードに対するほぼ完全なカップリング効率を実現する。

In optical communications, space-division multiplexing is a promising strategy to augment the fiber network capacity. It relies on modern fiber designs that support the propagation of multiple spatial modes. One of these fibers, the ring-core fiber (RCF), is able to propagate modes that carry orbital angular momentum (OAM), and has been shown to enhance not only classical, but also quantum communication systems. Typically, the RCF spatial modes are used as orthogonal transmission channels for data streams that are coupled into the fiber using different Laguerre-Gaussian (LG) beams. Here, we study the optimal conditions to multiplex information into ring-core fibers in this scheme. We determine which are the most relevant LG beams to be considered, and how their coupling efficiency can be maximized by properly adjusting the beam width with respect to the fiber parameters. Our results show that the coupling efficiency depends upon the OAM value, and that this can limit the achievable transmission rates. In this regard, we show that LG beams are not the optimal choice to couple information into RCF. Rather, another class of OAM-carrying beam, the perfect vortex beam, allows for nearly perfect coupling efficiencies for all spatial modes supported by these fibers.
翻訳日:2023-04-15 02:54:56 公開日:2021-01-19
# シュワルツシルト時空における量子スピードアップダイナミクス過程

Quantum speedup dynamics process in Schwarzschild space-time ( http://arxiv.org/abs/2101.06888v2 )

ライセンス: Link先を確認
Kai Xu, Han-Jie Zhu, Guo-Feng Zhang, Jie-Ci Wang, and Wu-Ming Liu(参考訳) 量子速度制限時間(QSLT)は、初期状態から目標状態へと進化する量子系の固有の最小時間間隔を特徴付けるために用いられる。 シュワルツシルト時空におけるオープンシステムのqsltについて検討する。 いくつかの典型的なノイズチャネルでは、ホーキング効果がシステムの進化に有効であることを示す。 初期絡み合った状態の場合、ホーキング温度が上昇するにつれて、システムの進化速度は、位相フリップチャネルと鋭い対照的である脱分極、ビットフリップ、ビット位相フリップチャネルで向上することができる。 さらに、位相フリップチャネルを除く他のノイズチャネルには最適な初期絡み合いが存在し、システムのQSLTを最小化し、それによってシステムの最大進化速度につながる。

Quantum speed limit time (QSLT) can be used to characterize the intrinsic minimal time interval for a quantum system evolving from an initial state to a target state. We investigate the QSLT of the open system in Schwarzschild space-time. We show that, in some typical noisy channels,the Hawking effect can be beneficial to the evolution of the system. For an initial entangled state, the evolution speed of the system can be enhanced in the depolarizing, bit flip, and bit-phase flip channels as the Hawking temperature increases, which are in sharp contrast to the phase flip channel. Moreover, the optimal initial entanglement exists in other noise channels except the phase flip channel, which minimizes the QSLT of the system and thus leads to the maximum evolution speed of the system.
翻訳日:2023-04-14 21:19:45 公開日:2021-01-19
# 内部自由度を介して場に結合した粒子の散逸ダイナミクス

Dissipative dynamics of a particle coupled to field via internal degrees of freedom ( http://arxiv.org/abs/2101.07440v1 )

ライセンス: Link先を確認
Kanupriya Sinha, Adri\'an Ezequiel Rubio L\'opez, Yi\u{g}it Suba\c{s}{\i}(参考訳) 我々は、粒子の質量の中心の非平衡散逸ダイナミクスを、その内部自由度によって磁場に結合する。 我々は、粒子の内部および外部自由度を1+1Dの量子調和振動子としてモデル化し、内部振動子は質量位置の中心にあるスカラー量子場と結合する。 このような結合は、3つの関連する自由度、すなわち質量の中心、内部自由度、および場の間の非線形相互作用をもたらす。 典型的には、内部力学は、その異なる特性時間スケールのために質量の中心から切り離されていると仮定される。 ここでは,自由度と場の結合非平衡ダイナミクス,および質量中心の散逸や騒音に対する影響など,異なる自由度が相互に作用する自己整合的反作用を考慮できる影響関数的アプローチを用いる。 弱い非線形相互作用項を考えると、第2次実効作用を導出する摂動的関数的アプローチと、質量の中心の非平衡力学を記述する対応する量子ランゲヴィン方程式を用いる。 本研究では, 複合環境として, 現場から発生する散逸と騒音, 内部自由度を分析した。 さらに,遅延散逸と雑音核に対する一般化されたゆらぎ散逸関係を定式化する。 実験結果は,光力学的相互作用の場合など,システムと環境の間の中間自由度を有するオープン量子システムに関連している。

We study the non-equilibrium dissipative dynamics of the center of mass of a particle coupled to a field via its internal degrees of freedom. We model the internal and external degrees of freedom of the particle as quantum harmonic oscillators in 1+1 D, with the internal oscillator coupled to a scalar quantum field at the center of mass position. Such a coupling results in a nonlinear interaction between the three pertinent degrees of freedom -- the center of mass, internal degree of freedom, and the field. It is typically assumed that the internal dynamics is decoupled from that of the center of mass owing to their disparate characteristic time scales. Here we use an influence functional approach that allows one to account for the self-consistent backaction of the different degrees of freedom on each other, including the coupled non-equilibrium dynamics of the internal degree of freedom and the field, and their influence on the dissipation and noise of the center of mass. Considering a weak nonlinear interaction term, we employ a perturbative generating functional approach to derive a second order effective action and a corresponding quantum Langevin equation describing the non-equilibrium dynamics of the center of mass. We analyze the resulting dissipation and noise arising from the field and the internal degree of freedom as a composite environment. Furthermore, we establish a generalized fluctuation-dissipation relation for the late-time dissipation and noise kernels. Our results are pertinent to open quantum systems that possess intermediary degrees of freedom between system and environment, such as in the case of optomechanical interactions.
翻訳日:2023-04-14 18:19:08 公開日:2021-01-19
# 大規模大域最適化問題に対するサロゲート支援可変グルーピングアルゴリズム

A Surrogate-Assisted Variable Grouping Algorithm for General Large Scale Global Optimization Problems ( http://arxiv.org/abs/2101.07430v1 )

ライセンス: Link先を確認
An Chen, Zhigang Ren, Muyi Wang, Yongsheng Liang, Hanqing Liu, Wenhao Du(参考訳) 大規模グローバル最適化問題に協調的共進化(CC)を適用する際には,問題分解が重要な役割を果たす。 しかし、ほとんどの学習に基づく分解アルゴリズムは、加法的に分離可能な問題のみに適用するか、偽の分離可能性検出の問題に直面する。 そこで本研究では,代用変数グループ化(SVG)と呼ばれる新しい分解アルゴリズムを提案する。 svgはまず、変数の最適値が他の変数と変化するかどうかに応じて、一般分離性指向検出基準を設計する。 この基準は分離性の定義と一致しており、SVGは広く適用可能で高精度である。 適合性評価の要求を減らすため、SVGは原価の高い高次元モデルではなく、代用モデルの助けを借りて変数の最適性を求める。 さらに、可変グループ化プロセスを動的二元木探索に変換し、履歴分離性検出情報を再利用し、検出時間を短縮する。 svgの性能を評価するために、付加的および非付加的分離可能なものを含む最大2000次元のベンチマーク関数のスイートが設計された。 これらの関数に対する実験結果から,6つの最先端分解アルゴリズムと比較して,SVGはより広い適用性と競争効率を有することが示された。 さらに、CCの最適化性能を大幅に向上させることができる。

Problem decomposition plays a vital role when applying cooperative coevolution (CC) to large scale global optimization problems. However, most learning-based decomposition algorithms either only apply to additively separable problems or face the issue of false separability detections. Directing against these limitations, this study proposes a novel decomposition algorithm called surrogate-assisted variable grouping (SVG). SVG first designs a general-separability-oriented detection criterion according to whether the optimum of a variable changes with other variables. This criterion is consistent with the separability definition and thus endows SVG with broad applicability and high accuracy. To reduce the fitness evaluation requirement, SVG seeks the optimum of a variable with the help of a surrogate model rather than the original expensive high-dimensional model. Moreover, it converts the variable grouping process into a dynamic-binary-tree search one, which facilitates reutilizing historical separability detection information and thus reducing detection times. To evaluate the performance of SVG, a suite of benchmark functions with up to 2000 dimensions, including additively and non-additively separable ones, were designed. Experimental results on these functions indicate that, compared with six state-of-the-art decomposition algorithms, SVG possesses broader applicability and competitive efficiency. Furthermore, it can significantly enhance the optimization performance of CC.
翻訳日:2023-04-14 18:18:26 公開日:2021-01-19
# ランダム量子状態に対する平均スキュー情報に基づくコヒーレンスとその典型性

Average skew information-based coherence and its typicality for random quantum states ( http://arxiv.org/abs/2101.07427v1 )

ライセンス: Link先を確認
Zhaoqi Wu, Lin Zhang, Shao-Ming Fei, Xianqing Li-Jost(参考訳) ランダムな純粋状態と混合状態の両方に対する平均スキュー情報に基づくコヒーレンスについて検討する。 平均スキュー情報に基づくコヒーレンスの公式が導出され、状態空間の次元 N の関数であることが示されている。 n が無限大に近づくにつれて、平均コヒーレンスはランダムな純状態に対して 1 であり、ランダムな混合状態に対しては 1/2 未満の正の定数である。 また、ランダム量子状態の平均スキュー情報に基づくコヒーレンスの特徴についても検討する。 さらに、この部分空間内の各純粋状態に対するスキュー情報に基づくコヒーレンス量を、コヒーレンスの典型的な値に任意に近い固定数でほぼ常に下から境界付けることができるようなコヒーレント部分空間を同定する。

We study the average skew information-based coherence for both random pure and mixed states. The explicit formulae of the average skew information-based coherence are derived and shown to be the functions of the dimension N of the state space. We demonstrate that as N approaches to infinity, the average coherence is 1 for random pure states, and a positive constant less than 1/2 for random mixed states. We also explore the typicality of average skew information-based coherence of random quantum states. Furthermore, we identify a coherent subspace such that the amount of the skew information-based coherence for each pure state in this subspace can be bounded from below almost always by a fixed number that is arbitrarily close to the typical value of coherence.
翻訳日:2023-04-14 18:17:59 公開日:2021-01-19
# オンラインワーク, 福祉コール, ワインナイト: 新型コロナウイルスパンデミックが個人の技術利用に及ぼす影響

Work Online, Welfare Calls, and Wine Night: Effects of the COVID-19 Pandemic on Individuals' Technology Use ( http://arxiv.org/abs/2101.07388v1 )

ライセンス: Link先を確認
Bill Tomlinson, Rebecca W. Black(参考訳) 新型コロナウイルスのパンデミックは、多くの人が計算システムを使う方法を変えた。 本研究では,62人の米国住民が実施した自由回答調査の質的・定量的分析を用いて,仕事,教育,家庭生活,社会生活間でのコンピュータ利用にcovid-19がどのように影響したかについて検討した。 ほぼ全ての参加者が4つのドメインのうち1つ以上のドメインでコンピュータの使用が増加した。 この増加は、既存の利用頻度の増加と、新しいタイプの利用の導入の両方にかかわる。 使用状況の変化は、関係性、情緒的経験、生活軌跡など、人々の生活の多くの側面に影響した。 新型コロナウイルス(COVID-19)と将来のパンデミックに適応するため、これらの変化を理解することは、HCIの将来にとって重要である。

The COVID-19 pandemic has changed the ways many people use computational systems. We conducted an empirical study, using qualitative and quantitative analyses of free-response surveys completed by 62 US residents, to explore how COVID-19 affected their computer use across work, education, home life, and social life. Nearly all participants experienced an increase in computer usage for themselves or a family member in one or more of the four domains. The increases involved both increasing frequency of existing uses as well as the adoption of new types of use. Changes in usage impacted many aspects of people's lives, including relationships, affective experiences, and life trajectories. Understanding these changes is important to the future of HCI, as the field adapts to COVID-19 and potential future pandemics.
翻訳日:2023-04-14 18:17:42 公開日:2021-01-19
# 2値化ニューラルネットワークにおけるシナプス変形

Synaptic metaplasticity in binarized neural networks ( http://arxiv.org/abs/2101.07592v1 )

ライセンス: Link先を確認
Axel Laborieux, Maxence Ernoult, Tifenn Hirtzlin and Damien Querlioz(参考訳) 脳とは異なり、コンピュータビジョンのための最先端のディープニューラルネットワークを含む人工知能ニューラルネットワークは、"破滅的な忘れ物"の対象となる。 神経科学は、生物学的シナプスがシナプス統合とメタ可塑性の過程を通じてこの問題を避けることを示唆している。 本研究では,このメタ塑性の概念を,特定のタイプのディープニューラルネットワークであるバイナライズニューラルネットワークに伝達することで,破滅的な忘れを低減できることを示す。

Unlike the brain, artificial neural networks, including state-of-the-art deep neural networks for computer vision, are subject to "catastrophic forgetting": they rapidly forget the previous task when trained on a new one. Neuroscience suggests that biological synapses avoid this issue through the process of synaptic consolidation and metaplasticity: the plasticity itself changes upon repeated synaptic events. In this work, we show that this concept of metaplasticity can be transferred to a particular type of deep neural networks, binarized neural networks, to reduce catastrophic forgetting.
翻訳日:2023-04-14 18:12:16 公開日:2021-01-19
# 細菌剤を用いた遺伝的アルゴリズム設計のための合成生物学的アプローチ

A synthetic biology approach for the design of genetic algorithms with bacterial agents ( http://arxiv.org/abs/2101.07540v1 )

ライセンス: Link先を確認
A. Gargantilla Becerra, M. Guti\'errez, R. Lahoz-Beltra(参考訳) 細菌は進化的アルゴリズムの設計にインスピレーションを与えてきた。 20世紀初頭に合成生物学が生まれたが、その目的は自然界には存在せず、例えばプログラマブルな合成細菌をデザインすることであった。 本稿では,すべてのステップが合成細菌によって実行される進化的アルゴリズムの設計の斬新さとして紹介する。 そこで我々は,関数最適化や0/1knapsack問題,ハミルトン経路問題といった単純な最適化問題を解くために,BAGAと命名した遺伝的アルゴリズムを考案した。 その結果, 合成生物学の原理, 機構, 遺伝的回路に触発された進化的アルゴリズムの可能性が明らかにされた。 結論として, 合成生物学は, 進化的アルゴリズムの設計や, シミュレーション実験の結果から得られたいくつかのステップのインスピレーションの源であると結論付けることができる。

Bacteria have been a source of inspiration for the design of evolutionary algorithms. At the beginning of the 20th century synthetic biology was born, a discipline whose goal is the design of biological systems that do not exist in nature, for example, programmable synthetic bacteria. In this paper, we introduce as a novelty the designing of evolutionary algorithms where all the steps are conducted by synthetic bacteria. To this end, we designed a genetic algorithm, which we have named BAGA, illustrating its utility solving simple instances of optimization problems such as function optimization, 0/1 knapsack problem, Hamiltonian path problem. The results obtained open the possibility of conceiving evolutionary algorithms inspired by principles, mechanisms and genetic circuits from synthetic biology. In summary, we can conclude that synthetic biology is a source of inspiration either for the design of evolutionary algorithms or for some of their steps, as shown by the results obtained in our simulation experiments.
翻訳日:2023-04-14 18:11:37 公開日:2021-01-19
# 古典的容量を超越したエンタングルメント支援通信

Entanglement-Assisted Communication Surpassing the Ultimate Classical Capacity ( http://arxiv.org/abs/2101.07482v1 )

ライセンス: Link先を確認
Shuhong Hao, Haowei Shi, Wei Li, Quntao Zhuang, Zheshen Zhang(参考訳) 絡み合いは、様々な量子エンハンスド通信、センシング、計算能力を支える。 絡み合い支援通信(EACOMM)は、通信相手による絡み合いを利用して、古典的な情報伝達の速度を高める。 パイオネリング理論の研究は、EACOMMが光学通信の究極の古典的能力を超える通信速度を実現できることを示したが、EACOMMの利点を実証する実験的な実証は、まだ明らかになっていない。 本稿では,損失・ノイズの多いボソニックチャネルよりも古典的容量を超越したEACOMMの実装について報告する。 チャネル損失やノイズにより絡み合いが崩れているにもかかわらず、高効率な絡み合い源と位相共役量子受信機を構築し、事前共有絡み合いの利点を享受する。 両プロトコルが送信機で同じ電力制約を受ける場合、EACOMMは古典通信のホレボ・シューマッハ・ウェストモアランド容量を最大14.6%上回ることを示す。 実用的な性能ベンチマークとして、絡み合いのない古典的な通信プロトコルを実装し、EACOMMは同一のボソニックチャネル上で最大69%のビットエラー率を削減できることを示す。 私たちの研究は、幅広い量子情報処理タスクにおいて量子の利点を証明できる道を開きます。

Entanglement underpins a variety of quantum-enhanced communication, sensing, and computing capabilities. Entanglement-assisted communication (EACOMM) leverages entanglement pre-shared by communication parties to boost the rate of classical information transmission. Pioneering theory works showed that EACOMM can enable a communication rate well beyond the ultimate classical capacity of optical communications, but an experimental demonstration of any EACOMM advantage remains elusive. Here, we report the implementation of EACOMM surpassing the classical capacity over lossy and noisy bosonic channels. We construct a high-efficiency entanglement source and a phase-conjugate quantum receiver to reap the benefit of pre-shared entanglement, despite entanglement being broken by channel loss and noise. We show that EACOMM beats the Holevo-Schumacher-Westmoreland capacity of classical communication by up to 14.6%, when both protocols are subject to the same power constraint at the transmitter. As a practical performance benchmark, a classical communication protocol without entanglement assistance is implemented, showing that EACOMM can reduce the bit-error rate by up to 69% over the same bosonic channel. Our work opens a route to provable quantum advantages in a wide range of quantum information processing tasks.
翻訳日:2023-04-14 18:10:43 公開日:2021-01-19
# コンピュータサイエンスコミュニティ:誰が話し、誰が女性を聴いているのか? 異種音声の促進のためのケア倫理の利用

Computer Science Communities: Who is Speaking, and Who is Listening to the Women? Using an Ethics of Care to Promote Diverse Voices ( http://arxiv.org/abs/2101.07463v1 )

ライセンス: Link先を確認
Marc Cheong and Kobi Leins and Simon Coghlan(参考訳) 政策、デジタル倫理、ガバナンスに携わる人々は、しばしば、人工知能(ai)、コンピュータ科学(cs)、コンピュータセキュリティ(infosec)、コンピュータビジョン(cv)、ヒューマンコンピュータインタラクション(hci)、情報システム(is)、機械学習(ml)、自然言語処理(nlp)、システムアーキテクチャの共通サブフィールドを含む、しかし制限されていない「コンピュータ科学」の問題に言及する。 この枠組みの中で,本論文は二つの仮説の予備的考察である。 1) マイノリティグループ(女性をテストケースとして使用する)の包括性は地域によって異なる。 2 コミュニティ内に女性が存在する場合でも、一般には公表されない。 2万の研究記録、合計503,318名のデータを用いて、予備的なデータが仮説を支持した。 我々は、ACMは、これらの比率を増大させ、個別のコンピューティングコミュニティに対して、インセンティブやレポーティングシステムを提供して、独自のコードを維持することによって、個別のコンピューティングコミュニティの責任を負うための倫理的義務があると主張している。

Those working on policy, digital ethics and governance often refer to issues in `computer science', that includes, but is not limited to, common subfields of Artificial Intelligence (AI), Computer Science (CS) Computer Security (InfoSec), Computer Vision (CV), Human Computer Interaction (HCI), Information Systems, (IS), Machine Learning (ML), Natural Language Processing (NLP) and Systems Architecture. Within this framework, this paper is a preliminary exploration of two hypotheses, namely 1) Each community has differing inclusion of minoritised groups (using women as our test case); and 2) Even where women exist in a community, they are not published representatively. Using data from 20,000 research records, totalling 503,318 names, preliminary data supported our hypothesis. We argue that ACM has an ethical duty of care to its community to increase these ratios, and to hold individual computing communities to account in order to do so, by providing incentives and a regular reporting system, in order to uphold its own Code.
翻訳日:2023-04-14 18:10:18 公開日:2021-01-19
# 量子システムの学習制御

Learning Control of Quantum Systems ( http://arxiv.org/abs/2101.07461v1 )

ライセンス: Link先を確認
Daoyi Dong(参考訳) 本稿では,量子システムの学習制御について概説する。 特に,量子システムの最適制御のための勾配に基づく学習,量子システムの学習制御のための進化的計算,学習に基づく量子ロバスト制御,量子制御のための強化学習などについて概説する。

This paper provides a brief introduction to learning control of quantum systems. In particular, the following aspects are outlined, including gradient-based learning for optimal control of quantum systems, evolutionary computation for learning control of quantum systems, learning-based quantum robust control, and reinforcement learning for quantum control.
翻訳日:2023-04-14 18:09:58 公開日:2021-01-19
# 固定周波数トランザクタの可変結合構造

Tunable Coupling Architecture for Fixed-frequency Transmons ( http://arxiv.org/abs/2101.07746v1 )

ライセンス: Link先を確認
J. Stehlik, D. M. Zajac, D. L. Underwood, T. Phung, J. Blair, S. Carnevale, D. Klaus, G. A. Keefe, A. Carniol, M. Kumph, Matthias Steffen, O. E. Dial(参考訳) 高忠実度2ビット演算の実装は、スケーラブルな量子誤り訂正の鍵となる要素である。 超伝導量子ビットアーキテクチャでは、高忠実度ゲートの手段として可変バスが研究されている。 しかし、これらのバスは新たな漏れ経路を導入している。 本稿では,ゲート速度に対する断熱性制限を低減した固定周波数量子ビットに適した可変バスアーキテクチャを提案する。 我々はこのカプラを、最大ゲート忠実度が99.85 %$の2ビットデバイスで特徴づける。 さらに,キャリブレーションが1日以上安定していることを示す。

Implementation of high-fidelity two-qubit operations is a key ingredient for scalable quantum error correction. In superconducting qubit architectures tunable buses have been explored as a means to higher fidelity gates. However, these buses introduce new pathways for leakage. Here we present a modified tunable bus architecture appropriate for fixed-frequency qubits in which the adiabaticity restrictions on gate speed are reduced. We characterize this coupler on a range of two-qubit devices achieving a maximum gate fidelity of $99.85\%$. We further show the calibration is stable over one day.
翻訳日:2023-04-14 18:02:08 公開日:2021-01-19
# オープン教育資源のメタデータ分析

Metadata Analysis of Open Educational Resources ( http://arxiv.org/abs/2101.07735v1 )

ライセンス: Link先を確認
Mohammadreza Tavakoli, Mirette Elias, G\'abor Kismih\'ok, S\"oren Auer(参考訳) オープン・エデュケーション・リソース(open educational resources, oers)は、オープンライセンスの教育教材であり、広く学習に使われている。 現在、多くのオンライン学習リポジトリが数百万のOERを提供している。 したがって、これらのリソースの中で、学習者が最も適切なOERを見つけることは極めて困難である。 その後、正確なOERメタデータは、検索やレコメンデーションなどの高品質なサービスを提供するために重要である。 さらにメタデータは,OERの継続的な増加に伴い,手作業による品質管理が極めて困難になるため,自動OER品質管理のプロセスを促進する。 この研究は、8,887 OERのメタデータを使用して、OERメタデータの探索データ解析を行う。 そこで本研究では,OERの品質を予測するためのメタデータに基づくスコアリングと予測モデルを提案する。 その結果,OERのメタデータとOERのコンテンツ品質は密接な関係にあり,高品質なOERを94.6%の精度で検出できた。 また,Youtubeの884の教育ビデオを用いて,他の教育レポジトリにも適用可能であることを示した。

Open Educational Resources (OERs) are openly licensed educational materials that are widely used for learning. Nowadays, many online learning repositories provide millions of OERs. Therefore, it is exceedingly difficult for learners to find the most appropriate OER among these resources. Subsequently, the precise OER metadata is critical for providing high-quality services such as search and recommendation. Moreover, metadata facilitates the process of automatic OER quality control as the continuously increasing number of OERs makes manual quality control extremely difficult. This work uses the metadata of 8,887 OERs to perform an exploratory data analysis on OER metadata. Accordingly, this work proposes metadata-based scoring and prediction models to anticipate the quality of OERs. Based on the results, our analysis demonstrated that OER metadata and OER content qualities are closely related, as we could detect high-quality OERs with an accuracy of 94.6%. Our model was also evaluated on 884 educational videos from Youtube to show its applicability on other educational repositories.
翻訳日:2023-04-14 18:02:02 公開日:2021-01-19
# バールアンサンブルからのヒルベルト・シュミット分離確率とその逆:量子ステアリング楕円体およびモノトンメートルへの応用

Hilbert-Schmidt Separability Probabilities from Bures Ensembles and vice versa: Applications to Quantum Steering Ellipsoids and Monotone Metrics ( http://arxiv.org/abs/2101.07716v1 )

ライセンス: Link先を確認
Paul B. Slater(参考訳) 我々は、関連する量子ステアリング楕円体(QES)の体積を指標として、2量子状態が分離可能である確率を推定する最近の分析を再検討した。 推定プロセスでは,実効的には,対応するQESボリュームであるHilbert-Schmidt(HS)測度に対してランダムな状態へのアタッチを試みた。 しかし、HS と Bures アンサンブルの関係と、そのよく支持された分離確率 $\frac{8}{33}$ と $\frac{25}{341}$ についての研究により、QES の体積を $\Pi_{j<k}^{1 で割った代替測度として探索することができる。 .4} (\lambda_j-\lambda_k)^2 $ term of the hs volume element (\lambda$'s is the four eigenvalues of the associated four \times 4$ density matrix $\rho$)。 この尺度はランダムな2ビット状態のHSアンサンブルのメンバーに適用され、QES分離確率は0.105458と推定される。 あるいは、固有値部 $\frac{1}{\sqrt{\mbox{det} \rho}} \Pi_{j<k}^{1 で分割されたQES体積によるビューズアンサンブルのメンバーを重み付けする。 .4} \frac{(\lambda_j-\lambda_k)^2}{\lambda_j+\lambda_k}$ である。 また、qes体積によるhsアンサンブルの重み付けは、指定されたhs固有値項だけでなく、ユニタリ成分である ||\pi_{j<k}^{1. によっても分割される。 .4} \mbox{Re} (U^{-1}) \mbox{Im} (U^{-1})|$ の体積要素。 1 つの独立分離確率の推定値に対して、0.0447729 と 0.117485 の中央値と平均値が 0.0381468 の分散で得られる。

We reexamine a recent analysis in which, using the volume of the associated quantum steering ellipsoid (QES) as a measure, we sought to estimate the probability that a two-qubit state is separable. In the estimation process, we, in effect, sought to attach to states random with respect to Hilbert-Schmidt (HS) measure, the corresponding QES volumes. However, a study of the relations between HS and Bures ensembles and their well-supported separability probabilities of $\frac{8}{33}$ and $\frac{25}{341}$, respectively, now lead us to explore as a possible alternative measure, the QES volume divided by the $\Pi_{j<k}^{1...4} (\lambda_j-\lambda_k)^2 $ term of the HS volume element (the $\lambda$'s being the four eigenvalues of the associated $4 \times 4$ density matrix $\rho$). This measure is applied to the members of a HS ensemble of random two-qubit states, yielding a QES separability probability estimate of 0.105458. Alternatively, weighting members of a Bures ensemble by the QES volume divided by the eigenvalue part $\frac{1}{\sqrt{\mbox{det} \rho}} \Pi_{j<k}^{1...4} \frac{(\lambda_j-\lambda_k)^2}{\lambda_j+\lambda_k}$ of the Bures volume element, gives a close estimate of 0.100223. We also weight members of a HS ensemble by the QES volume divided not only by the indicated HS eigenvalue term, but also by the unitary component $|\Pi_{j<k}^{1...4} \mbox{Re} (U^{-1}) \mbox{Im} (U^{-1})|$ of the volume element. For one hundred thirty (rather variable) independent separability probability estimates, we, then, obtain median and mean estimates of 0.0447729 and 0.117485 with variance 0.0381468.
翻訳日:2023-04-14 18:01:34 公開日:2021-01-19
# 時間依存磁場を受ける2つの結合スピン1/2の量子不一致のダイナミクス

Dynamics of quantum discord of two coupled spin-1/2 subjected to time-dependent magnetic fields ( http://arxiv.org/abs/2101.07697v1 )

ライセンス: Link先を確認
Roberto Grimaudo, Tatiana Mihaescu, Aurelian Isar, Iulia Ghiu, Antonino Messina(参考訳) 制御可能な時間依存磁場を受ける2つの相互作用スピン1/2の量子不一致のダイナミクスについて述べる。 ディスコドの正確な時間発展は、2つのベル状態の古典的混合からなる様々な入力混合状態に対して与えられる。 量子不協和は時間の複雑な振動挙動を示し、コンカレンスによって測定された量子エンタングルメントと比較される。 量子相関の発生と進化における時間依存磁場の作用とスピンカップリング機構の相互作用を詳細に検討した。

We describe the dynamics of quantum discord of two interacting spin-1/2 subjected to controllable time-dependent magnetic fields. The exact time evolution of discord is given for various input mixed states consisting of classical mixtures of two Bell states. The quantum discord manifests a complex oscillatory behaviour in time and is compared with that of quantum entanglement, measured by concurrence. The interplay of the action of the time-dependent magnetic fields and the spin-coupling mechanism in the occurrence and evolution of quantum correlations is examined in detail.
翻訳日:2023-04-14 18:00:56 公開日:2021-01-19
# 自己組織型インテリジェントマター:AI生成アルゴリズムの青写真

Self-Organizing Intelligent Matter: A blueprint for an AI generating algorithm ( http://arxiv.org/abs/2101.07627v1 )

ライセンス: Link先を確認
Karol Gregor, Frederic Besse(参考訳) 知的生物の出現を促進することを目的とした人工生命の枠組みを提案する。 このフレームワークでは、エージェントの明確な概念はなく、代わりに原子要素で構成された環境があります。 これらの要素は神経操作を含み、情報交換や環境に含まれる物理的な規則を通じて相互作用する。 進化過程が、環境中で共存し繁栄できる多くの原子元素からなる異なる生物の出現にどのように寄与するかを論じる。 我々は、これが汎用AI生成アルゴリズムの基礎となる方法について論じる。 このようなシステムの実装を簡略化し,さらにスケールアップに必要な進展について考察する。

We propose an artificial life framework aimed at facilitating the emergence of intelligent organisms. In this framework there is no explicit notion of an agent: instead there is an environment made of atomic elements. These elements contain neural operations and interact through exchanges of information and through physics-like rules contained in the environment. We discuss how an evolutionary process can lead to the emergence of different organisms made of many such atomic elements which can coexist and thrive in the environment. We discuss how this forms the basis of a general AI generating algorithm. We provide a simplified implementation of such system and discuss what advances need to be made to scale it up further.
翻訳日:2023-04-14 18:00:31 公開日:2021-01-19
# 群論と$r$のパワーの期待値とクレブシュ=ゴルダン係数の関係

Group theory and the link between expectation values of powers of $r$ and Clebsch-Gordan coefficients ( http://arxiv.org/abs/2101.07872v1 )

ライセンス: Link先を確認
Jean-Christophe Pain(参考訳) 最近の論文 [j] では -C。 痛み、オプト。 spectrosc所属。 ${\bf 218}$, 1105-1109 (2020)] では、$r$のパワーの期待値とクレブシュ=ゴルダン係数の関連性について議論した。 本項では、そのような接続が群論の直接的な帰結であることを思い出させる追加情報を提供する。 水素のラジアル波動関数は、非コンパクト群 $O(2,1)$ の代数の無限次元表現と期待値 $r^p$ と $r^{-p}$$ (p$ be positive) をテンソルとして生成する。 昔アームストロング[L]が示したように. アームストロング・ジュニア、j.。 Phys (パリ) Suppl c 4 ${\bf 31}$, 17 (1970)], $r^p$ と $r^{-p}$ の行列要素の解析により、ウィグナー・エッカート定理がこの群に対して有効であること、対応するクレブシュ・ゴルダン係数が通常の $so(3)$ clebsch-gordan 係数に比例していることが分かる。 この比例性は、pasternack と sternheimer によって指摘された水素系放射状行列要素の選択規則と、r^p$ と $r^{-p}$から 3jm$ の水素系期待値の比例性の簡単な説明を与える。

In a recent paper [J.-C. Pain, Opt. Spectrosc. ${\bf 218}$, 1105-1109 (2020)], we discussed the link between expectation values of powers of $r$ and Clebsch-Gordan coefficients. In this short note we provide additional information, reminding that such a connection is a direct consequence of group theory. The hydrogenic radial wavefunctions form bases for infinite dimensional representations of the algebra of the non-compact group $O(2,1)$ and the expectation values $r^p$ and $r^{-p}$ ($p$ being positive) transform as tensors with respect to this algebra. As shown a long time ago by Armstrong [L. Armstrong Jr., J . Phys. (Paris) Suppl. C 4 ${\bf 31}$, 17 (1970)], analysis of matrix elements of $r^p$ and $r^{-p}$ reveals that the Wigner-Eckart theorem is valid for this group and that the corresponding Clebsch-Gordan coefficients are proportional to the usual $SO(3)$ Clebsch-Gordan coefficients. This proportionality provides simple explanations of the selection rules for hydrogenic radial matrix elements pointed out by Pasternack and Sternheimer, and the proportionality of hydrogenic expectation values of $r^p$ and $r^{-p}$ to $3jm$ symbols.
翻訳日:2023-04-14 17:54:58 公開日:2021-01-19
# 分割・解法と量子アルゴリズムを用いた二次的非拘束二元最適化の解法

Solving Quadratic Unconstrained Binary Optimization with divide-and-conquer and quantum algorithms ( http://arxiv.org/abs/2101.07813v1 )

ライセンス: Link先を確認
Gian Giacomo Guerreschi(参考訳) Quadratic Unconstrained Binary Optimization (QUBO) は、多くの実用アプリケーションにおいて幅広い最適化問題である。 その難易度を正確に解くために、既知の古典的アルゴリズムは指数時間を必要とし、そのようなコストを削減するためにいくつかの近似手法が考案されている。 量子コンピューティングが成熟するにつれて、量子アニーラまたはユニバーサル量子コンピュータを使用して解を高速化するために量子アルゴリズムが提案されている。 ここでは、元の問題を減らし、より少ない変数を持つ単一の多項式双対非制約最適化インスタンスを形成するために、解を組み立てることができる小さな問題の集合に適用する。 この手法は任意のQUBOインスタンスに適用でき、全古典的またはハイブリッドな量子古典的アプローチにつながる。 量子近似最適化アルゴリズム(QAOA)のような量子ヒューリスティックを使用する場合、提案手法は2つの利点をもたらす: 量子資源の大幅な削減、特にランダムな3つの正則グラフ上のMaxCutを解くための平均約42%の量子ビットの削減、および近似解の品質の向上。

Quadratic Unconstrained Binary Optimization (QUBO) is a broad class of optimization problems with many practical applications. To solve its hard instances in an exact way, known classical algorithms require exponential time and several approximate methods have been devised to reduce such cost. With the growing maturity of quantum computing, quantum algorithms have been proposed to speed up the solution by using either quantum annealers or universal quantum computers. Here we apply the divide-and-conquer approach to reduce the original problem to a collection of smaller problems whose solutions can be assembled to form a single Polynomial Binary Unconstrained Optimization instance with fewer variables. This technique can be applied to any QUBO instance and leads to either an all-classical or a hybrid quantum-classical approach. When quantum heuristics like the Quantum Approximate Optimization Algorithm (QAOA) are used, our proposal leads to a double advantage: a substantial reduction of quantum resources, specifically an average of ~42% fewer qubits to solve MaxCut on random 3-regular graphs, together with an improvement in the quality of the approximate solutions reached.
翻訳日:2023-04-14 17:52:41 公開日:2021-01-19
# 光周波数量子ビットを用いた高速量子コンピュータ用希土類イオンドープ混合結晶

Rare Earth Ions Doped Mixed Crystals for Fast Quantum Computers with Optical Frequency Qubits ( http://arxiv.org/abs/2101.07792v1 )

ライセンス: Link先を確認
Vladimir Hizhnyakov, Vadim Boltrushko, Helle Kaasik, Yurii Orlovskii(参考訳) ナノ秒のサンプリング時間を持つ高速量子コンピュータの物理システムとして,希土類イオン(REI)を高ドープした混合結晶を用いる可能性について論じる。 ジャッド・オフェルト行列 u(2) の対角要素の小さい希土類イオンの電子的4f状態は、光周波数量子ビットレベルとして提案されている。 CNOTおよびその他の条件ゲート操作は、希土類イオンがU(2)の大きな対角素子を持つ4f状態に励起され、スタークの遮断を引き起こす。 この閉塞の原因となる主な相互作用は四重極-四重極相互作用である。 混合結晶中の電子遷移の周波数の大きな不均一な拡張と4f電子とフォノンとの弱い相互作用により、量子ビットの高い計算速度と長いデコヒーレンス時間を達成することができる。 最寄りのREIのアンサンブルはOQCインスタンスとして機能し、対応する量子ビットの周波数はスペクトルホールバーニング法を用いて見つけることができる。

The possibility of using mixed crystals highly doped with rare earth ions (REIs) as physical systems for creating fast quantum computers with a sampling time of nanoseconds is discussed. The electronic 4f states of rare earth ions with small values of the diagonal elements of the Judd-Ofelt matrix U(2) are proposed as optical frequency qubit levels. CNOT and other conditional gate operations are performed by exciting the rare earth ion into the 4f state with a large diagonal element of U(2), causing a Stark blockade. It is found that the main interaction responsible for this blockade is the quadrupole-quadrupole interaction. The large inhomogeneous broadening of the frequencies of the electronic transitions in mixed crystals and the weak interaction of 4f electrons with phonons make it possible to achieve a high computation rate and a long decoherence time of the qubits. An ensemble of closest REIs is described that can act as an OQC instance; the frequencies of the corresponding qubits can be found using the spectral hole burning method.
翻訳日:2023-04-14 17:51:35 公開日:2021-01-19
# 合成時間次元における決定論的フォトニック量子計算

Deterministic photonic quantum computation in a synthetic time dimension ( http://arxiv.org/abs/2101.07786v1 )

ライセンス: Link先を確認
Ben Bartlett, Avik Dutt, Shanhui Fan(参考訳) Photonicsは量子情報処理の基盤としてユニークな利点を提供するが、基本的なスケーラビリティの課題を課している。 非決定論的スキームは大量のリソースオーバヘッドを課すが、決定論的スキームはサイズ可能な量子回路を実現するために、非常に多くの同一の量子エミッタを必要とする。 本稿では,任意の量子回路を実装するために最小限の量子資源を必要とするフォトニック量子コンピュータのためのスケーラブルなアーキテクチャを提案する。 光スイッチは光子-原子結合を変調して合成時間次元のフォトニック量子状態を与える。 原子量子ビットに適用される量子演算は射影的測定によってフォトニック量子ビットにテレポートすることができ、任意の量子回路をこれらのテレポート演算子のシーケンスにコンパイルすることができる。 この設計は、多くの同一の量子エミッタをフォトニック回路に統合する必要をなくし、フォトニック量子ビット間の効果的な全対全接続を可能にする。 提案装置は、量子回路の深さに依存しず、単光子検出器を必要とせず、決定的に動作し、実験的な欠陥に対して堅牢な機械サイズを有する。

Photonics offers unique advantages as a substrate for quantum information processing, but imposes fundamental scalability challenges. Nondeterministic schemes impose massive resource overheads, while deterministic schemes require prohibitively many identical quantum emitters to realize sizeable quantum circuits. Here we propose a scalable architecture for a photonic quantum computer which needs minimal quantum resources to implement any quantum circuit: a single coherently controlled atom. Optical switches endow a photonic quantum state with a synthetic time dimension by modulating photon-atom couplings. Quantum operations applied to the atomic qubit can be teleported onto the photonic qubits via projective measurement, and arbitrary quantum circuits can be compiled into a sequence of these teleported operators. This design negates the need for many identical quantum emitters to be integrated into a photonic circuit and allows effective all-to-all connectivity between photonic qubits. The proposed device has a machine size which is independent of quantum circuit depth, does not require single-photon detectors, operates deterministically, and is robust to experimental imperfections.
翻訳日:2023-04-14 17:51:18 公開日:2021-01-19
# 学習結果指向プログラム的評価

Learning Outcome Oriented Programmatic Assessment ( http://arxiv.org/abs/2101.10133v1 )

ライセンス: Link先を確認
Pum Walters, Michael Nieweg, James Watson(参考訳) 本稿では,第3学期BSc教育の組織的背景について考察する。 このプロジェクトは、学習のアセスメントと学習者の進捗のインクリメンタルな測定(vleuten et al, 2012 “a model for programmatic assessment fit for purpose”)を用いたフィードバック指向環境の促進を目的としている。 学習成果は高次認知スキルを奨励し, [Biggs & Tang, 2011] 大学における質学習の指導:学生が何をするか] Dochy et al. 2018, “Creating Impact Through Future Learning: The High Impact Learning that Lasts (HILL) Model” を取り入れたいくつかのメカニズムは、焦点とモチベーションを促進する。

This paper describes considerations behind the organisation of a third semester BSc education. The project aims to facilitate a feedback-oriented environment using assessment for learning and for incremental measure of learner progress [Vleuten et al, 2012, "A model for programmatic assessment fit for purpose"]. Learning outcomes encourage higher order cognitive skills, following [Biggs & Tang, 2011,"Teaching for quality learning at university: what the student does"]. Embracing [Dochy et al. 2018, "Creating Impact Through Future Learning: The High Impact Learning that Lasts (HILL) Model"], several mechanisms encourage focus and motivation.
翻訳日:2023-04-14 17:42:56 公開日:2021-01-19
# 高励起原子状態間の速度保存移動:黒体放射と衝突

Velocity preserving transfer between highly excited atomic states: Black Body Radiation and Collisions ( http://arxiv.org/abs/2101.07893v1 )

ライセンス: Link先を確認
J.C. de Aquino Carvalho, I. Maurin, H. Failache, D. Bloch, A. Laliotis(参考訳) 我々は,セシウム7,7,7,7,7,7,7,3/2の励起再分配をブラックボディ放射線(BBR)による隣り合うエネルギーレベルと,蒸気セル内のポンプ-プローブ分光による原子間衝突に対して検討した。 低蒸気密度では、BBRによる初期速度選択原子励起の再分配を測定する。 これにより選択された原子速度を保ち、$\mathrm{6D\rightarrow 7F}$遷移の高分解能分光を行うことができる。 この伝達機構は、セシウム高励起の$\mathrm{ng}$レベルのサブドップラー分光法を実行するためにも使うことができる。 高密度では、原子間衝突がセシウム {\mathrm{7p}$ と超微細構造で再分配されるのを観測する。 我々は、$\mathrm{7P}$再分配は原子速度の初期選択を保存する状態変化の衝突を含むことを示した。 これらの再分配機構は、密度の高いアルカリ蒸気中の高次励起状態を調べる実験において重要である。

We study the excitation redistribution from cesium $7\mathrm{P}_{1/2}$ or $7\mathrm{P}_{3/2}$ to neighboring energy levels by Black Body Radiation (BBR) and inter atomic collisions using pump-probe spectroscopy inside a vapor cell. At low vapor densities we measure redistribution of the initial, velocity-selected, atomic excitation by BBR. This preserves the selected atomic velocities allowing us to perform high resolution spectroscopy of the $\mathrm{6D\rightarrow 7F}$ transitions. This transfer mechanism could also be used to perform sub-Doppler spectroscopy of the cesium highly-excited $\mathrm{nG}$ levels. At high densities we observe interatomic collisions redistributing the excitation within the cesium $\mathrm{7P}$ fine and hyperfine structure. We show that $\mathrm{7P}$ redistribution involves state-changing collisions that preserve the initial selection of atomic velocities. These redistribution mechanisms can be of importance for experiments probing high lying excited states in dense alkali vapor.
翻訳日:2023-04-14 17:42:22 公開日:2021-01-19
# トラップイオン量子コンピュータ上の効率良く安定な2量子ビットゲート

Efficient, stabilized two-qubit gates on a trapped-ion quantum computer ( http://arxiv.org/abs/2101.07887v1 )

ライセンス: Link先を確認
Reinhold Bl\"umel, Nikodem Grzesiak, Nhung H. Nguyen, Alaina M. Green, Ming Li, Andrii Maksymov, Norbert M. Linke, Yunseong Nam(参考訳) 量子コンピューティングは現在、2量子エンタングリング演算のコストによって制限されている。 量子プロセッサをスケールアップし、量子アドバンテージを達成するためには、2量子ビットゲートのパワー要件を緩和し、実験パラメータのドリフトを堅牢にし、ゲートタイムを短縮することが不可欠である。 本稿では,量子コンピューティングアーキテクチャの先駆的1つであるイオン鎖の対のイオンにゲートを絡み合わせるための最適パルスを構築するための2つの方法,正確に1つの近似と1つの近似を提示する。 提案手法は直接的,非イテレーティブ,線形であり,特定のパラメータレジームにおいて,標準法よりも少ない電力を必要とするゲートステアリングパルスを1桁以上構成できる。 電力節約は一般的にゲート時間の短縮とクビット接続性の向上のために取引される。 さらに,モードドリフトに対するロバスト性も向上した。 トラップイオン量子コンピュータ上でこれらのトレードオフを説明する。

Quantum computing is currently limited by the cost of two-qubit entangling operations. In order to scale up quantum processors and achieve a quantum advantage, it is crucial to economize on the power requirement of two-qubit gates, make them robust to drift in experimental parameters, and shorten the gate times. In this paper, we present two methods, one exact and one approximate, to construct optimal pulses for entangling gates on a pair of ions within a trapped ion chain, one of the leading quantum computing architectures. Our methods are direct, non-iterative, and linear, and can construct gate-steering pulses requiring less power than the standard method by more than an order of magnitude in some parameter regimes. The power savings may generally be traded for reduced gate time and greater qubit connectivity. Additionally, our methods provide increased robustness to mode drift. We illustrate these trade-offs on a trapped-ion quantum computer.
翻訳日:2023-04-14 17:42:01 公開日:2021-01-19
# 量子ナノテクノロジーのロードマップ

Roadmap on quantum nanotechnologies ( http://arxiv.org/abs/2101.07882v1 )

ライセンス: Link先を確認
Arne Laucht, Frank Hohls, Niels Ubbelohde, M Fernando Gonzalez-Zalba, David J Reilly, S{\o}ren Stobbe, Tim Schr\"oder, Pasquale Scarlino, Jonne V Koski, Andrew Dzurak, Chih-Hwan Yang, Jun Yoneda, Ferdinand Kuemmeth, Hendrik Bluhm, Jarryd Pla, Charles Hill, Joe Salfi, Akira Oiwa, Juha T Muhonen, Ewold Verhagen, Matthew D LaHaye, Hyun Ho Kim, Adam W Tsen, Dimitrie Culcer, Attila Geresdi, Jan A Mol, Varun Mohan, Prashant K Jain, and Jonathan Baugh(参考訳) 量子現象は、通常、長さと時間スケールが日々の経験よりも小さく、しばしば個々の粒子や励起を含む。 過去数十年間、ナノスケールで物質を構造化する能力に革命が起こり、単一粒子レベルでの実験が一般的になった。 これにより、凝縮物質中の量子力学的効果を探索し活用するための幅広い新しい道が開かれた。 これらの量子現象は、ナノスケールの世界におけるコミュニケーションや計算、探究の方法に革命をもたらす可能性がある。 ここでは、量子研究における重要な分野の発展を、量子研究を可能にするナノテクノロジーに照らし合わせて、未来がどうあるかを見据えてレビューする。 ナノスケールの特徴を持つ材料やデバイスは量子力学やセンシング、量子コンピューティングのビルディングブロック、量子通信のソースや検出器として使用される。 ナノ・メカニカル・システム、低次元システム、分子装置、ナノプラズモン、量子電磁力学、トンネル顕微鏡などにおける量子挙動や非伝統的な状態の探索を可能にする。 この急速に拡大するナノテクノロジーと量子科学/テクノロジーの交差は、両方の分野に相互に有益であり、この10年で最もエキサイティングな科学的な飛躍のいくつかを物語っている。

Quantum phenomena are typically observable at length and time scales smaller than those of our everyday experience, often involving individual particles or excitations. The past few decades have seen a revolution in the ability to structure matter at the nanoscale, and experiments at the single particle level have become commonplace. This has opened wide new avenues for exploring and harnessing quantum mechanical effects in condensed matter. These quantum phenomena, in turn, have the potential to revolutionize the way we communicate, compute and probe the nanoscale world. Here, we review developments in key areas of quantum research in light of the nanotechnologies that enable them, with a view to what the future holds. Materials and devices with nanoscale features are used for quantum metrology and sensing, as building blocks for quantum computing, and as sources and detectors for quantum communication. They enable explorations of quantum behaviour and unconventional states in nano- and opto-mechanical systems, low-dimensional systems, molecular devices, nano-plasmonics, quantum electrodynamics, scanning tunnelling microscopy, and more. This rapidly expanding intersection of nanotechnology and quantum science/technology is mutually beneficial to both fields, laying claim to some of the most exciting scientific leaps of the last decade, with more on the horizon.
翻訳日:2023-04-14 17:41:45 公開日:2021-01-19
# 相関支援量子化電荷ポンプ

Correlation-Assisted Quantized Charge Pumping ( http://arxiv.org/abs/2001.01696v2 )

ライセンス: Link先を確認
Jacob Marks, Michael Sch\"uler, Jan C. Budich, Thomas P. Devereaux(参考訳) 強相関の存在下での自発的対称性破砕によってマスキングされた位相位相相の秩序が阻害された近傍の電荷ポンプについて検討する。 これを調べるために、軌道電荷密度波秩序をもたらす有限次元相互作用を持つsu-schrieffer-heegerモデルの原型を研究し、この順序がモデルの位相的性質に与える影響を特徴付ける。 多体トポロジカル不変量が量子化を失う順序相では、量子化された電荷ポンプがまだ可能であるだけでなく、軌道電荷密度波列の集合的性質にさえ助けられている。 驚くべきことに、thouless pump のシナリオは秩序を阻害する位相の基盤を明らかにするために使われる可能性がある。

We investigate charge pumping in the vicinity of order-obstructed topological phases, i.e. symmetry protected topological phases masked by spontaneous symmetry breaking in the presence of strong correlations. To explore this, we study a prototypical Su-Schrieffer-Heeger model with finite-range interaction that gives rise to orbital charge density wave order, and characterize the impact of this order on the model's topological properties. In the ordered phase, where the many-body topological invariant loses quantization, we find that not only is quantized charge pumping still possible, but it is even assisted by the collective nature of the orbital charge density wave order. Remarkably, we show that the Thouless pump scenario may be used to uncover the underlying topology of order-obstructed phases.
翻訳日:2023-01-14 03:02:26 公開日:2021-01-19
# ディープワンクラス分類におけるモード崩壊の簡易かつ効果的な防止

Simple and Effective Prevention of Mode Collapse in Deep One-Class Classification ( http://arxiv.org/abs/2001.08873v4 )

ライセンス: Link先を確認
Penny Chong, Lukas Ruff, Marius Kloft, Alexander Binder(参考訳) 異常検出アルゴリズムは様々な分野で広く使われている。 この研究領域は最近、ディープラーニングのおかげで大きな進歩を遂げた。 最近の方法であるディープサポートベクターデータ記述(ディープSVDD)は、古典的なカーネルベースのサポートベクターデータ記述(SVDD)にインスパイアされ、データの特徴表現とデータを包含するハイパースフィアを同時に学習することができる。 この手法は教師なしと半教師なしの両方で有望な結果を示した。 しかし、ディープSVDDはハイパースフィアの崩壊に悩まされており、例えばバイアス項の除去など、モデルのアーキテクチャが特定のアーキテクチャ上の制約を満たさない場合、モード崩壊とも呼ばれる。 これらの制約はモデルの適応性を制限し、場合によっては、準最適特徴の学習によるモデルパフォーマンスに影響を与える可能性がある。 本研究では,深部SVDDにおける超球崩壊を防止するための2つの正則化器について検討する。 最初の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。 第2の正規化器は、小さすぎるとミニバッチ分散を罰する。 さらに,SVDD損失と各正規化器との間のペナル化量を制御する適応重み付け方式を導入する。 提案する深部SVDDの正規化変種は, 特異な幾何学的構造を持たず, 顕著な最先端の手法に優れることを示す。

Anomaly detection algorithms find extensive use in various fields. This area of research has recently made great advances thanks to deep learning. A recent method, the deep Support Vector Data Description (deep SVDD), which is inspired by the classic kernel-based Support Vector Data Description (SVDD), is capable of simultaneously learning a feature representation of the data and a data-enclosing hypersphere. The method has shown promising results in both unsupervised and semi-supervised settings. However, deep SVDD suffers from hypersphere collapse -- also known as mode collapse, if the architecture of the model does not comply with certain architectural constraints, e.g. the removal of bias terms. These constraints limit the adaptability of the model and in some cases, may affect the model performance due to learning sub-optimal features. In this work, we consider two regularizers to prevent hypersphere collapse in deep SVDD. The first regularizer is based on injecting random noise via the standard cross-entropy loss. The second regularizer penalizes the minibatch variance when it becomes too small. Moreover, we introduce an adaptive weighting scheme to control the amount of penalization between the SVDD loss and the respective regularizer. Our proposed regularized variants of deep SVDD show encouraging results and outperform a prominent state-of-the-art method on a setup where the anomalies have no apparent geometrical structure.
翻訳日:2023-01-07 04:48:32 公開日:2021-01-19
# 高次元多変量点プロセスからの潜時ネットワーク構造学習

Latent Network Structure Learning from High Dimensional Multivariate Point Processes ( http://arxiv.org/abs/2004.03569v2 )

ライセンス: Link先を確認
Biao Cai, Jingfei Zhang, Yongtao Guan(参考訳) 大規模多変量点プロセスデータから潜在ネットワーク構造を学ぶことは、幅広い科学およびビジネスアプリケーションにおいて重要なタスクである。 例えば、ニューロンの集合から記録されたスパイク時間に基づいて、神経機能接続ネットワークを推定したいかもしれない。 観測データの基盤となる複雑な過程を特徴付けるために、励起効果と阻害効果の両方を許容する新しい、柔軟な非定常ホークス過程を提案する。 効率的な最小二乗推定手法を用いて潜在ネットワーク構造を推定する。 シンニング表現を用いて,提案したホークス過程の1次および2次統計量に対する濃度不等式を確立する。 このような理論的結果により、非漸近誤差境界と推定パラメータの選択一貫性を確立することができる。 さらに,背景強度が一定である場合,最小二乗損失に基づく統計量について述べる。 シミュレーション研究を通じて提案手法の有効性を実証し,ニューロンスパイクトレインデータセットへの適用について述べる。

Learning the latent network structure from large scale multivariate point process data is an important task in a wide range of scientific and business applications. For instance, we might wish to estimate the neuronal functional connectivity network based on spiking times recorded from a collection of neurons. To characterize the complex processes underlying the observed data, we propose a new and flexible class of nonstationary Hawkes processes that allow both excitatory and inhibitory effects. We estimate the latent network structure using an efficient sparse least squares estimation approach. Using a thinning representation, we establish concentration inequalities for the first and second order statistics of the proposed Hawkes process. Such theoretical results enable us to establish the non-asymptotic error bound and the selection consistency of the estimated parameters. Furthermore, we describe a least squares loss based statistic for testing if the background intensity is constant in time. We demonstrate the efficacy of our proposed method through simulation studies and an application to a neuron spike train data set.
翻訳日:2022-12-16 00:32:56 公開日:2021-01-19
# 注意と復号:注意モデルを用いた4次元fMRIタスク状態復号

Attend and Decode: 4D fMRI Task State Decoding Using Attention Models ( http://arxiv.org/abs/2004.05234v2 )

ライセンス: Link先を確認
Sam Nguyen, Brenda Ng, Alan D. Kaplan and Priyadip Ray(参考訳) 機能的磁気共鳴イメージング(英: functional magnetic resonance imaging、fMRI)は、被験者の脳の酸素レベルを捉え、被験者は異なる条件下で様々な機能的タスクを遂行する、神経イメージングモダリティである。 fMRIデータを考えると、タスク状態復号(Task State Decoding)と呼ばれるタスクを推測する問題は、高次元性(ダタム当たり100万個のサンプリングポイント)とデータ固有の複雑な時空間的血流パターンのために困難である。 本研究では, fMRIタスク状態復号化問題に対して, 4次元時空間分類問題としてキャストすることを提案する。 本稿では,空間的特徴抽出のための残差畳み込みニューラルネットワークと時間的モデリングのための自己認識機構を用いた,ブレイン・アテント・アンド・デコード(BAnD)という新しいアーキテクチャを提案する。 大規模ヒトコネクトーム・プロジェクト・ヤング・アダルト(hcp-ya)データセットによる7タスク・ベンチマークでは,従来よりも高い性能向上を達成している。 また,空間的特徴抽出層を凍結したり,時間モデルを再訓練したり,モデル全体を微調整したりすることで,BAnDの抽出した特徴のHCPタスクへの伝達性についても検討した。 bandの事前トレーニングされた機能は、同様のタスクで有効だが、微調整することで、目に見えないタスク/条件の競合結果が得られる。

Functional magnetic resonance imaging (fMRI) is a neuroimaging modality that captures the blood oxygen level in a subject's brain while the subject either rests or performs a variety of functional tasks under different conditions. Given fMRI data, the problem of inferring the task, known as task state decoding, is challenging due to the high dimensionality (hundreds of million sampling points per datum) and complex spatio-temporal blood flow patterns inherent in the data. In this work, we propose to tackle the fMRI task state decoding problem by casting it as a 4D spatio-temporal classification problem. We present a novel architecture called Brain Attend and Decode (BAnD), that uses residual convolutional neural networks for spatial feature extraction and self-attention mechanisms for temporal modeling. We achieve significant performance gain compared to previous works on a 7-task benchmark from the large-scale Human Connectome Project-Young Adult (HCP-YA) dataset. We also investigate the transferability of BAnD's extracted features on unseen HCP tasks, either by freezing the spatial feature extraction layers and retraining the temporal model, or finetuning the entire model. The pre-trained features from BAnD are useful on similar tasks while finetuning them yields competitive results on unseen tasks/conditions.
翻訳日:2022-12-14 21:21:43 公開日:2021-01-19
# 自己監督型表現学習のための蒸留局所化

Distilling Localization for Self-Supervised Representation Learning ( http://arxiv.org/abs/2004.06638v2 )

ライセンス: Link先を確認
Nanxuan Zhao, Zhirong Wu, Rynson W.H. Lau, Stephen Lin(参考訳) コントラスト学習の最近の進歩は教師なし表現学習に革命をもたらした。 具体的には、同じ画像からの複数のビュー(表示)を同じ埋め込みにマップすることが推奨され、異なる画像からのビューは分離される。 本稿では, 分類誤差の可視化と診断を通じて, 現在のコントラストモデルでは前景の局所化に効果がなく, 識別的高レベル特徴の抽出能力に制限があることを示す。 これは、ビュー生成プロセスが画像中のピクセルを均一に考慮しているためである。 そこで本研究では,背景への不変性を学ぶためのデータ駆動アプローチを提案する。 まず、画像における前景の給与を推定し、その後、様々な背景に前景をコピー&ペーストすることで拡張を生成する。 学習は依然としてインスタンス識別プリテキストタスクに従い、背景コンテンツを無視して前景に集中するように訓練される。 本研究は,様々なサルマンシー推定法について検討し,ほとんどの手法がコントラスト学習の改善につながることを見出した。 このアプローチ(DiLo)により、ImageNet分類の自己教師型学習や、PASCAL VOCとMSCOCOのオブジェクト検出にも大きなパフォーマンスが達成される。

Recent progress in contrastive learning has revolutionized unsupervised representation learning. Concretely, multiple views (augmentations) from the same image are encouraged to map to the similar embeddings, while views from different images are pulled apart. In this paper, through visualizing and diagnosing classification errors, we observe that current contrastive models are ineffective at localizing the foreground object, limiting their ability to extract discriminative high-level features. This is due to the fact that view generation process considers pixels in an image uniformly. To address this problem, we propose a data-driven approach for learning invariance to backgrounds. It first estimates foreground saliency in images and then creates augmentations by copy-and-pasting the foreground onto a variety of backgrounds. The learning still follows the instance discrimination pretext task, so that the representation is trained to disregard background content and focus on the foreground. We study a variety of saliency estimation methods, and find that most methods lead to improvements for contrastive learning. With this approach (DiLo), significant performance is achieved for self-supervised learning on ImageNet classification, and also for object detection on PASCAL VOC and MSCOCO.
翻訳日:2022-12-13 09:49:10 公開日:2021-01-19
# アクティブラーニングによるベイズ推論のための適応二次スキーム

Adaptive quadrature schemes for Bayesian inference via active learning ( http://arxiv.org/abs/2006.00535v3 )

ライセンス: Link先を確認
F. Llorente, L. Martino, V. Elvira, D. Delgado, J. L\'opez-Santiago(参考訳) 数値積分とエミュレーションは科学分野における基本的なトピックである。 本稿では,アクティブ学習手順に基づく適応二次スキームを提案する。 モンテカルロサンプリング法と他の二次規則を組み合わせることで, サーロゲート後方密度を構築するための補間的アプローチを考える。 二次のノードは、後部の現在の近似とノードの位置を考慮した適切な取得関数を最大化することにより順次選択される。 この最大化は真の後部のさらなる評価を必要としない。 本稿では,ガウシアンとNearest Neighbors(NN)に基づく2つの具体的なスキームを紹介する。 ガウスの場合には、密度関数の適切なエミュレータを構築するために、帯域幅パラメータを適合させるための新しい手順も提供する。 どちらの手法も、常に限界確率(すなわちベイズ的証拠)の正の推定値を得る。 拡張スキームの設計を可能にする等価な重要サンプリング解釈も記述されている。 いくつかの理論的結果が提供され、議論されている。 数値的な結果は、恒星の周りを公転する惑星の数を明らかにすることを目的として、天体力学モデルにおける挑戦的な推論問題を含む提案手法の利点を示している。

Numerical integration and emulation are fundamental topics across scientific fields. We propose novel adaptive quadrature schemes based on an active learning procedure. We consider an interpolative approach for building a surrogate posterior density, combining it with Monte Carlo sampling methods and other quadrature rules. The nodes of the quadrature are sequentially chosen by maximizing a suitable acquisition function, which takes into account the current approximation of the posterior and the positions of the nodes. This maximization does not require additional evaluations of the true posterior. We introduce two specific schemes based on Gaussian and Nearest Neighbors (NN) bases. For the Gaussian case, we also provide a novel procedure for fitting the bandwidth parameter, in order to build a suitable emulator of a density function. With both techniques, we always obtain a positive estimation of the marginal likelihood (a.k.a., Bayesian evidence). An equivalent importance sampling interpretation is also described, which allows the design of extended schemes. Several theoretical results are provided and discussed. Numerical results show the advantage of the proposed approach, including a challenging inference problem in an astronomic dynamical model, with the goal of revealing the number of planets orbiting a star.
翻訳日:2022-11-26 12:31:28 公開日:2021-01-19
# ディープフェイス表現に基づくメイクアップ提示攻撃の検出

Detection of Makeup Presentation Attacks based on Deep Face Representations ( http://arxiv.org/abs/2006.05074v2 )

ライセンス: Link先を確認
Christian Rathgeb, Pawel Drozdowski, Christoph Busch(参考訳) 顔の化粧品は顔の外観を大きく変え、顔認識の判断に悪影響を及ぼす可能性がある。 また,メークアップ・プレゼンテーション・アタックの開始にはメークアップ・アタックの応用が悪用される可能性が示唆された。 このような攻撃においては、攻撃者は、偽装目的で対象者の顔の外観を達成するために重い化粧を施すことがある。 本研究では,Makeup induced Face Spoofing (MIFS)データベースを用いたプレゼンテーション攻撃に対するCOTS顔認識システムの脆弱性を評価する。 化粧品の提示攻撃は顔認識システムのセキュリティに深刻な影響を及ぼす可能性がある。 また,潜在的メイクアップ攻撃と対応するターゲット顔画像から得られたディープフェイス表現の違いを分析し,実際の認証の試みとを区別する攻撃検出手法を提案する。 提案する検出システムは,画像ワープと合わせて顔の化粧を伝達する生成的対向ネットワークを用いて合成生成した化粧品提示攻撃を学習する機械学習ベースの分類器を用いる。 MIFSデータベースを用いて行った実験結果から, 実際の認証の試みをメークアップ攻撃から分離する作業において, 検出誤差が0.7%であることがわかった。

Facial cosmetics have the ability to substantially alter the facial appearance, which can negatively affect the decisions of a face recognition. In addition, it was recently shown that the application of makeup can be abused to launch so-called makeup presentation attacks. In such attacks, the attacker might apply heavy makeup in order to achieve the facial appearance of a target subject for the purpose of impersonation. In this work, we assess the vulnerability of a COTS face recognition system to makeup presentation attacks employing the publicly available Makeup Induced Face Spoofing (MIFS) database. It is shown that makeup presentation attacks might seriously impact the security of the face recognition system. Further, we propose an attack detection scheme which distinguishes makeup presentation attacks from genuine authentication attempts by analysing differences in deep face representations obtained from potential makeup presentation attacks and corresponding target face images. The proposed detection system employs a machine learning-based classifier, which is trained with synthetically generated makeup presentation attacks utilizing a generative adversarial network for facial makeup transfer in conjunction with image warping. Experimental evaluations conducted using the MIFS database reveal a detection equal error rate of 0.7% for the task of separating genuine authentication attempts from makeup presentation attacks.
翻訳日:2022-11-23 15:03:28 公開日:2021-01-19
# 転校学習になぜインスタンス識別がよいのか?

What makes instance discrimination good for transfer learning? ( http://arxiv.org/abs/2006.06606v2 )

ライセンス: Link先を確認
Nanxuan Zhao and Zhirong Wu and Rynson W.H. Lau and Stephen Lin(参考訳) インスタンス識別プリテキストタスクに基づくコントラスト的視覚前訓練は大きな進歩を遂げている。 特に、教師なし事前トレーニングに関する最近の研究は、オブジェクト検出やセグメンテーションのような下流アプリケーションの微調整のための教師なしプリトレーニングよりも優れていることが示されている。 画像アノテーションが、転送学習に役に立たない方がよいのは驚きだ。 本研究は, 移行学習において, インスタンス識別が事前学習に有効である理由について考察する。 これらのモデルから実際に学んだ知識は何か? このインスタンス識別の理解から、事前学習にどのように人間のアノテーションラベルを活用すればよいか? 私たちの発見は3倍です。 まず、転送が本当に重要であるのは、低レベル表現と中レベル表現であり、高レベル表現ではない。 第2に、従来の教師付きモデルによるカテゴリー内不変性は、タスクのミスアライメントを増大させることで、転送可能性の低下を図っている。 最後に、教師付き事前訓練は、同じカテゴリ内のインスタンス間の明示的な制約なしに、模範に基づくアプローチに従うことで強化することができる。

Contrastive visual pretraining based on the instance discrimination pretext task has made significant progress. Notably, recent work on unsupervised pretraining has shown to surpass the supervised counterpart for finetuning downstream applications such as object detection and segmentation. It comes as a surprise that image annotations would be better left unused for transfer learning. In this work, we investigate the following problems: What makes instance discrimination pretraining good for transfer learning? What knowledge is actually learned and transferred from these models? From this understanding of instance discrimination, how can we better exploit human annotation labels for pretraining? Our findings are threefold. First, what truly matters for the transfer is low-level and mid-level representations, not high-level representations. Second, the intra-category invariance enforced by the traditional supervised model weakens transferability by increasing task misalignment. Finally, supervised pretraining can be strengthened by following an exemplar-based approach without explicit constraints among the instances within the same category.
翻訳日:2022-11-22 14:07:44 公開日:2021-01-19
# ニューラル平均場ダイナミクスによるネットワーク拡散

Network Diffusions via Neural Mean-Field Dynamics ( http://arxiv.org/abs/2006.09449v3 )

ライセンス: Link先を確認
Shushan He, Hongyuan Zha, Xiaojing Ye(参考訳) ネットワーク上の拡散の推論と推定のためのニューラルネットワーク平均場力学に基づく新しい学習フレームワークを提案する。 新たな枠組みは,学習可能な時間畳み込み演算子によって近似されたメモリ積分を用いた遅延微分方程式を描画し,高度に構造化され,解釈可能なRNNを実現するために,モリ・ズワンジッヒ形式から導かれる。 本フレームワークはカスケードデータを用いて,拡散ネットワークの構造と感染確率の進化を協調的に学習することができる。 パラメータ学習と最適制御の関連も確立されている。 実験の結果,本手法は拡散ネットワークモデルの変動に対して多用途で頑健であり,合成データと実世界のデータの両方において,既存の手法よりも精度と効率において著しく優れていることがわかった。

We propose a novel learning framework based on neural mean-field dynamics for inference and estimation problems of diffusion on networks. Our new framework is derived from the Mori-Zwanzig formalism to obtain an exact evolution of the node infection probabilities, which renders a delay differential equation with memory integral approximated by learnable time convolution operators, resulting in a highly structured and interpretable RNN. Directly using cascade data, our framework can jointly learn the structure of the diffusion network and the evolution of infection probabilities, which are cornerstone to important downstream applications such as influence maximization. Connections between parameter learning and optimal control are also established. Empirical study shows that our approach is versatile and robust to variations of the underlying diffusion network models, and significantly outperform existing approaches in accuracy and efficiency on both synthetic and real-world data.
翻訳日:2022-11-20 20:20:14 公開日:2021-01-19
# ベイズニューラルネットワークを用いた重力波の検出

Detection of Gravitational Waves Using Bayesian Neural Networks ( http://arxiv.org/abs/2007.04176v2 )

ライセンス: Link先を確認
Yu-Chiung Lin, Jiun-Huei Proty Wu(参考訳) 本研究では,重力波観測データ(gw)において,コンパクトな二元結合の事象を検知するだけでなく,吸気ステージを含む事象継続時間の全長を同定するベイズ型ニューラルネットワークの新しいモデルを提案する。 これは、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory Recurrent Neural Network(LSTM)を統合したCLDNN分類器にベイズ的アプローチを組み込むことによって達成される。 LIGO Livingston O2データ中の7つのBBH事象をすべて検出し,GW波形の周期を正確にラベル付けした。 不確実性推定に対するベイズ的アプローチの能力は、非ベイズ的モデルでは否定される未知のタイプの信号の存在を認識するために新たに定義された「認識」状態を可能にする。 このようなデータチャンクを認識状態にラベル付けすると、見落とさずにさらに調査することができる。 40,960のトレーニングサンプルと512チャンクの8秒実雑音のトレーニングサンプルと、様々な最適な信号対雑音比$0 \leq \rho_\text{opt} \leq 18$のモック信号とを混合したパフォーマンステストでは、$\rho_\text{opt} > 7$ (100% if $\rho_\text{opt} > 8.5$) のイベントの90%を認識し、$\rho_\text{opt} > 8$ の波形周期の95%以上をラベル付けすることに成功した。 ピーク信号の到着から関連する波形周期の警告発生までのレイテンシは、適度なGPU装備のパーソナルコンピュータ上で最適化されていないコードに対してわずか20秒である。 これにより,最先端のhpcを用いた大規模データセットのより深いトレーニングを支援することで,ほぼリアルタイムな検出と合体イベントの予測が可能となる。

We propose a new model of Bayesian Neural Networks to not only detect the events of compact binary coalescence in the observational data of gravitational waves (GW) but also identify the full length of the event duration including the inspiral stage. This is achieved by incorporating the Bayesian approach into the CLDNN classifier, which integrates together the Convolutional Neural Network (CNN) and the Long Short-Term Memory Recurrent Neural Network (LSTM). Our model successfully detect all seven BBH events in the LIGO Livingston O2 data, with the periods of their GW waveforms correctly labeled. The ability of a Bayesian approach for uncertainty estimation enables a newly defined `awareness' state for recognizing the possible presence of signals of unknown types, which is otherwise rejected in a non-Bayesian model. Such data chunks labeled with the awareness state can then be further investigated rather than overlooked. Performance tests with 40,960 training samples against 512 chunks of 8-second real noise mixed with mock signals of various optimal signal-to-noise ratio $0 \leq \rho_\text{opt} \leq 18$ show that our model recognizes 90% of the events when $\rho_\text{opt} >7$ (100% when $\rho_\text{opt} >8.5$) and successfully labels more than 95% of the waveform periods when $\rho_\text{opt} >8$. The latency between the arrival of peak signal and generating an alert with the associated waveform period labeled is only about 20 seconds for an unoptimized code on a moderate GPU-equipped personal computer. This makes our model possible for nearly real-time detection and for forecasting the coalescence events when assisted with deeper training on a larger dataset using the state-of-art HPCs.
翻訳日:2022-11-12 13:07:32 公開日:2021-01-19
# 雑音ラベルのためのメタソフトラベル生成

Meta Soft Label Generation for Noisy Labels ( http://arxiv.org/abs/2007.05836v2 )

ライセンス: Link先を確認
G\"orkem Algan, Ilkay Ulusoy(参考訳) データセットにノイズラベルが存在することで、ディープニューラルネットワーク(DNN)のパフォーマンスが大幅に低下する。 この問題を解決するために,メタ学習技術を用いてソフトラベルを共同生成し,DNNパラメータをエンドツーエンドで学習するメタソフトラベル生成アルゴリズムMSLGを提案する。 提案手法は,ノイズのないトレーニングデータとノイズのないメタデータの両方の勾配方向をチェックすることで,最適なラベル分布を推定するメタ学習パラダイムを適用している。 ソフトラベルを反復的に更新するために、推定ラベル上でメタ勾配降下ステップを行い、ノイズフリーなメタサンプルの損失を最小限に抑える。 各イテレーションでは、ベース分類器は推定されたメタラベルに基づいてトレーニングされる。 MSLGはモデルに依存しないため、既存のモデルの上に簡単に追加することができる。 CIFAR10, Clothing1MおよびFood101Nデータセットについて広範な実験を行った。 その結果,本手法は最先端の手法よりも大きなマージンで優れていることがわかった。

The existence of noisy labels in the dataset causes significant performance degradation for deep neural networks (DNNs). To address this problem, we propose a Meta Soft Label Generation algorithm called MSLG, which can jointly generate soft labels using meta-learning techniques and learn DNN parameters in an end-to-end fashion. Our approach adapts the meta-learning paradigm to estimate optimal label distribution by checking gradient directions on both noisy training data and noise-free meta-data. In order to iteratively update soft labels, meta-gradient descent step is performed on estimated labels, which would minimize the loss of noise-free meta samples. In each iteration, the base classifier is trained on estimated meta labels. MSLG is model-agnostic and can be added on top of any existing model at hand with ease. We performed extensive experiments on CIFAR10, Clothing1M and Food101N datasets. Results show that our approach outperforms other state-of-the-art methods by a large margin.
翻訳日:2022-11-11 12:48:52 公開日:2021-01-19
# adaptive periodic averaging: 分散学習におけるコミュニケーション削減のための実践的アプローチ

Adaptive Periodic Averaging: A Practical Approach to Reducing Communication in Distributed Learning ( http://arxiv.org/abs/2007.06134v2 )

ライセンス: Link先を確認
Peng Jiang, Gagan Agrawal(参考訳) Stochastic Gradient Descent (SGD)は多くの機械学習タスクにおいて重要な学習アルゴリズムである。 その計算コストのため、GPUクラスタのようなHPCリソース上でのSGDの高速化への関心が高まっている。 しかし, 並列SGDの性能は, マシン間の高速接続でも高い通信コストでボトルネックとなっている。 この問題を緩和するための単純なアプローチは、多くの既存の取り組みで使われ、一定平均化期間を使用して、数回のイテレーション毎に通信を行うことである。 本稿では,収束と通信コストの観点からの最適平均化期間は一定ではなく,その実行過程によって異なることを示す。 具体的には,sgdを平均化する周期パラメータの収束には,計算ノード間のモデルパラメータのばらつきの低減が不可欠であることを示す。 固定的な通信予算が与えられた場合、初期のイテレーションにおいてより頻繁に同期し、初期の大きなばらつきを減らし、トレーニングプロセスの後半段階であまり同期しない方が有益であることを示す。 本稿では,SGD (Adaptive Periodic parameter averaging SGD) という実用的なアルゴリズムを提案し,モデルパラメータの全体的な分散を小さくし,SGD (Constant Periodic parameter averaging SGD) と比較して収束性を向上させる。 いくつかの画像分類ベンチマークを用いて本手法の評価を行い,ADPSGDがCPSGDに比べて訓練損失が小さく,通信精度も高いことを示す。 勾配量子化SGDと比較すると,このアルゴリズムは通信の半分でより高速な収束を実現する。 完全通信SGDと比較して、ADPSGDは計算ノード間で100Gbpsで1:14xから1:27xの高速化を実現し、10Gbpsで1:46x〜1:95xに高速化した。

Stochastic Gradient Descent (SGD) is the key learning algorithm for many machine learning tasks. Because of its computational costs, there is a growing interest in accelerating SGD on HPC resources like GPU clusters. However, the performance of parallel SGD is still bottlenecked by the high communication costs even with a fast connection among the machines. A simple approach to alleviating this problem, used in many existing efforts, is to perform communication every few iterations, using a constant averaging period. In this paper, we show that the optimal averaging period in terms of convergence and communication cost is not a constant, but instead varies over the course of the execution. Specifically, we observe that reducing the variance of model parameters among the computing nodes is critical to the convergence of periodic parameter averaging SGD. Given a fixed communication budget, we show that it is more beneficial to synchronize more frequently in early iterations to reduce the initial large variance and synchronize less frequently in the later phase of the training process. We propose a practical algorithm, named ADaptive Periodic parameter averaging SGD (ADPSGD), to achieve a smaller overall variance of model parameters, and thus better convergence compared with the Constant Periodic parameter averaging SGD (CPSGD). We evaluate our method with several image classification benchmarks and show that our ADPSGD indeed achieves smaller training losses and higher test accuracies with smaller communication compared with CPSGD. Compared with gradient-quantization SGD, we show that our algorithm achieves faster convergence with only half of the communication. Compared with full-communication SGD, our ADPSGD achieves 1:14x to 1:27x speedups with a 100Gbps connection among computing nodes, and the speedups increase to 1:46x ~ 1:95x with a 10Gbps connection.
翻訳日:2022-11-10 23:32:29 公開日:2021-01-19
# DNNトレーニングにおけるデータストールの分析と緩和

Analyzing and Mitigating Data Stalls in DNN Training ( http://arxiv.org/abs/2007.06775v3 )

ライセンス: Link先を確認
Jayashree Mohan, Amar Phanishayee, Ashish Raniwala, Vijay Chidambaram(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングはリソース集約的で時間を要する。 これまでの研究では、DNNのトレーニング時間を短縮するさまざまな方法が検討されてきたが、入力データパイプライン、すなわち、ストレージから生データを取り出し、メモリ内でデータ前処理を実行することの影響は、比較的調査されていない。 本稿では,(1)入力データパイプラインが広く使われているコンピュータビジョンおよびオーディオ深層ニューラルネットワーク(dnn)のトレーニング時間にどのように影響するかを包括的に解析する。 3つのタスクと4つのデータセットで9つの異なるモデルを分析し、microsoftの大規模プロダクションクラスタの一部であるサーバ上でのメモリ数、cpuスレッド数、ストレージデバイス、gpu生成などさまざまな要因について分析した。 多くの場合、DNNのトレーニング時間はデータ停止時間(データのフェッチと前処理を待つ時間)に支配されています。 2)差分手法を用いてデータストールを正確に測定し,データストールの予測値解析を行うツールDS-Analyzerを構築した。 (3)最後に、分析から得られた知見に基づいて、データローディングライブラリであるCoorDLにおいて、データストールを緩和する3つのシンプルで効果的なテクニックを設計、実装する。 DNNタスク、モデル、データセット、ハードウェア構成に関する実験では、PyTorchが最先端のDALIデータロードライブラリの代わりにCoorDLを使用している場合、DNNトレーニング時間が大幅に短縮される(単一のサーバでは最大5倍)。

Training Deep Neural Networks (DNNs) is resource-intensive and time-consuming. While prior research has explored many different ways of reducing DNN training time, the impact of input data pipeline, i.e., fetching raw data items from storage and performing data pre-processing in memory, has been relatively unexplored. This paper makes the following contributions: (1) We present the first comprehensive analysis of how the input data pipeline affects the training time of widely-used computer vision and audio Deep Neural Networks (DNNs), that typically involve complex data preprocessing. We analyze nine different models across three tasks and four datasets while varying factors such as the amount of memory, number of CPU threads, storage device, GPU generation etc on servers that are a part of a large production cluster at Microsoft. We find that in many cases, DNN training time is dominated by data stall time: time spent waiting for data to be fetched and preprocessed. (2) We build a tool, DS-Analyzer to precisely measure data stalls using a differential technique, and perform predictive what-if analysis on data stalls. (3) Finally, based on the insights from our analysis, we design and implement three simple but effective techniques in a data-loading library, CoorDL, to mitigate data stalls. Our experiments on a range of DNN tasks, models, datasets, and hardware configs show that when PyTorch uses CoorDL instead of the state-of-the-art DALI data loading library, DNN training time is reduced significantly (by as much as 5x on a single server).
翻訳日:2022-11-10 15:35:52 公開日:2021-01-19
# ガウスノイズ注入における明示的規則化

Explicit Regularisation in Gaussian Noise Injections ( http://arxiv.org/abs/2007.07368v6 )

ライセンス: Link先を確認
Alexander Camuto, Matthew Willetts, Umut \c{S}im\c{s}ekli, Stephen Roberts, Chris Holmes(参考訳) ガウスノイズインジェクション(GNI)によるニューラルネットワークの正規化について検討した。 このようなインジェクションは、データに適用する場合に広範囲に研究されてきたが、ネットワークアクティベーションに適用される際のレギュライゼーション効果を理解するための研究は少ない。 ここで、gnisの明示的な正則性が導出され、注入されたノイズをマージングすることで得られ、フーリエ領域において高周波成分を持つ関数、特にニューラルネットワークの出力に近い層をペナリスすることを示す。 このような正規化が大きな分類マージンを持つ校正分類器を生成することを示す。

We study the regularisation induced in neural networks by Gaussian noise injections (GNIs). Though such injections have been extensively studied when applied to data, there have been few studies on understanding the regularising effect they induce when applied to network activations. Here we derive the explicit regulariser of GNIs, obtained by marginalising out the injected noise, and show that it penalises functions with high-frequency components in the Fourier domain; particularly in layers closer to a neural network's output. We show analytically and empirically that such regularisation produces calibrated classifiers with large classification margins.
翻訳日:2022-11-10 13:57:37 公開日:2021-01-19
# BRP-NAS:GCNを用いた予測型NAS

BRP-NAS: Prediction-based NAS using GCNs ( http://arxiv.org/abs/2007.08668v4 )

ライセンス: Link先を確認
{\L}ukasz Dudziak, Thomas Chau, Mohamed S. Abdelfattah, Royson Lee, Hyeji Kim, Nicholas D. Lane(参考訳) neural architecture search (nas) は、ニューラルネットワークの効率を改善するために、研究者が広範囲な設計空間を自動的に探索することを可能にする。 この効率性は、オンデバイスデプロイメントにおいて特に重要であり、モデルの計算要求と精度の向上をバランスさせる必要がある。 実際には、モデルの性能指標は計算に費用がかかる。 これまでの研究では、プロキシ(オペレーション数など)やニューラルネットワーク層を層単位で測定してエンドツーエンドのハードウェア性能を見積もっていたが、不正確な予測はnasの品質を低下させる。 この問題を解決するため,我々は,GCN(Graph Convolutional Network)に基づく正確な性能予測器により,効率的なハードウェア対応NASであるBRP-NASを提案する。 さらに,異なるメトリクスの予測品質を調査し,モデルの二元関係と反復的なデータ選択戦略を考慮すれば,予測器ベースのnasのサンプル効率が向上することを示す。 提案手法はNAS-Bench-101とNAS-Bench-201の先行手法よりも優れており,DARTS検索空間から有用な特徴を一貫して抽出し,2次ベースラインを改善することができることを示す。 最後に、正確なレイテンシ推定が簡単な作業ではないという事実を認識するために、幅広いデバイスで動作するNAS-Bench-201モデルのレイテンシデータセットであるLatBenchをリリースしました。

Neural architecture search (NAS) enables researchers to automatically explore broad design spaces in order to improve efficiency of neural networks. This efficiency is especially important in the case of on-device deployment, where improvements in accuracy should be balanced out with computational demands of a model. In practice, performance metrics of model are computationally expensive to obtain. Previous work uses a proxy (e.g., number of operations) or a layer-wise measurement of neural network layers to estimate end-to-end hardware performance but the imprecise prediction diminishes the quality of NAS. To address this problem, we propose BRP-NAS, an efficient hardware-aware NAS enabled by an accurate performance predictor-based on graph convolutional network (GCN). What is more, we investigate prediction quality on different metrics and show that sample efficiency of the predictor-based NAS can be improved by considering binary relations of models and an iterative data selection strategy. We show that our proposed method outperforms all prior methods on NAS-Bench-101 and NAS-Bench-201, and that our predictor can consistently learn to extract useful features from the DARTS search space, improving upon the second-order baseline. Finally, to raise awareness of the fact that accurate latency estimation is not a trivial task, we release LatBench -- a latency dataset of NAS-Bench-201 models running on a broad range of devices.
翻訳日:2022-11-09 22:48:47 公開日:2021-01-19
# 後悔の最小化によるロバストで重み付き平均推定

Robust and Heavy-Tailed Mean Estimation Made Simple, via Regret Minimization ( http://arxiv.org/abs/2007.15839v2 )

ライセンス: Link先を確認
Samuel B. Hopkins, Jerry Li, Fred Zhang(参考訳) 本研究では, 試料が逆破壊されたり, 分布が重かったりした場合に, 分布の平均を高次元で推定する問題について検討する。 近年のロバスト統計学の発展は、両方の設定に対して効率的かつ(ほぼ)最適な手順を確立している。 しかしながら、各側で開発されたアルゴリズムは洗練されており、直接他へ転送することはない傾向にあり、その多くはアドホックまたは複雑な分析を持つ。 本稿では,メタプロブレムと双対性定理を提案し,高次元におけるロバストおよび重み付き平均推定の新しい統一的な視点を導いた。 本研究では,最近のロバスト推定に関する文献からのフィルタアルゴリズムの変種や,ドン,ホプキンス,li (neurips '19) による量子エントロピースコアリングスキーム (que) によって,メタプロブレムが解決できることを示す。 我々の双対性定理を利用することで、これらの結果は堅牢かつ重み付けされた設定の両方に対して単純かつ効率的なアルゴリズムに変換される。 さらに、QUEベースのプロシージャは、両方のフロントで知られている最も高速なアルゴリズムにマッチする実行時間を持つ。 フィルタの解析は、乗法重み付け更新法の古典的な後悔のバウンドを通して行う。 この接続により,過去の作業における技術的複雑化を回避し,cng,diakonikolas,ge,soltanolkotabi (icml '20) によるロバスト平均推定のための勾配-descent-basedアルゴリズムの実行時間解析を改善した。

We study the problem of estimating the mean of a distribution in high dimensions when either the samples are adversarially corrupted or the distribution is heavy-tailed. Recent developments in robust statistics have established efficient and (near) optimal procedures for both settings. However, the algorithms developed on each side tend to be sophisticated and do not directly transfer to the other, with many of them having ad-hoc or complicated analyses. In this paper, we provide a meta-problem and a duality theorem that lead to a new unified view on robust and heavy-tailed mean estimation in high dimensions. We show that the meta-problem can be solved either by a variant of the Filter algorithm from the recent literature on robust estimation or by the quantum entropy scoring scheme (QUE), due to Dong, Hopkins and Li (NeurIPS '19). By leveraging our duality theorem, these results translate into simple and efficient algorithms for both robust and heavy-tailed settings. Furthermore, the QUE-based procedure has run-time that matches the fastest known algorithms on both fronts. Our analysis of Filter is through the classic regret bound of the multiplicative weights update method. This connection allows us to avoid the technical complications in previous works and improve upon the run-time analysis of a gradient-descent-based algorithm for robust mean estimation by Cheng, Diakonikolas, Ge and Soltanolkotabi (ICML '20).
翻訳日:2022-11-04 06:30:29 公開日:2021-01-19
# DNN2LR:実世界のタブラルデータに対する解釈に基づく特徴交差

DNN2LR: Interpretation-inspired Feature Crossing for Real-world Tabular Data ( http://arxiv.org/abs/2008.09775v5 )

ライセンス: Link先を確認
Zhaocheng Liu and Qiang Liu and Haoli Zhang and Yuntian Chen(参考訳) 信頼性のためには、現実世界のアプリケーションのモデルが強力かつグローバルに解釈可能である必要がある。 単純な分類器、例えばロジスティック回帰 (lr) はグローバルに解釈可能であるが、表データの特徴間の複雑な非線形相互作用をモデル化するには十分ではない。 一方、ディープニューラルネットワーク(dnn)は、表データモデリングに優れた効果を示しているが、グローバルに解釈できない。 本研究では,特定の特徴の局所的な部分的解釈は,通常,異なるサンプルにおいて矛盾するが,これは隠蔽層における特徴的相互作用に起因する。 そこで我々は,DNNにおける特徴の相互作用を見つけるための自動的特徴交差法を設計し,LRの横断的特徴として利用することができる。 本稿では,DNN2LRと呼ばれる新しい特徴交差法を提案する。 4つのパブリックデータセットと2つの実世界のデータセットで広範な実験が行われている。 最終モデル、すなわち、DNN2LRが生成するクロス機能を備えたLRモデルは、いくつかの最先端の機能交差法と同様に、複雑なDNNモデルよりも優れている。 実験結果はDNN2LRの有効性と効率を特に多数の特徴フィールドを持つ実世界のデータセットで強く検証した。

For sake of reliability, it is necessary for models in real-world applications to be both powerful and globally interpretable. Simple classifiers, e.g., Logistic Regression (LR), are globally interpretable, but not powerful enough to model complex nonlinear interactions among features in tabular data. Meanwhile, Deep Neural Networks (DNNs) have shown great effectiveness for modeling tabular data, but is not globally interpretable. In this work, we find local piece-wise interpretations in DNN of a specific feature are usually inconsistent in different samples, which is caused by feature interactions in the hidden layers. Accordingly, we can design an automatic feature crossing method to find feature interactions in DNN, and use them as cross features in LR. We give definition of the interpretation inconsistency in DNN, based on which a novel feature crossing method called DNN2LR is proposed. Extensive experiments have been conducted on four public datasets and two real-world datasets. The final model, i.e., a LR model empowered with cross features, generated by DNN2LR can outperform the complex DNN model, as well as several state-of-the-art feature crossing methods. The experimental results strongly verify the effectiveness and efficiency of DNN2LR, especially on real-world datasets with large numbers of feature fields.
翻訳日:2022-10-26 07:47:12 公開日:2021-01-19
# 改良型ニューラルネットワークモンテカルロシミュレーション

Improved Neural Network Monte Carlo Simulation ( http://arxiv.org/abs/2009.07819v2 )

ライセンス: Link先を確認
I-Kai Chen, Matthew D. Klimek, Maxim Perelstein(参考訳) arxiv:1810.11509で提案されたニューラルネットワーク(ann)に基づくパートンレベル事象のモンテカルロシミュレーションのアルゴリズムは、$h\to 4\ell$崩壊のシミュレーションに使用される。 数値不安定を避けるため、トレーニングアルゴリズムの改善が実施されている。 ANNが評価した統合崩壊幅は真値の0.7%以内であり、未加重効率は26%に達する。 ANNは、入力空間と出力空間の間に自動的に単射的でないため、シミュレーション品質の問題につながる可能性があるが、トレーニング手順は自然に単射写像を好んでおり、訓練されたANNが非常によい近似に単射的であることを示す。

The algorithm for Monte Carlo simulation of parton-level events based on an Artificial Neural Network (ANN) proposed in arXiv:1810.11509 is used to perform a simulation of $H\to 4\ell$ decay. Improvements in the training algorithm have been implemented to avoid numerical instabilities. The integrated decay width evaluated by the ANN is within 0.7% of the true value and unweighting efficiency of 26% is reached. While the ANN is not automatically bijective between input and output spaces, which can lead to issues with simulation quality, we argue that the training procedure naturally prefers bijective maps, and demonstrate that the trained ANN is bijective to a very good approximation.
翻訳日:2022-10-18 00:47:05 公開日:2021-01-19
# dirv: エンド・ツー・エンドのヒューマン・オブジェクト間インタラクション検出のための密接なインタラクション領域投票

DIRV: Dense Interaction Region Voting for End-to-End Human-Object Interaction Detection ( http://arxiv.org/abs/2010.01005v2 )

ライセンス: Link先を確認
Hao-Shu Fang, Yichen Xie, Dian Shao, Cewu Lu(参考訳) 近年,人-物間相互作用(HOI)の検出は目覚ましい進歩を遂げている。 しかし、従来の二段階法は通常推論が遅い。 一方,既存のワンステージ手法は,HOI検出の障害として不要な視覚情報を導入し,インタラクションの結合領域に重点を置いている。 本論文では,HOI問題に対するインタラクション領域という新しい概念に基づいて,新しい一段階HOI検出手法であるDIRVを提案する。 従来の手法と異なり,本手法では,人間と物体のペアごとに異なるスケールにわたる密集した相互作用領域に着目し,その相互作用に最も不可欠な微妙な視覚的特徴を捉える。 さらに、単一相互作用領域の検出欠陥を補うために、従来の非最大抑制(nms)に代えて、重複した相互作用領域を十分に活用する新たな投票戦略を提案する。 V-COCOとHICO-DETの2つの人気のあるベンチマーク実験により、我々のアプローチは既存の最先端技術よりも高い性能を示し、推論速度とネットワークアーキテクチャが最も軽い。 56.1mAPをV-COCOで追加入力なしで達成した。 私たちのコードは、https://github.com/MVIG-SJTU/DIRVで公開されています。

Recent years, human-object interaction (HOI) detection has achieved impressive advances. However, conventional two-stage methods are usually slow in inference. On the other hand, existing one-stage methods mainly focus on the union regions of interactions, which introduce unnecessary visual information as disturbances to HOI detection. To tackle the problems above, we propose a novel one-stage HOI detection approach DIRV in this paper, based on a new concept called interaction region for the HOI problem. Unlike previous methods, our approach concentrates on the densely sampled interaction regions across different scales for each human-object pair, so as to capture the subtle visual features that is most essential to the interaction. Moreover, in order to compensate for the detection flaws of a single interaction region, we introduce a novel voting strategy that makes full use of those overlapped interaction regions in place of conventional Non-Maximal Suppression (NMS). Extensive experiments on two popular benchmarks: V-COCO and HICO-DET show that our approach outperforms existing state-of-the-arts by a large margin with the highest inference speed and lightest network architecture. We achieved 56.1 mAP on V-COCO without addtional input. Our code is publicly available at: https://github.com/MVIG-SJTU/DIRV
翻訳日:2022-10-12 01:51:12 公開日:2021-01-19
# GitHubイシューとPRコメントにおけるボット検出のための地中真実データセットと分類モデル

A ground-truth dataset and classification model for detecting bots in GitHub issue and PR comments ( http://arxiv.org/abs/2010.03303v2 )

ライセンス: Link先を確認
Mehdi Golzadeh, Alexandre Decan, Damien Legay and Tom Mens(参考訳) ボットはGithubリポジトリでよく使われ、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化する。 彼らはコメントを通じて人間俳優とコミュニケーションをとる。 それらの存在を検出することは、多くの理由から重要であるが、大規模かつ代表的な地上データセットは利用できず、そのようなデータセットに基づいてボットを検出し検証する分類モデルも存在しない。 本稿では,5000件のGithubアカウントで527件がボットとして特定されているプルリクエストとイシューコメントの,高い相互契約による手動分析に基づいて,基幹トラスデータセットを提案する。 このデータセットを用いて、ボットを検出するための自動分類モデルを提案し、各アカウントの空および空でないコメントの数、コメントパターンの数、コメントパターン内のコメント間の不平等を主な特徴とする。 40%のデータを含むテストセットにおいて,非常に高い重み付き平均精度,リコール,f1-score を 0.98 と算出した。 分類モデルをオープンソースのコマンドラインツールに統合し、Githubリポジトリ内のどのアカウントが実際にボットに対応しているかを実践者が検出できるようにしました。

Bots are frequently used in Github repositories to automate repetitive activities that are part of the distributed software development process. They communicate with human actors through comments. While detecting their presence is important for many reasons, no large and representative ground-truth dataset is available, nor are classification models to detect and validate bots on the basis of such a dataset. This paper proposes a ground-truth dataset, based on a manual analysis with high interrater agreement, of pull request and issue comments in 5,000 distinct Github accounts of which 527 have been identified as bots. Using this dataset we propose an automated classification model to detect bots, taking as main features the number of empty and non-empty comments of each account, the number of comment patterns, and the inequality between comments within comment patterns. We obtained a very high weighted average precision, recall and F1-score of 0.98 on a test set containing 40% of the data. We integrated the classification model into an open source command-line tool to allow practitioners to detect which accounts in a given Github repository actually correspond to bots.
翻訳日:2022-10-10 00:13:42 公開日:2021-01-19
# 車両再同定およびそれ以上の自己監督による識別的幾何学的特徴の発見

Discovering Discriminative Geometric Features with Self-Supervised Attention for Vehicle Re-Identification and Beyond ( http://arxiv.org/abs/2010.09221v2 )

ライセンス: Link先を確認
Ming Li, Xinming Huang, Ziming Zhang(参考訳) 車両再識別 (reid) の文献では, 性能向上のために, ランドマーク, 臨界部分, 意味セグメンテーションマスクなどの集中的なマニュアルラベルが要求されることが多い。 このような余分な情報は、車両の表現学習の一部として局所的な幾何学的特徴を検出するのに役立つ。 対照的に,本論文では,幾何学的特徴を余分なラベルのないランドマークとして検出する学習の課題を解決することを目的としている。 我々の知る限りでは、自己監督された注意に基づいて、車両のReIDの識別的幾何学的特徴をうまく学習する。 具体的には,(1)画像特徴抽出用バックボーンとしてのグローバルブランチ,(2)注目マスク生成用アテンショナルブランチ,(3)回転画像によるアテンション学習を正規化して幾何学的特徴を特定するセルフ教師付きブランチの3つからなる,エンドツーエンドのトレーニング可能なディープネットワークアーキテクチャを実装した。 %Ourネットワーク設計は、自然にエンドツーエンドのマルチタスク共同最適化に繋がる。 ReID, \ie VeRi-776, CityFlow-ReID, VehicleIDの3つのベンチマークデータセットに関する総合的な実験を行い、現状の成果を実証する。 %であり,手動のラベルのない情報伝達部品の取得が可能であった。 また、人型ReIDやマルチターゲットマルチカメラ(MTMC)車両追跡といった他のReIDタスクにおけるアプローチの優れた一般化を示す。 デモコードは補足ファイルに添付されています。 }

In the literature of vehicle re-identification (ReID), intensive manual labels such as landmarks, critical parts or semantic segmentation masks are often required to improve the performance. Such extra information helps to detect locally geometric features as a part of representation learning for vehicles. In contrast, in this paper, we aim to address the challenge of {\em automatically} learning to detect geometric features as landmarks {\em with no extra labels}. To the best of our knowledge, we are the {\em first} to successfully learn discriminative geometric features for vehicle ReID based on self-supervised attention. Specifically, we implement an end-to-end trainable deep network architecture consisting of three branches: (1) a global branch as backbone for image feature extraction, (2) an attentional branch for producing attention masks, and (3) a self-supervised branch for regularizing the attention learning with rotated images to locate geometric features. %Our network design naturally leads to an end-to-end multi-task joint optimization. We conduct comprehensive experiments on three benchmark datasets for vehicle ReID, \ie VeRi-776, CityFlow-ReID, and VehicleID, and demonstrate our state-of-the-art performance. %of our approach with the capability of capturing informative vehicle parts with no corresponding manual labels. We also show the good generalization of our approach in other ReID tasks such as person ReID and multi-target multi-camera (MTMC) vehicle tracking. {\em Our demo code is attached in the supplementary file.}
翻訳日:2022-10-05 21:58:01 公開日:2021-01-19
# 再帰的フランクウルフアルゴリズム

Recursive Frank-Wolfe algorithms ( http://arxiv.org/abs/2010.09567v3 )

ライセンス: Link先を確認
Vladimir Kolmogorov(参考訳) 過去10年間で、ポリトープ上の滑らかな凸関数を最適化するフランク・ウルフ(FW)スタイルの手法への関心が復活した。 近年開発された手法としては、"em decomposition-invariant conditional gradient} (dicg)、"em blended condition gradient} (bcg)、"em frank-wolfe with in-face directions} (if-fw) などがある。 これらの手法の2つの拡張を紹介する。 まず, dcg を {\em working set} 戦略で拡張し, {\em shadow simplex steps} を用いて作業集合を最適化する方法を示す。 第2に,面を効率的に計算できない多面体に対して面内フランクウルフ方向を一般化し,複数のfwスタイルの手法と併用できる汎用再帰手順を記述する。 実験の結果、これらの拡張は特定の用途で元のアルゴリズムを桁違いに高速化できることが示された。

In the last decade there has been a resurgence of interest in Frank-Wolfe (FW) style methods for optimizing a smooth convex function over a polytope. Examples of recently developed techniques include {\em Decomposition-invariant Conditional Gradient} (DiCG), {\em Blended Condition Gradient} (BCG), and {\em Frank-Wolfe with in-face directions} (IF-FW) methods. We introduce two extensions of these techniques. First, we augment DiCG with the {\em working set} strategy, and show how to optimize over the working set using {\em shadow simplex steps}. Second, we generalize in-face Frank-Wolfe directions to polytopes in which faces cannot be efficiently computed, and also describe a generic recursive procedure that can be used in conjunction with several FW-style techniques. Experimental results indicate that these extensions are capable of speeding up original algorithms by orders of magnitude for certain applications.
翻訳日:2022-10-05 21:31:30 公開日:2021-01-19
# ハンドトラックポイント解析を用いたアメリカ手話識別

American Sign Language Identification Using Hand Trackpoint Analysis ( http://arxiv.org/abs/2010.10590v3 )

ライセンス: Link先を確認
Yugam Bajaj and Puru Malhotra(参考訳) 手話(Sign Language)は、話すことや聴覚障害者が他人と効率的にコミュニケーションするのを助ける。 手話の識別はコンピュータビジョンの分野では難しい領域であり、近年の開発ではタスクのほぼ完全な結果を得ることができたが、いくつかの課題はまだ解決されていない。 本稿では,ハンドトラックポイントを用いたアメリカ手話識別のための新しい機械学習ベースパイプラインを提案する。 我々は手の動きを,システムへの入力として機能する一連のハンドトラックポイント座標に変換する。 ソリューションをより効率的にするために,前処理技術の28の異なる組み合わせを実験し,それぞれがk-nearest近傍,ランダムフォレスト,ニューラルネットワークという3つの機械学習アルゴリズムで実行した。 その性能は、最高の前処理方式とアルゴリズムペアを決定するために対比された。 我々のシステムは、アメリカ手話のジェスチャーを識別するために95.66%の精度を達成した。

Sign Language helps people with Speaking and Hearing Disabilities communicate with others efficiently. Sign Language identification is a challenging area in the field of computer vision and recent developments have been able to achieve near perfect results for the task, though some challenges are yet to be solved. In this paper we propose a novel machine learning based pipeline for American Sign Language identification using hand track points. We convert a hand gesture into a series of hand track point coordinates that serve as an input to our system. In order to make the solution more efficient, we experimented with 28 different combinations of pre-processing techniques, each run on three different machine learning algorithms namely k-Nearest Neighbours, Random Forests and a Neural Network. Their performance was contrasted to determine the best pre-processing scheme and algorithm pair. Our system achieved an Accuracy of 95.66% to identify American sign language gestures.
翻訳日:2022-10-05 05:54:20 公開日:2021-01-19
# RAN最適化と制御のための深部強化学習

Deep reinforcement learning for RAN optimization and control ( http://arxiv.org/abs/2011.04607v2 )

ライセンス: Link先を確認
Yu Chen, Jie Chen, Ganesh Krishnamurthi, Huijing Yang, Huahui Wang, Wenjie Zhao(参考訳) 無線アクセスネットワーク(ran)のトラフィックの変動が大きいため、固定されたネットワーク構成は最適性能を達成するのに十分な柔軟性がない。 私たちのベンダーは、メディアアクセス制御スケジューラやロードバランスなど、RANパフォーマンスを最適化するためのeNodeBの設定をいくつか提供しています。 しかし、eNodeB構成の詳細なメカニズムは、考慮すべき大きなキーパフォーマンスインジケータ(KPI)空間を言うまでもなく、通常非常に複雑で開示されていない。 これらはシミュレータ、オフラインチューニング、ルールベースのソリューションの構築を困難にする。 我々は、強い仮定やドメイン知識なしにインテリジェントなコントローラを構築し、監督なしで24時間実行することを目指している。 この目的を達成するために、我々はまず実験室環境に1台のeNodeBと4台のスマートフォンを備えたクローズドループ制御テストベッドRANを構築した。 次に、RANからの重要なパフォーマンス指標のライブフィードバックでトレーニングされた二重Qネットワークエージェントを構築する。 本研究は,実ネットワーク環境におけるネットワーク性能向上に深層強化学習を適用することの有効性を実証した。

Due to the high variability of the traffic in the radio access network (RAN), fixed network configurations are not flexible enough to achieve optimal performance. Our vendors provide several settings of the eNodeB to optimize the RAN performance, such as media access control scheduler, loading balance, etc. But the detailed mechanisms of the eNodeB configurations are usually very complicated and not disclosed, not to mention the large key performance indicators (KPIs) space needed to be considered. These make constructing a simulator, offline tuning, or rule-based solutions difficult. We aim to build an intelligent controller without strong assumption or domain knowledge about the RAN and can run 24/7 without supervision. To achieve this goal, we first build a closed-loop control testbed RAN in a lab environment with one eNodeB provided by one of the largest wireless vendors and four smartphones. Next, we build a double Q network agent trained with the live feedback of the key performance indicators from the RAN. Our work proved the effectiveness of applying deep reinforcement learning to improve network performance in a real RAN network environment.
翻訳日:2022-09-28 01:54:03 公開日:2021-01-19
# EDITOR:ソフトレキシカル制約を用いたニューラルマシン翻訳のための再配置型編集型変換器

EDITOR: an Edit-Based Transformer with Repositioning for Neural Machine Translation with Soft Lexical Constraints ( http://arxiv.org/abs/2011.06868v2 )

ライセンス: Link先を確認
Weijia Xu, Marine Carpuat(参考訳) 編集ベーストランスフォーマー(EDITOR)を導入し,出力語彙選択の好みをユーザがシームレスに指定できるようにすることで,シーケンス生成を柔軟にする。 非回帰シーケンス生成のための最近のモデル(gu et al., 2019)に基づいて、エディタは仮説を反復的に編集することで新しいシーケンスを生成する。 単語の位置決定から語彙選択を解き放つために設計された新しい再配置操作に依存しており、復号時に模倣学習と並列編集を効率よく行うことができる。 経験的に、EDITORはLevenshtein Transformer(Gu et al., 2019)よりもソフトレキシカルな制約を効果的に用いながら、制約されたビームサーチ(Post and Vilar, 2018)に比べてデコーディングを劇的に高速化している。 EDITORはまた、標準的なルーマニア語、英語、英語、日本語の機械翻訳タスクにおいて、Levenshtein Transformerよりも高速な復号速度で、同等またはより良い翻訳品質を達成する。

We introduce an Edit-Based Transformer with Repositioning (EDITOR), which makes sequence generation flexible by seamlessly allowing users to specify preferences in output lexical choice. Building on recent models for non-autoregressive sequence generation (Gu et al., 2019), EDITOR generates new sequences by iteratively editing hypotheses. It relies on a novel reposition operation designed to disentangle lexical choice from word positioning decisions, while enabling efficient oracles for imitation learning and parallel edits at decoding time. Empirically, EDITOR uses soft lexical constraints more effectively than the Levenshtein Transformer (Gu et al., 2019) while speeding up decoding dramatically compared to constrained beam search (Post and Vilar, 2018). EDITOR also achieves comparable or better translation quality with faster decoding speed than the Levenshtein Transformer on standard Romanian-English, English-German, and English-Japanese machine translation tasks.
翻訳日:2022-09-25 23:26:47 公開日:2021-01-19
# 監視犬を理解する:ゲームボットの発見方法を発見する

Understand Watchdogs: Discover How Game Bot Get Discovered ( http://arxiv.org/abs/2011.13374v2 )

ライセンス: Link先を確認
Eunji Park, Kyung Ho Park, Huy Kang Kim(参考訳) ゲーム産業は長年、ゲームボットを利用した悪意ある活動に悩まされてきた。 ゲームボットは他のプレイヤーを妨害し、ゲームの環境システムを破壊する。 これらの理由から、ゲーム産業は学習に基づく検出を用いてプレイヤーキャラクター間のゲームボットの検出に最善を尽くした。 しかし, 検出手法の問題点は, 決定について合理的な説明をしていないことである。 この問題を解決するため,本研究ではゲームボット検出の解法について検討する。 我々は,韓国のMMORPGであるAIONのデータセットを用いて,人間プレイヤーとゲームボットのゲームログを含むXAIモデルを開発した。 複数の分類モデルがデータセットに適用され、解釈可能なモデルを適用することで分析される。 これにより,ゲームボットの行動に関する説明が得られ,説明の真正性が評価されている。 また、解釈性は誤検出の最小化に寄与し、人間のプレイヤーに不公平な制限を課す。

The game industry has long been troubled by malicious activities utilizing game bots. The game bots disturb other game players and destroy the environmental system of the games. For these reasons, the game industry put their best efforts to detect the game bots among players' characters using the learning-based detections. However, one problem with the detection methodologies is that they do not provide rational explanations about their decisions. To resolve this problem, in this work, we investigate the explainabilities of the game bot detection. We develop the XAI model using a dataset from the Korean MMORPG, AION, which includes game logs of human players and game bots. More than one classification model has been applied to the dataset to be analyzed by applying interpretable models. This provides us explanations about the game bots' behavior, and the truthfulness of the explanations has been evaluated. Besides, interpretability contributes to minimizing false detection, which imposes unfair restrictions on human players.
翻訳日:2022-09-20 08:37:34 公開日:2021-01-19
# 概念ネット知識ベースを用いた常識知識のデータ駆動研究

A Data-Driven Study of Commonsense Knowledge using the ConceptNet Knowledge Base ( http://arxiv.org/abs/2011.14084v2 )

ライセンス: Link先を確認
Ke Shen and Mayank Kejriwal(参考訳) 常識知識と推論の獲得は、汎用人工知能(AI)の実現における重要なフロンティアとして認識されている。 自然言語処理(NLP)コミュニティにおける最近の研究は、この問題設定において大きな進歩を示している。 この進歩は、主に限定的な設定で複数の質問に答えるタスクに焦点が当てられているが、常識的知識そのものの理解が不足している(特に大規模では)。 本稿では,概念ネットの知識基盤を実証的・構造的に分析することにより,常識知識をより深く理解するための体系的な研究を行う。 ConceptNetは、自然言語で提示される数百万のコモンセンスアサーションを含む、無料で利用可能な知識ベースである。 最先端の教師なしグラフ表現学習(embedding)とクラスタリング技術を用いて、3つの注意深く設計された研究課題に関する詳細な実験結果が、概念ネット関係の深い部分構造を明らかにし、伝統的に質的用語でしか議論されていない「文脈」のような現象の意味をデータ駆動的かつ計算的に主張できる。 さらに,本手法は,人間の知性の本質的特徴である日常的な(複雑な)心理学現象の性質を理解するために,データサイエンスおよび計算方法論の活用方法に関するケーススタディを提供する。

Acquiring commonsense knowledge and reasoning is recognized as an important frontier in achieving general Artificial Intelligence (AI). Recent research in the Natural Language Processing (NLP) community has demonstrated significant progress in this problem setting. Despite this progress, which is mainly on multiple-choice question answering tasks in limited settings, there is still a lack of understanding (especially at scale) of the nature of commonsense knowledge itself. In this paper, we propose and conduct a systematic study to enable a deeper understanding of commonsense knowledge by doing an empirical and structural analysis of the ConceptNet knowledge base. ConceptNet is a freely available knowledge base containing millions of commonsense assertions presented in natural language. Detailed experimental results on three carefully designed research questions, using state-of-the-art unsupervised graph representation learning ('embedding') and clustering techniques, reveal deep substructures in ConceptNet relations, allowing us to make data-driven and computational claims about the meaning of phenomena such as 'context' that are traditionally discussed only in qualitative terms. Furthermore, our methodology provides a case study in how to use data-science and computational methodologies for understanding the nature of an everyday (yet complex) psychological phenomenon that is an essential feature of human intelligence.
翻訳日:2022-09-19 19:11:42 公開日:2021-01-19
# (参考訳) メタラーニングによる視覚・言語ナビゲーションのための視覚知覚一般化

Visual Perception Generalization for Vision-and-Language Navigation via Meta-Learning ( http://arxiv.org/abs/2012.05446v3 )

ライセンス: CC BY 4.0
Ting Wang, Zongkai Wu, Donglin Wang(参考訳) VLN(Vision-and-Language Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。 従来の作業では、1.5メートルの高さ、90度の水平視野(HFOV)など、データセットの制限により、固定されたカメラ構成を使用して、連続環境や物理的なロボット上でVLNタスクを実装していた。 しかし、目的の異なる現実のロボットは複数のカメラ構成を持ち、視覚情報のギャップが大きいため、学習したナビゲーションモデルを様々なロボット間で直接転送することは困難である。 本稿では,メタ学習に基づく視覚認識の一般化戦略を提案する。 学習段階では,まず視覚知覚モジュールに対する一般化問題を同定し,次に2つのメタ学習アルゴリズムを比較して,視聴覚および視聴覚環境における一般化を改善する。 そのうちの1つは、いくつかのショット適応を必要とするモデル非依存メタラーニング(MAML)アルゴリズムを使用し、もう1つは、機能的にアフィン変換層を持つメトリックベースのメタラーニング手法である。 実験の結果,本手法は学習したナビゲーションモデルを新しいカメラ構成に適応させることに成功し,この2つのアルゴリズムは目に見える環境と見えない環境においてそれぞれ優位性を示すことがわかった。

Vision-and-language navigation (VLN) is a challenging task that requires an agent to navigate in real-world environments by understanding natural language instructions and visual information received in real-time. Prior works have implemented VLN tasks on continuous environments or physical robots, all of which use a fixed camera configuration due to the limitations of datasets, such as 1.5 meters height, 90 degrees horizontal field of view (HFOV), etc. However, real-life robots with different purposes have multiple camera configurations, and the huge gap in visual information makes it difficult to directly transfer the learned navigation model between various robots. In this paper, we propose a visual perception generalization strategy based on meta-learning, which enables the agent to fast adapt to a new camera configuration with a few shots. In the training phase, we first locate the generalization problem to the visual perception module, and then compare two meta-learning algorithms for better generalization in seen and unseen environments. One of them uses the Model-Agnostic Meta-Learning (MAML) algorithm that requires a few shot adaptation, and the other refers to a metric-based meta-learning method with a feature-wise affine transformation layer. The experiment results show that our strategy successfully adapts the learned navigation model to a new camera configuration, and the two algorithms show their advantages in seen and unseen environments respectively.
翻訳日:2021-05-15 23:26:51 公開日:2021-01-19
# (参考訳) Polyak-{\L}ojasiewicz条件下でのCV@R統計的学習のための確率勾配の雑音収束

Noisy Linear Convergence of Stochastic Gradient Descent for CV@R Statistical Learning under Polyak-{\L}ojasiewicz Conditions ( http://arxiv.org/abs/2012.07785v3 )

ライセンス: CC BY 4.0
Dionysios S. Kalogerias(参考訳) コンディショナルバリュー・アット・リスク(\mathrm{CV@R}$)は、近年、安全、公正性、分散ロバスト性、予測エラー安定性など、現代の応用において望ましい運用特徴に関連するため、教師付き統計学習におけるパフォーマンス基準として、最も一般的なリスク対策の1つである。 しかし、その変分的な定義から、$\mathrm{cv@r}$ は滑らかで強い凸損失関数であっても難しい最適化問題を引き起こすと考えられている。 我々は、集合制限されたポリアック・ロジャシェヴィチの不等式を満たす強凸(あるいは凸)損失関数の大きいクラスに対して、逐次的$\mathrm{cv@r}$ learning に対する確率的勾配降下のノイズ(すなわち固定精度)線形収束を確立することで、この主張を否定する。 このクラスは滑らかで強い凸損失を全て含み、線形最小二乗回帰のような古典的な問題は、リスク中立バージョンと同様に$\mathrm{cv@r}$条件の下で効率的に解くことができる。 本研究では,このようなリスクを意識したリッジ回帰課題を数値的に示し,その妥当性を検証した。

Conditional Value-at-Risk ($\mathrm{CV@R}$) is one of the most popular measures of risk, which has been recently considered as a performance criterion in supervised statistical learning, as it is related to desirable operational features in modern applications, such as safety, fairness, distributional robustness, and prediction error stability. However, due to its variational definition, $\mathrm{CV@R}$ is commonly believed to result in difficult optimization problems, even for smooth and strongly convex loss functions. We disprove this statement by establishing noisy (i.e., fixed-accuracy) linear convergence of stochastic gradient descent for sequential $\mathrm{CV@R}$ learning, for a large class of not necessarily strongly-convex (or even convex) loss functions satisfying a set-restricted Polyak-Lojasiewicz inequality. This class contains all smooth and strongly convex losses, confirming that classical problems, such as linear least squares regression, can be solved efficiently under the $\mathrm{CV@R}$ criterion, just as their risk-neutral versions. Our results are illustrated numerically on such a risk-aware ridge regression task, also verifying their validity in practice.
翻訳日:2021-05-08 20:43:43 公開日:2021-01-19
# マルチリンガル・エビデンス・レトリーバルとFact Verification to Combat Global Disinformation: The Power of Polyglotism

Multilingual Evidence Retrieval and Fact Verification to Combat Global Disinformation: The Power of Polyglotism ( http://arxiv.org/abs/2012.08919v2 )

ライセンス: Link先を確認
Denisa A.O. Roberts(参考訳) 本稿では,多言語的証拠検索と事実検証を,この種の最初の試みである世界的偽情報と戦うための第一歩として検討する。 目的は、証拠に富んだ言語を検索して、より一般的に偽情報に照らされた証拠に乏しい言語のクレームを検証する多言語システムを構築することである。 そこで,本システムでは,トランスファー学習能力のエビデンスを示し,400例の英語・ローマ混合データセットを言語間トランスファー学習評価に利用可能とした。

This article investigates multilingual evidence retrieval and fact verification as a step to combat global disinformation, a first effort of this kind, to the best of our knowledge. The goal is building multilingual systems that retrieve in evidence-rich languages to verify claims in evidence-poor languages that are more commonly targeted by disinformation. To this end, our EnmBERT fact verification system shows evidence of transfer learning ability and 400 example mixed English-Romanian dataset is made available for cross-lingual transfer learning evaluation.
翻訳日:2021-05-03 03:13:07 公開日:2021-01-19
# (参考訳) 最適化オプティマイザ:回帰最適勾配降下アルゴリズム

Optimizing Optimizers: Regret-optimal gradient descent algorithms ( http://arxiv.org/abs/2101.00041v2 )

ライセンス: CC BY 4.0
Philippe Casgrain, Anastasis Kratsios(参考訳) 高速で堅牢な最適化アルゴリズムの必要性は、機械学習のあらゆる領域において重要である。 本稿では最適化アルゴリズムを最適制御問題として設計する作業について述べる。 後悔をアルゴリズムのパフォーマンスの指標として用い,後悔最適アルゴリズムの存在,独自性,一貫性について検討する。 制御問題に対して一階の最適性条件を提供することにより,後悔の最適化アルゴリズムは,その後悔によって生成される値関数上での2条件勾配降下を行うのと同値となる,そのダイナミクスの特定の構造を満足しなければならないことを示した。 これらの最適ダイナミクスを用いて、凸最適化問題の解への収束率の境界を与える。 閉形式最適力学は一般には得られないが, より高速に近似し, 長期的後悔を直接最適化する最適化アルゴリズムを生成する。 最後に、これらはそれらの効率性を示すためによく使われる最適化アルゴリズムに対してベンチマークされる。

The need for fast and robust optimization algorithms are of critical importance in all areas of machine learning. This paper treats the task of designing optimization algorithms as an optimal control problem. Using regret as a metric for an algorithm's performance, we study the existence, uniqueness and consistency of regret-optimal algorithms. By providing first-order optimality conditions for the control problem, we show that regret-optimal algorithms must satisfy a specific structure in their dynamics which we show is equivalent to performing dual-preconditioned gradient descent on the value function generated by its regret. Using these optimal dynamics, we provide bounds on their rates of convergence to solutions of convex optimization problems. Though closed-form optimal dynamics cannot be obtained in general, we present fast numerical methods for approximating them, generating optimization algorithms which directly optimize their long-term regret. Lastly, these are benchmarked against commonly used optimization algorithms to demonstrate their effectiveness.
翻訳日:2021-04-17 19:48:43 公開日:2021-01-19
# 依存性フレームワークによる談話リソースの統一

Unifying Discourse Resources with Dependency Framework ( http://arxiv.org/abs/2101.00167v2 )

ライセンス: Link先を確認
Yi Cheng, Sujian Li, Yueyuan Li(参考訳) テキストレベルの談話分析には、様々な談話スキームがあるが、まだ未熟であり、テキストの内部論理に注釈をつけるのに労力がかかるため、ラベル付きデータはほとんどない。 本稿では,複数の中国語談話コーパスを多義的アノテーションスキームに統一するために,半自動的手法を設計して依存関係構造に変換する手法を提案する。 また、いくつかのベンチマーク依存性パーサを実装し、パフォーマンスを改善するために統合データをどのように活用できるかの研究も行っています。

For text-level discourse analysis, there are various discourse schemes but relatively few labeled data, because discourse research is still immature and it is labor-intensive to annotate the inner logic of a text. In this paper, we attempt to unify multiple Chinese discourse corpora under different annotation schemes with discourse dependency framework by designing semi-automatic methods to convert them into dependency structures. We also implement several benchmark dependency parsers and research on how they can leverage the unified data to improve performance.
翻訳日:2021-04-16 11:11:03 公開日:2021-01-19
# 逆シミュレーションによるアノテーションフリーインスタンスセグメンテーションと追跡

Towards Annotation-free Instance Segmentation and Tracking with Adversarial Simulations ( http://arxiv.org/abs/2101.00567v2 )

ライセンス: Link先を確認
Quan Liu, Isabella M. Gaeta, Mengyang Zhao, Ruining Deng, Aadarsh Jha, Bryan A. Millis, Anita Mahadevan-Jansen, Matthew J. Tyska, Yuankai Huo(参考訳) 顕微鏡ビデオの定量的解析は、しばしば、細胞および細胞内のオブジェクトのインスタンス分割と追跡を必要とする。 従来の方法は、(1)各フレームのインスタンスオブジェクトセグメンテーションを実行する、(2)フレームごとにオブジェクトを関連付ける、の2つのステージで構成される。 近年,画素埋め込みに基づくディープラーニングアプローチは,インスタンスのセグメンテーションとトラッキングを同時に行うための一段階の全体解を提供する。 しかし、このような深層学習手法は、空間的(セグメンテーション)だけでなく、時間的(トラッキング)にも一貫したアノテーションを必要とする。 コンピュータビジョンでは、一貫したセグメンテーションとトラッキングを備えた注釈付きトレーニングデータは資源集約的であり、(1)高密度物体(例えば重ね合わせやタッチ)、(2)高いダイナミクス(例えば不規則な運動や分裂)による顕微鏡イメージングにおいて重大度を乗じることができる。 ダイナミックスシーンにおけるこのようなアノテーションの欠如を緩和するため、現実の自動運転システムの訓練にシミュレーション環境(コンピュータゲームなど)を使用するなど、コンピュータビジョンで成功したソリューションを提供している。 本稿では,逆シミュレーションと単段階画素埋め込みに基づく学習を併用したアノテーションのない合成インスタンスセグメンテーション・トラッキング(ASIST)手法を提案する。 提案手法は,(1)敵対的シミュレーションと1段階の画素埋め込みに基づくディープラーニングを集約し,(2)細胞(hela細胞)と細胞内(microvilli)の両方で評価し,(3)我々の知る限りでは,顕微鏡ビデオにおけるアノテーションフリーなインスタンス分割と追跡研究を探求する最初の研究である。 このASIST法は、完全な教師付きアプローチと比較して、重要な一歩を踏み出した。

The quantitative analysis of microscope videos often requires instance segmentation and tracking of cellular and subcellular objects. The traditional method is composed of two stages: (1) performing instance object segmentation of each frame, and (2) associating objects frame-by-frame. Recently, pixel-embedding-based deep learning approaches provide single stage holistic solutions to tackle instance segmentation and tracking simultaneously. However, such deep learning methods require consistent annotations not only spatially (for segmentation), but also temporally (for tracking). In computer vision, annotated training data with consistent segmentation and tracking is resource intensive, the severity of which can be multiplied in microscopy imaging due to (1) dense objects (e.g., overlapping or touching), and (2) high dynamics (e.g., irregular motion and mitosis). To alleviate the lack of such annotations in dynamics scenes, adversarial simulations have provided successful solutions in computer vision, such as using simulated environments (e.g., computer games) to train real-world self-driving systems. In this paper, we propose an annotation-free synthetic instance segmentation and tracking (ASIST) method with adversarial simulation and single-stage pixel-embedding based learning. The contribution of this paper is three-fold: (1) the proposed method aggregates adversarial simulations and single-stage pixel-embedding based deep learning; (2) the method is assessed with both the cellular (i.e., HeLa cells) and subcellular (i.e., microvilli) objects; and (3) to the best of our knowledge, this is the first study to explore annotation-free instance segmentation and tracking study for microscope videos. This ASIST method achieved an important step forward, when compared with fully supervised approaches.
翻訳日:2021-04-12 11:36:14 公開日:2021-01-19
# 多モード生成モデルによる直観物理学の学習

Learning Intuitive Physics with Multimodal Generative Models ( http://arxiv.org/abs/2101.04454v2 )

ライセンス: Link先を確認
Sahand Rezaei-Shoshtari, Francois Robert Hogan, Michael Jenkin, David Meger, Gregory Dudek(参考訳) 物体が環境と接触する際の未来の相互作用を予測することは、自律的なエージェントが知的で予測可能な行動を取るための鍵となる。 本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。 視覚情報は3d形状や位置などの物体特性をキャプチャし、触覚情報は相互作用力と環境との接触時の物体の動きに関する重要な手がかりを提供する。 接触面の高分解能マルチモーダルセンシングを実現する新しいSee-Through-Your-Skin(STS)センサを用いて,物体の視覚的外観と触覚特性の両方をキャプチャする。 マルチモーダル変分オートエンコーダ (MVAE) を用いてセンサからのデュアルストリーム信号を解釈し, 接触対象の両モードを捕捉し, 視覚的・触覚的相互作用と逆変換のマッピングを開発する。 さらに、物体の静止状態が与えられた初期状態から予測されるシミュレーションおよび実世界の実験を通して、将来の物理的相互作用の結果を予測するために知覚システムを利用することができる。

Predicting the future interaction of objects when they come into contact with their environment is key for autonomous agents to take intelligent and anticipatory actions. This paper presents a perception framework that fuses visual and tactile feedback to make predictions about the expected motion of objects in dynamic scenes. Visual information captures object properties such as 3D shape and location, while tactile information provides critical cues about interaction forces and resulting object motion when it makes contact with the environment. Utilizing a novel See-Through-your-Skin (STS) sensor that provides high resolution multimodal sensing of contact surfaces, our system captures both the visual appearance and the tactile properties of objects. We interpret the dual stream signals from the sensor using a Multimodal Variational Autoencoder (MVAE), allowing us to capture both modalities of contacting objects and to develop a mapping from visual to tactile interaction and vice-versa. Additionally, the perceptual system can be used to infer the outcome of future physical interactions, which we validate through simulated and real-world experiments in which the resting state of an object is predicted from given initial conditions.
翻訳日:2021-04-04 01:52:47 公開日:2021-01-19
# イマジネーションによる自我中心行動の予測

Learning to Anticipate Egocentric Actions by Imagination ( http://arxiv.org/abs/2101.04924v2 )

ライセンス: Link先を確認
Yu Wu, Linchao Zhu, Xiaohan Wang, Yi Yang, Fei Wu(参考訳) 実行前に行動を予測することは、自動運転やロボティクスなど、幅広い実用的な応用に不可欠である。 本稿では,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオに先立ち,将来的なアクション秒を予測する。 従来のアプローチでは、観測内容の要約と、過去の観測に基づいて将来の行動を直接予測することに集中していた。 監視されていないフレームの欠落情報を補うためにいくつかの手がかりを発掘できれば、アクション予測に利益があると信じています。 次に,行動予測を将来の特徴予測に分解することを提案する。 視覚的特徴が近い将来どのように変化するかを想像し、これらの想像された表現に基づいて将来のアクションラベルを予測する。 異なることに、ImagineRNNは機能回帰ではなく、対照的な学習方法で最適化されています。 プロキシタスクを使ってimaginernnをトレーニングします。つまり、気晴らしから正しい状態を選択するのです。 さらに,フレームの内容に代えて隣接するフレームの特徴差を予測できるように目標を変更して,imaginernnをさらに改善する。 これにより、隣接フレームの特徴の違いが将来を予測する上でより重要であるため、ネットワークがターゲット、すなわち将来の行動に焦点を合わせることが促進される。 2つの大規模エゴセントリックアクションデータセットに関する広範な実験により,本手法の有効性が検証された。 本手法は,epic kitchens action anticipation challengeの既往のテストセットと未発見のテストセットの両方において,従来の方法を大幅に上回っている。

Anticipating actions before they are executed is crucial for a wide range of practical applications, including autonomous driving and robotics. In this paper, we study the egocentric action anticipation task, which predicts future action seconds before it is performed for egocentric videos. Previous approaches focus on summarizing the observed content and directly predicting future action based on past observations. We believe it would benefit the action anticipation if we could mine some cues to compensate for the missing information of the unobserved frames. We then propose to decompose the action anticipation into a series of future feature predictions. We imagine how the visual feature changes in the near future and then predicts future action labels based on these imagined representations. Differently, our ImagineRNN is optimized in a contrastive learning way instead of feature regression. We utilize a proxy task to train the ImagineRNN, i.e., selecting the correct future states from distractors. We further improve ImagineRNN by residual anticipation, i.e., changing its target to predicting the feature difference of adjacent frames instead of the frame content. This promotes the network to focus on our target, i.e., the future action, as the difference between adjacent frame features is more important for forecasting the future. Extensive experiments on two large-scale egocentric action datasets validate the effectiveness of our method. Our method significantly outperforms previous methods on both the seen test set and the unseen test set of the EPIC Kitchens Action Anticipation Challenge.
翻訳日:2021-03-30 07:58:04 公開日:2021-01-19
# JITuNE: ネットワーク埋め込みアルゴリズムのためのジャストインタイムハイパーパラメータチューニング

JITuNE: Just-In-Time Hyperparameter Tuning for Network Embedding Algorithms ( http://arxiv.org/abs/2101.06427v2 )

ライセンス: Link先を確認
Mengying Guo, Tao Yi, Yuqing Zhu, Yungang Bao(参考訳) ネットワーク埋め込み(NE)は、大規模ネットワークのための簡潔なノード表現を生成し、共通の機械学習手法をネットワーク構造に直接適用することができる。 ノード分類やリンク予測など,さまざまなアプリケーションでNEアルゴリズムが提案され,利用されている。 NEアルゴリズムは通常、パフォーマンスの鍵となるハイパーパラメータを含むが、ハイパーパラメータチューニングプロセスには時間がかかることがある。 ハイパーパラメータを指定された時間内にチューニングすることが望ましい。 NEアルゴリズムのハイパーパラメータチューニングにはAutoML法が適用されているが, NEアルゴリズムでは, 与えられた時間内にハイパーパラメータをチューニングする方法が研究されていない。 本稿では,NEアルゴリズムのためのジャストインタイムハイパーパラメータチューニングフレームワークJITuNEを提案する。 我々のJITuNEフレームワークは,階層型ネットワークシンプ上でのチューニングと,シンプ上で得られた知識をネットワーク全体に伝達することにより,NEアルゴリズムの時間制約ハイパーパラメータチューニングを可能にする。 シンプシスの階層的生成と時間制約のあるチューニング方法により、全体のチューニング時間を制約することができる。 大規模な実験により、JITuNEはNEアルゴリズムの性能を大幅に改善し、同じ数のアルゴリズムの実行内で最先端のメソッドより優れていることが示されている。

Network embedding (NE) can generate succinct node representations for massive-scale networks and enable direct applications of common machine learning methods to the network structure. Various NE algorithms have been proposed and used in a number of applications, such as node classification and link prediction. NE algorithms typically contain hyperparameters that are key to performance, but the hyperparameter tuning process can be time consuming. It is desirable to have the hyperparameters tuned within a specified length of time. Although AutoML methods have been applied to the hyperparameter tuning of NE algorithms, the problem of how to tune hyperparameters in a given period of time is not studied for NE algorithms before. In this paper, we propose JITuNE, a just-in-time hyperparameter tuning framework for NE algorithms. Our JITuNE framework enables the time-constrained hyperparameter tuning for NE algorithms by employing the tuning over hierarchical network synopses and transferring the knowledge obtained on synopses to the whole network. The hierarchical generation of synopsis and a time-constrained tuning method enable the constraining of overall tuning time. Extensive experiments demonstrate that JITuNE can significantly improve performances of NE algorithms, outperforming state-of-the-art methods within the same number of algorithm runs.
翻訳日:2021-03-28 04:30:35 公開日:2021-01-19
# (参考訳) Deep-Mobility: 効率的で信頼性の高い5Gハンドオーバのためのディープラーニングアプローチ

Deep-Mobility: A Deep Learning Approach for an Efficient and Reliable 5G Handover ( http://arxiv.org/abs/2101.06558v2 )

ライセンス: CC BY-SA 4.0
Rahul Arun Paropkari, Anurag Thantharate, Cory Beard(参考訳) 5Gセルネットワークは世界中に展開されており、このアーキテクチャは超高密度ネットワーク(UDN)デプロイメントをサポートしている。 小細胞はエンドユーザに5G接続を提供する上で非常に重要な役割を担います。 デバイス、データ、ネットワーク要求の指数的な増加は、サービスプロバイダがよりよくハンドオーバを管理し、ユーザが望むサービスに対応することを義務付ける。 従来のハンドオーバ改善スキームとは対照的に,ネットワークモビリティを管理するための深層学習ニューラルネットワーク(DLNN)を実装し,ネットワーク内深層学習と予測を利用した「深層移動」モデルを開発した。 ネットワークキーパフォーマンスインジケータ(kpi)を使用してモデルをトレーニングし、ネットワークトラフィックとハンドオーバ要件を分析します。 本手法では、リカレントニューラルネットワーク(RNN)やLong Short-Term Memory Network(LSTM)などのディープラーニングニューラルネットワークを用いて、RF信号条件を連続的に観測・追跡し、システムレベルの入力も併用して検討し、ハンドオーバの集団決定を行う。 ユーザモビリティとともに、システムイベント間の複数のパラメータとインタラクションを調査でき、任意のシナリオでハンドオフを発生させます。 本稿では,ユーザ機器(UE)とネットワーク側からの特定のKPIの影響と感度を調査しながら,本モデルの基本的モデリング手法を示し,その有用性を示す。

5G cellular networks are being deployed all over the world and this architecture supports ultra-dense network (UDN) deployment. Small cells have a very important role in providing 5G connectivity to the end users. Exponential increases in devices, data and network demands make it mandatory for the service providers to manage handovers better, to cater to the services that a user desire. In contrast to any traditional handover improvement scheme, we develop a 'Deep-Mobility' model by implementing a deep learning neural network (DLNN) to manage network mobility, utilizing in-network deep learning and prediction. We use network key performance indicators (KPIs) to train our model to analyze network traffic and handover requirements. In this method, RF signal conditions are continuously observed and tracked using deep learning neural networks such as the Recurrent neural network (RNN) or Long Short-Term Memory network (LSTM) and system level inputs are also considered in conjunction, to take a collective decision for a handover. We can study multiple parameters and interactions between system events along with the user mobility, which would then trigger a handoff in any given scenario. Here, we show the fundamental modeling approach and demonstrate usefulness of our model while investigating impacts and sensitivities of certain KPIs from the user equipment (UE) and network side.
翻訳日:2021-03-28 03:23:36 公開日:2021-01-19
# 共同定位・知覚・予測のための深部マルチタスク学習

Deep Multi-Task Learning for Joint Localization, Perception, and Prediction ( http://arxiv.org/abs/2101.06720v2 )

ライセンス: Link先を確認
John Phillips, Julieta Martinez, Ioan Andrei B\^arsan, Sergio Casas, Abbas Sadat, Raquel Urtasun(参考訳) 過去数年間、私たちは認識、動き予測、モーションプランニングなど、自動運転の多くのサブタスクで大きな進歩を見てきた。 しかし、これらのシステムは、車が高精細度マップに対して正確に局所化されていると仮定することが多い。 本稿では,この仮定に疑問を呈し,ローカライズエラー下での最先端の自律性スタックで発生する問題を考察する。 観測結果に基づき,認識,予測,局所化を共同で行うシステムの設計を行った。 本アーキテクチャでは,両タスク間の計算を再利用し,効率よくローカライズエラーを修正できる。 本研究では,大規模自律データセットを用いた実験を行い,提案手法の効率と精度を示す。

Over the last few years, we have witnessed tremendous progress on many subtasks of autonomous driving, including perception, motion forecasting, and motion planning. However, these systems often assume that the car is accurately localized against a high-definition map. In this paper we question this assumption, and investigate the issues that arise in state-of-the-art autonomy stacks under localization error. Based on our observations, we design a system that jointly performs perception, prediction, and localization. Our architecture is able to reuse computation between both tasks, and is thus able to correct localization errors efficiently. We show experiments on a large-scale autonomy dataset, demonstrating the efficiency and accuracy of our proposed approach.
翻訳日:2021-03-27 20:19:34 公開日:2021-01-19
# (参考訳) 訓練済みモデルのためのレッドアラーム:ニューロンレベルバックドアアタックによる普遍的脆弱性

Red Alarm for Pre-trained Models: Universal Vulnerabilities by Neuron-Level Backdoor Attacks ( http://arxiv.org/abs/2101.06969v2 )

ライセンス: CC BY 4.0
Zhengyan Zhang, Guangxuan Xiao, Yongwei Li, Tian Lv, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Xin Jiang, Maosong Sun(参考訳) 事前訓練されたモデル(PTM)の成功により、人々は通常、下流タスクのために既存のPTMを微調整する。 PTMの多くはオープンソースによって提供され、維持されており、バックドア攻撃に悩まされる可能性がある。 本研究では,下流タスクの知識を必要とせず,バックドアアタックによって微調整されたモデルを容易に制御できるPTMの普遍的脆弱性を実証する。 具体的には、攻撃者は単純な事前トレーニングタスクを追加して、トリガーインスタンスの出力隠れ状態を事前に定義されたターゲット埋め込み、すなわちニューロンレベルのバックドア攻撃(NeuBA)に制限することができる。 攻撃者がトリガーとそれに対応する出力隠された状態を慎重に設計すれば、微調整中にバックドア機能を排除できない。 自然言語処理(NLP)とコンピュータビジョン(CV)の両タスクの実験において,NeuBAはクリーンなデータにモデル性能に影響を与えることなく,トリガインスタンスの予測を確実に制御することを示した。 最後に、再初期化はNeuBAに抵抗できず、普遍的な脆弱性を軽減するためのいくつかの可能性について議論する。 私たちの発見は、ptmを広く使うための赤いアラームのように聞こえる。 ソースコードとデータは \url{https://github.com/thunlp/NeuBA} でアクセスできます。

Due to the success of pre-trained models (PTMs), people usually fine-tune an existing PTM for downstream tasks. Most of PTMs are contributed and maintained by open sources and may suffer from backdoor attacks. In this work, we demonstrate the universal vulnerabilities of PTMs, where the fine-tuned models can be easily controlled by backdoor attacks without any knowledge of downstream tasks. Specifically, the attacker can add a simple pre-training task to restrict the output hidden states of the trigger instances to the pre-defined target embeddings, namely neuron-level backdoor attack (NeuBA). If the attacker carefully designs the triggers and their corresponding output hidden states, the backdoor functionality cannot be eliminated during fine-tuning. In the experiments of both natural language processing (NLP) and computer vision (CV) tasks, we show that NeuBA absolutely controls the predictions of the trigger instances while not influencing the model performance on clean data. Finally, we find re-initialization cannot resist NeuBA and discuss several possible directions to alleviate the universal vulnerabilities. Our findings sound a red alarm for the wide use of PTMs. Our source code and data can be accessed at \url{https://github.com/thunlp/NeuBA}.
翻訳日:2021-03-27 13:37:04 公開日:2021-01-19
# 最適パスフォレストを用いた視覚表現の学習とBarrett食道・腺癌診断への応用

Learning Visual Representations with Optimum-Path Forest and its Applications to Barrett's Esophagus and Adenocarcinoma Diagnosis ( http://arxiv.org/abs/2101.07209v2 )

ライセンス: Link先を確認
Luis A. de Souza Jr., Luis C. S. Afonso, Alanna Ebigbo, Andreas Probst, Helmut Messmann, Robert Mendel, Christoph Palm and Jo\~ao P. Papa(参考訳) 本研究では,バレット食道(BE)と腺癌自動診断の文脈で視覚辞書を学習するための教師なし最適パスフォレスト(OPF)分類器を紹介する。 提案手法は3つの異なる特徴抽出器(SIFT, SURF, BEコンテキストA-KAZEにはまだ適用されていない)とOPFの2つの変種、放射基底関数と線形カーネルを持つサポートベクトルマシン、ベイズ分類器の5つの教師付き分類器を用いて2つのデータセット(MICCAI 2015, Augsburg)で検証された。 MICCAI 2015データセットについて, 教師なしOPFによる辞書生成, 教師付きOPFによる分類, 精度78%のSURF特徴抽出器を用いて, BE患者と腺癌患者との鑑別を行った。 アウクスブルクデータセットに関して、最も正確な結果はOPF分類器でも得られ、A-KAZEを73%近い精度で特徴抽出器とした。 特徴抽出と視覚単語の袋技術の組み合わせは,最近文献で得られた他の手法を上回り,関連する研究分野における新たな進歩を浮き彫りにした。 この研究の意義を補強するため、我々の知る限りでは、この研究の主要な貢献は、be特徴計算における教師なしのテクニックの応用であり、視覚のバグやopf分類器を使ってコンピュータ支援のbe識別に取り組むことを目的とした最初のものである。 また,A-KAZE特徴を用いた新しいBEおよび腺癌の記述も提案されているが,文献上はまだ適用されていない。

In this work, we introduce the unsupervised Optimum-Path Forest (OPF) classifier for learning visual dictionaries in the context of Barrett's esophagus (BE) and automatic adenocarcinoma diagnosis. The proposed approach was validated in two datasets (MICCAI 2015 and Augsburg) using three different feature extractors (SIFT, SURF, and the not yet applied to the BE context A-KAZE), as well as five supervised classifiers, including two variants of the OPF, Support Vector Machines with Radial Basis Function and Linear kernels, and a Bayesian classifier. Concerning MICCAI 2015 dataset, the best results were obtained using unsupervised OPF for dictionary generation using supervised OPF for classification purposes and using SURF feature extractor with accuracy nearly to 78% for distinguishing BE patients from adenocarcinoma ones. Regarding the Augsburg dataset, the most accurate results were also obtained using both OPF classifiers but with A-KAZE as the feature extractor with accuracy close to 73%. The combination of feature extraction and bag-of-visual-words techniques showed results that outperformed others obtained recently in the literature, as well as we highlight new advances in the related research area. Reinforcing the significance of this work, to the best of our knowledge, this is the first one that aimed at addressing computer-aided BE identification using bag-of-visual-words and OPF classifiers, being this application of unsupervised technique in the BE feature calculation the major contribution of this work. It is also proposed a new BE and adenocarcinoma description using the A-KAZE features, not yet applied in the literature.
翻訳日:2021-03-27 06:04:46 公開日:2021-01-19
# ねじりせん断を受ける土壌試料の変形計測のための光流動法

Optical Flow Method for Measuring Deformation of Soil Specimen Subjected to Torsional Shearing ( http://arxiv.org/abs/2101.07005v2 )

ライセンス: Link先を確認
Piotr E. Srokosz, Marcin Bujko, Marta Boche\'nska and Rafa{\l} Ossowski(参考訳) 本研究では, 実験室における微小変形測定に光流動法を用いた。 主な目的は, ねじりせん断を受ける円筒状土壌試料の全高さに沿って変形が分布する様子を観察することであった(ts試験)。 乾式非粘着性土壌試料を等方性圧力の2つの値で実験した。 小さいひずみ範囲(0.001-0.01%)で変形を解析するため,低振幅循環トルクを負荷した。 Ce Liu (2009) による光学フロー法は一連の画像からの運動推定に用いられた。 このアルゴリズムは、画像特徴抽出のためのスケール不変特徴変換(SIFT)とより高速な計算のための粗粒間マッチング方式を用いる。 結果はPIV(Particle Image Velocimetry)で検証された。 その結果, 変位分布は一般に仮定される線形性から逸脱することがわかった。 さらに, 観測された変形機構解析により, ts試験で一般的に決定されるせん断弾性率$g$をかなり過大評価できることが示唆された。

In this study optical flow method was used for soil small deformation measurement in laboratory tests. The main objective was to observe how the deformation distributes along the whole height of cylindrical soil specimen subjected to torsional shearing (TS test). The experiments were conducted on dry non-cohesive soil specimens under two values of isotropic pressure. Specimens were loaded with low-amplitude cyclic torque to analyze the deformation within the small strain range (0.001-0.01%). Optical flow method variant by Ce Liu (2009) was used for motion estimation from series of images. This algorithm uses scale-invariant feature transform (SIFT) for image feature extraction and coarse-to-fine matching scheme for faster calculations. The results were validated with the Particle Image Velocimetry (PIV). The results show that the displacement distribution deviates from commonly assumed linearity. Moreover, the observed deformation mechanisms analysis suggest that the shear modulus $G$ commonly determined through TS tests can be considerably overestimated.
翻訳日:2021-03-27 05:51:53 公開日:2021-01-19
# (参考訳) 半教師付きノイズ再構成型生成逆ネットワークによる銀河画像の翻訳

Galaxy Image Translation with Semi-supervised Noise-reconstructed Generative Adversarial Networks ( http://arxiv.org/abs/2101.07389v1 )

ライセンス: CC BY 4.0
Qiufan Lin and Dominique Fouchez and J\'er\^ome Pasquet(参考訳) ディープラーニングニューラルネットワークを用いた画像から画像への翻訳、特にgans(generative adversarial network)は、天文学的なイメージをシミュレートする最も強力な方法の1つである。 しかし、現在の研究はペア画像と教師付き翻訳の活用に限られており、器用・観察的効果を符号化するノイズ背景の再構築に関する議論は稀である。 これらの制限は、天体物理学におけるその後の科学的応用に有害である可能性がある。 そこで本稿では,画像翻訳における未ペア画像の使用とノイズ特性の保存方法を提案する。 本研究では,ペア画像とペア画像の両方を半教師付きで活用するGANを用いた双方向画像翻訳モデルを提案し,高周波特徴を特徴とする雑音の学習と再構成が可能なノイズエミュレーションモジュールを提案する。 Sloan Digital Sky Survey (SDSS) と Canada France Hawaii Telescope Legacy Survey (CFHT) のマルチバンド・ギャラクシー・イメージを実験することにより,本手法はグローバル・ローカルな特性を効果的に回復し,ベンチマーク画像変換モデルより優れていることを示す。 我々の知る限り、この研究は天体物理学研究に半教師付き手法とノイズ再構成技術を適用する最初の試みである。

Image-to-image translation with Deep Learning neural networks, particularly with Generative Adversarial Networks (GANs), is one of the most powerful methods for simulating astronomical images. However, current work is limited to utilizing paired images with supervised translation, and there has been rare discussion on reconstructing noise background that encodes instrumental and observational effects. These limitations might be harmful for subsequent scientific applications in astrophysics. Therefore, we aim to develop methods for using unpaired images and preserving noise characteristics in image translation. In this work, we propose a two-way image translation model using GANs that exploits both paired and unpaired images in a semi-supervised manner, and introduce a noise emulating module that is able to learn and reconstruct noise characterized by high-frequency features. By experimenting on multi-band galaxy images from the Sloan Digital Sky Survey (SDSS) and the Canada France Hawaii Telescope Legacy Survey (CFHT), we show that our method recovers global and local properties effectively and outperforms benchmark image translation models. To our best knowledge, this work is the first attempt to apply semi-supervised methods and noise reconstruction techniques in astrophysical studies.
翻訳日:2021-03-26 10:05:10 公開日:2021-01-19
# (参考訳) トポロジカル分析による臨床症状からのCOVID-19生物学的経路の推測

Inferring COVID-19 Biological Pathways from Clinical Phenotypes via Topological Analysis ( http://arxiv.org/abs/2101.07417v1 )

ライセンス: CC BY 4.0
Negin Karisani, Daniel E. Platt, Saugata Basu and Laxmi Parida(参考訳) 新型コロナウイルスは世界中で数千人の死者を出し、国際経済に大きな混乱をもたらした。 この病気に関連する経路の特定は、医学研究者が疾患の性質をよりよく理解するのに役立ちます。 この処理は、医療記録を分析して行うことができる。 このプロセスで研究者をタイムリーに支援できるツールやモデルを開発することが重要である。 しかし、医療記録はしばしば構造化されていない臨床記録であり、これは自動化されたシステムを開発する上で大きな課題となる。 本稿では,臨床ノートの分析と疾患関連経路を明らかにするために,実践者を支援するパイプラインを提案する。 このパイプラインは, トポロジカルな特性に依存し, 1) 臨床ノートを前処理して, 健全な概念を抽出し, 2) 抽出した概念を特徴付ける患者の特徴空間を構築し, 3) トポロジカルな特性を利用して, 利用可能な知識を抽出し, その結果を視覚化する。 新型コロナウイルス(COVID-19)の臨床ノートの公開データセットに関する実験は、パイプラインが本当に意味のある経路を抽出できることを実証しています。

COVID-19 has caused thousands of deaths around the world and also resulted in a large international economic disruption. Identifying the pathways associated with this illness can help medical researchers to better understand the properties of the condition. This process can be carried out by analyzing the medical records. It is crucial to develop tools and models that can aid researchers with this process in a timely manner. However, medical records are often unstructured clinical notes, and this poses significant challenges to developing the automated systems. In this article, we propose a pipeline to aid practitioners in analyzing clinical notes and revealing the pathways associated with this disease. Our pipeline relies on topological properties and consists of three steps: 1) pre-processing the clinical notes to extract the salient concepts, 2) constructing a feature space of the patients to characterize the extracted concepts, and finally, 3) leveraging the topological properties to distill the available knowledge and visualize the result. Our experiments on a publicly available dataset of COVID-19 clinical notes testify that our pipeline can indeed extract meaningful pathways.
翻訳日:2021-03-26 09:48:12 公開日:2021-01-19
# (参考訳) sosd-net:単眼画像からの統合意味オブジェクトセグメンテーションと深さ推定

SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from Monocular images ( http://arxiv.org/abs/2101.07422v1 )

ライセンス: CC BY 4.0
Lei He, Jiwen Lu, Guanghui Wang, Shiyu Song, Jie Zhou(参考訳) 深度推定とセマンティックセグメンテーションはシーン理解において重要な役割を果たす。 最先端の手法ではマルチタスク学習を用いて2つのタスクのモデルをピクセル単位で同時に学習する。 彼らは通常、共通の特徴を共有したり、対応するブランチから特徴マップを縫い合わせることにフォーカスする。 しかし,これらの手法は,幾何学的手がかりとシーン解析の相関性について深く考慮されていない。 本稿では,まず,これら2つの課題の幾何学的関係を画像解析によって活用する意味的対象性の概念を紹介し,対象性仮定に基づく意味的対象分割と深度推定ネットワーク(SOSD-Net)を提案する。 我々の知る限り、SOSD-Netは、一眼深度推定とセマンティックセグメンテーションを同時に行うための幾何学的制約を利用する最初のネットワークである。 また,これら2つのタスク間の相互暗黙的関係を考慮し,期待最大化アルゴリズムによる反復的アイデアを活用し,提案するネットワークをより効果的に学習する。 CityscapesとNYU v2データセットに関する大規模な実験結果を示し、提案手法の優れた性能を示す。

Depth estimation and semantic segmentation play essential roles in scene understanding. The state-of-the-art methods employ multi-task learning to simultaneously learn models for these two tasks at the pixel-wise level. They usually focus on sharing the common features or stitching feature maps from the corresponding branches. However, these methods lack in-depth consideration on the correlation of the geometric cues and the scene parsing. In this paper, we first introduce the concept of semantic objectness to exploit the geometric relationship of these two tasks through an analysis of the imaging process, then propose a Semantic Object Segmentation and Depth Estimation Network (SOSD-Net) based on the objectness assumption. To the best of our knowledge, SOSD-Net is the first network that exploits the geometry constraint for simultaneous monocular depth estimation and semantic segmentation. In addition, considering the mutual implicit relationship between these two tasks, we exploit the iterative idea from the expectation-maximization algorithm to train the proposed network more effectively. Extensive experimental results on the Cityscapes and NYU v2 dataset are presented to demonstrate the superior performance of the proposed approach.
翻訳日:2021-03-26 09:33:59 公開日:2021-01-19
# (参考訳) テイラー級数近似による部分モジュラー最大化

Submodular Maximization via Taylor Series Approximation ( http://arxiv.org/abs/2101.07423v1 )

ライセンス: CC BY 4.0
G\"ozde \"Ozcan, Armin Moharrer, Stratis Ioannidis(参考訳) 本研究では,マトロイド制約を伴う部分モジュラー最大化問題,特に,対象を解析関数と多線形関数の合成によって表現できる問題について検討する。 この形式の関数に対して、いわゆる連続 greedy アルゴリズムはテイラー級数近似による決定論的推定を用いて、任意に$(1-1/e) に近い約 0.63$ の比率を得る。 これにより、サンプリングを使用する先行技術よりも実行時間が大幅に短縮される。

We study submodular maximization problems with matroid constraints, in particular, problems where the objective can be expressed via compositions of analytic and multilinear functions. We show that for functions of this form, the so-called continuous greedy algorithm attains a ratio arbitrarily close to $(1-1/e) \approx 0.63$ using a deterministic estimation via Taylor series approximation. This drastically reduces execution time over prior art that uses sampling.
翻訳日:2021-03-26 09:10:06 公開日:2021-01-19
# (参考訳) 低解像度顔認識の性能向上のためのディープラーニングに基づく超解法アルゴリズムの解析と評価

Analysis and evaluation of Deep Learning based Super-Resolution algorithms to improve performance in Low-Resolution Face Recognition ( http://arxiv.org/abs/2101.10845v1 )

ライセンス: CC BY 4.0
Angelo G. Menezes(参考訳) 監視シナリオは、通常低解像度の映像を含むため、いくつかの問題を起こしやすく、そもそも被写体がカメラからどのくらい離れているか制御できない。 この状況は、関係する被験者の識別特性を回復できる可能性があるため、アップサンプリング(超解像)アルゴリズムの適用に適している。 一般の超解像法は人間の知覚の画質を高めるために提案されているが、バイオメトリクスの超解像法は自動認識性能の向上に重点を置いているため、画像の最良の「コンピュータ認識」バージョンを求める。 畳み込みニューラルネットワークとディープラーニングアルゴリズムは、一般にコンピュータビジョンタスクに適用され、画像分類、復元、超解像を含むいくつかのサブドメインで最先端のものとなっている。 しかし、最新の超解像法が低分解能の"in-the-wild"データにおける精度と顔認証性能に与える影響は評価されていない。 本研究の目的は、実世界の低解像度画像における顔認識性能による顔の超解像課題に対して、異なるディープニューラルネットワークアーキテクチャの評価と適応を行うことである。 実世界の監視および出席データセットにおける実験結果は、一般的な超高解像度アーキテクチャが、高分解能顔で訓練されたディープニューラルネットワークのフェイス検証性能を向上させる可能性があることを示した。 また、ニューラルネットワークは関数近似子であり、特定の目的関数に基づいてトレーニングすることができるため、特徴抽出に最適化されたカスタマイズされた損失関数の使用は、低解像度の顔画像における識別的特徴の回復に有望な結果を示した。

Surveillance scenarios are prone to several problems since they usually involve low-resolution footage, and there is no control of how far the subjects may be from the camera in the first place. This situation is suitable for the application of upsampling (super-resolution) algorithms since they may be able to recover the discriminant properties of the subjects involved. While general super-resolution approaches were proposed to enhance image quality for human-level perception, biometrics super-resolution methods seek the best "computer perception" version of the image since their focus is on improving automatic recognition performance. Convolutional neural networks and deep learning algorithms, in general, have been applied to computer vision tasks and are now state-of-the-art for several sub-domains, including image classification, restoration, and super-resolution. However, no work has evaluated the effects that the latest proposed super-resolution methods may have upon the accuracy and face verification performance in low-resolution "in-the-wild" data. This project aimed at evaluating and adapting different deep neural network architectures for the task of face super-resolution driven by face recognition performance in real-world low-resolution images. The experimental results in a real-world surveillance and attendance datasets showed that general super-resolution architectures might enhance face verification performance of deep neural networks trained on high-resolution faces. Also, since neural networks are function approximators and can be trained based on specific objective functions, the use of a customized loss function optimized for feature extraction showed promising results for recovering discriminant features in low-resolution face images.
翻訳日:2021-03-26 08:43:17 公開日:2021-01-19
# (参考訳) 空間変調を用いたDECRの高速収束

Fast Convergence of DETR with Spatially Modulated Co-Attention ( http://arxiv.org/abs/2101.07448v1 )

ライセンス: CC BY 4.0
Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li(参考訳) 最近提案されたDETRモデルは、Transformerをオブジェクト検出に適用し、Faster-RCNNのような2段階のオブジェクト検出フレームワークで同等のパフォーマンスを実現する。 しかし、DETRは収束が遅い。 DETR \cite{carion2020end}をスクラッチからトレーニングするには500エポックが必要である。 そこで本研究では,その収束を加速するために,DECフレームワーク,すなわちSpatially Modulated Co-Attention (SMCA) 機構を改善するための簡易かつ効果的な手法を提案する。 SMCAの中核となる考え方は、当初推定された境界ボックス付近で高いコアテンション応答を制限し、DECにおける回帰認識コアテンションを実行することである。 提案するSMCAは,DeTR内の他の操作を一定に保ちながら,デコーダ内の元のコアテンション機構を置き換えることで,DTRの収束速度を向上する。 さらに,マルチヘッドおよびスケール選択型アテンションデザインをSMCAに統合することにより,拡張畳み込みベースバックボーン(45.6 mAP,108 epochs,43.3 mAP,500 epochs)のDETRよりも優れた性能が得られる。 提案したSMCAの有効性を検証するため,COCOデータセットに対する広範囲なアブレーション研究を行った。

The recently proposed Detection Transformer (DETR) model successfully applies Transformer to objects detection and achieves comparable performance with two-stage object detection frameworks, such as Faster-RCNN. However, DETR suffers from its slow convergence. Training DETR \cite{carion2020end} from scratch needs 500 epochs to achieve a high accuracy. To accelerate its convergence, we propose a simple yet effective scheme for improving the DETR framework, namely Spatially Modulated Co-Attention (SMCA) mechanism. The core idea of SMCA is to conduct regression-aware co-attention in DETR by constraining co-attention responses to be high near initially estimated bounding box locations. Our proposed SMCA increases DETR's convergence speed by replacing the original co-attention mechanism in the decoder while keeping other operations in DETR unchanged. Furthermore, by integrating multi-head and scale-selection attention designs into SMCA, our fully-fledged SMCA can achieve better performance compared to DETR with a dilated convolution-based backbone (45.6 mAP at 108 epochs vs. 43.3 mAP at 500 epochs). We perform extensive ablation studies on COCO dataset to validate the effectiveness of the proposed SMCA.
翻訳日:2021-03-26 08:19:38 公開日:2021-01-19
# (参考訳) 名前付きエンティティ認識のための単対複数アノテーション

Single versus Multiple Annotation for Named Entity Recognition of Mutations ( http://arxiv.org/abs/2101.07450v1 )

ライセンス: CC BY 4.0
David Martinez Iraola and Antonio Jimeno Yepes(参考訳) 本研究の目的は、手動で注釈付きデータを構築するための異なるアプローチを解析することにより、変異のNER(Named Entity Recognition)の知識獲得ボトルネックを解決することである。 まず,2つのアノテータに対して1つのアノテータを用いることで,複数のアノテータが必要かどうかを測定する。 1つのアノテータを使用する場合のパフォーマンス損失を評価すると、異なる方法を適用して第2のアノテーションのトレーニングデータをサンプリングし、フルパスを必要とせずにデータセットの品質を改善することを目指しています。 保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。 i) 誤りであるトレーニングインスタンスを識別する能力(議論後の二重アノテーションとは異なる場合) および(ii) 修正を異なる閾値で統合した後の最先端の分類器に対するミューテーションNER性能について評価する。

The focus of this paper is to address the knowledge acquisition bottleneck for Named Entity Recognition (NER) of mutations, by analysing different approaches to build manually-annotated data. We address first the impact of using a single annotator vs two annotators, in order to measure whether multiple annotators are required. Once we evaluate the performance loss when using a single annotator, we apply different methods to sample the training data for second annotation, aiming at improving the quality of the dataset without requiring a full pass. We use held-out double-annotated data to build two scenarios with different types of rankings: similarity-based and confidence based. We evaluate both approaches on: (i) their ability to identify training instances that are erroneous (cases where single-annotator labels differ from double-annotation after discussion), and (ii) on Mutation NER performance for state-of-the-art classifiers after integrating the fixes at different thresholds.
翻訳日:2021-03-26 08:01:43 公開日:2021-01-19
# (参考訳) 手書きページセグメンテーションのための教師なしディープラーニング

Unsupervised Deep Learning for Handwritten Page Segmentation ( http://arxiv.org/abs/2101.07487v1 )

ライセンス: CC BY 4.0
Ahmad Droby, Berat Kurar Barakat, Borak Madi, Reem Alaasam and Jihad El-Sana(参考訳) 手書きの文書画像を均質なパターンで領域に分割することは、多くの文書画像分析タスクにおいて重要な前処理ステップである。 レイアウト分析のためのディープラーニングモデルをトレーニングするための手ラベルデータには、かなりの人的労力が必要です。 本稿では,注釈付き画像の必要性を排除したページセグメンテーションのための教師なしディープラーニング手法を提案する。 サイムズニューラルネットワークは、前景画素数、平均コンポーネント高さと幅などの測定可能な特性を用いてパッチを区別するように訓練される。 ネットワークは、空間的に近接するパッチが似ているように訓練される。 ネットワークの学習した機能はページセグメンテーションに使用され、パッチは抽出された特徴に基づいてメインテキストとサイドテキストに分類される。 非常に複雑なレイアウトで手書き文書画像のデータセット上で本手法を検証した。 実験の結果,提案手法は通常の教師なし手法と同じくらい有効であることがわかった。

Segmenting handwritten document images into regions with homogeneous patterns is an important pre-processing step for many document images analysis tasks. Hand-labeling data to train a deep learning model for layout analysis requires significant human effort. In this paper, we present an unsupervised deep learning method for page segmentation, which revokes the need for annotated images. A siamese neural network is trained to differentiate between patches using their measurable properties such as number of foreground pixels, and average component height and width. The network is trained that spatially nearby patches are similar. The network's learned features are used for page segmentation, where patches are classified as main and side text based on the extracted features. We tested the method on a dataset of handwritten document images with quite complex layouts. Our experiments show that the proposed unsupervised method is as effective as typical supervised methods.
翻訳日:2021-03-23 14:05:29 公開日:2021-01-19
# (参考訳) 時系列データにおけるbilevel programmingを用いたcnnのハイパーパラメータの最適化

Optimizing Hyperparameters in CNNs using Bilevel Programming in Time Series Data ( http://arxiv.org/abs/2101.07492v1 )

ライセンス: CC BY 4.0
Taniya Seth and Pranab K. Muhuri(参考訳) ハイパーパラメータ最適化は、最先端の結果を生成する能力のため、マシンラーニングコミュニティの中心的なトピックであり続けている。 近年の時系列予測におけるcnnの利用への関心が高まる中、時系列予測のためにcnnのハイパーパラメータを最適化する概念を提案する。 本稿では,超パラメータ最適化問題を双レベルプログラミングを用いてモデル化する手法について述べる。

Hyperparameter optimization has remained a central topic within the machine learning community due to its ability to produce state-of-the-art results. With the recent interest growing in the usage of CNNs for time series prediction, we propose the notion of optimizing Hyperparameters in CNNs for the purpose of time series prediction. In this position paper, we give away the idea of modeling the concerned hyperparameter optimization problem using bilevel programming.
翻訳日:2021-03-23 13:39:23 公開日:2021-01-19
# (参考訳) 医療のための協調的フェデレーションラーニング:端部におけるマルチモーダルなCOVID-19診断

Collaborative Federated Learning For Healthcare: Multi-Modal COVID-19 Diagnosis at the Edge ( http://arxiv.org/abs/2101.07511v1 )

ライセンス: CC BY 4.0
Adnan Qayyum, Kashif Ahmad, Muhammad Ahtazaz Ahsan, Ala Al-Fuqaha, and Junaid Qadir(参考訳) ここ数年で大幅に改善されたにもかかわらず、クラウドベースのヘルスケアアプリケーションは、厳格なセキュリティ、プライバシ、サービス要件の品質(低レイテンシなど)を満たすことの制限により、採用が遅れている。 エッジコンピューティングのトレンドは、フェデレーション学習のような分散機械学習のテクニックとともに、このような環境で実行可能なソリューションとして人気を集めています。 本稿では,先進的な診断施設を欠いた遠隔医療センターにおいて,臨床視覚データのインテリジェントな処理の可能性を分析し,評価することにより,医療におけるエッジコンピューティングの能力を活用し,マルチモーダルデータの安全性を享受する。 そこで本研究では,クラスタ化フェデレーション学習(CFL)の概念を,新型コロナウイルスの自動診断に活用する。 このような自動化システムは、新型コロナウイルス(covid-19)のパンデミックが2019年後半に発生して以来、多くのストレスにさらされてきた世界中の医療システムの負担を軽減するのに役立つ。 2つのベンチマークデータセットの異なる実験環境において,提案フレームワークの性能を評価する。 その結果、それぞれのデータセットにおいて、特定のモデル(例えば、特定の種類のCOVID-19画像上の各モデル)を中心データでトレーニングする中央ベースラインに対して比較結果が得られ、X線および超音波データセット上の従来のフェデレートラーニング設定でトレーニングされたマルチモーダルモデルに対して、全体的なF1スコアの16.%と11.%の改善が達成された。 また,このようなプライバシや遅延に敏感なアプリケーションにおいて,mlをエッジにデプロイするための,関連する課題や技術,ツール,テクニックについても詳細に論じる。

Despite significant improvements over the last few years, cloud-based healthcare applications continue to suffer from poor adoption due to their limitations in meeting stringent security, privacy, and quality of service requirements (such as low latency). The edge computing trend, along with techniques for distributed machine learning such as federated learning, have gained popularity as a viable solution in such settings. In this paper, we leverage the capabilities of edge computing in medicine by analyzing and evaluating the potential of intelligent processing of clinical visual data at the edge allowing the remote healthcare centers, lacking advanced diagnostic facilities, to benefit from the multi-modal data securely. To this aim, we utilize the emerging concept of clustered federated learning (CFL) for an automatic diagnosis of COVID-19. Such an automated system can help reduce the burden on healthcare systems across the world that has been under a lot of stress since the COVID-19 pandemic emerged in late 2019. We evaluate the performance of the proposed framework under different experimental setups on two benchmark datasets. Promising results are obtained on both datasets resulting in comparable results against the central baseline where the specialized models (i.e., each on a specific type of COVID-19 imagery) are trained with central data, and improvements of 16\% and 11\% in overall F1-Scores have been achieved over the multi-modal model trained in the conventional Federated Learning setup on X-ray and Ultrasound datasets, respectively. We also discuss in detail the associated challenges, technologies, tools, and techniques available for deploying ML at the edge in such privacy and delay-sensitive applications.
翻訳日:2021-03-23 05:17:41 公開日:2021-01-19
# (参考訳) Momentum^2 Teacher: Momentum Statistics for Self-Supervised Learning

Momentum^2 Teacher: Momentum Teacher with Momentum Statistics for Self-Supervised Learning ( http://arxiv.org/abs/2101.07525v1 )

ライセンス: CC BY 4.0
Zeming Li, Songtao Liu, Jian Sun(参考訳) 本稿では,学生教師による自己指導型学習のための新しいアプローチ,Momentum$^2$ Teacherを提案する。 このアプローチは、ネットワークウェイトとバッチ正規化(BN)統計の両方でモーメント更新を行う。 教師の体重は生徒の運動量の変化であり、教師のBN統計は歴史における運動量の変化である。 Momentum$^2$ Teacherはシンプルで効率的です。 これは、小さなバッチサイズ(\eg, 128)を使用して、TPUのような特別なハードウェアでの大規模なバッチトレーニングやGPU操作間の非効率(\eg, shuffling BN, synced BN)を必要とせずに、ImageNetリニア評価プロトコル(74.5\%)下での成果を達成することができる。 実装と事前トレーニングされたモデルはgithub\footnote{https://github.com/zengarden/momentum2-teacher}で提供される。

In this paper, we present a novel approach, Momentum$^2$ Teacher, for student-teacher based self-supervised learning. The approach performs momentum update on both network weights and batch normalization (BN) statistics. The teacher's weight is a momentum update of the student, and the teacher's BN statistics is a momentum update of those in history. The Momentum$^2$ Teacher is simple and efficient. It can achieve the state of the art results (74.5\%) under ImageNet linear evaluation protocol using small-batch size(\eg, 128), without requiring large-batch training on special hardware like TPU or inefficient across GPU operation (\eg, shuffling BN, synced BN). Our implementation and pre-trained models will be given on GitHub\footnote{https://github.com/zengarden/momentum2-teacher}.
翻訳日:2021-03-23 04:57:57 公開日:2021-01-19
# (参考訳) VML-MOC: 多重指向および曲面手書きテキストラインデータセットのセグメンテーション

VML-MOC: Segmenting a multiply oriented and curved handwritten text lines dataset ( http://arxiv.org/abs/2101.07542v1 )

ライセンス: CC BY 4.0
Berat Kurar Barakat, Rafi Cohen, Irina Rabaev, and Jihad El-Sana(参考訳) 本稿では,VML-MOCデータセットという,テキスト行の多重化による手書き文書の自然な,非常に複雑なデータセットを公開する。 これらのテキストは、何年にもわたって異なる著者によってページマージンに言及された。 それらは 0 から 180 までの方向の異なる位置に現れるか、あるいは曲線形式として現れる。 我々は、任意の向きで歪んだり湾曲した手書きテキスト行を分割する多目的ガウス的手法を評価する。 テスト文書の結合スコアが80.96%を超える平均ピクセル交点を達成している。 その結果, 単方向ガウスに基づくテキスト線分割法の結果と比較した。

This paper publishes a natural and very complicated dataset of handwritten documents with multiply oriented and curved text lines, namely VML-MOC dataset. These text lines were written as remarks on the page margins by different writers over the years. They appear at different locations within the orientations that range between 0 and 180 or as curvilinear forms. We evaluate a multi-oriented Gaussian based method to segment these handwritten text lines that are skewed or curved in any orientation. It achieves a mean pixel Intersection over Union score of 80.96% on the test documents. The results are compared with the results of a single-oriented Gaussian based text line segmentation method.
翻訳日:2021-03-23 04:40:57 公開日:2021-01-19
# (参考訳) 医用画像の深層学習モデルの視覚的解釈性に対するStyleGANの利用

Using StyleGAN for Visual Interpretability of Deep Learning Models on Medical Images ( http://arxiv.org/abs/2101.07563v1 )

ライセンス: CC BY 4.0
Kathryn Schutte, Olivier Moindrot, Paul H\'erent, Jean-Baptiste Schiratti, Simon J\'egou(参考訳) aiベースの医療機器が放射線学や組織学などの画像分野で一般的になるにつれ、基礎となる予測モデルの解釈性は臨床での使用拡大に不可欠である。 GradCAMのような既存のヒートマップベースの解釈可能性手法は、予測機能の位置のみを強調するが、予測にどのように貢献するかは説明していない。 本稿では,画像上の任意のブラックボックスモデルの予測を理解するために,入力画像をどのように修正して異なる予測を生成するかを示すことにより,新たな解釈可能性を提案する。 StyleGANは医療画像に基づいて訓練され、潜伏ベクトルと画像のマッピングを提供する。 提案手法は,潜在空間における最適方向を同定し,モデル予測の変化を生成する。 この方向に沿って入力画像の潜在表現をシフトさせることにより、予測が変化する一連の新しい合成画像を生成することができる。 組織学および放射線画像へのアプローチを検証し,GradCAMヒートマップよりも有意義な説明を提供する能力を示した。 提案手法は, モデルによって得られたパターンを明らかにし, 臨床医がモデルの予測を信頼し, 新たなバイオマーカーを発見し, 最終的には潜在的なバイアスを明らかにする。

As AI-based medical devices are becoming more common in imaging fields like radiology and histology, interpretability of the underlying predictive models is crucial to expand their use in clinical practice. Existing heatmap-based interpretability methods such as GradCAM only highlight the location of predictive features but do not explain how they contribute to the prediction. In this paper, we propose a new interpretability method that can be used to understand the predictions of any black-box model on images, by showing how the input image would be modified in order to produce different predictions. A StyleGAN is trained on medical images to provide a mapping between latent vectors and images. Our method identifies the optimal direction in the latent space to create a change in the model prediction. By shifting the latent representation of an input image along this direction, we can produce a series of new synthetic images with changed predictions. We validate our approach on histology and radiology images, and demonstrate its ability to provide meaningful explanations that are more informative than GradCAM heatmaps. Our method reveals the patterns learned by the model, which allows clinicians to build trust in the model's predictions, discover new biomarkers and eventually reveal potential biases.
翻訳日:2021-03-23 04:28:45 公開日:2021-01-19
# (参考訳) 最大平均差最小化のためのグリードアルゴリズムの性能解析

Performance analysis of greedy algorithms for minimising a Maximum Mean Discrepancy ( http://arxiv.org/abs/2101.07564v1 )

ライセンス: CC BY 4.0
Luc Pronzato(参考訳) 我々は,最大平均離散性(MMD)の最小化に基づいて,確率測度$\mu$の量子化のための複数の反復アルゴリズムの性能を解析する。 我々の分析では、カーネルハーディング、greedy MMD最小化、Sequential Bayesian Quadrature (SBQ)がある。 MMDが測定した有限サンプルサイズ近似誤差はSBQに対して1/n$と減少し,また,ステップサイズシーケンスを使用する場合のカーネルハーディングやグリーディーMDDの最小化にも有効であることを示す。 近似誤差の上界はsbqより若干優れているが、他の手法の方がかなり高速であり、計算コストは選択した点数で線形に増加するだけである。 これは2つの数値的な例で示され、目標測度 $\mu$ は一様(空間充填設計のアプリケーション)であり、$\mu$ はガウス混合である。

We analyse the performance of several iterative algorithms for the quantisation of a probability measure $\mu$, based on the minimisation of a Maximum Mean Discrepancy (MMD). Our analysis includes kernel herding, greedy MMD minimisation and Sequential Bayesian Quadrature (SBQ). We show that the finite-sample-size approximation error, measured by the MMD, decreases as $1/n$ for SBQ and also for kernel herding and greedy MMD minimisation when using a suitable step-size sequence. The upper bound on the approximation error is slightly better for SBQ, but the other methods are significantly faster, with a computational cost that increases only linearly with the number of points selected. This is illustrated by two numerical examples, with the target measure $\mu$ being uniform (a space-filling design application) and with $\mu$ a Gaussian mixture.
翻訳日:2021-03-23 04:21:18 公開日:2021-01-19
# (参考訳) 第3次人工知能(AI)カリキュラムの作成と評価

Creation and Evaluation of a Pre-tertiary Artificial Intelligence (AI) Curriculum ( http://arxiv.org/abs/2101.07570v1 )

ライセンス: CC BY 4.0
Thomas K.F. Chiu, Helen Meng, Ching-Sing Chai, Irwin King, Savio Wong and Yeung Yam(参考訳) コントリビューション:香港大学(CUHK)-Jockey Club AI for the Future Project(AI4Future)は、第3次教育のためのAIカリキュラムを共同で作成し、その効果を評価した。 従来,第3級教育ではAIが教えられていたが,香港の中等教育で使われ,肯定的なフィードバックを受けたカリキュラムの開発に成功している。 背景: AI4Futureは、CUHK工学部と教育学部、香港中等学校、政府、AI産業の5つの主要なパートナーからなるクロスセクタープロジェクトである。 工学と教育を専門とする14人の教授が、6つの中学校の17の校長と教師と協力してカリキュラムを共同作成した。 このチーム構成は、工学と教育の研究者と、教育の文脈における実践者のギャップを埋める。 研究質問:共同作成プロセスを通じて開発されたカリキュラムコンテンツの主な特徴は何か。 カリキュラムは、AIに対する態度やモチベーションだけでなく、学生の能力向上に寄与するか? 教師の自立と育成を目的とした共創プロセスに対する教師の認識はどのようなものか。 方法】335名の学生を対象に,定量的および定性的手法を併用した。 その結果,1) 学習資源の2つの主な特徴,2) 学習者の能力向上,2) 学習に対する肯定的な態度,3) 共創プロセスは,AIにおける教師の知識を向上する様々な資源を生み出し,また,授業に課題を取り入れた教師の自主性を育成した。

Contributions: The Chinese University of Hong Kong (CUHK)-Jockey Club AI for the Future Project (AI4Future) co-created an AI curriculum for pre-tertiary education and evaluated its efficacy. While AI is conventionally taught in tertiary level education, our co-creation process successfully developed the curriculum that has been used in secondary school teaching in Hong Kong and received positive feedback. Background: AI4Future is a cross-sector project that engages five major partners - CUHK Faculty of Engineering and Faculty of Education, Hong Kong secondary schools, the government and the AI industry. A team of 14 professors with expertise in engineering and education collaborated with 17 principals and teachers from 6 secondary schools to co-create the curriculum. This team formation bridges the gap between researchers in engineering and education, together with practitioners in education context. Research Questions: What are the main features of the curriculum content developed through the co-creation process? Would the curriculum significantly improve the students perceived competence in, as well as attitude and motivation towards AI? What are the teachers perceptions of the co-creation process that aims to accommodate and foster teacher autonomy? Methodology: This study adopted a mix of quantitative and qualitative methods and involved 335 student participants. Findings: 1) two main features of learning resources, 2) the students perceived greater competence, and developed more positive attitude to learn AI, and 3) the co-creation process generated a variety of resources which enhanced the teachers knowledge in AI, as well as fostered teachers autonomy in bringing the subject matter into their classrooms.
翻訳日:2021-03-23 04:20:10 公開日:2021-01-19
# (参考訳) 空間アセンブリ:強化学習,自己遊び,木探索を用いた生成的アーキテクチャ

Spatial Assembly: Generative Architecture With Reinforcement Learning, Self Play and Tree Search ( http://arxiv.org/abs/2101.07579v1 )

ライセンス: CC BY 4.0
Panagiotis Tigas and Tyson Hosmer(参考訳) 本研究では,空間集合生成における強化学習(Reinforcement Learning, RL)の利用について, 逐次生成アルゴリズム(Wave Function Collapse Algorithm, WFC)とゲーム解決のためのRLのアイデアを組み合わせて検討する。 WFC は Constraint Solving にインスパイアされた生成設計アルゴリズムである。 WFCでは、タイル/ブロックと制約のセットを定義し、アルゴリズムはこれらの制約を満たすアセンブリを生成する。 状態遷移をwfcで定義したマルコフ決定プロセスとして空間集合の生成の問題を取り上げ,強化学習と自己遊びを用いて,設計者が設定した目標を最大化する集合を生成するポリシを学習するアルゴリズムを提案する。 最後に,建築設計における空間集合アルゴリズムの活用を実演する。

With this work, we investigate the use of Reinforcement Learning (RL) for the generation of spatial assemblies, by combining ideas from Procedural Generation algorithms (Wave Function Collapse algorithm (WFC)) and RL for Game Solving. WFC is a Generative Design algorithm, inspired by Constraint Solving. In WFC, one defines a set of tiles/blocks and constraints and the algorithm generates an assembly that satisfies these constraints. Casting the problem of generation of spatial assemblies as a Markov Decision Process whose states transitions are defined by WFC, we propose an algorithm that uses Reinforcement Learning and Self-Play to learn a policy that generates assemblies that maximize objectives set by the designer. Finally, we demonstrate the use of our Spatial Assembly algorithm in Architecture Design.
翻訳日:2021-03-23 04:05:51 公開日:2021-01-19
# (参考訳) 空間情報に基づくデュアルドメインによるリアルタイムリミテッドビューctインペインティングと再構成

Real-Time Limited-View CT Inpainting and Reconstruction with Dual Domain Based on Spatial Information ( http://arxiv.org/abs/2101.07594v1 )

ライセンス: CC BY 4.0
Ken Deng, Chang Sun, Yitong Liu, Hongwen Yang(参考訳) 低線量CTは現実の一般的な問題である。 現在の削減、スパースサンプリング、限定的なビュースキャンがすべて原因です。 それらの間には、機械的・物理的制限が避けられないため、業界ではリミテッドビューCTが一般的である。 しかし, 限られた視野CTは, 膨大な情報損失を考慮し, 深刻な画像障害を引き起こす可能性がある。 したがって、スキャン済みの事前情報を有効活用して完了させる。 CT画像スライスは非常に密度が高く、連続した画像間の連続性が高いことは、否定できない事実である。 その結果,連続フレーム間の空間相関を十分に活用することで,映像インパインティングにおける復元結果を大幅に改善できることがわかった。 そこで本研究では,空間情報に基づく限定視点CT画像品質を向上する深層学習に基づく3段階アルゴリズムを提案する。 ステージ1では、Radonドメインの事前情報をよりよく活用するために、Radonデータを補完する対向オートエンコーダを設計する。 第2段階では、画像領域の空間連続性に基づくインペインティングを行うためのモデルが構築される。 この時点では、画像は概ね復元されているが、テクスチャはいまだに細かく修復する必要がある。 そこで我々は,ステージ3の画像を正確に復元するモデルを提案し,最終的に理想的な塗装結果を得る。 さらに,SART-TVの代わりにFBPを採用し,リアルタイム利用に適したアルゴリズムを提案する。 実験では, 後方3分の1を切断したRadonデータを復元, 復元し, 40.209のPSNR, 0.943のSSIMを実現し, テクスチャを正確に提示する。

Low-dose Computed Tomography is a common issue in reality. Current reduction, sparse sampling and limited-view scanning can all cause it. Between them, limited-view CT is general in the industry due to inevitable mechanical and physical limitation. However, limited-view CT can cause serious imaging problem on account of its massive information loss. Thus, we should effectively utilize the scant prior information to perform completion. It is an undeniable fact that CT imaging slices are extremely dense, which leads to high continuity between successive images. We realized that fully exploit the spatial correlation between consecutive frames can significantly improve restoration results in video inpainting. Inspired by this, we propose a deep learning-based three-stage algorithm that hoist limited-view CT imaging quality based on spatial information. In stage one, to better utilize prior information in the Radon domain, we design an adversarial autoencoder to complement the Radon data. In the second stage, a model is built to perform inpainting based on spatial continuity in the image domain. At this point, we have roughly restored the imaging, while its texture still needs to be finely repaired. Hence, we propose a model to accurately restore the image in stage three, and finally achieve an ideal inpainting result. In addition, we adopt FBP instead of SART-TV to make our algorithm more suitable for real-time use. In the experiment, we restore and reconstruct the Radon data that has been cut the rear one-third part, they achieve PSNR of 40.209, SSIM of 0.943, while precisely present the texture.
翻訳日:2021-03-23 04:02:35 公開日:2021-01-19
# (参考訳) 自己説明ニューラルネットワークを用いたグレンジャー因果関係の解釈モデル

Interpretable Models for Granger Causality Using Self-explaining Neural Networks ( http://arxiv.org/abs/2101.07600v1 )

ライセンス: CC BY 4.0
Ri\v{c}ards Marcinkevi\v{c}s, Julia E. Vogt(参考訳) 時系列データの探索解析は、複雑な力学系をよりよく理解することができる。 グランガー因果関係は、広範囲の領域に適用されたシーケンシャルデータにおける相互作用を分析するための実践的なフレームワークである。 本稿では,自己説明型ニューラルネットワークの拡張に基づく非線形力学下での多変量グランガー因果関係の推論手法を提案する。 このフレームワークは、リレーショナル推論に加えて、グランガー因果効果の兆候を検出し、時間とともに変動を検査できるため、他の神経ネットワークベースのグラガー因果関係を推定する技術よりも解釈可能である。 シミュレーションデータに関する包括的実験において,我々のフレームワークはグランガー因果関係を推定するいくつかの強力なベースライン手法と同等の性能を発揮し,対話符号を推定する性能が向上することを示した。 その結果,我々のフレームワークは,グラガー因果関係を推定するためのスパースインプットニューラルネットワークの代替として,より有効かつ解釈可能なものであることが示唆された。

Exploratory analysis of time series data can yield a better understanding of complex dynamical systems. Granger causality is a practical framework for analysing interactions in sequential data, applied in a wide range of domains. In this paper, we propose a novel framework for inferring multivariate Granger causality under nonlinear dynamics based on an extension of self-explaining neural networks. This framework is more interpretable than other neural-network-based techniques for inferring Granger causality, since in addition to relational inference, it also allows detecting signs of Granger-causal effects and inspecting their variability over time. In comprehensive experiments on simulated data, we show that our framework performs on par with several powerful baseline methods at inferring Granger causality and that it achieves better performance at inferring interaction signs. The results suggest that our framework is a viable and more interpretable alternative to sparse-input neural networks for inferring Granger causality.
翻訳日:2021-03-23 03:44:28 公開日:2021-01-19
# (参考訳) 胸部X線写真からの心胸壁比算出のための深層学習モデルによる心肥大診断

Deep Learning Models for Calculation of Cardiothoracic Ratio from Chest Radiographs for Assisted Diagnosis of Cardiomegaly ( http://arxiv.org/abs/2101.07606v1 )

ライセンス: CC BY 4.0
Tanveer Gupte, Mrunmai Niljikar, Manish Gawali, Viraj Kulkarni, Amit Kharat, Aniruddha Pant(参考訳) 本稿では,胸部X線写真から心内膜像の存在を検出するための深層学習に基づく自動手法を提案する。 結束箱を用いたx線画像の心臓と胸部領域を画定する2つのモデルを開発し,その出力を用いて心拍数を算出した。 保持試験データセットで平均絶対誤差0.0209、特定度0.097で0.08、別病院から独立したデータセットで平均絶対誤差0.018の感度を0.96とする。 また,提案手法の3つのセグメンテーションモデルアーキテクチャを比較し,SE-Resnext U-NetやEfficientNet U-Netよりも優れた結果が得られることを示した。 心エコー比を数値的に測定することで,視覚的評価から生じるヒトの主観性を軽減することが期待されている。

We propose an automated method based on deep learning to compute the cardiothoracic ratio and detect the presence of cardiomegaly from chest radiographs. We develop two separate models to demarcate the heart and chest regions in an X-ray image using bounding boxes and use their outputs to calculate the cardiothoracic ratio. We obtain a sensitivity of 0.96 at a specificity of 0.81 with a mean absolute error of 0.0209 on a held-out test dataset and a sensitivity of 0.84 at a specificity of 0.97 with a mean absolute error of 0.018 on an independent dataset from a different hospital. We also compare three different segmentation model architectures for the proposed method and observe that Attention U-Net yields better results than SE-Resnext U-Net and EfficientNet U-Net. By providing a numeric measurement of the cardiothoracic ratio, we hope to mitigate human subjectivity arising out of visual assessment in the detection of cardiomegaly.
翻訳日:2021-03-23 03:15:26 公開日:2021-01-19
# (参考訳) 時間選好による経年的引用推薦

Chronological Citation Recommendation with Time Preference ( http://arxiv.org/abs/2101.07609v1 )

ライセンス: CC BY 4.0
Shutian Ma, Heng Zhang, Chengzhi Zhang, Xiaozhong Liu(参考訳) 引用推薦は、研究者が引用する候補文献を見つけるのを助ける重要な課題である。 伝統的な研究は引用を推奨する静的モデルに焦点を当てており、時間変化によって引き起こされる論文の違いを明示的に区別していない。 しかし,時間関連機能の追加やテクスト的話題の動的モデル化により,経年的引用推薦について検討する研究者もいる。 これらのソリューションは、ユーザのプロファイリングに関する情報がない場合や、独立した論文が引用されない場合、機能の一般化やコールドスタートの問題に対処できない。 科学パラダイムの台頭と衰退に伴い、科学のトピックは時間とともに変化し進化する傾向がある。 古い時代に出版された古典的読解に理論的な基礎がほとんど存在するのに対し、より最近の論文では新しい技術が提案されているため、人々は論文の引用に時間的好みを持つだろう。 本論文は, 時系列引用の推奨を探索するために, ユーザクエリに基づいて, 異なる時間スライスで発行された論文を引用する確率分布である時間優先性を予測することを目的とする。 次に、この時間設定を用いて、コンテンツベースのフィルタリングによって得られた初期引用リストを再ランクする。 実験の結果、タスクパフォーマンスが時間優先によってさらに向上できることが示され、他の引用レコメンデーションフレームワークに追加するフレキシブルである。

Citation recommendation is an important task to assist scholars in finding candidate literature to cite. Traditional studies focus on static models of recommending citations, which do not explicitly distinguish differences between papers that are caused by temporal variations. Although, some researchers have investigated chronological citation recommendation by adding time related function or modeling textual topics dynamically. These solutions can hardly cope with function generalization or cold-start problems when there is no information for user profiling or there are isolated papers never being cited. With the rise and fall of science paradigms, scientific topics tend to change and evolve over time. People would have the time preference when citing papers, since most of the theoretical basis exist in classical readings that published in old time, while new techniques are proposed in more recent papers. To explore chronological citation recommendation, this paper wants to predict the time preference based on user queries, which is a probability distribution of citing papers published in different time slices. Then, we use this time preference to re-rank the initial citation list obtained by content-based filtering. Experimental results demonstrate that task performance can be further enhanced by time preference and it's flexible to be added in other citation recommendation frameworks.
翻訳日:2021-03-23 03:04:49 公開日:2021-01-19
# (参考訳) CTスキャンにおけるセマンティックセグメンテーションのための3次元および2次元深層学習手法の比較評価

Comparative Evaluation of 3D and 2D Deep Learning Techniques for Semantic Segmentation in CT Scans ( http://arxiv.org/abs/2101.07612v1 )

ライセンス: CC BY 4.0
Abhishek Shivdeo, Rohit Lokwani, Viraj Kulkarni, Amit Kharat, Aniruddha Pant(参考訳) 画像セグメンテーションは、関心領域のセグメンテーションを支援することで、いくつかの医療画像アプリケーションにおいて重要な役割を果たす。 深層学習に基づくアプローチは医学データのセマンティクスセグメンテーションに広く採用されている。 近年,2次元深層学習アーキテクチャに加えて,3次元医用画像データの予測アルゴリズムとして3次元アーキテクチャが採用されている。 本稿では, 3次元ctスキャンにおいて, 固化と接地ガラスの不透明さをセグメント化するための3次元スタックベース深層学習手法を提案する。 また,この3D手法と従来の2D深層学習手法のセグメンテーション結果,文脈情報保持時間,および推論時間に基づいて比較を行った。 また、これらの深層学習モデルにより予測される病理領域のスライスワイズ領域で観察される特異なパターンを表す領域プロットを定義する。 総括評価では,CTスキャンのセグメンテーションにおいて,3次元法の方が2次元法より優れていた。 3D法と2D法では,それぞれ79%,73%のダイススコアが得られた。 3D法は2D法と比較して推論時間を5倍に短縮する。 また, 3次元モデルによって予測される領域プロットは, 2次元モデルで予測されるものよりも基底的真理に類似していることが示された。 また,トレーニング中に保持する文脈情報の量を増やすことで,3次元モデルの性能が向上することを示す。

Image segmentation plays a pivotal role in several medical-imaging applications by assisting the segmentation of the regions of interest. Deep learning-based approaches have been widely adopted for semantic segmentation of medical data. In recent years, in addition to 2D deep learning architectures, 3D architectures have been employed as the predictive algorithms for 3D medical image data. In this paper, we propose a 3D stack-based deep learning technique for segmenting manifestations of consolidation and ground-glass opacities in 3D Computed Tomography (CT) scans. We also present a comparison based on the segmentation results, the contextual information retained, and the inference time between this 3D technique and a traditional 2D deep learning technique. We also define the area-plot, which represents the peculiar pattern observed in the slice-wise areas of the pathology regions predicted by these deep learning models. In our exhaustive evaluation, 3D technique performs better than the 2D technique for the segmentation of CT scans. We get dice scores of 79% and 73% for the 3D and the 2D techniques respectively. The 3D technique results in a 5X reduction in the inference time compared to the 2D technique. Results also show that the area-plots predicted by the 3D model are more similar to the ground truth than those predicted by the 2D model. We also show how increasing the amount of contextual information retained during the training can improve the 3D model's performance.
翻訳日:2021-03-23 02:50:10 公開日:2021-01-19
# (参考訳) Sparse-View CT再構成のための空間相関を利用した軽量構造

A Lightweight Structure Aimed to Utilize Spatial Correlation for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2101.07613v1 )

ライセンス: CC BY 4.0
Yitong Liu, Ken Deng, Chang Sun, Hongwen Yang(参考訳) Sparse-view Computed Tomography (CT) は放射線線量を減らすために広く用いられている手法として知られている。 しかし、その厳しい画像ノイズとストリーキングアーティファクトは、低線量プロトコルにおいて大きな問題であることが判明した。 本稿では,単一の画像スライスのみを処理するアルゴリズムの限界を破る2領域深層学習に基づく手法を提案する。 走査対象物は通常、高い空間連続性を含むため、得られた連続撮像スライスはほとんど探索されていない豊富な情報を具現化する。 そこで我々はLS-AAEというカスケードモデルを構築し,この問題に対処することを目的とした。 また,軽度医療の社会的傾向に適応するため,本モデルはモジュール設計における線形ボトルネックを伴う逆残差を採用し,その性能を損なうことなく,移動可能かつ軽量に(モデルパラメータを元の8分の1に還元する)。 実験では,4{\deg},8{\deg},16{\deg}の間隔でスパースサンプリングを行った。 しかし,本手法は依然として頑健であり,PSNR 40.305,SSIM 0.948 に到達し,高モデル移動性を確保した。 特に、サンプリングレートが4分の1である場合でも、他の電流法を上回っており、その卓越性が顕著である。

Sparse-view computed tomography (CT) is known as a widely used approach to reduce radiation dose while accelerating imaging through lowered projection views and correlated calculations. However, its severe imaging noise and streaking artifacts turn out to be a major issue in the low dose protocol. In this paper, we propose a dual-domain deep learning-based method that breaks through the limitations of currently prevailing algorithms that merely process single image slices. Since the scanned object usually contains a high degree of spatial continuity, the obtained consecutive imaging slices embody rich information that is largely unexplored. Therefore, we establish a cascade model named LS-AAE which aims to tackle the above problem. In addition, in order to adapt to the social trend of lightweight medical care, our model adopts the inverted residual with linear bottleneck in the module design to make it mobile and lightweight (reduce model parameters to one-eighth of its original) without sacrificing its performance. In our experiments, sparse sampling is conducted at intervals of 4{\deg}, 8{\deg} and 16{\deg}, which appears to be a challenging sparsity that few scholars have attempted before. Nevertheless, our method still exhibits its robustness and achieves the state-of-the-art performance by reaching the PSNR of 40.305 and the SSIM of 0.948, while ensuring high model mobility. Particularly, it still exceeds other current methods when the sampling rate is one-fourth of them, thereby demonstrating its remarkable superiority.
翻訳日:2021-03-23 02:34:06 公開日:2021-01-19
# (参考訳) 異なる分野からの参照のキャラクタリゼーション--Citation Content Analysisの視点から

Characterizing References from Different Disciplines: A Perspective of Citation Content Analysis ( http://arxiv.org/abs/2101.07614v1 )

ライセンス: CC BY 4.0
Chengzhi Zhang, Lifan Liu, Yuzhuo Wang(参考訳) 社会問題には必然的に複数の分野が含まれるため、多分野連携は研究において一般的である。 研究論文では、参照情報、特に引用内容は、異なる分野間のコミュニケーションの重要な表現である。 研究論文における参照の分布特性の分析は、参照情報のソースを検出し、異なる分野のコントリビューションを特定するための基礎となる。 この研究は、データとしてPLoSの記事を取り、Citation Content Analysis (CCA)に基づいて異なる分野からの参照を特徴付ける。 まず、PLoSから210,334のフルテキスト記事をダウンロードし、インテキストの引用情報を収集する。 そして、これらの学術論文において、それぞれの参照の規律を特定する。 これらの参照の分布を特徴付けるために,引用数,平均引用強度,平均引用長の3つの特徴を分析した。 最後に、異なる分野からの参照の分布は著しく異なると結論づける。 ほとんどの文献は自然科学からの引用であるが、人文科学と社会科学は記事の紹介と背景セクションにおいて重要な役割を担っている。 数学などの基本的な分野は、主にPLoSの論文で研究方法を提供している。 論文の結果や議論セクションで言及されている引用は、plosにおける看護や医学からの引用など、主に学際的な引用である。

Multidisciplinary cooperation is now common in research since social issues inevitably involve multiple disciplines. In research articles, reference information, especially citation content, is an important representation of communication among different disciplines. Analyzing the distribution characteristics of references from different disciplines in research articles is basic to detecting the sources of referred information and identifying contributions of different disciplines. This work takes articles in PLoS as the data and characterizes the references from different disciplines based on Citation Content Analysis (CCA). First, we download 210,334 full-text articles from PLoS and collect the information of the in-text citations. Then, we identify the discipline of each reference in these academic articles. To characterize the distribution of these references, we analyze three characteristics, namely, the number of citations, the average cited intensity and the average citation length. Finally, we conclude that the distributions of references from different disciplines are significantly different. Although most references come from Natural Science, Humanities and Social Sciences play important roles in the Introduction and Background sections of the articles. Basic disciplines, such as Mathematics, mainly provide research methods in the articles in PLoS. Citations mentioned in the Results and Discussion sections of articles are mainly in-discipline citations, such as citations from Nursing and Medicine in PLoS.
翻訳日:2021-03-23 02:18:45 公開日:2021-01-19
# (参考訳) 協調学習における証明可能なバックドアディフェンスについて

On Provable Backdoor Defense in Collaborative Learning ( http://arxiv.org/abs/2101.08177v1 )

ライセンス: CC BY 4.0
Ximing Qiao, Yuhua Bai, Siping Hu, Ang Li, Yiran Chen, Hai Li(参考訳) 協調学習は、複数のデータソースを使用したモデルの共同トレーニングを可能にするため、セキュリティ問題は中心的な関心事となっている。 悪意のあるユーザは、有害なデータをアップロードすることで、モデルの収束を防ぎ、隠れたバックドアを注入することができる。 いわゆるバックドア攻撃は、モデルが標準テストデータで正常に振る舞うが、特定のバックドアキーによってトリガーされた場合に間違った出力を与えるため、特に検出が難しい。 ビザンチン耐性訓練アルゴリズムは収束保証を提供するが、バックドア攻撃に対する証明可能な防御は未解決のままである。 ランダムな平滑化に基づく手法は、少数の破損したピクセルやラベルを補正するしかなく、サブセットアグリゲーションに基づく手法は、低データ利用による分類精度の低下を引き起こす。 既存のサブセット集約メソッドを一般化する新しいフレームワークを提案する。 このフレームワークは、サブセットアグリゲーションメソッドの決定因子であるサブセット選択プロセスが、コード設計の問題と見なせることを示している。 データ利用率の理論的境界を導出し、最適なコード構成を提供する。 MNIST と CIFAR-10 の非IID バージョンに対する実験により、最適符号を用いた手法は、重複しない分割とランダム選択を用いてベースラインを著しく上回ることを示した。 さらに、既存のコーディング理論と統合することで、特別なコードが攻撃者の位置を追跡できることが示される。 このような能力はバックドア攻撃に対する新しい対策を提供する。

As collaborative learning allows joint training of a model using multiple sources of data, the security problem has been a central concern. Malicious users can upload poisoned data to prevent the model's convergence or inject hidden backdoors. The so-called backdoor attacks are especially difficult to detect since the model behaves normally on standard test data but gives wrong outputs when triggered by certain backdoor keys. Although Byzantine-tolerant training algorithms provide convergence guarantee, provable defense against backdoor attacks remains largely unsolved. Methods based on randomized smoothing can only correct a small number of corrupted pixels or labels; methods based on subset aggregation cause a severe drop in classification accuracy due to low data utilization. We propose a novel framework that generalizes existing subset aggregation methods. The framework shows that the subset selection process, a deciding factor for subset aggregation methods, can be viewed as a code design problem. We derive the theoretical bound of data utilization ratio and provide optimal code construction. Experiments on non-IID versions of MNIST and CIFAR-10 show that our method with optimal codes significantly outperforms baselines using non-overlapping partition and random selection. Additionally, integration with existing coding theory results shows that special codes can track the location of the attackers. Such capability provides new countermeasures to backdoor attacks.
翻訳日:2021-03-23 02:01:11 公開日:2021-01-19
# (参考訳) 歳入ショックに対する財政的対応

The fiscal response to revenue shocks ( http://arxiv.org/abs/2101.07661v1 )

ライセンス: CC BY 4.0
Simon Berset, Martin Huber, Mark Schelker(参考訳) 地方財政政策における歳入ショックの影響について検討する。 我々はスイスのチューリッヒのカントンにおいて、動けない不動産利得税からの非常に不安定な収入に注目し、大きな、まれなポジティブかつ負の収益ショックを受けた財政行動を分析する。 我々は、因果的機械学習戦略を適用し、二重選択後のラッソ推定器を実装して、公的財政に対する収益ショックの因果効果を特定する。 地方政策立案者は概して概ね円滑な財政ショックを示す。 しかし, 消費削減によって負のショックが緩和される一方で, 積極的ショックが緩和される財政保守主義と整合するパターンも見いだされる。

We study the impact of fiscal revenue shocks on local fiscal policy. We focus on the very volatile revenues from the immovable property gains tax in the canton of Zurich, Switzerland, and analyze fiscal behavior following large and rare positive and negative revenue shocks. We apply causal machine learning strategies and implement the post-double-selection LASSO estimator to identify the causal effect of revenue shocks on public finances. We show that local policymakers overall predominantly smooth fiscal shocks. However, we also find some patterns consistent with fiscal conservatism, where positive shocks are smoothed, while negative ones are mitigated by spending cuts.
翻訳日:2021-03-23 01:35:36 公開日:2021-01-19
# (参考訳) リズムに拡張された自動評価指標を用いた音楽生成モデルの比較

A framework to compare music generative models using automatic evaluation metrics extended to rhythm ( http://arxiv.org/abs/2101.07669v1 )

ライセンス: CC BY 4.0
Sebastian Garcia-Valencia, Alejandro Betancourt, Juan G. Lalinde-Pulido(参考訳) 機械学習モデルをトレーニングするには、各プロセス、シーケンス生成、特に音楽作曲の分野において、多くの選択肢について多くの決定を下す必要があるが、問題の性質は選択肢を狭めるのに役立つが、同時に、特定の課題のために他の選択肢が現れる。 本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。 モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の品質を評価する。

To train a machine learning model is necessary to take numerous decisions about many options for each process involved, in the field of sequence generation and more specifically of music composition, the nature of the problem helps to narrow the options but at the same time, some other options appear for specific challenges. This paper takes the framework proposed in a previous research that did not consider rhythm to make a series of design decisions, then, rhythm support is added to evaluate the performance of two RNN memory cells in the creation of monophonic music. The model considers the handling of music transposition and the framework evaluates the quality of the generated pieces using automatic quantitative metrics based on geometry which have rhythm support added as well.
翻訳日:2021-03-23 01:01:51 公開日:2021-01-19
# (参考訳) エッジ機能グラフ注意ネットワーク

Edge-Featured Graph Attention Network ( http://arxiv.org/abs/2101.07671v1 )

ライセンス: CC BY 4.0
Jun Chen, Haopeng Chen(参考訳) グラフ構造化データの学習タスクを扱うために、多くのニューラルネットワークアーキテクチャが提案されている。 しかし、これらのモデルのほとんどは学習プロセス中のノード機能のみに集中しています。 エッジ機能は、通常、ノードと同様に重要な役割を果たすが、これらのモデルによってしばしば無視または単純化される。 本稿では,グラフニューラルネットワークをノードとエッジの両方の機能を持つグラフ上で学習するタスクに拡張するために,エッジ特徴付グラフアテンションネットワーク(egats)を提案する。 これらのモデルはグラフアテンションネットワーク(gats)の拡張と見なすことができる。 モデル構造と学習過程を再構築することにより、新しいモデルは、ノードとエッジの特徴を入力として受け入れ、エッジ情報を特徴表現に組み込んで、ノードとエッジの特徴を並列かつ相互に反復することができる。 その結果,我々の研究は他のノード分類手法と非常に競争力があり,エッジ機能付きグラフ学習タスクにも適用できることがわかった。

Lots of neural network architectures have been proposed to deal with learning tasks on graph-structured data. However, most of these models concentrate on only node features during the learning process. The edge features, which usually play a similarly important role as the nodes, are often ignored or simplified by these models. In this paper, we present edge-featured graph attention networks, namely EGATs, to extend the use of graph neural networks to those tasks learning on graphs with both node and edge features. These models can be regarded as extensions of graph attention networks (GATs). By reforming the model structure and the learning process, the new models can accept node and edge features as inputs, incorporate the edge information into feature representations, and iterate both node and edge features in a parallel but mutual way. The results demonstrate that our work is highly competitive against other node classification approaches, and can be well applied in edge-featured graph learning tasks.
翻訳日:2021-03-23 00:53:10 公開日:2021-01-19
# (参考訳) アフリカにおける公共交通システムのための人工知能による到着時刻とバス占有率の推定

An Artificial Intelligence based approach to estimating time of arrival and bus occupancy for public transport systems in Africa ( http://arxiv.org/abs/2101.07674v1 )

ライセンス: CC BY 4.0
Appau Ernest(参考訳) 本論文は,バス追跡監視システムの設計と実装に関する先進的な報告を含む。 本報告は, それぞれの目的を簡潔に探求する5章の限界内にその内容を有する。 第1章は序章である。 これには、バスのトラッキングと監視システム、プロジェクトの必要性と目的と目的に関する簡単な説明が含まれている。 第2章はこのプロジェクトの文献レビューである。 これは、他の人が行った以前の関連する研究やプロジェクトの批判的な分析を伴っている。 第3章は、クウェーム・ヌルマ大学のキャンパスにおける提案されたシステムの理論と設計の考察から成っている。 第4章 データの収集に使用する方法と,提案するシステム構築に採用されるアプローチと技術スタックについて語る。第5章では,論文を締め括り,提案システムのkwame nkrumah科学技術大学キャンパスにおけるテストと展開の結果について論じる。

This document entails a progressive report on the design and implementation of a bus tracking and monitoring system . This report has its contents within the limits of five chapters with each concisely exploring their various objectives. Chapter one is the introductory chapter. It entails a brief description of a bus tracking and monitoring system ,the need and the aims and objectives of this project. Chapter two consists the literature review of this project. This entails the critical analysis of previous related research and projects undertaken by other people. The merits and demerits of the various implementations.Chapter three consists of theory and design considerations of the proposed system for Kwame Nkrumah University campus. Chapter four talks about the methods used to collect data and the approach and technology stack adopted to build the proposed system.Chapter five concludes the thesis and discusses the results of test and deployment of the proposed system on Kwame Nkrumah University of Science and Technology campus
翻訳日:2021-03-23 00:42:15 公開日:2021-01-19
# (参考訳) 新型コロナウイルスパンデミックにおけるTwitterの主観的幸福度指標 : クロスカントリー比較研究

Twitter Subjective Well-Being Indicator During COVID-19 Pandemic: A Cross-Country Comparative Study ( http://arxiv.org/abs/2101.07695v1 )

ライセンス: CC BY 4.0
Tiziana Carpi, Airo Hino, Stefano Maria Iacus, Giuseppe Porro(参考訳) 本研究は、日本とイタリアのTwitterデータ指標を用いて、新型コロナウイルスのパンデミックが主観的幸福感に与える影響を分析した。 総じて、主観的幸福感はイタリアでは11.7%、日本では8.3%減少し、2019年後半の2カ月に比べて、そして歴史的平均と比べてさらに低下した。 データサイエンスアプローチを通じて、気候と空気の品質データ、COVID-19のケースと死亡数、Facebook Covidとインフルエンザの世界的な調査、Google Trendsデータと新型コロナウイルス関連のサーチ、Googleモビリティデータ、ポリシー介入対策、経済変数、Google Trendsプロキシなど、いくつかの説明変数、ビッグデータに基づく健康とストレスプロキシ変数など、この低下の可能性のある原因を特定しようとしています。 本研究では, 簡単な静的回帰モデルではウェルビーイングの複雑さを捉えることができず, 動的弾性ネット手法を用いて, 短時間であっても, 異なる期間のウェルビーイングにどう影響するかを示す。 最後に、構造方程式モデリング分析は、covid-19要因と主観的幸福感の因果関係に対処し、全体的な移動制限、インフルエンザおよびcovid-19様症状、経済的不確実性、社会的距離、パンデミックに関するニュースが主観的幸福感に悪影響を及ぼすことを示している。

This study analyzes the impact of the COVID-19 pandemic on the subjective well-being as measured through Twitter data indicators for Japan and Italy. It turns out that, overall, the subjective well-being dropped by 11.7% for Italy and 8.3% for Japan in the first nine months of 2020 compared to the last two months of 2019 and even more compared to the historical mean of the indexes. Through a data science approach we try to identify the possible causes of this drop down by considering several explanatory variables including, climate and air quality data, number of COVID-19 cases and deaths, Facebook Covid and flu symptoms global survey, Google Trends data and coronavirus-related searches, Google mobility data, policy intervention measures, economic variables and their Google Trends proxies, as well as health and stress proxy variables based on big data. We show that a simple static regression model is not able to capture the complexity of well-being and therefore we propose a dynamic elastic net approach to show how different group of factors may impact the well-being in different periods, even over a short time length, and showing further country-specific aspects. Finally, a structural equation modeling analysis tries to address the causal relationships among the COVID-19 factors and subjective well-being showing that, overall, prolonged mobility restrictions,flu and Covid-like symptoms, economic uncertainty, social distancing and news about the pandemic have negative effects on the subjective well-being.
翻訳日:2021-03-23 00:22:57 公開日:2021-01-19
# (参考訳) グラフ畳み込みネットワークの分散トレーニングのための通信効率の高いサンプリング

Communication-Efficient Sampling for Distributed Training of Graph Convolutional Networks ( http://arxiv.org/abs/2101.07706v1 )

ライセンス: CC BY 4.0
Peng Jiang, Masuma Akter Rumi(参考訳) グラフ畳み込みネットワーク(GCN)のトレーニングは、近隣ノードから再帰的にデータを収集する必要があるため、コストがかかる。 計算オーバヘッドを低減するため, 先行研究では, 少数の近傍のサンプルに基づいて, 集約結果を推定する様々な近傍サンプリング手法が提案されている。 これらの手法は訓練の加速に成功しているが、主にシングルマシンの設定に焦点を当てている。 実世界のグラフは大きいので、分散システムにおけるGCNのトレーニングが望ましい。 しかし,既存の隣接サンプリング手法は分散環境ではうまく動作しないことがわかった。 具体的には、単純な実装は異なるマシン間で大量の特徴ベクトルの通信を引き起こす可能性がある。 この問題に対処するため,本稿では,通信効率の良い隣接サンプリング手法を提案する。 私たちの主なアイデアは、リモートノードがより頻繁にアクセスされるように、ローカルノードに高いサンプリング確率を割り当てることです。 本稿では, 局所サンプリング確率を判定し, スクイード隣りのサンプリングがトレーニングの収束度に大きく影響しないことを確かめるアルゴリズムを提案する。 ノード分類ベンチマークを用いた実験により,分散gcnトレーニングにおける通信オーバーヘッドを,精度の低下を少なく抑えることができた。

Training Graph Convolutional Networks (GCNs) is expensive as it needs to aggregate data recursively from neighboring nodes. To reduce the computation overhead, previous works have proposed various neighbor sampling methods that estimate the aggregation result based on a small number of sampled neighbors. Although these methods have successfully accelerated the training, they mainly focus on the single-machine setting. As real-world graphs are large, training GCNs in distributed systems is desirable. However, we found that the existing neighbor sampling methods do not work well in a distributed setting. Specifically, a naive implementation may incur a huge amount of communication of feature vectors among different machines. To address this problem, we propose a communication-efficient neighbor sampling method in this work. Our main idea is to assign higher sampling probabilities to the local nodes so that remote nodes are accessed less frequently. We present an algorithm that determines the local sampling probabilities and makes sure our skewed neighbor sampling does not affect much the convergence of the training. Our experiments with node classification benchmarks show that our method significantly reduces the communication overhead for distributed GCN training with little accuracy loss.
翻訳日:2021-03-23 00:21:11 公開日:2021-01-19
# (参考訳) 熱伝達を増強する層流流路壁修正の迅速発見のための機械学習

Machine learning for rapid discovery of laminar flow channel wall modifications that enhance heat transfer ( http://arxiv.org/abs/2101.08130v1 )

ライセンス: CC BY 4.0
Matthias Schniewind, Alexander Stroh, Bradley P. Ladewig, Pascal Friederich(参考訳) 単純平たい流路内の流体中の伝熱の計算は, 様々なシミュレーション手法において比較的容易な作業である。 しかし、チャネル幾何がより複雑になると、数値シミュレーションは壁のジオメトリの最適化においてボトルネックとなる。 本稿では、任意の非平坦チャネルの正確な数値シミュレーションと、ドラッグ係数とスタントン数を予測する機械学習モデルを組み合わせる。 畳み込みニューラルネットワークは,数値シミュレーションのわずかな時間でターゲット特性を正確に予測できることを示す。 我々は,CNNモデルを仮想的な高スループットスクリーニング手法を用いて,多種多様なランダムな壁構造を探索する。 その結果,S字型チャネルジオメトリはPareto-Optimalであり,直感的と思われるが,解析する前には明らかではなかった。 一般的なアプローチは、ここで述べたような単純なフロー設定に適用できるだけでなく、化学工学における多相や反応単位操作のようなより複雑なタスクにも拡張できる。

The calculation of heat transfer in fluid flow in simple flat channels is a relatively easy task for various simulations methods. However, once the channel geometry becomes more complex, numerical simulations become a bottleneck in optimizing wall geometries. We present a combination of accurate numerical simulations of arbitrary, non-flat channels and machine learning models predicting drag coefficient and Stanton number. We show that convolutional neural networks can accurately predict the target properties at a fraction of the time of numerical simulations. We use the CNN models in a virtual high-throughput screening approach to explore a large number of possible, randomly generated wall architectures. We find that S-shaped channel geometries are Pareto-optimal, a result which seems intuitive, but was not obvious before analysing the data. The general approach is not only applicable to simple flow setups as presented here, but can be extended to more complex tasks, such as multiphase or even reactive unit operations in chemical engineering.
翻訳日:2021-03-23 00:05:56 公開日:2021-01-19
# (参考訳) 深部ニューラルネットワークを用いたX線画像からの肺炎と領域検出の予測

Predicting Pneumonia and Region Detection from X-Ray Images using Deep Neural Network ( http://arxiv.org/abs/2101.07717v1 )

ライセンス: CC BY 4.0
Sheikh Md Hanif Hossain, S M Raju and Amelia Ritahani Ismail(参考訳) 生体画像は劇的に増加しています。 その過程で、様々な病気の予測と同定のために、多くの機械学習アルゴリズムが提案されている。 そのような病気の1つは、肺気嚢の炎症を通じて細菌とウイルスの両方によって引き起こされる肺炎である。 本稿では,X線画像を入力として受信し,この患者が肺炎に罹患しているかどうか,および炎症の発生した肺の特定部位について検証するアルゴリズムを提案する。 このアルゴリズムは、事前学習されたresnet-50(convolutional neural network)を使用して予測を行う転送学習メカニズムに基づいている。 このモデルは90.6%の精度を達成しており、このモデルが有効であり、患者の肺炎の検出に実装可能であることを確認している。 さらに、肺感染部位の検出には、クラス活性化マップを用いる。 また、PneuNetはユーザーがより簡単にアクセスでき、サービスを利用できるように開発された。

Biomedical images are increasing drastically. Along the way, many machine learning algorithms have been proposed to predict and identify various kinds of diseases. One such disease is Pneumonia which is an infection caused by both bacteria and viruses through the inflammation of a person's lung air sacs. In this paper, an algorithm was proposed that receives x-ray images as input and verifies whether this patient is infected by Pneumonia as well as specific region of the lungs that the inflammation has occurred at. The algorithm is based on the transfer learning mechanism where pre-trained ResNet-50 (Convolutional Neural Network) was used followed by some custom layer for making the prediction. The model has achieved an accuracy of 90.6 percent which confirms that the model is effective and can be implemented for the detection of Pneumonia in patients. Furthermore, a class activation map is used for the detection of the infected region in the lungs. Also, PneuNet was developed so that users can access more easily and use the services.
翻訳日:2021-03-23 00:04:17 公開日:2021-01-19
# (参考訳) 医用画像分割のための形状制約深層学習に関する調査

A survey on shape-constraint deep learning for medical image segmentation ( http://arxiv.org/abs/2101.07721v1 )

ライセンス: CC BY 4.0
Simon Bohlender, Ilkay Oksuz, Anirban Mukhopadhyay(参考訳) U-Netの出現以来、完全な畳み込みディープニューラルネットワークとその多くの変種は、ディープラーニングベースの医療画像セグメンテーションの現代的景観を完全に変えてきた。 しかし,これらの手法の画素レベルの分類や回帰への過度な依存は問題として早期に確認されている。 特に、少ないアノテーションで医学データベースでトレーニングする場合、これらの手法は断片化された構造、位相的不整合、ピクセルの島などの分割アーティファクトを生成する傾向にある。 これらのアーティファクトは、セグメンテーションがほとんど常に下流評価の前処理であるので、医療画像において特に問題となる。 下流評価の可能性の範囲は、手術計画、可視化、形状分析、予後、治療計画など、かなり大きい。 しかしながら、これらすべての下流タスクで共通するスレッドは、解剖学的一貫性の要求である。 セグメンテーション結果が解剖学的に一貫したものであることを保証するため、マルコフ/条件ランダムフィールドに基づくアプローチでは、統計形状モデルが過去5年間で人気が高まっている。 本稿では, 医用画像セグメンテーションの解剖学的制約に関する最近の文献の概要を概説し, 提案手法の欠点と可能性について概説し, 今後の課題について概説する。 我々は提出日まで最も関係のある論文をレビューする。 クイックアクセスには、基礎となるメソッドやデータセット、パフォーマンスといった重要な詳細が集計される。

Since the advent of U-Net, fully convolutional deep neural networks and its many variants have completely changed the modern landscape of deep learning based medical image segmentation. However, the over dependence of these methods on pixel level classification and regression has been identified early on as a problem. Especially when trained on medical databases with sparse available annotation, these methods are prone to generate segmentation artifacts such as fragmented structures, topological inconsistencies and islands of pixel. These artefacts are especially problematic in medical imaging since segmentation is almost always a pre-processing step for some downstream evaluation. The range of possible downstream evaluations is rather big, for example surgical planning, visualization, shape analysis, prognosis, treatment planning etc. However, one common thread across all these downstream tasks is the demand of anatomical consistency. To ensure the segmentation result is anatomically consistent, approaches based on Markov/ Conditional Random Fields, Statistical Shape Models are becoming increasingly popular over the past 5 years. In this review paper, a broad overview of recent literature on bringing anatomical constraints for medical image segmentation is given, the shortcomings and opportunities of the proposed methods are thoroughly discussed and potential future work is elaborated. We review the most relevant papers published until the submission date. For quick access, important details such as the underlying method, datasets and performance are tabulated.
翻訳日:2021-03-22 14:09:42 公開日:2021-01-19
# (参考訳) ラベルなしデータを用いたクロスドメイン・マイノショット学習

Cross-domain few-shot learning with unlabelled data ( http://arxiv.org/abs/2101.07899v1 )

ライセンス: CC BY 4.0
Fupin Yao(参考訳) データ不足問題を解決するためのショット学習はほとんどありません。 テストセットとトレーニングセットの間にドメインシフトがある場合、そのパフォーマンスは大幅に低下します。 この設定はクロスドメイン・ショットラーニングと呼ばれる。 しかし、トレーニング中にターゲットドメインが見えないため、これは非常に難しい。 そこで本研究では,対象ドメインと対象ドメインとのギャップを埋めることのできる,対象ドメインからの不正なデータを新たに設定する手法を提案する。 この設定のベンチマークは DomainNet \cite{peng2018oment} を使って作成されます。 ラベル付き学習セットとラベルなし学習セットの知識を十分に活用するための自己教師付き学習手法を考案した。 広範な実験により,本手法は複数のベースライン法を大差で上回った。 また、重要なパフォーマンス向上をもたらすエピソードトレーニングパイプラインを慎重に設計します。

Few shot learning aims to solve the data scarcity problem. If there is a domain shift between the test set and the training set, their performance will decrease a lot. This setting is called Cross-domain few-shot learning. However, this is very challenging because the target domain is unseen during training. Thus we propose a new setting some unlabelled data from the target domain is provided, which can bridge the gap between the source domain and the target domain. A benchmark for this setting is constructed using DomainNet \cite{peng2018oment}. We come up with a self-supervised learning method to fully utilize the knowledge in the labeled training set and the unlabelled set. Extensive experiments show that our methods outperforms several baseline methods by a large margin. We also carefully design an episodic training pipeline which yields a significant performance boost.
翻訳日:2021-03-22 12:30:59 公開日:2021-01-19
# 強化学習における接地言語とその一般化のためのダイナミクス

Grounding Language to Entities and Dynamics for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2101.07393v1 )

ライセンス: Link先を確認
H. J. Austin Wang and Karthik Narasimhan(参考訳) 本稿では,新しいシナリオに対する制御ポリシーの一般化を改善するために,テキスト記述を活用するという課題について考察する。 この分野での先行研究とは異なり、我々はテキストと状態観察を接続する事前知識へのアクセスを前提とせず、シンボル接地と制御ポリシーを同時に学習する。 これは、具体的な監督の欠如による難題であり、誤った根拠付けは、テキストをまったく使わないポリシーよりもパフォーマンスが悪くなる可能性がある。 本研究では,マルチモーダル・エンティティ・コンディション・アテンション・モジュールを用いた新しいモデルであるemma(entity mapper with multi-modal attention)を開発した。 EMMAはエンド・ツー・エンドの差別化が可能であり、環境報酬を唯一の監督源とすることで、テキストから観察までエンティティとダイナミクスの潜在基盤を学習することができる。 このモデルを実証的にテストするために,1320ゲームの新しいフレームワークを設計し,フリーフォーム自然言語によるテキストマニュアルをクラウドソーシングによって収集する。 我々は、emmaが新たなダイナミクスを持つゲームに対してゼロショット一般化を成功させ、複数のベースラインと比較してはるかに高い報酬を得ることを実証する。 EMMAが取得した基盤は、ノイズの多い記述や言語的変異にも頑丈である。

In this paper, we consider the problem of leveraging textual descriptions to improve generalization of control policies to new scenarios. Unlike prior work in this space, we do not assume access to any form of prior knowledge connecting text and state observations, and learn both symbol grounding and control policy simultaneously. This is challenging due to a lack of concrete supervision, and incorrect groundings can result in worse performance than policies that do not use the text at all. We develop a new model, EMMA (Entity Mapper with Multi-modal Attention) which uses a multi-modal entity-conditioned attention module that allows for selective focus over relevant sentences in the manual for each entity in the environment. EMMA is end-to-end differentiable and can learn a latent grounding of entities and dynamics from text to observations using environment rewards as the only source of supervision. To empirically test our model, we design a new framework of 1320 games and collect text manuals with free-form natural language via crowd-sourcing. We demonstrate that EMMA achieves successful zero-shot generalization to unseen games with new dynamics, obtaining significantly higher rewards compared to multiple baselines. The grounding acquired by EMMA is also robust to noisy descriptions and linguistic variation.
翻訳日:2021-03-22 11:34:33 公開日:2021-01-19
# フィルムのトロープ検出による状況と行動の理解

Situation and Behavior Understanding by Trope Detection on Films ( http://arxiv.org/abs/2101.07632v1 )

ライセンス: Link先を確認
Chen-Hsi Chang, Hung-Ting Su, Juiheng Hsu, Yu-Siang Wang, Yu-Cheng Chang, Zhe Yu Liu, Ya-Liang Chang, Wen-Feng Cheng, Ke-Jyun Wang and Winston H. Hsu(参考訳) 深層認知能力の人間の能力は、多様なユーザ生成入力を処理する様々な現実世界のアプリケーションの開発に不可欠である。 ディープラーニングと自然言語処理の最近の進歩により、浅い意味論を必要とするいくつかのベンチマークにおいて、学習システムが人間のパフォーマンスに到達できるようになったが、最近の多くの研究で指摘されているように、このような人間の能力は、現代の文脈埋め込みモデルにおいても依然として困難である。 既存の機械理解データセットは文レベルの入力を仮定し、カジュアルな推論や動機づけの推論を欠いている。 そこで,我々は,機械の状況と行動を理解するために,フィルムのトロープ検出という挑戦的な新しい課題を提示する。 トロープ(英: Trope)は、創作作品のレシピの材料として頻繁に使用されるストーリーテリング装置である。 既存の映画タグ予測タスクと比較すると、トロピーは道徳的概念から一連の状況まで、動機付けや原因と効果が組み込まれているため、より洗練されている。 我々は、新しいデータセットであるTropes in Movie Synopses (TiMoS)を導入し、5623の映画シンプと95の異なるトピックをウィキペディアスタイルのデータベースであるTVTropesから収集した。 本稿では,単語,文,役割関係の多段階的注意を生かしたマルチストリーム理解ネットワーク(MulCom)を提案する。 実験結果から, BERTのコンテキスト埋め込み, 映画タグ予測システム, リレーショナルネットワークなどの現代モデルは, F1スコアの少なくとも37%(23.97/64.87)で動作していることがわかった。 私たちのmulcomは、現在のすべてのベースラインを1.5から5.0 f1、平均精度(map)スコアを1.5から3.0で上回っています。 また,今後の研究への道を開くために,詳細な分析と人的評価も提供する。

The human ability of deep cognitive skills are crucial for the development of various real-world applications that process diverse and abundant user generated input. While recent progress of deep learning and natural language processing have enabled learning system to reach human performance on some benchmarks requiring shallow semantics, such human ability still remains challenging for even modern contextual embedding models, as pointed out by many recent studies. Existing machine comprehension datasets assume sentence-level input, lack of casual or motivational inferences, or could be answered with question-answer bias. Here, we present a challenging novel task, trope detection on films, in an effort to create a situation and behavior understanding for machines. Tropes are storytelling devices that are frequently used as ingredients in recipes for creative works. Comparing to existing movie tag prediction tasks, tropes are more sophisticated as they can vary widely, from a moral concept to a series of circumstances, and embedded with motivations and cause-and-effects. We introduce a new dataset, Tropes in Movie Synopses (TiMoS), with 5623 movie synopses and 95 different tropes collecting from a Wikipedia-style database, TVTropes. We present a multi-stream comprehension network (MulCom) leveraging multi-level attention of words, sentences, and role relations. Experimental result demonstrates that modern models including BERT contextual embedding, movie tag prediction systems, and relational networks, perform at most 37% of human performance (23.97/64.87) in terms of F1 score. Our MulCom outperforms all modern baselines, by 1.5 to 5.0 F1 score and 1.5 to 3.0 mean of average precision (mAP) score. We also provide a detailed analysis and human evaluation to pave ways for future research.
翻訳日:2021-03-22 11:33:46 公開日:2021-01-19
# artemis: 視覚芸術のための感情言語

ArtEmis: Affective Language for Visual Art ( http://arxiv.org/abs/2101.07396v1 )

ライセンス: Link先を確認
Panos Achlioptas, Maks Ovsjanikov, Kilichbek Haydarov, Mohamed Elhoseiny, Leonidas Guibas(参考訳) 本稿では,視覚コンテンツの相互作用,感情的効果,後者の言語説明を詳細に理解することを目的とした,新しい大規模データセットと機械学習モデルを提案する。 コンピュータビジョンにおける既存のほとんどのアノテーションデータセットとは対照的に、視覚的なアートワークによって引き起こされる情緒的な経験に注目し、アノテータに与えられたイメージに対する支配的な感情を示し、重要なことに、彼らの感情選択に対する基礎的な言葉による説明を提供するよう依頼する。 以下に示すように、これは画像の客観的な内容と情緒的な影響の両方に対する豊富なシグナルをもたらし、抽象的な概念(例えば「自由」や「愛」)や、視覚的なシミュレートや比喩、個人的体験への主観的な参照を含む、直接見えるものを超えた参照を創り出す。 我々は視覚芸術(絵画、芸術写真など)に焦点を当てており、視聴者から感情的な反応を引き出すために作られたイメージの第一の例である。 私たちのデータセットはArtEmisと呼ばれ、WikiArtの81Kのアートワークに439Kの感情属性と人間による説明が含まれています。 このデータを基に,視覚刺激から感情を表現・説明できる一連のキャプションシステムを訓練し,実演する。 注目すべきは、これらのシステムによって生成されたキャプションは、しばしば画像の意味的内容と抽象的内容の反映に成功し、既存のデータセットで訓練されたシステムを超えた。 収集されたデータセットと開発されたメソッドはhttps://artemisdataset.org.comで入手できる。

We present a novel large-scale dataset and accompanying machine learning models aimed at providing a detailed understanding of the interplay between visual content, its emotional effect, and explanations for the latter in language. In contrast to most existing annotation datasets in computer vision, we focus on the affective experience triggered by visual artworks and ask the annotators to indicate the dominant emotion they feel for a given image and, crucially, to also provide a grounded verbal explanation for their emotion choice. As we demonstrate below, this leads to a rich set of signals for both the objective content and the affective impact of an image, creating associations with abstract concepts (e.g., "freedom" or "love"), or references that go beyond what is directly visible, including visual similes and metaphors, or subjective references to personal experiences. We focus on visual art (e.g., paintings, artistic photographs) as it is a prime example of imagery created to elicit emotional responses from its viewers. Our dataset, termed ArtEmis, contains 439K emotion attributions and explanations from humans, on 81K artworks from WikiArt. Building on this data, we train and demonstrate a series of captioning systems capable of expressing and explaining emotions from visual stimuli. Remarkably, the captions produced by these systems often succeed in reflecting the semantic and abstract content of the image, going well beyond systems trained on existing datasets. The collected dataset and developed methods are available at https://artemisdataset.org.
翻訳日:2021-03-22 11:33:14 公開日:2021-01-19
# グラフニューラルネットワークを用いたドックレス自転車共有システムにおける自転車ステーションの動的計画

Dynamic Planning of Bicycle Stations in Dockless Public Bicycle-sharing System Using Gated Graph Neural Network ( http://arxiv.org/abs/2101.07425v1 )

ライセンス: Link先を確認
Jianguo Chen and Kenli Li and Keqin Li and Philip S. Yu and Zeng Zeng(参考訳) 便利なサイクリングと柔軟な駐車場所の恩恵を受け、ドックレス公共自転車シェアリング(dl-pbs)ネットワークは多くの国で人気が高まっている。 しかし、冗長で低ユーティリティな駅は公共の都市空間とDL-PBSベンダーのメンテナンスコストを無駄にしている。 本稿では,DL-PBSネットワークにおける最適な自転車ステーションレイアウトを動的に提供するために,BSDP(Bicycle Station Dynamic Planning)システムを提案する。 BSDPシステムには、自転車落下位置クラスタリング、自転車ステーショングラフモデリング、自転車ステーション位置予測、自転車ステーションレイアウトレコメンデーションの4つのモジュールが含まれている。 自転車降車位置クラスタリングモジュールにおいて、大規模サイクリング軌道記録の各時空間サブセットから候補自転車ステーションをクラスタリングする。 自転車駅グラフモデリングモジュールにおいて、クラスタリング結果に基づいて重み付きダイアグラフモデルを構築し、低い駅歳入とユーティリティを有する下位の駅をフィルタする。 そして、各期間にわたるグラフモデルを組み合わせて、グラフシーケンスモデルを作成する。 自転車停留所位置予測モジュールでは、GGNNモデルを用いて、グラフシーケンスデータをトレーニングし、次の期間の自転車ステーションを動的に予測する。 本発明の自転車駅レイアウトレコメンデーションモジュールは、都市管理計画に従って予測された自転車駅を微調整し、都市管理、ベンダー収益、ユーザ利便性に配慮した推奨駅レイアウトを実現する。 実際のDL-PBSネットワーク実験では,提案したBSDPシステムの有効性,精度,実現可能性を検証する。

Benefiting from convenient cycling and flexible parking locations, the Dockless Public Bicycle-sharing (DL-PBS) network becomes increasingly popular in many countries. However, redundant and low-utility stations waste public urban space and maintenance costs of DL-PBS vendors. In this paper, we propose a Bicycle Station Dynamic Planning (BSDP) system to dynamically provide the optimal bicycle station layout for the DL-PBS network. The BSDP system contains four modules: bicycle drop-off location clustering, bicycle-station graph modeling, bicycle-station location prediction, and bicycle-station layout recommendation. In the bicycle drop-off location clustering module, candidate bicycle stations are clustered from each spatio-temporal subset of the large-scale cycling trajectory records. In the bicycle-station graph modeling module, a weighted digraph model is built based on the clustering results and inferior stations with low station revenue and utility are filtered. Then, graph models across time periods are combined to create a graph sequence model. In the bicycle-station location prediction module, the GGNN model is used to train the graph sequence data and dynamically predict bicycle stations in the next period. In the bicycle-station layout recommendation module, the predicted bicycle stations are fine-tuned according to the government urban management plan, which ensures that the recommended station layout is conducive to city management, vendor revenue, and user convenience. Experiments on actual DL-PBS networks verify the effectiveness, accuracy and feasibility of the proposed BSDP system.
翻訳日:2021-03-22 11:32:17 公開日:2021-01-19
# 多目的強化学習によるドックレス自転車シェアリングシステムの動的自転車派遣

Dynamic Bicycle Dispatching of Dockless Public Bicycle-sharing Systems using Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2101.07437v1 )

ライセンス: Link先を確認
Jianguo Chen and Kenli Li and Keqin Li and Philip S. Yu and Zeng Zeng(参考訳) 次世代の公共自転車共有システム(PBS)として、ドックレスPBS(DL-PBS)はサイバー物理システムとインテリジェント輸送の重要な応用である。 動的自転車レンタル需要に基づく効率的な自転車配車ソリューションとしてAIをどのように活用するかは,DL-PBSにとって重要な課題である。 本稿では,多目的強化学習(MORL-BD)に基づく動的自転車派遣アルゴリズムを提案する。 我々は,cpsの観点からdl-pbsシステムをモデル化し,ディープラーニングを用いて自転車パーキングスポットの配置と自転車派遣の動的需要を予測する。 本研究では, 配車コストの最適化, 配車場の初期負荷, トラック間の負荷バランス, 自転車の供給と需要の動的バランスを考慮し, 多経路自転車配車問題を多目的最適化問題として定義する。 これにより、複数のディスパッチトラック間の協調型多ルート自転車派遣問題は、マルチエージェントモールモデルとしてモデル化される。 駐車場間のディスパッチパスはすべて状態空間として定義され、ディスパッチコストの相反は報酬として定義される。 各ディスパッチトラックは、動的DL-PBSネットワークにおいて最適なディスパッチパスを学習するエージェントを備える。 私たちは、各アクションで見つかった自転車配車経路のパレート最適解を保存するためのエリートリストを作成し、最後にパレートフロンティアを得る。 実際のDL-PBSシステムの実験結果から,MORL-BDは既存の手法と比較して,実行時間が少なくて高品質なParetoフロンティアを見出すことができた。

As a new generation of Public Bicycle-sharing Systems (PBS), the dockless PBS (DL-PBS) is an important application of cyber-physical systems and intelligent transportation. How to use AI to provide efficient bicycle dispatching solutions based on dynamic bicycle rental demand is an essential issue for DL-PBS. In this paper, we propose a dynamic bicycle dispatching algorithm based on multi-objective reinforcement learning (MORL-BD) to provide the optimal bicycle dispatching solution for DL-PBS. We model the DL-PBS system from the perspective of CPS and use deep learning to predict the layout of bicycle parking spots and the dynamic demand of bicycle dispatching. We define the multi-route bicycle dispatching problem as a multi-objective optimization problem by considering the optimization objectives of dispatching costs, dispatch truck's initial load, workload balance among the trucks, and the dynamic balance of bicycle supply and demand. On this basis, the collaborative multi-route bicycle dispatching problem among multiple dispatch trucks is modeled as a multi-agent MORL model. All dispatch paths between parking spots are defined as state spaces, and the reciprocal of dispatching costs is defined as a reward. Each dispatch truck is equipped with an agent to learn the optimal dispatch path in the dynamic DL-PBS network. We create an elite list to store the Pareto optimal solutions of bicycle dispatch paths found in each action, and finally, get the Pareto frontier. Experimental results on the actual DL-PBS systems show that compared with existing methods, MORL-BD can find a higher quality Pareto frontier with less execution time.
翻訳日:2021-03-22 11:31:54 公開日:2021-01-19
# disentangled recurrent wasserstein autoencoder

Disentangled Recurrent Wasserstein Autoencoder ( http://arxiv.org/abs/2101.07496v1 )

ライセンス: Link先を確認
Jun Han, Martin Renqiang Min, Ligong Han, Li Erran Li, Xuan Zhang(参考訳) 不連続表現の学習は解釈可能なモデルにつながり、教師なし学習フレームワークで画像などの静的データに対して広く研究されてきたスタイル転送によるデータ生成を促進する。 しかし、逐次データ生成の難しさから教師なし不規則な逐次表現学習を探求した著作はごくわずかである。 本稿では,逐次データの生成モデリングのための新しいフレームワークであるrecurrent wasserstein autoencoder (r-wae)を提案する。 r-waeは入力列の表現を静的および動的因子(すなわち時間不変および時間変動部分)に分解する。 理論的解析により,R-WAEはモデル分布と逐次データ分布のワッサーシュタイン距離のペナル化形式の上限を最小化し,入力データと異なる非絡み合い要因の相互情報を同時に最大化することを示した。 これは入力データと不連続な潜在表現の間の相互情報最大化を明示的に強制しないvae(recurrent)よりも優れている。 シーケンシャルデータにおけるアクションの数が弱い監視情報として利用できる場合、R-WAEは、その歪みを改善するために、アクションのカテゴリー的潜在表現を学習するように拡張される。 様々なデータセットの実験により、我々のモデルは、定量的にも質的にも、無条件のビデオ生成において、同じ設定で他のベースラインよりも優れていることが示された。

Learning disentangled representations leads to interpretable models and facilitates data generation with style transfer, which has been extensively studied on static data such as images in an unsupervised learning framework. However, only a few works have explored unsupervised disentangled sequential representation learning due to challenges of generating sequential data. In this paper, we propose recurrent Wasserstein Autoencoder (R-WAE), a new framework for generative modeling of sequential data. R-WAE disentangles the representation of an input sequence into static and dynamic factors (i.e., time-invariant and time-varying parts). Our theoretical analysis shows that, R-WAE minimizes an upper bound of a penalized form of the Wasserstein distance between model distribution and sequential data distribution, and simultaneously maximizes the mutual information between input data and different disentangled latent factors, respectively. This is superior to (recurrent) VAE which does not explicitly enforce mutual information maximization between input data and disentangled latent representations. When the number of actions in sequential data is available as weak supervision information, R-WAE is extended to learn a categorical latent representation of actions to improve its disentanglement. Experiments on a variety of datasets show that our models outperform other baselines with the same settings in terms of disentanglement and unconditional video generation both quantitatively and qualitatively.
翻訳日:2021-03-22 11:31:26 公開日:2021-01-19
# Renyiエントロピーアプローチに基づく階層型トピックモデルの解析とチューニング

Analysis and tuning of hierarchical topic models based on Renyi entropy approach ( http://arxiv.org/abs/2101.07598v1 )

ライセンス: Link先を確認
Sergei Koltcov, Vera Ignatenko, Maxim Terpilovskii, Paolo Rosso(参考訳) 階層的トピックモデリングは、トピック抽象化のレベルを表すトピック階層の構築を可能にするテキストコレクションのトピック構造を決定するための潜在的に強力な手段である。 しかしながら、各階層レベルのトピック数を含む階層モデルのパラメータのチューニングは、依然として課題であり、未解決な課題である。 本稿では,上記の問題に対する部分解に対するrenyiエントロピーに基づくアプローチを提案する。 まず,階層モデルにおけるrenyiエントロピーに基づく品質指標を提案する。 第2に,人間マークアップを用いたデータセット上での階層的トピックモデルのチューニングの実用概念を提案する。 数値実験では,階層的潜在ディリクレ割当(hlda)モデル,階層的パチンコ割当モデル(hpam),話題モデルの階層的加法正規化(hartm)という3つの異なる階層モデルを検討した。 我々は、hLDAモデルが不安定なレベルをかなり有しており、さらに、ラベル付きデータセットの真数から派生したトピックの数が遠ざかっていることを実証する。 hPAMモデルでは、Renyiエントロピーアプローチにより、データ構造の1つのレベルのみを決定できる。 hartmモデルでは,提案手法により2つの階層レベルでトピック数を推定できる。

Hierarchical topic modeling is a potentially powerful instrument for determining the topical structure of text collections that allows constructing a topical hierarchy representing levels of topical abstraction. However, tuning of parameters of hierarchical models, including the number of topics on each hierarchical level, remains a challenging task and an open issue. In this paper, we propose a Renyi entropy-based approach for a partial solution to the above problem. First, we propose a Renyi entropy-based metric of quality for hierarchical models. Second, we propose a practical concept of hierarchical topic model tuning tested on datasets with human mark-up. In the numerical experiments, we consider three different hierarchical models, namely, hierarchical latent Dirichlet allocation (hLDA) model, hierarchical Pachinko allocation model (hPAM), and hierarchical additive regularization of topic models (hARTM). We demonstrate that hLDA model possesses a significant level of instability and, moreover, the derived numbers of topics are far away from the true numbers for labeled datasets. For hPAM model, the Renyi entropy approach allows us to determine only one level of the data structure. For hARTM model, the proposed approach allows us to estimate the number of topics for two hierarchical levels.
翻訳日:2021-03-22 11:30:20 公開日:2021-01-19
# 集合の族を学習する -- 高次タスクのためのハイパーグラフ表現学習

Learning over Families of Sets -- Hypergraph Representation Learning for Higher Order Tasks ( http://arxiv.org/abs/2101.07773v1 )

ライセンス: Link先を確認
Balasubramaniam Srinivasan, Da Zheng, George Karypis(参考訳) グラフ表現学習は過去10年間で大きな進歩を遂げてきた。 しかし、多くのリレーショナルドメインでは、エンティティ間の関係が対の相互作用を超えたため、入力データは単純なグラフ表現には適さない。 そのような場合、データ内の関係は非一様ハイパーグラフのハイパーエッジ(エンティティの集合)として表される。 ハイパーグラフのノード表現を学習するための原理的手法は存在するが、これらのアプローチは一様でないハイパーグラフ(基数が異なるハイパーエッジ)のタスクへの適用性に制限がある。 本研究では,ハイパーグラフの行グラフにおける局所同型を保ちながら,その構成頂点の置換に不変である可変サイズのハイパーエッジの表現性を示すために,インシデント構造を利用したハイパーグラフニューラルネットワークを開発した。 具体的には、与えられた頂点集合に対して、(1)ハイパーエッジ分類および(2)頂点とハイパーエッジの間の高次相互作用をキャプチャする部分観測ハイパーエッジの可変拡大のための枠組みを提案する。 我々は,複数の実世界のハイパーグラフデータセットの性能評価を行い,最先端モデルよりも一貫性があり,精度が大幅に向上したことを示す。

Graph representation learning has made major strides over the past decade. However, in many relational domains, the input data are not suited for simple graph representations as the relationships between entities go beyond pairwise interactions. In such cases, the relationships in the data are better represented as hyperedges (set of entities) of a non-uniform hypergraph. While there have been works on principled methods for learning representations of nodes of a hypergraph, these approaches are limited in their applicability to tasks on non-uniform hypergraphs (hyperedges with different cardinalities). In this work, we exploit the incidence structure to develop a hypergraph neural network to learn provably expressive representations of variable sized hyperedges which preserve local-isomorphism in the line graph of the hypergraph, while also being invariant to permutations of its constituent vertices. Specifically, for a given vertex set, we propose frameworks for (1) hyperedge classification and (2) variable sized expansion of partially observed hyperedges which captures the higher order interactions among vertices and hyperedges. We evaluate performance on multiple real-world hypergraph datasets and demonstrate consistent, significant improvement in accuracy, over state-of-the-art models.
翻訳日:2021-03-22 11:29:58 公開日:2021-01-19
# 深層畳み込み核法におけるパッチの無理な有効性

The Unreasonable Effectiveness of Patches in Deep Convolutional Kernels Methods ( http://arxiv.org/abs/2101.07528v1 )

ライセンス: Link先を確認
Louis Thiry (DI-ENS), Michael Arbel (UCL), Eugene Belilovsky (MILA), Edouard Oyallon (MLIA)(参考訳) 最近の一連の研究は、CIFAR-10のようなデータセット上の標準的な教師付き深層畳み込みネットワークと競合し、87-90%の範囲で精度を得ながら、理論解析に適していることを示した。 本稿では,畳み込み型カーネルメソッドの性能向上の鍵となる,データ依存型特徴抽出ステップの重要性を強調する。 このステップは一般的にパッチの白付き辞書に対応し、データ駆動の畳み込み型カーネルメソッドを生み出します。 本研究は,これらの手法の高性能化の鍵となる要素であることを示すとともに,その効果を広く研究する。 具体的には、画像パッチの単一層に線形分類器を付加したカーネルメソッドの最も単純な例の一つが、CIFAR-10の分類精度を従来のより洗練された畳み込みカーネルメソッドと同じ範囲で取得していることを示す。 我々は,この手法を課題の多いimagenetデータセットに拡張し,既存の非学習表現法をすべて越えることができることを示す。 これは、イメージネット上の畳み込みカーネルモデルの調査を開始する、表現学習手法のないオブジェクト認識の新しいベースラインである。 使用辞書を解析するための実験を行い,低次元特性を示すアブレーションを行った。

A recent line of work showed that various forms of convolutional kernel methods can be competitive with standard supervised deep convolutional networks on datasets like CIFAR-10, obtaining accuracies in the range of 87-90% while being more amenable to theoretical analysis. In this work, we highlight the importance of a data-dependent feature extraction step that is key to the obtain good performance in convolutional kernel methods. This step typically corresponds to a whitened dictionary of patches, and gives rise to a data-driven convolutional kernel methods. We extensively study its effect, demonstrating it is the key ingredient for high performance of these methods. Specifically, we show that one of the simplest instances of such kernel methods, based on a single layer of image patches followed by a linear classifier is already obtaining classification accuracies on CIFAR-10 in the same range as previous more sophisticated convolutional kernel methods. We scale this method to the challenging ImageNet dataset, showing such a simple approach can exceed all existing non-learned representation methods. This is a new baseline for object recognition without representation learning methods, that initiates the investigation of convolutional kernel models on ImageNet. We conduct experiments to analyze the dictionary that we used, our ablations showing they exhibit low-dimensional properties.
翻訳日:2021-03-22 11:29:41 公開日:2021-01-19
# 画像カラー化のための画像・オブジェクトレベルの特徴間の協調

Collaboration among Image and Object Level Features for Image Colourisation ( http://arxiv.org/abs/2101.07576v1 )

ライセンス: Link先を確認
Rita Pucci, Christian Micheloni, Niki Martinel(参考訳) 画像のカラー化は不適切な問題であり、入力データムに存在するコンテキストとオブジェクトインスタンスに依存する複数の正しいソリューションがある。 以前のアプローチでは、強力なユーザインタラクションを必要とするか、あるいは画像レベル(コンテキスト)の学習において畳み込みニューラルネットワーク(CNN)の能力を活用することによって、この問題に対処していた。 しかし、人間のヒントを得ることは必ずしも実現可能ではなく、CNNだけでは、監督によって事前訓練された複数のモデルが考慮されない限り、オブジェクトレベルのセマンティクスを学べない。 本研究では,コンボリューションによる画像レベルの特徴とカプセルによってキャプチャされたオブジェクトレベルの特徴を分離する,UCapsNetという単一のネットワークを提案する。 そして,異なる層間の接続をスキップすることで,これらの分離要因間の協調を強制し,高品質で再現可能な画像彩色を実現する。 我々は、問題を完全な自己監督アプローチによって対処できる分類タスクとして位置づけ、そのため人間の努力は不要である。 3つのベンチマークデータセットによる実験結果から,本手法は標準品質指標の既存手法よりも優れており,画像のカラー化における技術性能の状態を達成していることがわかった。 大規模ユーザ調査の結果,提案手法は既存ソリューションよりも好まれることがわかった。

Image colourisation is an ill-posed problem, with multiple correct solutions which depend on the context and object instances present in the input datum. Previous approaches attacked the problem either by requiring intense user interactions or by exploiting the ability of convolutional neural networks (CNNs) in learning image level (context) features. However, obtaining human hints is not always feasible and CNNs alone are not able to learn object-level semantics unless multiple models pretrained with supervision are considered. In this work, we propose a single network, named UCapsNet, that separate image-level features obtained through convolutions and object-level features captured by means of capsules. Then, by skip connections over different layers, we enforce collaboration between such disentangling factors to produce high quality and plausible image colourisation. We pose the problem as a classification task that can be addressed by a fully self-supervised approach, thus requires no human effort. Experimental results on three benchmark datasets show that our approach outperforms existing methods on standard quality metrics and achieves a state of the art performances on image colourisation. A large scale user study shows that our method is preferred over existing solutions.
翻訳日:2021-03-22 11:29:17 公開日:2021-01-19
# adasにおけるリアルタイムデプロイメントのためのマルチタスクネットワークpruningと組込み最適化

Multi-Task Network Pruning and Embedded Optimization for Real-time Deployment in ADAS ( http://arxiv.org/abs/2101.07831v1 )

ライセンス: Link先を確認
Flora Dellinger, Thomas Boulay, Diego Mendoza Barrenechea, Said El-Hachimi, Isabelle Leang, Fabian B\"urger(参考訳) カメラベースのディープラーニングアルゴリズムは、自動運転システムにおける認識にますます必要である。 しかし、自動車業界からの制約は、限られた計算資源を持つ組み込みシステムを導入することでCNNの展開に挑戦する。 本稿では,商用プロトタイププラットフォーム上にマルチタスクCNNネットワークを組み込む手法を提案する。 チップの低出力システム(SoC)は10FPSで4つのサラウンドビュー魚眼カメラを処理する。 最初の焦点は、効率的でコンパクトなマルチタスクネットワークアーキテクチャの設計である。 次に、CNNを圧縮するためにプルーニング法を適用し、性能を著しく低下させることなく実行時間とメモリ使用量を2倍に削減する。 最後に,複合量子化フォーマットの使用や異なるメモリ領域間の効率的なデータ転送などの組込み最適化手法を提案する。 このアプローチは、組み込み検出性能、ランタイム、メモリ帯域幅を考慮して、ハードウェアプラットフォーム上で評価される。 分類タスクに焦点をあてた文学作品と異なり,対象検出,意味セグメンテーション,汚れ検出タスクを備えたコンパクトマルチタスクネットワークにおけるpruningとquantizationの効果を検討することを目的としている。

Camera-based Deep Learning algorithms are increasingly needed for perception in Automated Driving systems. However, constraints from the automotive industry challenge the deployment of CNNs by imposing embedded systems with limited computational resources. In this paper, we propose an approach to embed a multi-task CNN network under such conditions on a commercial prototype platform, i.e. a low power System on Chip (SoC) processing four surround-view fisheye cameras at 10 FPS. The first focus is on designing an efficient and compact multi-task network architecture. Secondly, a pruning method is applied to compress the CNN, helping to reduce the runtime and memory usage by a factor of 2 without lowering the performances significantly. Finally, several embedded optimization techniques such as mixed-quantization format usage and efficient data transfers between different memory areas are proposed to ensure real-time execution and avoid bandwidth bottlenecks. The approach is evaluated on the hardware platform, considering embedded detection performances, runtime and memory bandwidth. Unlike most works from the literature that focus on classification task, we aim here to study the effect of pruning and quantization on a compact multi-task network with object detection, semantic segmentation and soiling detection tasks.
翻訳日:2021-03-22 11:28:55 公開日:2021-01-19
# バッチ正規化統計のマッチングによる分布アライメントによるソースフリードメイン適応

Source-free Domain Adaptation via Distributional Alignment by Matching Batch Normalization Statistics ( http://arxiv.org/abs/2101.10842v1 )

ライセンス: Link先を確認
Masato Ishii and Masashi Sugiyama(参考訳) 本稿では,ソースフリー設定のための新しいドメイン適応手法を提案する。 この設定では、未ラベルのターゲットデータと事前訓練されたデータモデルが与えられるが、適応中にソースデータにアクセスすることはできない。 ソースデータがないため、典型的なドメイン適応アルゴリズムとは異なり、ドメイン間のデータ分布を直接マッチングすることはできない。 この問題に対処するために、事前学習モデルに格納されたバッチ正規化統計を利用して、観測されていないソースデータの分布を近似する。 具体的には、適応中にモデルの分類部を固定し、残りの特徴エンコーダ部のみを微調整し、エンコーダによって抽出された特徴のバッチ正規化統計を固定分類器に格納されているものと一致させる。 さらに,特徴と分類器の出力間の相互情報を最大化し,分類性能をさらに向上させる。 いくつかのベンチマークデータセットによる実験結果から,提案手法はソースデータへのアクセスを必要とせずに,最先端のドメイン適応手法と競合する性能を発揮することが示された。

In this paper, we propose a novel domain adaptation method for the source-free setting. In this setting, we cannot access source data during adaptation, while unlabeled target data and a model pretrained with source data are given. Due to lack of source data, we cannot directly match the data distributions between domains unlike typical domain adaptation algorithms. To cope with this problem, we propose utilizing batch normalization statistics stored in the pretrained model to approximate the distribution of unobserved source data. Specifically, we fix the classifier part of the model during adaptation and only fine-tune the remaining feature encoder part so that batch normalization statistics of the features extracted by the encoder match those stored in the fixed classifier. Additionally, we also maximize the mutual information between the features and the classifier's outputs to further boost the classification performance. Experimental results with several benchmark datasets show that our method achieves competitive performance with state-of-the-art domain adaptation methods even though it does not require access to source data.
翻訳日:2021-03-22 11:28:23 公開日:2021-01-19
# UniSpeech:ラベル付きおよびラベルなしデータを用いた統一音声表現学習

UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data ( http://arxiv.org/abs/2101.07597v1 )

ライセンス: Link先を確認
Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng and Xuedong Huang(参考訳) 本稿では,ラベルなしデータとラベル付きデータの両方で音声表現を学習するためのunispeechと呼ばれる統合事前学習手法を提案する。 結果表現は、音声構造とより関連づけられた情報をキャプチャし、言語とドメイン間の一般化を改善することができる。 公立CommonVoiceコーパスにおける言語間表現学習におけるUniSpeechの有効性を評価する。 結果は、UniSpeechが音声認識のための自己指導型事前学習と教師型トランスファー学習を最大13.4%、相対的な電話誤り率17.8%で上回っていることを示している。 UniSpeechの転送可能性はまた、ドメインシフト音声認識タスク、すなわち、以前のアプローチと比較して6%の単語誤り率の減少を示す。

In this paper, we propose a unified pre-training approach called UniSpeech to learn speech representations with both unlabeled and labeled data, in which supervised phonetic CTC learning and phonetically-aware contrastive self-supervised learning are conducted in a multi-task learning manner. The resultant representations can capture information more correlated with phonetic structures and improve the generalization across languages and domains. We evaluate the effectiveness of UniSpeech for cross-lingual representation learning on public CommonVoice corpus. The results show that UniSpeech outperforms self-supervised pretraining and supervised transfer learning for speech recognition by a maximum of 13.4% and 17.8% relative phone error rate reductions respectively (averaged over all testing languages). The transferability of UniSpeech is also demonstrated on a domain-shift speech recognition task, i.e., a relative word error rate reduction of 6% against the previous approach.
翻訳日:2021-03-22 11:28:05 公開日:2021-01-19
# 座標グラフを用いた風力発電制御のスケーラブル最適化

Scalable Optimization for Wind Farm Control using Coordination Graphs ( http://arxiv.org/abs/2101.07844v1 )

ライセンス: Link先を確認
Timothy Verstraeten, Pieter-Jan Daems, Eugenio Bargiacchi, Diederik M. Roijers, Pieter J.K. Libin, Jan Helsen(参考訳) 風力発電所は、生態系と再生可能エネルギーの創出に不可欠である。 容量が急速に増加したため、現代の風力発電所は電力グリッドの安定性を確保するために出力に厳しい制約を課す必要がある。 具体的には、風力発電所の電力生産をグリッドオペレータが課す電力需要に合わせるために風力発電所制御装置が必要となる。 風力タービン間の複雑な依存関係が存在するため、これは非自明な最適化問題である。 最先端の風力発電制御は典型的には、タービンの健康状態を定義する全負荷スペクトルを捕捉できない物理ベースのヒューリスティックに依存している。 これが考慮されていない場合、農場のタービンの長期生存性は危険にさらされる。 タービンの寿命を決定する複雑な依存関係を考えると、柔軟で最適な制御戦略を学ぶにはデータ駆動のアプローチが必要だ。 しかし、風力発電は大規模マルチエージェントシステムであるため、全関節動作空間における制御戦略の最適化は困難である。 そこで本稿では, 疎風力発電構造を利用した風力発電制御の新しい学習手法を提案し, 最適化問題を分解する。 マルチエージェントのトンプソンサンプリングに基づくベイズ手法を用いて,タービンの寿命を考慮しつつ,需要に合致する構成のための因子付きジョイント動作空間を探索する。 本手法をグリッド型風力発電機レイアウトに適用し,最先端の風流シミュレータを用いて構成評価を行う。 提案手法は,要求誤差の観点から物理に基づくヒューリスティック手法と競合する一方で,ヒューリスティックとは対照的に,高リスクタービンの寿命を延ばす。

Wind farms are a crucial driver toward the generation of ecological and renewable energy. Due to their rapid increase in capacity, contemporary wind farms need to adhere to strict constraints on power output to ensure stability of the electricity grid. Specifically, a wind farm controller is required to match the farm's power production with a power demand imposed by the grid operator. This is a non-trivial optimization problem, as complex dependencies exist between the wind turbines. State-of-the-art wind farm control typically relies on physics-based heuristics that fail to capture the full load spectrum that defines a turbine's health status. When this is not taken into account, the long-term viability of the farm's turbines is put at risk. Given the complex dependencies that determine a turbine's lifetime, learning a flexible and optimal control strategy requires a data-driven approach. However, as wind farms are large-scale multi-agent systems, optimizing control strategies over the full joint action space is intractable. We propose a new learning method for wind farm control that leverages the sparse wind farm structure to factorize the optimization problem. Using a Bayesian approach, based on multi-agent Thompson sampling, we explore the factored joint action space for configurations that match the demand, while considering the lifetime of turbines. We apply our method to a grid-like wind farm layout, and evaluate configurations using a state-of-the-art wind flow simulator. Our results are competitive with a physics-based heuristic approach in terms of demand error, while, contrary to the heuristic, our method prolongs the lifetime of high-risk turbines.
翻訳日:2021-03-22 11:27:48 公開日:2021-01-19
# 様々な生成的敵ネットワークによって生成されるビートブル・ロードランナーレベルの空間の照明

Illuminating the Space of Beatable Lode Runner Levels Produced By Various Generative Adversarial Networks ( http://arxiv.org/abs/2101.07868v1 )

ライセンス: Link先を確認
Kirby Steckel and Jacob Schrum(参考訳) GAN(Generative Adversarial Networks)は、トレーニングセットから要素の説得力のある模倣を生成することができるが、トレーニングセット内の要素の分布は、GANを適切にトレーニングすることの難しさと、それが生成する出力の品質に影響を及ぼす。 本稿では,ゲームlode runnerの異なるサブセットでトレーニングされた6種類のganについて検討する。 品質多様性アルゴリズムMAP-Elitesは、各GANが生成できる品質レベルのセットを探索するために用いられ、そこでは品質は打ち負かされ、最も長い解経路を持つと定義されていた。 興味深いことに、たった20のレベルでトレーニングされたGANが、150のレベルでトレーニングされたGANが、150のレベルでトレーニングされたGANが、最も多様なビータブルレベルでトレーニングされた最小のセットを生成した。

Generative Adversarial Networks (GANs) are capable of generating convincing imitations of elements from a training set, but the distribution of elements in the training set affects to difficulty of properly training the GAN and the quality of the outputs it produces. This paper looks at six different GANs trained on different subsets of data from the game Lode Runner. The quality diversity algorithm MAP-Elites was used to explore the set of quality levels that could be produced by each GAN, where quality was defined as being beatable and having the longest solution path possible. Interestingly, a GAN trained on only 20 levels generated the largest set of diverse beatable levels while a GAN trained on 150 levels generated the smallest set of diverse beatable levels, thus challenging the notion that more is always better when training GANs.
翻訳日:2021-03-22 11:27:24 公開日:2021-01-19
# AI時代のパーソナライズド教育:次に何を期待するか

Personalized Education in the AI Era: What to Expect Next? ( http://arxiv.org/abs/2101.10074v1 )

ライセンス: Link先を確認
Setareh Maghsudi, Andrew Lan, Jie Xu, and Mihaela van der Schaar(参考訳) パーソナライズされた学習の目的は、学習者の強みと一致する効果的な知識獲得トラックを設計し、最終的に目的を達成するために弱点を回避することである。 この概念は数年前に登場し、世界中の多くの教育機関で採用されている。 近年、人工知能(AI)と機械学習(ML)の進歩とビッグデータ分析の進歩により、パーソナライズされた教育を多くの面で強化する新たな視点が展開されている。 学習プラットフォームは,AI/ML手法を利用して,生徒の特徴を正確に把握する。 これは、部分的には過去の経験を観察し、学習者の特徴や類似点を調べて利用可能なビッグデータを分析することで行われる。 例えば、多くのアクセス可能なコンテンツの中で最も適切なコンテンツを推薦し、よく設計された長期カリキュラムを助言し、適切な学習者を提案、正確な性能評価などで接続することができる。 それでも、aiベースのパーソナライズ教育のいくつかの側面は未調査のままである。 その中には、ピアの欠如による悪影響の補償、学習のモチベーションの作成と維持、多様性の向上、データやアルゴリズムによって引き起こされるバイアスの除去などが含まれる。 本稿では,AI/MLに基づくパーソナライズされた教育の課題について考察し,その可能性について考察する。

The objective of personalized learning is to design an effective knowledge acquisition track that matches the learner's strengths and bypasses her weaknesses to ultimately meet her desired goal. This concept emerged several years ago and is being adopted by a rapidly-growing number of educational institutions around the globe. In recent years, the boost of artificial intelligence (AI) and machine learning (ML), together with the advances in big data analysis, has unfolded novel perspectives to enhance personalized education in numerous dimensions. By taking advantage of AI/ML methods, the educational platform precisely acquires the student's characteristics. This is done, in part, by observing the past experiences as well as analyzing the available big data through exploring the learners' features and similarities. It can, for example, recommend the most appropriate content among numerous accessible ones, advise a well-designed long-term curriculum, connect appropriate learners by suggestion, accurate performance evaluation, and the like. Still, several aspects of AI-based personalized education remain unexplored. These include, among others, compensating for the adverse effects of the absence of peers, creating and maintaining motivations for learning, increasing diversity, removing the biases induced by the data and algorithms, and the like. In this paper, while providing a brief review of state-of-the-art research, we investigate the challenges of AI/ML-based personalized education and discuss potential solutions.
翻訳日:2021-03-22 11:27:05 公開日:2021-01-19
# 輸入ベクトルマシンを用いた危険な積極的交通条件の同定

Utilizing Import Vector Machines to Identify Dangerous Pro-active Traffic Conditions ( http://arxiv.org/abs/2101.07683v1 )

ライセンス: Link先を確認
Kui Yang, Wenjing Zhao, Constantinos Antoniou(参考訳) 交通事故は、交通流の発展に伴うメトロポリスで深刻な問題となっている。 本稿では,最近開発されたIVM(Import Vector Machines)のリアルタイム事故リスク解析における機械学習手法の理論と応用について考察する。 上海都市高速道路の歴史的事故データとそれに対応する交通データを用いて一致した。 交通状況は危険(すなわち、危険)と分類される。 おそらくクラッシュに繋がるでしょう)と安全(つまり)です。 平均速度、体積および占有率の5分間の測定に基づく(通常の交通条件)。 ivmアルゴリズムは分類器を構築するように訓練され、その性能は人気のあるサポートベクターマシン(svm)の技術と比較される。 主な知見は、IVMが危険なプロアクティブ交通条件のリアルタイム識別に有効であることを示している。 さらに、SVMの"サポートポイント"と同様に、IVMモデルは、カーネル基底関数(典型的にはSVMよりもはるかに小さい)をインデックスするために、トレーニングデータのごく一部しか使用せず、その分類率はSVMと似ている。 これにより、特にトレーニングデータセットのサイズが大きい場合、IVMはSVMよりも計算上の優位性が得られる。

Traffic accidents have been a severe issue in metropolises with the development of traffic flow. This paper explores the theory and application of a recently developed machine learning technique, namely Import Vector Machines (IVMs), in real-time crash risk analysis, which is a hot topic to reduce traffic accidents. Historical crash data and corresponding traffic data from Shanghai Urban Expressway System were employed and matched. Traffic conditions are labelled as dangerous (i.e. probably leading to a crash) and safe (i.e. a normal traffic condition) based on 5-minute measurements of average speed, volume and occupancy. The IVM algorithm is trained to build the classifier and its performance is compared to the popular and successfully applied technique of Support Vector Machines (SVMs). The main findings indicate that IVMs could successfully be employed in real-time identification of dangerous pro-active traffic conditions. Furthermore, similar to the "support points" of the SVM, the IVM model uses only a fraction of the training data to index kernel basis functions, typically a much smaller fraction than the SVM, and its classification rates are similar to those of SVMs. This gives the IVM a computational advantage over the SVM, especially when the size of the training data set is large.
翻訳日:2021-03-22 11:26:30 公開日:2021-01-19
# マルチアームバンディットのミニマックスオフポリシー評価

Minimax Off-Policy Evaluation for Multi-Armed Bandits ( http://arxiv.org/abs/2101.07781v1 )

ライセンス: Link先を確認
Cong Ma, Banghua Zhu, Jiantao Jiao, Martin J. Wainwright(参考訳) 境界付報酬を伴うマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討し,3つの条件下でのミニマックスレート最適化手法の開発を行った。 まず、動作ポリシーが分かっている場合、プラグインと重要サンプリング推定器を交互に切り替える方法であるswitch estimatorが、すべてのサンプルサイズに対して最小のレート最適化であることを示す。 第二に、行動方針が不明な場合、競争率の観点から性能を解析し、既知の行動方針と未知の行動方針との基本的なギャップを明らかにする。 行動方針が不明な場合、どの推定器も平均二乗誤差(行動方針の知識を備えたオラクル推定器と比較して)を目標政策の支持サイズに比例する乗法的因子で表さなければならない。 さらに,プラグイン手法が対数係数までの最悪の競合比を達成することを示す。 第3に、行動方針によって取られる最小確率が知られていると仮定した部分的知識設定の研究を開始する。 最小確率の比較的大きな値に対して,プラグイン推定器は最適であるが,最小確率が低い場合には最適でないことを示す。 このギャップを解消するために, 最適な推定誤差を実現するため, チェビシェフ多項式による近似に基づく新しい推定器を提案する。 シミュレーションデータと実データの両方に関する数値実験は、我々の理論的知見を裏付けるものである。

We study the problem of off-policy evaluation in the multi-armed bandit model with bounded rewards, and develop minimax rate-optimal procedures under three settings. First, when the behavior policy is known, we show that the Switch estimator, a method that alternates between the plug-in and importance sampling estimators, is minimax rate-optimal for all sample sizes. Second, when the behavior policy is unknown, we analyze performance in terms of the competitive ratio, thereby revealing a fundamental gap between the settings of known and unknown behavior policies. When the behavior policy is unknown, any estimator must have mean-squared error larger -- relative to the oracle estimator equipped with the knowledge of the behavior policy -- by a multiplicative factor proportional to the support size of the target policy. Moreover, we demonstrate that the plug-in approach achieves this worst-case competitive ratio up to a logarithmic factor. Third, we initiate the study of the partial knowledge setting in which it is assumed that the minimum probability taken by the behavior policy is known. We show that the plug-in estimator is optimal for relatively large values of the minimum probability, but is sub-optimal when the minimum probability is low. In order to remedy this gap, we propose a new estimator based on approximation by Chebyshev polynomials that provably achieves the optimal estimation error. Numerical experiments on both simulated and real data corroborate our theoretical findings.
翻訳日:2021-03-22 11:26:11 公開日:2021-01-19
# 大局的文脈と注意機構を利用したT1強調MRIにおける髄膜腫の分画

Meningioma segmentation in T1-weighted MRI leveraging global context and attention mechanisms ( http://arxiv.org/abs/2101.07715v1 )

ライセンス: Link先を確認
David Bouget, Andr\'e Pedersen, Sayied Abdol Mohieb Hosainey, Ole Solheim, Ingerid Reinertsen(参考訳) 髄膜腫は脳腫瘍の最も一般的なタイプであり、脳腫瘍の約30%を占める。 これらの腫瘍の多くは外科的に切除されることはないが、時間とともに監視される。 自動的, 正確な髄膜腫分節化は, 信頼性の高い成長予測と患者特異的治療計画の実現に有用である。 本研究では, 3次元mriボリュームを入力として, (i) attention-gated u-net (agunet) と (ii) dual attention u-net (daunet) という, u-net アーキテクチャ上の注意機構の導入を提案する。 注意力は、グローバルコンテキストを活用し、全体にわたって機能の関係を識別する可能性がある。 エンコーダ・デコーダアーキテクチャに固有の細部の空間分解能の低下と損失を抑えるため,マルチスケール入力および深部監視成分の影響を検討した。 提案されたアーキテクチャはトレーニング可能なエンドツーエンドであり、それぞれの概念はアブレーション研究のためにシームレスに無効にすることができる。 ノルウェーのトロンドハイムにあるセント・オラヴス大学病院から,600 T1強調MRIボリュームの5倍のクロスバリデーションを用いて検証を行った。 最高性能の建築では、平均サイコロスコアが81.6%、f1スコアが95.6%に達した。 ほぼ完全な98%の精度で3ml未満の髄膜腫がたまに消失し、全体のリコール率は93%に達した。 3次元MRIボリュームからグローバルコンテキストを活用することで、ネイティブボリューム解像度を直接処理できない場合でも、最高のパフォーマンスが得られる。 総じて, 3ml以上の髄膜腫に対して, 臨床的に有用であった。 将来的には, 性能向上のために, マルチスケール設計と改良ネットワークの利用も検討すべきである。 髄膜腫が3ml未満の症例は、最小の腫瘍のパフォーマンスを改善するためにも必要かもしれない。

Meningiomas are the most common type of primary brain tumor, accounting for approximately 30% of all brain tumors. A substantial number of these tumors are never surgically removed but rather monitored over time. Automatic and precise meningioma segmentation is therefore beneficial to enable reliable growth estimation and patient-specific treatment planning. In this study, we propose the inclusion of attention mechanisms over a U-Net architecture: (i) Attention-gated U-Net (AGUNet) and (ii) Dual Attention U-Net (DAUNet), using a 3D MRI volume as input. Attention has the potential to leverage the global context and identify features' relationships across the entire volume. To limit spatial resolution degradation and loss of detail inherent to encoder-decoder architectures, we studied the impact of multi-scale input and deep supervision components. The proposed architectures are trainable end-to-end and each concept can be seamlessly disabled for ablation studies. The validation studies were performed using a 5-fold cross validation over 600 T1-weighted MRI volumes from St. Olavs University Hospital, Trondheim, Norway. For the best performing architecture, an average Dice score of 81.6% was reached for an F1-score of 95.6%. With an almost perfect precision of 98%, meningiomas smaller than 3ml were occasionally missed hence reaching an overall recall of 93%. Leveraging global context from a 3D MRI volume provided the best performances, even if the native volume resolution could not be processed directly. Overall, near-perfect detection was achieved for meningiomas larger than 3ml which is relevant for clinical use. In the future, the use of multi-scale designs and refinement networks should be further investigated to improve the performance. A larger number of cases with meningiomas below 3ml might also be needed to improve the performance for the smallest tumors.
翻訳日:2021-03-22 11:24:47 公開日:2021-01-19
# 準安定物質の自律合成

Autonomous synthesis of metastable materials ( http://arxiv.org/abs/2101.07385v1 )

ライセンス: Link先を確認
Sebastian Ament, Maximilian Amsler, Duncan R. Sutherland, Ming-Chiang Chang, Dan Guevarra, Aine B. Connolly, John M. Gregoire, Michael O. Thompson, Carla P. Gomes, R. Bruce van Dover(参考訳) 人工知能(ai)によって実現される自律実験は、科学的発見を加速するための新しいパラダイムを提供する。 非平衡物質合成は、物質発見と開発のための流域となる複雑な資源集約的な実験の象徴である。 非平衡合成相図のマッピングは近年、高いスループットの実験によって加速されているが、パラメータ空間が大きすぎるため、材料研究は制限されている。 我々は,SARA(Scientific Autonomous Reasoning Agent)が管理する階層的自律実験を通して,メタスタブル物質の迅速な合成と探索を実証する。 SARAは、処理フェーズ図の構造を効率的に明らかにするAI手法の階層構造とともに、ロボット素材の合成とキャラクタリゼーションを統合する。 SARAは並列材料合成のための横勾配レーザースパイクアニール(lg-LSA)実験を設計し、位相遷移を迅速に同定するために光学分光を用いる。 多次元パラメータ空間の効率的な探索は、実験の基礎となる物理学とエンドツーエンドの不確実性定量化を組み込んだ高度な機械学習モデルに基づくネスト付きアクティブラーニング(al)サイクルによって達成される。 これと複数のスケールでのALの調整により、SARAは複雑な科学的タスクを活用するAIを具現化した。 我々は,Bi$_2$O$_3$系の合成相境界を自律的にマッピングすることにより,室温での運動安定化条件を含む合成相図の確立に至り,固体酸化物燃料電池などの電気化学技術にとって重要な発展をもたらすことを示す。

Autonomous experimentation enabled by artificial intelligence (AI) offers a new paradigm for accelerating scientific discovery. Non-equilibrium materials synthesis is emblematic of complex, resource-intensive experimentation whose acceleration would be a watershed for materials discovery and development. The mapping of non-equilibrium synthesis phase diagrams has recently been accelerated via high throughput experimentation but still limits materials research because the parameter space is too vast to be exhaustively explored. We demonstrate accelerated synthesis and exploration of metastable materials through hierarchical autonomous experimentation governed by the Scientific Autonomous Reasoning Agent (SARA). SARA integrates robotic materials synthesis and characterization along with a hierarchy of AI methods that efficiently reveal the structure of processing phase diagrams. SARA designs lateral gradient laser spike annealing (lg-LSA) experiments for parallel materials synthesis and employs optical spectroscopy to rapidly identify phase transitions. Efficient exploration of the multi-dimensional parameter space is achieved with nested active learning (AL) cycles built upon advanced machine learning models that incorporate the underlying physics of the experiments as well as end-to-end uncertainty quantification. With this, and the coordination of AL at multiple scales, SARA embodies AI harnessing of complex scientific tasks. We demonstrate its performance by autonomously mapping synthesis phase boundaries for the Bi$_2$O$_3$ system, leading to orders-of-magnitude acceleration in establishment of a synthesis phase diagram that includes conditions for kinetically stabilizing $\delta$-Bi$_2$O$_3$ at room temperature, a critical development for electrochemical technologies such as solid oxide fuel cells.
翻訳日:2021-03-22 11:24:16 公開日:2021-01-19
# 線形rnnの暗黙的バイアス

Implicit Bias of Linear RNNs ( http://arxiv.org/abs/2101.07833v1 )

ライセンス: Link先を確認
Melikasadat Emami, Mojtaba Sahraee-Ardakan, Parthe Pandit, Sundeep Rangan, Alyson K. Fletcher(参考訳) 経験的研究に基づく現代の知恵は、標準リカレントニューラルネットワーク(RNN)が長期記憶を必要とするタスクではうまく機能しないことを示している。 しかし、この行動の正確な理由は不明である。 本稿では、線形RNNの特殊な場合において、この特性を厳密に説明する。 この研究は線形RNNに限られているが、伝統的にこれらのシステムでさえ非線形パラメータ化のため解析が困難であった。 近年開発されたカーネルレジーム解析を用いて,ランダム初期化から学習した線形rnnが,重み付き1次元畳み込みネットワークと機能的に等価であることを示す。 重要なことに、等価モデルの重み付けは、畳み込みの時間ラグが小さく、従ってメモリが短い要素に暗黙の偏りをもたらす。 このバイアスの程度は初期化における遷移核行列の分散に依存し、古典的な爆発および消滅勾配問題と関連している。 この理論は合成実験と実データ実験の両方で検証されている。

Contemporary wisdom based on empirical studies suggests that standard recurrent neural networks (RNNs) do not perform well on tasks requiring long-term memory. However, precise reasoning for this behavior is still unknown. This paper provides a rigorous explanation of this property in the special case of linear RNNs. Although this work is limited to linear RNNs, even these systems have traditionally been difficult to analyze due to their non-linear parameterization. Using recently-developed kernel regime analysis, our main result shows that linear RNNs learned from random initializations are functionally equivalent to a certain weighted 1D-convolutional network. Importantly, the weightings in the equivalent model cause an implicit bias to elements with smaller time lags in the convolution and hence, shorter memory. The degree of this bias depends on the variance of the transition kernel matrix at initialization and is related to the classic exploding and vanishing gradients problem. The theory is validated in both synthetic and real data experiments.
翻訳日:2021-03-22 11:23:36 公開日:2021-01-19
# 量子置換同期

Quantum Permutation Synchronization ( http://arxiv.org/abs/2101.07755v1 )

ライセンス: Link先を確認
Tolga Birdal, Vladislav Golyanik, Christian Theobalt, Leonidas Guibas(参考訳) 本稿では,コンピュータビジョンの文脈で同期問題を解決する量子アルゴリズムQuantumSyncを提案する。 特に,離散変数における非凸最適化問題の解法を含む置換同期に着目した。 まず、同期を2次非制約バイナリ最適化問題(QUBO)に定式化することから始める。 このような定式化は問題のバイナリの性質を尊重するが、結果が置換の集合であることを保証するには余分な注意が必要である。 したがって、 (i) 置換制約をQUBO問題に挿入する方法を示し、 (ii) 断熱量子コンピュータD-Waveの現世代における制約付きQUBO問題を解く。 量子アニールにより、エネルギーランドスケープをサンプリングして信頼度を推定しながら、高い確率で大域的最適性を保証する。 我々のD-Waveコンピュータにおける概念実証は、量子機械が一般的なが難しい同期問題の解決に有望な方法を提供することを示す。

We present QuantumSync, the first quantum algorithm for solving a synchronization problem in the context of computer vision. In particular, we focus on permutation synchronization which involves solving a non-convex optimization problem in discrete variables. We start by formulating synchronization into a quadratic unconstrained binary optimization problem (QUBO). While such formulation respects the binary nature of the problem, ensuring that the result is a set of permutations requires extra care. Hence, we: (i) show how to insert permutation constraints into a QUBO problem and (ii) solve the constrained QUBO problem on the current generation of the adiabatic quantum computers D-Wave. Thanks to the quantum annealing, we guarantee global optimality with high probability while sampling the energy landscape to yield confidence estimates. Our proof-of-concepts realization on the adiabatic D-Wave computer demonstrates that quantum machines offer a promising way to solve the prevalent yet difficult synchronization problems.
翻訳日:2021-03-22 11:23:21 公開日:2021-01-19
# 計算語彙意味変化の課題

Challenges for Computational Lexical Semantic Change ( http://arxiv.org/abs/2101.07668v1 )

ライセンス: Link先を確認
Simon Hengchen and Nina Tahmasebi and Dominik Schlechtweg and Haim Dubossarsky(参考訳) 近年,語彙意味変化(LSC)の計算研究が盛んに行われており,計算科学と言語学の両方からこの分野への関心が高まっている。 これまでの研究のほとんどは、大きなダイアクロニックなテキストデータを使用して意味的変化をモデル化し、検出する手法に焦点を合わせてきた。 ダイアクロニックテキストの容易なモデリングを提供する手法は、LCCにスパイクされる主な理由の1つであるが、ニューラルモデルは問題の多くの側面を未解決のまま残している。 この分野にはいくつかのオープンで複雑な課題がある。 本章では,これらの課題のうち最も重要なものを説明し,今後の方向性を概説する。

The computational study of lexical semantic change (LSC) has taken off in the past few years and we are seeing increasing interest in the field, from both computational sciences and linguistics. Most of the research so far has focused on methods for modelling and detecting semantic change using large diachronic textual data, with the majority of the approaches employing neural embeddings. While methods that offer easy modelling of diachronic text are one of the main reasons for the spiking interest in LSC, neural models leave many aspects of the problem unsolved. The field has several open and complex challenges. In this chapter, we aim to describe the most important of these challenges and outline future directions.
翻訳日:2021-03-22 11:22:47 公開日:2021-01-19
# 量子確率のパラコンシステンス基礎

Paraconsistent Foundations for Quantum Probability ( http://arxiv.org/abs/2101.07498v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) ファジィ版の 4-真値パラ一貫性論理(真理値がtrue, false, both, neither に対応する)は、量子確率の複素数代数にほぼ同型にマッピングできると論じられている。 すなわち、pビット (並列ビット) は qubits の近接近似に変換できる。 近似誤差は、少なくとも形式的な意味では任意に小さくすることができ、観測者の観察を悩ませていると仮定される既約の「証拠誤差」の度合いと関連付けられる。 この論理対応は、プログラミング言語の確率型と量子型の間の近似写像を通じて、プログラム空間に現れる。

It is argued that a fuzzy version of 4-truth-valued paraconsistent logic (with truth values corresponding to True, False, Both and Neither) can be approximately isomorphically mapped into the complex-number algebra of quantum probabilities. I.e., p-bits (paraconsistent bits) can be transformed into close approximations of qubits. The approximation error can be made arbitrarily small, at least in a formal sense, and can be related to the degree of irreducible "evidential error" assumed to plague an observer's observations. This logical correspondence manifests itself in program space via an approximate mapping between probabilistic and quantum types in programming languages.
翻訳日:2021-03-22 11:22:35 公開日:2021-01-19
# 地理空間データのマッピングと記述 複雑なマッピングを一般化し、地理空間データを記述して複雑なモデルを一般化する:littosim-genモデルの場合

Mapping and Describing Geospatial Data to Generalize Complex Mapping and Describing Geospatial Data to Generalize Complex Models: The Case of LittoSIM-GEN Models ( http://arxiv.org/abs/2101.07523v1 )

ライセンス: Link先を確認
Ahmed Laatabi, Nicolas Becu (LIENSs), Nicolas Marilleau (UMMISCO), C\'ecilia Pignon-Mussaud (LIENSs), Marion Amalric (CITERES), X. Bertin (LIENSs), Brice Anselme (PRODIG), Elise Beck (PACTE)(参考訳) 科学的質問の中には、信頼できるシミュレーションモデルを開発するために経験的データが不可欠であるものもある。 これらのデータは、通常、多様で異種なフォーマットの異なるソースから来る。 複雑なデータ駆動モデルの設計は、しばしば研究プロジェクトで利用可能なデータの構造によって形成される。 したがって、このようなモデルを他のケーススタディに適用するには、同様のデータを取得するか、モデル入力に合うように新しいデータを変換する必要がある。 これは、地理情報システムデータなどの高度なデータ構造を使用するエージェントベースモデル(ABM)のケースである。 我々は,LittoSIM-GENプロジェクトにおいて,我々の参加型洪水モデル(LittoSIM)を新たな領域に一般化する際に,この問題に直面した。 この経験から,地理空間データのabmへの統合を構造化,記述,自動化するためのマッピング手法を提案する。

For some scientific questions, empirical data are essential to develop reliable simulation models. These data usually come from different sources with diverse and heterogeneous formats. The design of complex data-driven models is often shaped by the structure of the data available in research projects. Hence, applying such models to other case studies requires either to get similar data or to transform new data to fit the model inputs. It is the case of agent-based models (ABMs) that use advanced data structures such as Geographic Information Systems data. We faced this problem in the LittoSIM-GEN project when generalizing our participatory flooding model (LittoSIM) to new territories. From this experience, we provide a mapping approach to structure, describe, and automatize the integration of geospatial data into ABMs.
翻訳日:2021-03-22 11:22:25 公開日:2021-01-19
# DCNNを用いた品質管理・検査用任意オブジェクト指向物体検出器

A DCNN-based Arbitrarily-Oriented Object Detector for Quality Control and Inspection Application ( http://arxiv.org/abs/2101.07383v1 )

ライセンス: Link先を確認
Kai Yao, Alberto Ortiz, Francisco Bonnin-Pascual(参考訳) オンライン自動品質管理・検査プロセスにおける機械ビジョンシステムの成功に続いて,病院内における滅菌用手術用工具箱における品質管理項目の検出と,血管内欠陥の検出による構造的欠陥の防止という,2つの異なる用途に対して,物体認識ソリューションが提案されている。 解には2つの段階がある。 まず,Single Shot MultiBox Detector (SSD) に基づく特徴ピラミッドアーキテクチャを用いて検出性能を向上し,デフォルトボックスの範囲のパラメータを選択するために基底真理に基づく統計的解析を行う。 第2に,軽量ニューラルネットワークを用いて回帰法を用いて指向性検出結果を得る。 提案手法の第1段階では,2つのシナリオで考慮される小型ターゲットを検出できる。 第2段階では、単純さにもかかわらず、高い走行効率を維持しながら、延長目標の検出が効率的である。

Following the success of machine vision systems for on-line automated quality control and inspection processes, an object recognition solution is presented in this work for two different specific applications, i.e., the detection of quality control items in surgery toolboxes prepared for sterilizing in a hospital, as well as the detection of defects in vessel hulls to prevent potential structural failures. The solution has two stages. First, a feature pyramid architecture based on Single Shot MultiBox Detector (SSD) is used to improve the detection performance, and a statistical analysis based on ground truth is employed to select parameters of a range of default boxes. Second, a lightweight neural network is exploited to achieve oriented detection results using a regression method. The first stage of the proposed method is capable of detecting the small targets considered in the two scenarios. In the second stage, despite the simplicity, it is efficient to detect elongated targets while maintaining high running efficiency.
翻訳日:2021-03-22 11:22:12 公開日:2021-01-19
# 限られたデータ量を有する訓練ネットワークにおけるパーリンノイズを用いた初期化

Initialization Using Perlin Noise for Training Networks with a Limited Amount of Data ( http://arxiv.org/abs/2101.07406v1 )

ライセンス: Link先を確認
Nakamasa Inoue, Eisuke Yamagata, Hirokatsu Kataoka(参考訳) 限られたデータ量で画像分類ネットワークを訓練するためのPerlinノイズを用いた新しいネットワーク初期化手法を提案する。 提案手法は,perlinノイズサンプルを雑音カテゴリに分類することを目的として,人工雑音分類問題を解くことでネットワークパラメータを初期化するものである。 具体的には,提案手法は2つのステップからなる。 まず、ノイズ複雑性に基づいてカテゴリラベルが定義されたperlinノイズサンプルを生成する。 第二に、ネットワークパラメータを最適化して生成されたノイズサンプルを分類する分類問題を解く。 この方法は、画像分類のための合理的な初期重み(フィルタ)を生成する。 我々の知る限りでは、実世界のイメージを使わずに、人工最適化問題を解くことでネットワークを初期化する最初の試みである。 提案手法は4つの画像分類データセットにおいて従来の初期化手法よりも優れていることを示す。

We propose a novel network initialization method using Perlin noise for training image classification networks with a limited amount of data. Our main idea is to initialize the network parameters by solving an artificial noise classification problem, where the aim is to classify Perlin noise samples into their noise categories. Specifically, the proposed method consists of two steps. First, it generates Perlin noise samples with category labels defined based on noise complexity. Second, it solves a classification problem, in which network parameters are optimized to classify the generated noise samples. This method produces a reasonable set of initial weights (filters) for image classification. To the best of our knowledge, this is the first work to initialize networks by solving an artificial optimization problem without using any real-world images. Our experiments show that the proposed method outperforms conventional initialization methods on four image classification datasets.
翻訳日:2021-03-22 11:21:55 公開日:2021-01-19
# 室内シーンにおける家具レイアウト作成のための深層補強学習

Deep Reinforcement Learning for Producing Furniture Layout in Indoor Scenes ( http://arxiv.org/abs/2101.07462v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu(参考訳) 工業用インテリアデザインのプロセスでは、プロのデザイナーが部屋の家具のサイズと位置を計画し、販売に適したデザインを実現する。 本稿では,内部シーン設計タスクをマルコフ決定プロセス(mdp)として検討し,深層強化学習によって解決する。 その目的は、室内レイアウトタスクのために家具の正確な位置と大きさを同時に作成することである。 特に, 家具配置タスクを, 状態, 動作, 報酬関数を定義することで, MDP問題として定式化する。 次にシミュレーション環境を設計,強化学習エージェントを訓練し,mdp定式化のための最適なレイアウトを作成する。 我々は、プロのデザイナーによる工業デザインを含む大規模な現実世界の内部レイアウトデータセットで実験を行った。 その結果,提案モデルでは,最先端モデルと比較して高品質なレイアウトが得られた。 開発されたシミュレータとコードは \url{https://github.com/CODE-SUBMIT/simulator1} で入手できる。

In the industrial interior design process, professional designers plan the size and position of furniture in a room to achieve a satisfactory design for selling. In this paper, we explore the interior scene design task as a Markov decision process (MDP), which is solved by deep reinforcement learning. The goal is to produce an accurate position and size of the furniture simultaneously for the indoor layout task. In particular, we first formulate the furniture layout task as a MDP problem by defining the state, action, and reward function. We then design the simulated environment and train reinforcement learning agents to produce the optimal layout for the MDP formulation. We conduct our experiments on a large-scale real-world interior layout dataset that contains industrial designs from professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts as compared with the state-of-art model. The developed simulator and codes are available at \url{https://github.com/CODE-SUBMIT/simulator1}.
翻訳日:2021-03-22 11:21:30 公開日:2021-01-19
# 大規模多目的進化最適化による注意誘導型ブラックボックス攻撃

Attention-Guided Black-box Adversarial Attacks with Large-Scale Multiobjective Evolutionary Optimization ( http://arxiv.org/abs/2101.07512v1 )

ライセンス: Link先を確認
Jie Wang, Zhaoxia Yin, Jing Jiang, and Yang Du(参考訳) ブラックボックス最適化によるディープニューラルネットワーク(DNN)の処理は、DNNの構造的事前知識が常に不明であるため、一般的な攻撃手法となっている。 しかしながら、最近のブラックボックスの敵攻撃は、高解像度画像に対処する際の攻撃能力と、生成した敵の例(AE)の視覚的品質のバランスをとるのに苦労する可能性がある。 本稿では,LMOAと呼ばれる大規模多目的進化最適化に基づく注意誘導型ブラックボックス対向攻撃を提案する。 画像の空間的意味情報を考慮し,まず注意マップを利用して摂動画素を決定する。 画像全体を攻撃する代わりに、注意機構で乱れたピクセルを減らすことで、悪名高い次元の呪いを回避し、攻撃性能を向上させることができる。 第2に、サリアン領域の縮小画素を横切るために、大規模多目的進化アルゴリズムを用いる。 その特徴から、生成されたAEは、人間の視覚によって認識できないまま、標的のDNNを騙す可能性がある。 画像NetデータセットにおけるLMOAの有効性を実験により検証した。 さらに重要なのは、既存のブラックボックスの敵攻撃と比較して、視覚的品質の優れた高解像度のAEを生成するのが競争力があることだ。

Fooling deep neural networks (DNNs) with the black-box optimization has become a popular adversarial attack fashion, as the structural prior knowledge of DNNs is always unknown. Nevertheless, recent black-box adversarial attacks may struggle to balance their attack ability and visual quality of the generated adversarial examples (AEs) in tackling high-resolution images. In this paper, we propose an attention-guided black-box adversarial attack based on the large-scale multiobjective evolutionary optimization, termed as LMOA. By considering the spatial semantic information of images, we firstly take advantage of the attention map to determine the perturbed pixels. Instead of attacking the entire image, reducing the perturbed pixels with the attention mechanism can help to avoid the notorious curse of dimensionality and thereby improves the performance of attacking. Secondly, a large-scale multiobjective evolutionary algorithm is employed to traverse the reduced pixels in the salient region. Benefiting from its characteristics, the generated AEs have the potential to fool target DNNs while being imperceptible by the human vision. Extensive experimental results have verified the effectiveness of the proposed LMOA on the ImageNet dataset. More importantly, it is more competitive to generate high-resolution AEs with better visual quality compared with the existing black-box adversarial attacks.
翻訳日:2021-03-22 11:21:15 公開日:2021-01-19
# BANet: 動的シーン劣化のためのBlur-aware Attention Networks

BANet: Blur-aware Attention Networks for Dynamic Scene Deblurring ( http://arxiv.org/abs/2101.07518v1 )

ライセンス: Link先を確認
Fu-Jen Tsai, Yan-Tsung Peng, Yen-Yu Lin, Chung-Chi Tsai, and Chia-Wen Lin(参考訳) 画像の動きのぼやけは通常、動く物体やカメラの揺れから生じる。 このようなぼやけは一般に方向的かつ非一様である。 先行研究は自己着脱を伴う自己再帰型マルチスケールまたはマルチパッチアーキテクチャを用いて非一様ボケを解決することを試みる。 しかしながら、セルフリカレントフレームワークを使用すると、一般的には推論時間が長くなり、ピクセル間またはチャネル間自己アテンションが過剰なメモリ使用を引き起こす可能性がある。 本稿では,単一フォワードパスで高精度かつ効率的なデブラリングを実現するぼかし認識アテンションネットワーク(banet)を提案する。 banetでは,マルチカーネルストリッププーリングを用いた領域ベースのセルフアテンションを用いて,異なる次数のぼかしパターンとカスケード並列拡張畳み込みを解消し,マルチスケールコンテンツの特徴を集約する。 GoPro と HIDE のベンチマークによる大規模な実験結果から,提案した BANet は,ぼやけた画像復元における最先端技術に対して良好に動作し,劣化した結果をリアルタイムで提供することを示した。

Image motion blur usually results from moving objects or camera shakes. Such blur is generally directional and non-uniform. Previous research efforts attempt to solve non-uniform blur by using self-recurrent multi-scale or multi-patch architectures accompanying with self-attention. However, using self-recurrent frameworks typically leads to a longer inference time, while inter-pixel or inter-channel self-attention may cause excessive memory usage. This paper proposes blur-aware attention networks (BANet) that accomplish accurate and efficient deblurring via a single forward pass. Our BANet utilizes region-based self-attention with multi-kernel strip pooling to disentangle blur patterns of different degrees and with cascaded parallel dilated convolution to aggregate multi-scale content features. Extensive experimental results on the GoPro and HIDE benchmarks demonstrate that the proposed BANet performs favorably against the state-of-the-art in blurred image restoration and can provide deblurred results in realtime.
翻訳日:2021-03-22 11:20:55 公開日:2021-01-19
# PICA: 画素相関に基づく意図的ブラックボックス攻撃

PICA: A Pixel Correlation-based Attentional Black-box Adversarial Attack ( http://arxiv.org/abs/2101.07538v1 )

ライセンス: Link先を確認
Jie Wang, Zhaoxia Yin, Jin Tang, Jing Jiang, and Bin Luo(参考訳) 深層ニューラルネットワーク(DNN)の構造的知識の習得が困難なため、ブラックボックスの敵対的攻撃の研究がますます広まっている。 しかし、高解像度画像に適したDNNを騙すと、新興攻撃の性能に悪影響を及ぼす。 説明の1つは、これらの方法が通常、空間的な意味情報に関係なく、画像全体を攻撃することに集中し、悪名高い次元の呪いに遭遇することである。 そこで本研究では,PICA(Pixel correlation-based attentional black-box adversarial attack)を提案する。 まず、黒箱攻撃の寸法が減少するような画像の注意機構と画素相関を利用して、正当領域の隣接する2つのピクセルのうち1つだけを目標とする。 その後、一般的な多目的進化アルゴリズムを用いて、縮小したピクセルを横切り、人間の視覚によって知覚できない摂動を生成する。 広範な実験結果から,imagenetデータセットにおけるpicaの有効性が検証された。 さらに重要なことは、PICAは既存のブラックボックス攻撃と比較して高解像度の逆例を生成するのに計算効率が良いことである。

The studies on black-box adversarial attacks have become increasingly prevalent due to the intractable acquisition of the structural knowledge of deep neural networks (DNNs). However, the performance of emerging attacks is negatively impacted when fooling DNNs tailored for high-resolution images. One of the explanations is that these methods usually focus on attacking the entire image, regardless of its spatial semantic information, and thereby encounter the notorious curse of dimensionality. To this end, we propose a pixel correlation-based attentional black-box adversarial attack, termed as PICA. Firstly, we take only one of every two neighboring pixels in the salient region as the target by leveraging the attentional mechanism and pixel correlation of images, such that the dimension of the black-box attack reduces. After that, a general multiobjective evolutionary algorithm is employed to traverse the reduced pixels and generate perturbations that are imperceptible by the human vision. Extensive experimental results have verified the effectiveness of the proposed PICA on the ImageNet dataset. More importantly, PICA is computationally more efficient to generate high-resolution adversarial examples compared with the existing black-box attacks.
翻訳日:2021-03-22 11:20:35 公開日:2021-01-19
# 視覚と運動の手がかりによる物体追跡

Object Tracking by Detection with Visual and Motion Cues ( http://arxiv.org/abs/2101.07549v1 )

ライセンス: Link先を確認
Niels Ole Salscheider(参考訳) 自動運転車や他の自動運転車は、カメラ画像内の物体を検出し追跡する必要がある。 本稿では,カルマンフィルタを用いた定速度運動モデルと割り当てヒューリスティックに基づく単純なオンライントラッキングアルゴリズムを提案する。 割り当てヒューリスティックは、オブジェクトの出現を記述し、それらを再同定するために使用できる埋め込みベクター、2つの連続したビデオフレーム間のオブジェクト移動を記述する変位ベクター、カルマンフィルタ状態と新しい検出との間のマハラノビス距離、クラス距離の4つのメトリクスに依存している。 これらのメトリクスは線形SVMと組み合わせられ、代入問題はハンガリーのアルゴリズムによって解決される。 また,これらの指標を推定する効率的なCNNアーキテクチャを提案する。 マルチフレームモデルは、バックボーン内で個別に処理された2つの連続したビデオフレームを受け入れ、得られた特徴マップに基づいて光フローを推定する。 これにより、ネットワークヘッドは変位ベクトルを推定できる。 BDD100K追跡データセットの課題に対するアプローチを評価する。 マルチフレームモデルでは,MOTP において 0.206 の低いローカライゼーション誤差で 39.1% のMOTA値が得られる。 我々の高速単一フレームモデルはMOTPの0.202のローカライゼーション誤差と36.8%のMOTA値を達成する。

Self-driving cars and other autonomous vehicles need to detect and track objects in camera images. We present a simple online tracking algorithm that is based on a constant velocity motion model with a Kalman filter, and an assignment heuristic. The assignment heuristic relies on four metrics: An embedding vector that describes the appearance of objects and can be used to re-identify them, a displacement vector that describes the object movement between two consecutive video frames, the Mahalanobis distance between the Kalman filter states and the new detections, and a class distance. These metrics are combined with a linear SVM, and then the assignment problem is solved by the Hungarian algorithm. We also propose an efficient CNN architecture that estimates these metrics. Our multi-frame model accepts two consecutive video frames which are processed individually in the backbone, and then optical flow is estimated on the resulting feature maps. This allows the network heads to estimate the displacement vectors. We evaluate our approach on the challenging BDD100K tracking dataset. Our multi-frame model achieves a good MOTA value of 39.1% with low localization error of 0.206 in MOTP. Our fast single-frame model achieves an even lower localization error of 0.202 in MOTP, and a MOTA value of 36.8%.
翻訳日:2021-03-22 11:20:17 公開日:2021-01-19
# jigsawgan: 生成的逆ネットワークを用いたジグソーパズルの自己教師付き学習

JigsawGAN: Self-supervised Learning for Solving Jigsaw Puzzles with Generative Adversarial Networks ( http://arxiv.org/abs/2101.07555v1 )

ライセンス: Link先を確認
Ru Li, Shuaicheng Liu, Guangfu Wang, Guanghui Liu and Bing Zeng(参考訳) 本稿では,ジグソーパズルを解くためのGAN(Generative Adversarial Network)に基づく解を提案する。 問題は、画像が等しい正方形に切断され、断片情報に従って画像の復元を求めることである。 従来のジグソーソルバは、重要な意味情報を無視する部分境界に基づいて断片関係を決定することが多い。 本稿では,未ペア画像によるジグソーパズルの解法であるJigsawGANを提案する。 我々は,(1)ジグソー置換を分類する分類分岐,(2)正しい順序で画像の特徴を復元するGAN分岐を含むマルチタスクパイプラインを設計する。 分類枝は、シャッフル片に応じて生成された擬似ラベルによって制約される。 GANブランチは、生成者が自然な画像を生成して再組み立てされた断片で識別器を騙す画像意味情報に集中し、一方、識別器は、所定の画像が合成された又は実際のターゲット多様体に属するか否かを識別する。 これら2つの分岐は、分類結果に従って正しい順序にワープ特徴を適用するフローベースワープによって接続される。 提案手法は,意味情報とエッジ情報の両方を同時に利用することで,より効率的にジグソーパズルを解くことができる。 いくつかの先行手法と比較して定性的かつ定量的な比較は,本手法の優位性を示している。

The paper proposes a solution based on Generative Adversarial Network (GAN) for solving jigsaw puzzles. The problem assumes that an image is cut into equal square pieces, and asks to recover the image according to pieces information. Conventional jigsaw solvers often determine piece relationships based on the piece boundaries, which ignore the important semantic information. In this paper, we propose JigsawGAN, a GAN-based self-supervised method for solving jigsaw puzzles with unpaired images (with no prior knowledge of the initial images). We design a multi-task pipeline that includes, (1) a classification branch to classify jigsaw permutations, and (2) a GAN branch to recover features to images with correct orders. The classification branch is constrained by the pseudo-labels generated according to the shuffled pieces. The GAN branch concentrates on the image semantic information, among which the generator produces the natural images to fool the discriminator with reassembled pieces, while the discriminator distinguishes whether a given image belongs to the synthesized or the real target manifold. These two branches are connected by a flow-based warp that is applied to warp features to correct order according to the classification results. The proposed method can solve jigsaw puzzles more efficiently by utilizing both semantic information and edge information simultaneously. Qualitative and quantitative comparisons against several leading prior methods demonstrate the superiority of our method.
翻訳日:2021-03-22 11:19:57 公開日:2021-01-19
# 多段階機械学習による物体検出性能の向上

An Improvement of Object Detection Performance using Multi-step Machine Learnings ( http://arxiv.org/abs/2101.07571v1 )

ライセンス: Link先を確認
Tomoe Kishimoto, Masahiko Saito, Junichi Tanaka, Yutaro Iiyama, Ryu Sawada and Koji Terashi(参考訳) 複数の機械学習モデルをパイプラインに接続することは、複雑な問題に対処するのに有効である。 問題をステップに分割することで、それぞれがパイプラインの特定のコンポーネントモデルに取り組まれ、全体的なソリューションを正確かつ説明可能である。 本稿では,キャリブレーションモデルと呼ばれる後処理ステップを導入するマルチステップ概念に基づく物体検出の強化について述べる。 キャリブレーションモデルは畳み込みニューラルネットワークで構成され、入力のドメイン知識に基づいてリッチなコンテキスト情報を利用する。 既存の物体検出器よりも平均精度の0.8-1.9倍の物体検出性能の向上が観測されている。

Connecting multiple machine learning models into a pipeline is effective for handling complex problems. By breaking down the problem into steps, each tackled by a specific component model of the pipeline, the overall solution can be made accurate and explainable. This paper describes an enhancement of object detection based on this multi-step concept, where a post-processing step called the calibration model is introduced. The calibration model consists of a convolutional neural network, and utilizes rich contextual information based on the domain knowledge of the input. Improvements of object detection performance by 0.8-1.9 in average precision metric over existing object detectors have been observed using the new model.
翻訳日:2021-03-22 11:19:36 公開日:2021-01-19
# スペクトル混合と不均一データセットを用いたハイパースペクトル画像の超解像

Hyperspectral Image Super-Resolution with Spectral Mixup and Heterogeneous Datasets ( http://arxiv.org/abs/2101.07589v1 )

ライセンス: Link先を確認
Ke Li, Dengxin Dai, Ender Konukoglu, Luc Van Gool(参考訳) 本研究はハイパースペクトル画像(HSI)超解像(SR)の研究である。 HSI SRは高次元データと限られたトレーニング例によって特徴づけられる。 これにより、記憶や分散サンプルに対する感受性など、ニューラルネットワークの望ましくない振る舞いが悪化する。 この仕事は3つの貢献でこれらの問題に対処する。 まず,実効的な仮想トレーニングサンプルを構築するための簡易かつ効果的なデータ拡張ルーチンであるSpectral Mixupを提案する。 第2に,HSI SR と RGB 画像 SR が相関関係にあることを観測し,補助タスク RGB 画像 SR が追加の監督を提供するように,それらを共同で訓練するための新しいマルチタスクネットワークを開発する。 最後に、低解像度のHSIを含むデータセットからのみ学習できるように、ネットワークを半教師付き設定に拡張する。 これらの貢献により,ヘテロジニアスなデータセットから学習し,大量のhd hsiトレーニングサンプルを持つことの必要性を解消できる。 4つのデータセットに関する広範囲な実験により,提案手法が既存の手法を大幅に上回っており,貢献の妥当性が示唆された。 この作業のコードはまもなくリリースされる予定だ。

This work studies Hyperspectral image (HSI) super-resolution (SR). HSI SR is characterized by high-dimensional data and a limited amount of training examples. This exacerbates the undesirable behaviors of neural networks such as memorization and sensitivity to out-of-distribution samples. This work addresses these issues with three contributions. First, we propose a simple, yet effective data augmentation routine, termed Spectral Mixup, to construct effective virtual training samples. Second, we observe that HSI SR and RGB image SR are correlated and develop a novel multi-tasking network to train them jointly so that the auxiliary task RGB image SR can provide additional supervision. Finally, we extend the network to a semi-supervised setting so that it can learn from datasets containing low-resolution HSIs only. With these contributions, our method is able to learn from heterogeneous datasets and lift the requirement for having a large amount of HD HSI training samples. Extensive experiments on four datasets show that our method outperforms existing methods significantly and underpin the relevance of our contributions. The code of this work will be released soon.
翻訳日:2021-03-22 11:19:28 公開日:2021-01-19
# 3次元形状検索と変形の連成学習

Joint Learning of 3D Shape Retrieval and Deformation ( http://arxiv.org/abs/2101.07889v1 )

ライセンス: Link先を確認
Mikaela Angelina Uy, Vladimir G. Kim, Minhyuk Sung, Noam Aigerman, Siddhartha Chaudhuri, Leonidas Guibas(参考訳) 対象画像やスキャンと一致する高品質な3dモデルを作成するための新しい手法を提案する。 本手法は,既存の形状を3dモデルデータベースから検索し,その形状に適合するように変形する手法である。 形状検索や変形に独自に焦点をあてた従来のアプローチとは異なり,ニューラルネットワークの変形モジュールと,検索モジュールが使用する埋め込み空間を同時に学習する合同学習手順を提案する。 これにより,ネットワークは変形を認識できる埋め込み空間を学習できるため,取得したモデルが適切な変形の後にターゲットにマッチする可能性が高まる。 実際、埋め込み空間を使って変形モジュールのトレーニングに使用される形状ペアをガイドし、意味のある形状ペア間の変形を学習する能力に投資します。 さらに, 新たに開発した部分認識変形モジュールは, ソース形状の非整合かつ多様な部分構造で動作する。 近年提案されている新しい枠組みだけでなく, 最先端の神経変形モジュールについても, 共同訓練の利点を実証する。 最後に, ニューラル変形や事前学習した変形モジュールに代えて, 直接最適化した2段階の変形認識検索よりも優れることを示す。

We propose a novel technique for producing high-quality 3D models that match a given target object image or scan. Our method is based on retrieving an existing shape from a database of 3D models and then deforming its parts to match the target shape. Unlike previous approaches that independently focus on either shape retrieval or deformation, we propose a joint learning procedure that simultaneously trains the neural deformation module along with the embedding space used by the retrieval module. This enables our network to learn a deformation-aware embedding space, so that retrieved models are more amenable to match the target after an appropriate deformation. In fact, we use the embedding space to guide the shape pairs used to train the deformation module, so that it invests its capacity in learning deformations between meaningful shape pairs. Furthermore, our novel part-aware deformation module can work with inconsistent and diverse part-structures on the source shapes. We demonstrate the benefits of our joint training not only on our novel framework, but also on other state-of-the-art neural deformation modules proposed in recent years. Lastly, we also show that our jointly-trained method outperforms a two-step deformation-aware retrieval that uses direct optimization instead of neural deformation or a pre-trained deformation module.
翻訳日:2021-03-22 11:19:09 公開日:2021-01-19
# オープンセットセミスーパーバイザラーニングのための一貫性トレーニングについて

On The Consistency Training for Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2101.08237v1 )

ライセンス: Link先を確認
Huixiang Luo, Hao Cheng, Yuting Gao, Ke Li, Mengdan Zhang, Fanxu Meng, Xiaowei Guo, Feiyue Huang, Xing Sun(参考訳) 従来の半教師付き学習(SSL)手法、例えばMixMatchは、ラベル付きデータセットとラベルなしデータセットの両方が同じディストリビューションから引き出される場合、優れたパフォーマンスを達成する。 しかしながら、これらの手法は、ラベルなしデータセットが配布外サンプル(OOD)を含む、より現実的な環境での厳しいパフォーマンス劣化に悩まされることが多い。 最近のアプローチは、ラベルのないデータからそれらをフィルタリングすることで、oodサンプルのネガティブな影響を軽減する。 本研究は,OODサンプルをトレーニング中に除去する必要がないことを示す。 逆に、OODサンプルを適切に利用すれば、ネットワークの恩恵を受けることができる。 低次元空間と高次元空間の両方においてOODサンプルがDNNトレーニングにどのように影響するかを徹底的に研究し、Pseudo Labeling(PL)とData Augmentation based Consistency Training(DACT)の2つの基本的なSSL手法を検討する。 結論は2つある: (1) 性能劣化に苦しむPLとは異なり、DACTはモデル性能に改善をもたらし、(2) 改善はラベル付きデータセットとラベルなしデータセットの間のクラス単位の分散ギャップと密接に関連している。 この観察により,ラベル付きデータセットとラベルなしデータセット(OODサンプルを含む)のギャップを埋めることで,モデル性能をさらに向上する。 従来のアルゴリズムと比較してIDとODサンプルの区別に多くの注意を払っているのに対し,本手法はOODサンプルをよりよく利用し,最先端の結果が得られる。

Conventional semi-supervised learning (SSL) methods, e.g., MixMatch, achieve great performance when both labeled and unlabeled dataset are drawn from the same distribution. However, these methods often suffer severe performance degradation in a more realistic setting, where unlabeled dataset contains out-of-distribution (OOD) samples. Recent approaches mitigate the negative influence of OOD samples by filtering them out from the unlabeled data. Our studies show that it is not necessary to get rid of OOD samples during training. On the contrary, the network can benefit from them if OOD samples are properly utilized. We thoroughly study how OOD samples affect DNN training in both low- and high-dimensional spaces, where two fundamental SSL methods are considered: Pseudo Labeling (PL) and Data Augmentation based Consistency Training (DACT). Conclusion is twofold: (1) unlike PL that suffers performance degradation, DACT brings improvement to model performance; (2) the improvement is closely related to class-wise distribution gap between the labeled and the unlabeled dataset. Motivated by this observation, we further improve the model performance by bridging the gap between the labeled and the unlabeled datasets (containing OOD samples). Compared to previous algorithms paying much attention to distinguishing between ID and OOD samples, our method makes better use of OOD samples and achieves state-of-the-art results.
翻訳日:2021-03-22 11:18:49 公開日:2021-01-19
# 自己整合生成ネットワークによるディープビュー合成

Deep View Synthesis via Self-Consistent Generative Network ( http://arxiv.org/abs/2101.10844v1 )

ライセンス: Link先を確認
Zhuoman Liu, Wei Jia, Ming Yang, Peiyao Luo, Yong Guo, and Mingkui Tan(参考訳) ビュー合成は、2つ以上のカメラが異なる位置で捉えた一連のビューから目に見えないビューを生成することを目的としている。 異なるビュー間でピクセルレベルのマッチングを行うのは難しいため、このタスクは簡単ではない。 この問題に対処するために、既存の手法の多くは、ピクセルにマッチする幾何学的情報を活用しようとする。 しかし、異なるカメラが大きなベースラインを持つ場合(すなわち、互いに遠く離れた)、厳密な幾何学的歪みの問題が起こり、幾何学的情報が有用なガイダンスを与えられないため、非常にぼやけた合成画像が得られる。 以上の課題に対処するため,本稿では,幾何学的情報を明示的に活用することなく,与えられた入力ビューから新規なビューを合成する,自己一貫性生成ネットワーク(SCGN)と呼ばれる新しい深層生成モデルを提案する。 提案したSCGNモデルは、ビュー合成ネットワーク(VSN)とビュー分解ネットワーク(VDN)の2つの主要コンポーネントから構成され、どちらもエンコーダ-デコーダ構造を採用している。 ここで、VDNは、合成された新しいビューから入力ビューを再構築し、ビュー合成の一貫性を維持する。 vdnのおかげで、scgnはエンコードする前に幾何学的修正を使わずに新しいビューを合成できるため、トレーニングとアプリケーションの両方が容易になる。 最後に、新たなビューのフォトリアリズムを改善するために、敵対的損失が導入される。 2つのベンチマークタスクにおけるいくつかの最先端手法に対する定性的および定量的比較は、我々のアプローチの優位性を示した。

View synthesis aims to produce unseen views from a set of views captured by two or more cameras at different positions. This task is non-trivial since it is hard to conduct pixel-level matching among different views. To address this issue, most existing methods seek to exploit the geometric information to match pixels. However, when the distinct cameras have a large baseline (i.e., far away from each other), severe geometry distortion issues would occur and the geometric information may fail to provide useful guidance, resulting in very blurry synthesized images. To address the above issues, in this paper, we propose a novel deep generative model, called Self-Consistent Generative Network (SCGN), which synthesizes novel views from the given input views without explicitly exploiting the geometric information. The proposed SCGN model consists of two main components, i.e., a View Synthesis Network (VSN) and a View Decomposition Network (VDN), both employing an Encoder-Decoder structure. Here, the VDN seeks to reconstruct input views from the synthesized novel view to preserve the consistency of view synthesis. Thanks to VDN, SCGN is able to synthesize novel views without using any geometric rectification before encoding, making it easier for both training and applications. Finally, adversarial loss is introduced to improve the photo-realism of novel views. Both qualitative and quantitative comparisons against several state-of-the-art methods on two benchmark tasks demonstrated the superiority of our approach.
翻訳日:2021-03-22 11:18:22 公開日:2021-01-19
# 会話パス検索における質問書き直し手法の比較

A Comparison of Question Rewriting Methods for Conversational Passage Retrieval ( http://arxiv.org/abs/2101.07382v1 )

ライセンス: Link先を確認
Svitlana Vakulenko, Nikos Voskarides, Zhucheng Tu, Shayne Longpre(参考訳) 会話文の検索は、元の質問を書き換えて変更することで、もはや会話履歴に依存しないようにする。 いくつかの質問書き直し手法が最近提案されているが、異なる探索パイプラインで比較された。 このギャップを、TREC CAsT 2019と2020データセットの質問書き直し方法を、同じ検索パイプラインで徹底的に評価することで埋める。 質問書換え手法の違いが検索性能に及ぼす影響を分析し,質問書換え手法を組み合わせることで,両者のデータセットにおいて最先端の性能が得られることを示す。

Conversational passage retrieval relies on question rewriting to modify the original question so that it no longer depends on the conversation history. Several methods for question rewriting have recently been proposed, but they were compared under different retrieval pipelines. We bridge this gap by thoroughly evaluating those question rewriting methods on the TREC CAsT 2019 and 2020 datasets under the same retrieval pipeline. We analyze the effect of different types of question rewriting methods on retrieval performance and show that by combining question rewriting methods of different types we can achieve state-of-the-art performance on both datasets.
翻訳日:2021-03-22 11:17:59 公開日:2021-01-19
# オンラインメンタルヘルス支援における共感的会話の実現に向けて:強化学習アプローチ

Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach ( http://arxiv.org/abs/2101.07714v1 )

ライセンス: Link先を確認
Ashish Sharma, Inna W. Lin, Adam S. Miner, David C. Atkins, Tim Althoff(参考訳) オンラインピアツーピアサポートプラットフォームは、メンタルヘルスのサポートを求め、提供する数百万人の人々間の会話を可能にする。 成功すれば、Webベースのメンタルヘルスの会話は治療へのアクセスを改善し、世界的な病気の負担を減らすことができる。 心理学者は、共感、他者の感情や経験を理解し、感じる能力が、支援的な会話においてポジティブな結果をもたらす重要な要素であることを繰り返し示してきた。 しかし、最近の研究では、オンラインのメンタルヘルスプラットフォームでは、共感的な会話はまれである。 本稿では,オンラインのメンタルヘルス支援会話における共感向上に向けた研究を行う。 低共感の会話投稿をより高い共感に変換することを目的とした新しい共感的書き直しタスクを導入する。 このようなトランスフォーメーションの学習は困難であり、会話の質を維持しながら、会話の文脈に対する文流と特異性を通じて共感を深く理解する必要がある。 本稿では,会話の質を維持しつつ,共感の表現レベルを高めるために,文章レベルの編集をポストに行う深層強化学習エージェントPartnerを提案する。 このrlエージェントは,gpt-2から適応したトランスフォーマー言語モデルに基づくポリシーネットワークを利用して,候補共感文を生成し,適切な位置にこれらの文を付加する2つのタスクを行う。 トレーニング中は、テキストの流布、コンテキストの特異性、多様性を維持しながら、投稿に対する共感を高める変換に報いる。 自動評価と人的評価の組み合わせにより、PartinERはより共感的で特異で多様な応答を生成し、スタイル転送や共感的対話生成といった関連するタスクからNLPメソッドより優れていることを示す。 当社の作業は,Webプラットフォーム上での共感的会話の促進に直接的な意味を持っている。

Online peer-to-peer support platforms enable conversations between millions of people who seek and provide mental health support. If successful, web-based mental health conversations could improve access to treatment and reduce the global disease burden. Psychologists have repeatedly demonstrated that empathy, the ability to understand and feel the emotions and experiences of others, is a key component leading to positive outcomes in supportive conversations. However, recent studies have shown that highly empathic conversations are rare in online mental health platforms. In this paper, we work towards improving empathy in online mental health support conversations. We introduce a new task of empathic rewriting which aims to transform low-empathy conversational posts to higher empathy. Learning such transformations is challenging and requires a deep understanding of empathy while maintaining conversation quality through text fluency and specificity to the conversational context. Here we propose PARTNER, a deep reinforcement learning agent that learns to make sentence-level edits to posts in order to increase the expressed level of empathy while maintaining conversation quality. Our RL agent leverages a policy network, based on a transformer language model adapted from GPT-2, which performs the dual task of generating candidate empathic sentences and adding those sentences at appropriate positions. During training, we reward transformations that increase empathy in posts while maintaining text fluency, context specificity and diversity. Through a combination of automatic and human evaluation, we demonstrate that PARTNER successfully generates more empathic, specific, and diverse responses and outperforms NLP methods from related tasks like style transfer and empathic dialogue generation. Our work has direct implications for facilitating empathic conversations on web-based platforms.
翻訳日:2021-03-22 11:17:48 公開日:2021-01-19
# 微分プライベート学習における動的雑音の影響について

On Dynamic Noise Influence in Differentially Private Learning ( http://arxiv.org/abs/2101.07413v1 )

ライセンス: Link先を確認
Junyuan Hong and Zhangyang Wang and Jiayu Zhou(参考訳) モデルパフォーマンスを維持しながら学習におけるプライバシを保護することは、機密データを含む多くのアプリケーションでますます重要になっている。 private gradient descent (pgd) は、差分プライバシープロトコルに基づいて勾配をノイズとする、一般的なプライベート学習フレームワークである。 最近の研究では、ノイズの大きさを小さくする \emph{dynamic privacy schedules} は最終イテレーションでの損失を改善できるが、そのようなスケジュールの有効性と最適化アルゴリズムとの関係に関する理論的理解は限られている。 本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を包括的に分析する。 まず、PGDの実用上界を最小化する動的ノイズスケジュールを示し、各最適化ステップからのノイズの影響が最終モデルの実用性にどのように影響するかを示す。 また,運動量を用いた場合の動的騒音の影響も明らかにした。 一般の非凸損失に対する接続の存在を実証的に示し、その影響は損失曲率に大きく影響している。

Protecting privacy in learning while maintaining the model performance has become increasingly critical in many applications that involve sensitive data. Private Gradient Descent (PGD) is a commonly used private learning framework, which noises gradients based on the Differential Privacy protocol. Recent studies show that \emph{dynamic privacy schedules} of decreasing noise magnitudes can improve loss at the final iteration, and yet theoretical understandings of the effectiveness of such schedules and their connections to optimization algorithms remain limited. In this paper, we provide comprehensive analysis of noise influence in dynamic privacy schedules to answer these critical questions. We first present a dynamic noise schedule minimizing the utility upper bound of PGD, and show how the noise influence from each optimization step collectively impacts utility of the final model. Our study also reveals how impacts from dynamic noise influence change when momentum is used. We empirically show the connection exists for general non-convex losses, and the influence is greatly impacted by the loss curvature.
翻訳日:2021-03-22 11:17:21 公開日:2021-01-19
# PeerGAN: 競合するピア判別器を持つ生成的敵対ネットワーク

PeerGAN: Generative Adversarial Networks with a Competing Peer Discriminator ( http://arxiv.org/abs/2101.07524v1 )

ライセンス: Link先を確認
Jiaheng Wei, Minghao Liu, Jiahao Luo, Qiutong Li, James Davis, and Yang Liu(参考訳) 本稿では,生成したサンプルの安定性向上とモード崩壊の軽減を目的として,gan (generative adversarial network) ソリューションであるpeerganを提案する。 判別器の$D_1$とジェネレータの$G$の2人プレイヤゲームに基づいて、min-maxゲームに$D_2$のピアディミネーターを導入する。 2つの識別器を使った以前の研究と同様に、$D_1$と$D_2$の両方の役割は生成されたサンプルと実際のサンプルを区別することであり、ジェネレータは両方の識別器を騙すことができる高品質なサンプルを生成しようとする。 既存の方法とは異なり、d_1$ と $d_2$ の間の別のゲームを導入することで、それらの合意を阻止し、生成されたサンプルの多様性のレベルを増加させる。 この特性は、$d_1$と$d_2$が収束しすぎることを防ぎ、早期モードの崩壊を避けるのに役立つ。 我々は,$g,d_1,d_2$で形成されたmin-maxゲームの平衡に関する理論的解析を行う。 我々は PeerGAN の収束挙動と min-max ゲームの安定性を提供する。 PeerGANは教師なしの環境で動作しており、$D_1$と$D_2$の間の追加のゲームにはラベルの監督は必要ない。 合成データセットと実世界の画像データセット(MNIST, Fashion MNIST, CIFAR-10, STL-10, CelebA, VGG)による実験の結果, PeerGANは多種多様な高品質なサンプルの生成において競争ベースラインよりも優れており, 計算コストは無視できないことがわかった。

In this paper, we introduce PeerGAN, a generative adversarial network (GAN) solution to improve the stability of the generated samples and to mitigate mode collapse. Built upon the Vanilla GAN's two-player game between the discriminator $D_1$ and the generator $G$, we introduce a peer discriminator $D_2$ to the min-max game. Similar to previous work using two discriminators, the first role of both $D_1$, $D_2$ is to distinguish between generated samples and real ones, while the generator tries to generate high-quality samples that are able to fool both discriminators. Different from existing methods, we introduce another game between $D_1$ and $D_2$ to discourage their agreement and therefore increase the level of diversity of the generated samples. This property helps avoid early mode collapse by preventing $D_1$ and $D_2$ from converging too fast. We provide theoretical analysis for the equilibrium of the min-max game formed among $G, D_1, D_2$. We offer convergence behavior of PeerGAN as well as stability of the min-max game. It's worth mentioning that PeerGAN operates in the unsupervised setting, and the additional game between $D_1$ and $D_2$ does not need any label supervision. Experiments results on a synthetic dataset and on real-world image datasets (MNIST, Fashion MNIST, CIFAR-10, STL-10, CelebA, VGG) demonstrate that PeerGAN outperforms competitive baseline work in generating diverse and high-quality samples, while only introduces negligible computation cost.
翻訳日:2021-03-22 11:17:04 公開日:2021-01-19
# 入院患者の経時的劣化予測

Continual Deterioration Prediction for Hospitalized COVID-19 Patients ( http://arxiv.org/abs/2101.07581v1 )

ライセンス: Link先を確認
Jiacheng Liu, Meghna Singh, Catherine ST.Hill, Vino Raj, Lisa Kirkland, Jaideep Srivastava(参考訳) 2020年8月までに、新型コロナウイルス(COVID-19)は世界のほぼすべての国に広がり、何百万人もの感染者と数十万人の死者を出した。 本稿では,臨床変数がcovid-19の予後に時間的変動をもたらすという仮定を最初に検証する。 そこで我々は,病院滞在終了時の患者結果の日次予測を行うための時間的階層化アプローチを開発した。 トレーニングデータは、患者の全体的な状態のプロキシである残りの滞在期間によってセグメント化される。 これに基づいて、各時間セグメント毎に1つの予測モデルが構築される。 公開データのおかげで、プロトタイプモデルの構築と評価が可能になりました。 予備実験では、0.98 AUROC、0.91 F1スコア、0.97 AUPRの連続劣化予測が示され、モデルの発展と異なるデータセットの検証が促進された。 また、我々の手法を動機づける重要な仮定を検証する。 臨床変数は、COVID-19の結果に時間的に影響する可能性がある。 つまり、予測モデルにおける変数の特徴の重要性は、病気の段階によって異なる。

Leading up to August 2020, COVID-19 has spread to almost every country in the world, causing millions of infected and hundreds of thousands of deaths. In this paper, we first verify the assumption that clinical variables could have time-varying effects on COVID-19 outcomes. Then, we develop a temporal stratification approach to make daily predictions on patients' outcome at the end of hospital stay. Training data is segmented by the remaining length of stay, which is a proxy for the patient's overall condition. Based on this, a sequence of predictive models are built, one for each time segment. Thanks to the publicly shared data, we were able to build and evaluate prototype models. Preliminary experiments show 0.98 AUROC, 0.91 F1 score and 0.97 AUPR on continuous deterioration prediction, encouraging further development of the model as well as validations on different datasets. We also verify the key assumption which motivates our method. Clinical variables could have time-varying effects on COVID-19 outcomes. That is to say, the feature importance of a variable in the predictive model varies at different disease stages.
翻訳日:2021-03-22 11:16:33 公開日:2021-01-19
# ディープカーネルサロゲートを用いたFew-Shot Bayesian Optimization

Few-Shot Bayesian Optimization with Deep Kernel Surrogates ( http://arxiv.org/abs/2101.07667v1 )

ライセンス: Link先を確認
Martin Wistuba and Josif Grabocka(参考訳) ハイパーパラメータ最適化(HPO)は、機械学習ソリューションの自動化における中心的な柱であり、主にベイズ最適化によって行われる。 検証エラー)。 残念ながら、応答関数の評価は計算量が多い。 以前の研究では、他のタスクからアルゴリズムのハイパーパラメータを最適化することを学ぶトランスファーラーニングサロゲートの必要性を強調していた。 従来の研究とは対照的に,我々はHPOを,新しいタスクの応答関数に迅速に適応する(応答評価がほとんどない)共有深層代理モデルを訓練する,数発の学習問題として再考することを提案する。 本稿では,トレーニングデータセットの集合の応答関数を協調的に近似するために,エンドツーエンドでメタ学習されるガウスプロセスサロゲートに対するディープカーネルネットワークの利用を提案する。 その結果, 深層カーネルサロゲートの新規な数ショット最適化は, 多様なメタデータセットに関する最近の手法と比較して, HPOにおける新しい最先端結果をもたらすことがわかった。

Hyperparameter optimization (HPO) is a central pillar in the automation of machine learning solutions and is mainly performed via Bayesian optimization, where a parametric surrogate is learned to approximate the black box response function (e.g. validation error). Unfortunately, evaluating the response function is computationally intensive. As a remedy, earlier work emphasizes the need for transfer learning surrogates which learn to optimize hyperparameters for an algorithm from other tasks. In contrast to previous work, we propose to rethink HPO as a few-shot learning problem in which we train a shared deep surrogate model to quickly adapt (with few response evaluations) to the response function of a new task. We propose the use of a deep kernel network for a Gaussian process surrogate that is meta-learned in an end-to-end fashion in order to jointly approximate the response functions of a collection of training data sets. As a result, the novel few-shot optimization of our deep kernel surrogate leads to new state-of-the-art results at HPO compared to several recent methods on diverse metadata sets.
翻訳日:2021-03-22 11:16:15 公開日:2021-01-19
# アテンション残差畳み込みニューラルネットワークによる画像認識

Image Denoising using Attention-Residual Convolutional Neural Networks ( http://arxiv.org/abs/2101.07713v1 )

ライセンス: Link先を確認
Rafael G. Pires, Daniel F. S. Santos, Marcos C.S. Santana, Claudio F.G. Santos, Joao P. Papa(参考訳) 画像取得の過程では、取得センサの物理的制約や、データ転送や操作における不正確さなどにより、通常、ノイズがデータに追加される。 その意味では、結果のイメージを処理して、詳細を失うことなくノイズを減衰させる必要がある。 フィルタベースやノイズ先行モデリングといった非学習型戦略が,画像の雑音化問題を解決するために採用されている。 今日では、Residual Convolutional Neural Networksなど、学習ベースのDenoisingテクニックの方が、はるかに効果的で柔軟なアプローチであることが示されている。 本稿では,学習に基づく新たな非盲検手法であるAttention Residual Convolutional Neural Network (ARCNN)を提案し,その拡張としてFlexible Attention Residual Convolutional Neural Network (FARCNN)を提案する。 提案手法は,アテンション・残留機構を用いて基礎となる騒音予測を学習する。 ガウスノイズとポアソンノイズのレベルが異なっていたパブリックデータセットの実験は、いくつかの最先端画像デノイジング手法に対する提案手法の有効性を裏付けるものである。 ARCNNはガウス語とポアソン語で約0.44dBと0.96dBの平均PSNR結果を達成し、FARCNNはARCNNに比べて若干パフォーマンスが悪くても非常に一貫した結果を示した。

During the image acquisition process, noise is usually added to the data mainly due to physical limitations of the acquisition sensor, and also regarding imprecisions during the data transmission and manipulation. In that sense, the resultant image needs to be processed to attenuate its noise without losing details. Non-learning-based strategies such as filter-based and noise prior modeling have been adopted to solve the image denoising problem. Nowadays, learning-based denoising techniques showed to be much more effective and flexible approaches, such as Residual Convolutional Neural Networks. Here, we propose a new learning-based non-blind denoising technique named Attention Residual Convolutional Neural Network (ARCNN), and its extension to blind denoising named Flexible Attention Residual Convolutional Neural Network (FARCNN). The proposed methods try to learn the underlying noise expectation using an Attention-Residual mechanism. Experiments on public datasets corrupted by different levels of Gaussian and Poisson noise support the effectiveness of the proposed approaches against some state-of-the-art image denoising methods. ARCNN achieved an overall average PSNR results of around 0.44dB and 0.96dB for Gaussian and Poisson denoising, respectively FARCNN presented very consistent results, even with slightly worsen performance compared to ARCNN.
翻訳日:2021-03-22 11:15:57 公開日:2021-01-19
# 新型コロナウイルスの機械学習応用:最先端のレビュー

Machine learning applications for COVID-19: A state-of-the-art review ( http://arxiv.org/abs/2101.07824v1 )

ライセンス: Link先を確認
Firuz Kamalov, Aswani Cherukuri, Hana Sulieman, Fadi Thabtah, Akbar Hossain(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、機械学習コミュニティは、新型コロナウイルスとの戦いに役立つ新しいソリューションを創りだした。 機械学習と人工知能の新型コロナウイルスへの応用に関する文学の分野は、常に成長している。 本稿の目標は、新型コロナウイルス(covid-19)に適用される機械学習研究の最新の進歩を紹介することである。 我々は、予測、診断、薬物開発、接触追跡の4つの研究分野をカバーしている。 我々は,最も成功した美術研究の状況をレビューし,分析する。 本論文は,本研究の他の既存調査とは対照的に,本研究の概観を概観し,インフォメーション・インフォメーションを提供するのに十分な詳細を述べる。

The COVID-19 pandemic has galvanized the machine learning community to create new solutions that can help in the fight against the virus. The body of literature related to applications of machine learning and artificial intelligence to COVID-19 is constantly growing. The goal of this article is to present the latest advances in machine learning research applied to COVID-19. We cover four major areas of research: forecasting, medical diagnostics, drug development, and contact tracing. We review and analyze the most successful state of the art studies. In contrast to other existing surveys on the subject, our article presents a high level overview of the current research that is sufficiently detailed to provide an informed insight.
翻訳日:2021-03-22 11:15:33 公開日:2021-01-19
# ロボットのダイナミクスと環境変化における適応モータ制御のためのメタ強化学習

Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot Dynamics and Environments ( http://arxiv.org/abs/2101.07599v1 )

ライセンス: Link先を確認
Timoth\'ee Anne, Jack Wilkinson, Zhibin Li(参考訳) この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。 提案手法は, 相互作用モデルを常に更新し, 状態-作用軌道の推定可能な行動列をサンプリングし, 報酬を最大化するために最適な行動を適用する。 オンラインモデル適応を実現するために,提案手法では,新たに収集したデータからオンラインに選択したトレーニング条件の潜在ベクトルを学習する。 本研究は,適切な状態空間と報酬関数を設計し,mpc方式で実現可能な動作を最適化し,制約を考慮したジョイント空間内で直接サンプリングすることにより,特定の歩行歩行の事前設計を必要としない。 さらに,インタラクション中に予期せぬ変化を検知し,制御方針を迅速に適応するロボットの能力を示す。 物理シミュレーションにおけるspotmicroロボットの広範な検証は、様々な摩擦、外部の押圧、およびハードウェアの故障や変化を含む異なるロボットモデルの下で適応的でロコモーションスキルを示す。

This work developed a meta-learning approach that adapts the control policy on the fly to different changing conditions for robust locomotion. The proposed method constantly updates the interaction model, samples feasible sequences of actions of estimated the state-action trajectories, and then applies the optimal actions to maximize the reward. To achieve online model adaptation, our proposed method learns different latent vectors of each training condition, which are selected online given the newly collected data. Our work designs appropriate state space and reward functions, and optimizes feasible actions in an MPC fashion which are then sampled directly in the joint space considering constraints, hence requiring no prior design of specific walking gaits. We further demonstrate the robot's capability of detecting unexpected changes during interaction and adapting control policies quickly. The extensive validation on the SpotMicro robot in a physics simulation shows adaptive and robust locomotion skills under varying ground friction, external pushes, and different robot models including hardware faults and changes.
翻訳日:2021-03-22 11:15:23 公開日:2021-01-19
# 非重み付き単純ゲームのトレーディング変換と重み付き単純ゲームの整数重み付け

Trading Transforms of Non-weighted Simple Games and Integer Weights of Weighted Simple Games ( http://arxiv.org/abs/2101.07621v1 )

ライセンス: Link先を確認
Akihiro Kawana and Tomomi Matsui(参考訳) 本論文は単純なゲームについて述べる。 単純なゲームに関する基本的な質問の1つは、単純なゲームを重み付けされた多数派ゲームにすることである。 Taylor and Zwicker (1992) は単純ゲームが非重み付きであることと有限サイズのトレーディング変換が存在することを証明した。 彼らはまた、もし存在するならば、そのようなトレーディング変換のサイズに上限を与えた。 Gvozdeva と Slinko (2009) はその上限を改良した。 これらの証明は、Muroga (1971) によって証明された線型不等式の性質を用いる。 与えられた単純なゲームが重み付けされていない場合、トレーディングトランスフォーメーションが存在することの新たな証明を提供する。 我々の証明はFarkasの補題(1894年)を用いており、取引変換のサイズに改善された上限を与える。 また、重み付き単純ゲームの整数重み表現についても論じ、Muroga (1971) によって得られた境界値を改善する。 kurz (2012) によって得られた計算結果に基づいて、プレイヤー数が5人以下であれば、我々の境界はタイトであることを示した。 最後に、我々は最小の勝利連立と最大負け連立があると仮定して整数重み表現を見つける問題を扱う。 ラウンドリング法の性能について論じる。

This paper is concerned with simple games. One of the fundamental questions regarding simple games is that of what makes a simple game a weighted majority game. Taylor and Zwicker (1992) showed that a simple game is non-weighted if and only if there exists a trading transform of finite size. They also provided an upper bound on the size of such a trading transform, if it exists. Gvozdeva and Slinko (2009) improved on that upper bound. Their proof employs a property of linear inequalities demonstrated by Muroga (1971). We provide a new proof of the existence of a trading transform when a given simple game is non-weighted. Our proof employs Farkas' lemma (1894), and yields an improved upper bound on the size of a trading transform. We also discuss an integer weights representation of a weighted simple game, and improve on the bounds obtained by Muroga (1971). We show that our bounds are tight when the number of players is less than or equal to five, based on the computational results obtained by Kurz (2012). Lastly, we deal with the problem of finding an integer weights representation under the assumption that we have minimal winning coalitions and maximal losing coalitions. We discuss a performance of a rounding method.
翻訳日:2021-03-22 11:15:04 公開日:2021-01-19
# 報酬推論における選択集合の誤特定

Choice Set Misspecification in Reward Inference ( http://arxiv.org/abs/2101.07691v1 )

ライセンス: Link先を確認
Rachel Freedman, Rohin Shah and Anca Dragan(参考訳) 自然な報酬信号のない環境で動作しているロボットに対する報酬関数の特定は困難であり、誤って特定された報酬は退行や危険な行動にインセンティブを与える可能性がある。 報酬関数を手動で指定する有望な代替手段は、デモや修正など、ロボットが人間のフィードバックから報酬を推測できるようにすることだ。 このフィードバックを解釈するために、ロボットは、人間が選択セットから選択する、例えば、実証できる軌道のセットや、修正できる可能性など、ほぼ最適なものとして扱う。 本研究では,選択セット自体の特定が困難であり,選択セットの誤特定を解析することを提案する。ロボットが,人間がフィードバックを選択する選択セットについて誤った仮定を行うとき,何が起こるか。 異なる選択セットの誤分類の分類を提案し,これら異なるクラスが推定された報酬と結果のパフォーマンスに有意義な違いをもたらすことを示した。 私たちは通常、誤特定が痛むことを期待するが、ある種の誤特定は役に立たず、有害ではない(期待では)。 しかし、他の状況では、不特定は極めて有害であり、ロボットが信じるべきものと逆のものを信じるようになる。 現実の報酬推論における不特定性の影響に対する予測と応答がより良くなることを期待します。

Specifying reward functions for robots that operate in environments without a natural reward signal can be challenging, and incorrectly specified rewards can incentivise degenerate or dangerous behavior. A promising alternative to manually specifying reward functions is to enable robots to infer them from human feedback, like demonstrations or corrections. To interpret this feedback, robots treat as approximately optimal a choice the person makes from a choice set, like the set of possible trajectories they could have demonstrated or possible corrections they could have made. In this work, we introduce the idea that the choice set itself might be difficult to specify, and analyze choice set misspecification: what happens as the robot makes incorrect assumptions about the set of choices from which the human selects their feedback. We propose a classification of different kinds of choice set misspecification, and show that these different classes lead to meaningful differences in the inferred reward and resulting performance. While we would normally expect misspecification to hurt, we find that certain kinds of misspecification are neither helpful nor harmful (in expectation). However, in other situations, misspecification can be extremely harmful, leading the robot to believe the opposite of what it should believe. We hope our results will allow for better prediction and response to the effects of misspecification in real-world reward inference.
翻訳日:2021-03-22 11:14:45 公開日:2021-01-19
# 肺結節分類における効率的,説明可能,識別的表現の学習

Learning Efficient, Explainable and Discriminative Representations for Pulmonary Nodules Classification ( http://arxiv.org/abs/2101.07429v1 )

ライセンス: Link先を確認
Hanliang Jiang, Fuhao Shen, Fei Gao, Weidong Han(参考訳) 肺癌の早期診断には肺結節の自動分類が重要である。 近年,ディープラーニング技術がこの分野で著しい進歩を遂げている。 しかし、これらの深層モデルは一般に高い計算複雑性を持ち、ブラックボックス方式で機能する。 これらの課題に対処するため、本研究では、効率的かつ(部分的に)説明可能な分類モデルの構築を目指している。 具体的には,NAS(emph{neural architecture search)を用いて3Dネットワークアーキテクチャを自動的に検索する。 さらに、ネットワーク内の畳み込みブロックアテンションモジュール(CBAM)を用いて、推論プロセスの理解を支援する。 訓練中はA-Softmax損失を用いて角識別表現を学習する。 推論段階では、予測精度とロバスト性を改善するために、多様なニューラルネットワークのアンサンブルを用いる。 LIDC-IDRIデータベース上で大規模な実験を行う。 従来の最先端モデルと比較すると、1/40未満のパラメータを用いて高い性能を示す。 さらに、経験的研究は、学習ネットワークの推論過程が医師の診断と一致していることを示している。 関連コードと結果は、https://github.com/fei-hdu/NAS-Lung.comでリリースされた。

Automatic pulmonary nodules classification is significant for early diagnosis of lung cancers. Recently, deep learning techniques have enabled remarkable progress in this field. However, these deep models are typically of high computational complexity and work in a black-box manner. To combat these challenges, in this work, we aim to build an efficient and (partially) explainable classification model. Specially, we use \emph{neural architecture search} (NAS) to automatically search 3D network architectures with excellent accuracy/speed trade-off. Besides, we use the convolutional block attention module (CBAM) in the networks, which helps us understand the reasoning process. During training, we use A-Softmax loss to learn angularly discriminative representations. In the inference stage, we employ an ensemble of diverse neural networks to improve the prediction accuracy and robustness. We conduct extensive experiments on the LIDC-IDRI database. Compared with previous state-of-the-art, our model shows highly comparable performance by using less than 1/40 parameters. Besides, empirical study shows that the reasoning process of learned networks is in conformity with physicians' diagnosis. Related code and results have been released at: https://github.com/fei-hdu/NAS-Lung.
翻訳日:2021-03-22 11:14:24 公開日:2021-01-19
# 深度映像からのマルチスケール特徴マップに基づく人間の行動認識

Human Action Recognition Based on Multi-scale Feature Maps from Depth Video Sequences ( http://arxiv.org/abs/2101.07618v1 )

ライセンス: Link先を確認
Chang Li and Qian Huang and Xing Li and Qianhan Wu(参考訳) 人間の行動認識はコンピュータビジョンの活発な研究領域である。 優れたプロセスが作成されているが、従来の手法は、主に1つのスケールで深度データに基づくアクションを認識するため、実用的なアプリケーションシナリオで追加の情報アクション認識を提供するマルチスケールの特徴を無視することが多い。 本稿では,深部映像列から人間の行動を認識するマルチスケール動作情報に着目した新しい枠組みを提案する。 本稿では,ラプラシアピラミッド深部運動画像(lp-dmi)と呼ばれる多次元特徴マップを提案する。 動作のマルチスケールな静的表現を生成するテンプレートとして,深度運動画像(DMI)を用いる。 次に,lp-dmiを組み込んで動作の多スケール動的情報を強化し,人体の冗長な静的情報を削減する。 さらに,lp-dmi-hog と呼ばれるマルチグラニュラ性記述子を抽出し,より識別的特徴を与える。 最後に,行動分類にextreme learning machine(elm)を用いる。 提案手法は、パブリックMSRAction3Dデータセット、UTD-MHADおよびDHAデータセットの認識精度を93.41%、85.12%、91.94%向上させる。 実験により,本手法が最先端のベンチマークより優れていることを示す。

Human action recognition is an active research area in computer vision. Although great process has been made, previous methods mostly recognize actions based on depth data at only one scale, and thus they often neglect multi-scale features that provide additional information action recognition in practical application scenarios. In this paper, we present a novel framework focusing on multi-scale motion information to recognize human actions from depth video sequences. We propose a multi-scale feature map called Laplacian pyramid depth motion images(LP-DMI). We employ depth motion images (DMI) as the templates to generate the multi-scale static representation of actions. Then, we caculate LP-DMI to enhance multi-scale dynamic information of motions and reduces redundant static information in human bodies. We further extract the multi-granularity descriptor called LP-DMI-HOG to provide more discriminative features. Finally, we utilize extreme learning machine (ELM) for action classification. The proposed method yeilds the recognition accuracy of 93.41%, 85.12%, 91.94% on public MSRAction3D dataset, UTD-MHAD and DHA dataset. Through extensive experiments, we prove that our method outperforms state-of-the-art benchmarks.
翻訳日:2021-03-22 11:13:51 公開日:2021-01-19
# 深層フィードバック逆問題解法

Deep Feedback Inverse Problem Solver ( http://arxiv.org/abs/2101.07719v1 )

ライセンス: Link先を確認
Wei-Chiu Ma, Shenlong Wang, Jiayuan Gu, Sivabalan Manivasagam, Antonio Torralba, Raquel Urtasun(参考訳) 逆問題に対する効率的で効果的で汎用的なアプローチを提案する。 重要なアイデアは、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶことです。 具体的には、各イテレーションでニューラルネットワークがフィードバックを入力として受け取り、現在の推定値を更新する。 私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。 フィードバック情報を通じて,入力観測に一貫性のある正確な推定を行うだけでなく,早期不正確な予測から復元することができる。 6-DOFポーズ推定,照明推定,逆運動学など,幅広い逆問題に対するアプローチの有効性を検証する。 従来の最適化手法と比較して,2~3桁の高速さで同等ないし優れた性能を実現することができる。 ディープラーニングベースのアプローチと比較して、私たちのモデルはすべてのメトリクスのパフォーマンスを一貫して改善します。 ビデオ、アニメーション、補足資料などについてはプロジェクトページを参照してください。

We present an efficient, effective, and generic approach towards solving inverse problems. The key idea is to leverage the feedback signal provided by the forward process and learn an iterative update model. Specifically, at each iteration, the neural network takes the feedback as input and outputs an update on the current estimation. Our approach does not have any restrictions on the forward process; it does not require any prior knowledge either. Through the feedback information, our model not only can produce accurate estimations that are coherent to the input observation but also is capable of recovering from early incorrect predictions. We verify the performance of our approach over a wide range of inverse problems, including 6-DOF pose estimation, illumination estimation, as well as inverse kinematics. Comparing to traditional optimization-based methods, we can achieve comparable or better performance while being two to three orders of magnitude faster. Compared to deep learning-based approaches, our model consistently improves the performance on all metrics. Please refer to the project page for videos, animations, supplementary materials, etc.
翻訳日:2021-03-22 11:13:32 公開日:2021-01-19
# 画像記述子の体系的アグリゲーションの枠組みとしての超次元計算

Hyperdimensional computing as a framework for systematic aggregation of image descriptors ( http://arxiv.org/abs/2101.07720v1 )

ライセンス: Link先を確認
Peer Neubert and Stefan Schubert(参考訳) 画像とビデオのディスクリプタは、コンピュータビジョンとそのモバイルロボティクスなどの応用分野において、一貫したツールである。 手作りで特に学習された画像記述子の多くは、潜在的に(非常に)多くの次元を持つ数値ベクトルである。 メモリ消費や比較時間といった実践的な考慮事項は、コンパクトな表現の作成を要求する。 本稿では,一組のベクトルから得られる情報を同一次元のベクトルに体系的に結合する手法として,超次元計算(HDC)を用いる。 HDCは、数千次元の数値ベクトルで分散表現を用いた記号処理を行うための既知の技術である。 本稿では,既存および将来の画像記述子(深層学習ベース)の出力処理に適したhdc実装を提案する。 簡単なベクトル演算による追加知識とともに記述子を処理するためのフレームワークとしてどのように使用できるかについて議論する。 具体的な結果は、局所的な画像記述子の集合を1つの全体的記述子のイメージ位置とともに集約する、HDCベースの新しいアプローチである。 一連の標準的な移動ロボットの配置認識実験で利用可能な総体的記述子と集約法と比較すると、ランナーアップと3.6倍の最悪のパフォーマンスに比べて平均性能が20%向上している。

Image and video descriptors are an omnipresent tool in computer vision and its application fields like mobile robotics. Many hand-crafted and in particular learned image descriptors are numerical vectors with a potentially (very) large number of dimensions. Practical considerations like memory consumption or time for comparisons call for the creation of compact representations. In this paper, we use hyperdimensional computing (HDC) as an approach to systematically combine information from a set of vectors in a single vector of the same dimensionality. HDC is a known technique to perform symbolic processing with distributed representation in numerical vectors with thousands of dimensions. We present a HDC implementation that is suitable for processing the output of existing and future (deep-learning based) image descriptors. We discuss how this can be used as a framework to process descriptors together with additional knowledge by simple and fast vector operations. A concrete outcome is a novel HDC-based approach to aggregate a set of local image descriptors together with their image positions in a single holistic descriptor. The comparison to available holistic descriptors and aggregation methods on a series of standard mobile robotics place recognition experiments shows a 20% improvement in average performance compared to runner-up and 3.6x better worst-case performance.
翻訳日:2021-03-22 11:13:18 公開日:2021-01-19
# 人間活動の階層構造を機械がどう考えるか

Machine-Generated Hierarchical Structure of Human Activities to Reveal How Machines Think ( http://arxiv.org/abs/2101.07855v1 )

ライセンス: Link先を確認
Mahsun Alt{\i}n, Furkan G\"ursoy, Lina Xu(参考訳) ディープラーニングに基づくコンピュータビジョンモデルは、人間活動認識(HAR)に対する画期的なアプローチであることが証明されている。 しかしながら、既存の作業の多くは、新しいモデルアーキテクチャの作成、モデルの複雑さの増大、より大きなデータセットでのトレーニングによるモデルパラメータの洗練による予測精度の向上に費やされている。 本稿では,既存の作業とは違って,モデル精度の向上とモデル予測の形状形成を行い,人間活動の類似グループに対する高レベルな要約ラベルの自動作成により,人間の理解と一致させるための代替案を提案する。 まず,人間行動認識のための階層的ラベリングシステムの構築の重要性と実現可能性について考察する。 次に,ブラックボックスHARモデルの予測を用いて,異なるアクティビティ間の類似性を同定する。 最後に,階層的クラスタリング手法を調整し,アクティビティの階層的木を自動生成し,実験を行う。 このシステムでは、同じレベルのアクティビティラベルは、設計された精度の大きさを持ち、特定の量のアクティビティの詳細を反映します。 この戦略は、機密性の高い予測を隠蔽することで、認識されたアクティビティの細部とユーザのプライバシの間のトレードオフを可能にし、プライバシに制限されたシナリオで以前は禁止されていた侵入モデルを使用する可能性を提供する。 階層構造はマシンの観点から生成されるため、上位レベルの予測はより正確であり、最終的な予測目標にかなり簡単なトレーニングセットに詳細なラベルが多すぎる場合に特に有用である。 さらに,これらの木構造の解析により,予測モデルのバイアスを明らかにし,今後のデータ収集戦略を導くことができる。

Deep-learning based computer vision models have proved themselves to be ground-breaking approaches to human activity recognition (HAR). However, most existing works are dedicated to improve the prediction accuracy through either creating new model architectures, increasing model complexity, or refining model parameters by training on larger datasets. Here, we propose an alternative idea, differing from existing work, to increase model accuracy and also to shape model predictions to align with human understandings through automatically creating higher-level summarizing labels for similar groups of human activities. First, we argue the importance and feasibility of constructing a hierarchical labeling system for human activity recognition. Then, we utilize the predictions of a black box HAR model to identify similarities between different activities. Finally, we tailor hierarchical clustering methods to automatically generate hierarchical trees of activities and conduct experiments. In this system, the activity labels on the same level will have a designed magnitude of accuracy and reflect a specific amount of activity details. This strategy enables a trade-off between the extent of the details in the recognized activity and the user privacy by masking some sensitive predictions; and also provides possibilities for the use of formerly prohibited invasive models in privacy-concerned scenarios. Since the hierarchy is generated from the machine's perspective, the predictions at the upper levels provide better accuracy, which is especially useful when there are too detailed labels in the training set that are rather trivial to the final prediction goal. Moreover, the analysis of the structure of these trees can reveal the biases in the prediction model and guide future data collection strategies.
翻訳日:2021-03-22 11:12:35 公開日:2021-01-19
# サイバー物理システムレジリエンスを高めるための予測可能な物のインターネット(IoPT)フレームワーク

Internet of Predictable Things (IoPT) Framework to Increase Cyber-Physical System Resiliency ( http://arxiv.org/abs/2101.07816v1 )

ライセンス: Link先を確認
Umit Cali, Murat Kuzlu, Vinayak Sharma, Manisa Pipattanasomporn, Ferhat Ozgur Catak(参考訳) 過去20年間で、分散エネルギーシステム、特に再生可能エネルギー源(RES)は、電力システムの市場シェアと浸透レベルを増大させ、経済的に可能になっている。 エネルギーシステムの脱炭と分散化に加えて、デジタル化も非常に重要になっている。 人工知能(AI)、高度な最適化アルゴリズム、産業用IoT(Industrial Internet of Things)、その他のデジタル化フレームワークの使用により、現代の電力システム資産はよりインテリジェントになり、サイバーセキュリティのリスクに弱い。 本稿では,サイバーセキュリティリスクに対するサイバー物理システムのレジリエンスを高めるために,高度なデータ分析と機械学習手法を取り入れたIoPT(Internet of Predictable Things)の概念を提案する。 提案した概念は、様々なサイバー攻撃シナリオ下でテストされたサイバー物理システムを用いて、概念実証(PoC)として実証される。

During the last two decades, distributed energy systems, especially renewable energy sources (RES), have become more economically viable with increasing market share and penetration levels on power systems. In addition to decarbonization and decentralization of energy systems, digitalization has also become very important. The use of artificial intelligence (AI), advanced optimization algorithms, Industrial Internet of Things (IIoT), and other digitalization frameworks makes modern power system assets more intelligent, while vulnerable to cybersecurity risks. This paper proposes the concept of the Internet of Predictable Things (IoPT) that incorporates advanced data analytics and machine learning methods to increase the resiliency of cyber-physical systems against cybersecurity risks. The proposed concept is demonstrated using a cyber-physical system testbed under a variety of cyber attack scenarios as a proof of concept (PoC).
翻訳日:2021-03-22 11:12:08 公開日:2021-01-19
# 近似ベイズ計算を用いたネットワークモデル選択のための概要統計の選択

Selection of Summary Statistics for Network Model Choice with Approximate Bayesian Computation ( http://arxiv.org/abs/2101.07766v1 )

ライセンス: Link先を確認
Louis Raynal and Jukka-Pekka Onnela(参考訳) 近似ベイズ計算(ABC)は、現在、難易度のあるモデル上でモデル選択とパラメータ推論を行う主要な戦略の1つとして機能している。 abcの本質的な構成要素は、サマリ統計を通じて大量のシミュレーションデータと観測データを比較することである。 次元の呪いを避けるため、要約統計の選択は最重要であり、abcを機械的なネットワークモデルに適用する場合、さらに重要になる。 実際、多くの要約統計学はネットワーク構造を符号化するのに利用できるが、その計算複雑性は非常に可変である。 大規模ネットワークでは、要約統計の計算がボトルネックを発生させ、abcの使用が困難になる。 この計算負担を低減し, メカニスティックネットワークモデルの解析をより実用的なものにするため, モデル選択フレームワークにおける2つの質問について検討した。 まず,選択過程における異なる要約コストを考慮したコストベースのフィルタ選択手法の有用性を検討した。 次に、少ないノード数で生成されたネットワークを用いて選択を行い、選択ステップに必要な時間を削減する。 その結果,計算量的に安価な要約統計は,分類精度に最小限の影響で効率的に選択できることがわかった。 さらに,ノード数が少ないネットワークは,中程度の要約数を排除するためにのみ使用可能であることが判明した。 この後者の発見はネットワーク固有のものであるが、前者は一般であり、ABCアプリケーションに適応することができる。

Approximate Bayesian Computation (ABC) now serves as one of the major strategies to perform model choice and parameter inference on models with intractable likelihoods. An essential component of ABC involves comparing a large amount of simulated data with the observed data through summary statistics. To avoid the curse of dimensionality, summary statistic selection is of prime importance, and becomes even more critical when applying ABC to mechanistic network models. Indeed, while many summary statistics can be used to encode network structures, their computational complexity can be highly variable. For large networks, computation of summary statistics can quickly create a bottleneck, making the use of ABC difficult. To reduce this computational burden and make the analysis of mechanistic network models more practical, we investigated two questions in a model choice framework. First, we studied the utility of cost-based filter selection methods to account for different summary costs during the selection process. Second, we performed selection using networks generated with a smaller number of nodes to reduce the time required for the selection step. Our findings show that computationally inexpensive summary statistics can be efficiently selected with minimal impact on classification accuracy. Furthermore, we found that networks with a smaller number of nodes can only be employed to eliminate a moderate number of summaries. While this latter finding is network specific, the former is general and can be adapted to any ABC application.
翻訳日:2021-03-22 11:10:46 公開日:2021-01-19
# 回転を伴うマルチターゲット検出

Multi-target detection with rotations ( http://arxiv.org/abs/2101.07709v1 )

ライセンス: Link先を確認
Tamir Bendory, Ti-Yen Lan, Nicholas F. Marshall, Iris Rukshin, Amit Singer(参考訳) 対象画像の無作為に回転・翻訳された多くのコピーを含む大雑音計測画像から2次元目標画像を推定するマルチターゲット検出問題を考察する。 単一粒子の低温電子顕微鏡を応用し,計測対象画像の位置と方向を推定することが困難である低信号対雑音状態に着目した。 本手法は自己相関解析を用いて対象画像の回転的および翻訳的不変な特徴を推定する。 本手法は,ノイズのレベルに関わらず,測定値が十分に大きい場合に対象画像の復元に有効であることを示す。

We consider the multi-target detection problem of estimating a two-dimensional target image from a large noisy measurement image that contains many randomly rotated and translated copies of the target image. Motivated by single-particle cryo-electron microscopy, we focus on the low signal-to-noise regime, where it is difficult to estimate the locations and orientations of the target images in the measurement. Our approach uses autocorrelation analysis to estimate rotationally and translationally invariant features of the target image. We demonstrate that, regardless of the level of noise, our technique can be used to recover the target image when the measurement is sufficiently large.
翻訳日:2021-03-22 11:10:25 公開日:2021-01-19
# 室内環境における長期水平構成作業のためのモジュール型視覚言語ナビゲーション・操作フレームワーク

A modular vision language navigation and manipulation framework for long horizon compositional tasks in indoor environment ( http://arxiv.org/abs/2101.07891v1 )

ライセンス: Link先を確認
Homagni Saha, Fateme Fotouhif, Qisai Liu, Soumik Sarkar(参考訳) 本稿では,視覚的な自然言語命令を日常の家庭内タスクに対して実行するための,MoViLan (Modular Vision and Language) という新しいフレームワークを提案する。 データ駆動でエンドツーエンドの学習フレームワークが視覚と言語のモダリティに基づいたナビゲーションタスクを対象として提案されているが、最近のベンチマークデータセットのパフォーマンスは、長い地平線のための包括的な技術開発におけるギャップを明らかにした。 本稿では,高度に協調した視覚・言語訓練データ(例えば,専門家による実験軌道の形で)を必要とせずに,ナビゲーションとオブジェクトの相互作用の複合問題に対処するモジュール方式を提案する。 このようなアプローチは、この分野における従来のエンドツーエンド技術とは大きく離れており、視覚と言語データセットを分離したより魅力的なトレーニングプロセスを可能にします。 具体的には、乱雑な屋内環境のための新しい幾何学的対応マッピング手法と、家事指導に一般化された言語理解モデルを提案する。 我々は,最近リリースされたベンチマークデータセットセット-ALFREDのベースライン上での長期合成タスクの成功率を著しく向上させることを示す。

In this paper we propose a new framework - MoViLan (Modular Vision and Language) for execution of visually grounded natural language instructions for day to day indoor household tasks. While several data-driven, end-to-end learning frameworks have been proposed for targeted navigation tasks based on the vision and language modalities, performance on recent benchmark data sets revealed the gap in developing comprehensive techniques for long horizon, compositional tasks (involving manipulation and navigation) with diverse object categories, realistic instructions and visual scenarios with non-reversible state changes. We propose a modular approach to deal with the combined navigation and object interaction problem without the need for strictly aligned vision and language training data (e.g., in the form of expert demonstrated trajectories). Such an approach is a significant departure from the traditional end-to-end techniques in this space and allows for a more tractable training process with separate vision and language data sets. Specifically, we propose a novel geometry-aware mapping technique for cluttered indoor environments, and a language understanding model generalized for household instruction following. We demonstrate a significant increase in success rates for long-horizon, compositional tasks over the baseline on the recently released benchmark data set-ALFRED.
翻訳日:2021-03-22 11:10:15 公開日:2021-01-19
# ES-ENAS:強化学習のための余分なコストなしで進化戦略とニューラルネットワーク検索を組み合わせる

ES-ENAS: Combining Evolution Strategies with Neural Architecture Search at No Extra Cost for Reinforcement Learning ( http://arxiv.org/abs/2101.07415v1 )

ライセンス: Link先を確認
Xingyou Song, Krzysztof Choromanski, Jack Parker-Holder, Yunhao Tang, Daiyi Peng, Deepali Jain, Wenbo Gao, Aldo Pacchiano, Tamas Sarlos, Yuxiang Yang(参考訳) 本稿では、進化戦略(ES)と効率的なNAS(ENAS)を高度にスケーラブルかつ直感的に組み合わせることで、強化学習(RL)ポリシー設計のための単純なニューラルネットワーク探索(NAS)アルゴリズムであるES-ENASを紹介する。 我々はESがすでに分散ブラックボックスアルゴリズムであることに気付き、ESの中央アグリゲータにENASからモデルコントローラを挿入するだけで、重量共有特性を無償で取得できると考えている。 これにより、教師付き学習環境におけるNAS研究から強化学習シナリオへのギャップを、2つの異なる研究ライン間の比較的単純な結婚を通じて埋めることができ、RLにコントローラベースのNAS技術を適用した最初の1つである。 エッジプルーニングと重み共有による連続制御におけるRL問題に対する組合せニューラルネットワークアーキテクチャの訓練により,本手法の有用性を実証する。 我々はまた、多目的最適化や様々な制御メソッドを含む、現代的なnas文学から広く普及したテクニックを取り入れ、rlフィールドにその約束を示し、拡張の可能性について議論した。 複数のタスクに対する90%以上のネットワーク圧縮を実現し,ストレージと計算資源に制限のある移動ロボット工学に特に関心を持つ可能性がある。

We introduce ES-ENAS, a simple neural architecture search (NAS) algorithm for the purpose of reinforcement learning (RL) policy design, by combining Evolutionary Strategies (ES) and Efficient NAS (ENAS) in a highly scalable and intuitive way. Our main insight is noticing that ES is already a distributed blackbox algorithm, and thus we may simply insert a model controller from ENAS into the central aggregator in ES and obtain weight sharing properties for free. By doing so, we bridge the gap from NAS research in supervised learning settings to the reinforcement learning scenario through this relatively simple marriage between two different lines of research, and are one of the first to apply controller-based NAS techniques to RL. We demonstrate the utility of our method by training combinatorial neural network architectures for RL problems in continuous control, via edge pruning and weight sharing. We also incorporate a wide variety of popular techniques from modern NAS literature, including multiobjective optimization and varying controller methods, to showcase their promise in the RL field and discuss possible extensions. We achieve >90% network compression for multiple tasks, which may be special interest in mobile robotics with limited storage and computational resources.
翻訳日:2021-03-22 11:09:52 公開日:2021-01-19
# DenseECGを用いた心房細動の心電図分類と診断

Electrocardiogram Classification and Visual Diagnosis of Atrial Fibrillation with DenseECG ( http://arxiv.org/abs/2101.07535v1 )

ライセンス: Link先を確認
Dacheng Chen, Dan Li, Xiuqin Xu, Ruizhi Yang, See-Kiong Ng(参考訳) 心房細動(Atrial Fibrillation、AF)は、世界中の多くの人々に影響を及ぼす一般的な不整脈である。 発見されていない場合、慢性的な障害や早期死亡に至る。 しかし、この問題のある患者は、特に初期の段階では、その存在感をほとんど感じない。 非侵襲的, 自動的, 効果的検出法は, 医療介入の進行防止に間に合うように早期発見を支援するために必要である。 心臓の電気活動を記録する心電図(ECG)は、AFの存在を検出するために広く用いられている。 しかし、AFの微妙なパターンのため、検出モデルの性能は、複雑なデータ前処理と専門的に設計された機能に依存している。 本研究では,5層1D高密度結合畳み込みニューラルネットワークに基づくエンドツーエンドモデルであるDenseECGを開発した。 2017 physionet computing in cardiology (cinc) challenge の公開データセットを用いて,短期心臓リズム (9-61s) の単誘導心電図記録8528本を含むモデルをトレーニングした。 トレーニングしたモデルは、複雑なデータ前処理や専門家が監督する機能エンジニアリングなしに、このデータセット上の他の最先端af検出モデルよりも優れていました。

Atrial Fibrillation (AF) is a common cardiac arrhythmia affecting a large number of people around the world. If left undetected, it will develop into chronic disability or even early mortality. However, patients who have this problem can barely feel its presence, especially in its early stage. A non-invasive, automatic, and effective detection method is therefore needed to help early detection so that medical intervention can be implemented in time to prevent its progression. Electrocardiogram (ECG), which records the electrical activities of the heart, has been widely used for detecting the presence of AF. However, due to the subtle patterns of AF, the performance of detection models have largely depended on complicated data pre-processing and expertly engineered features. In our work, we developed DenseECG, an end-to-end model based on 5 layers 1D densely connected convolutional neural network. We trained our model using the publicly available dataset from 2017 PhysioNet Computing in Cardiology(CinC) Challenge containing 8528 single-lead ECG recordings of short-term heart rhythms (9-61s). Our trained model was able to outperform the other state-of-the-art AF detection models on this dataset without complicated data pre-processing and expert-supervised feature engineering.
翻訳日:2021-03-22 11:09:29 公開日:2021-01-19
# ユーザドロップアウトによる情報理論的セキュアアグリゲーション

Information Theoretic Secure Aggregation with User Dropouts ( http://arxiv.org/abs/2101.07750v1 )

ライセンス: Link先を確認
Yizhou Zhao, Hua Sun(参考訳) 堅牢なセキュアアグリゲーション問題において、サーバは、複数のユーザの入力の合計を学習し、学習したいが、一部のユーザがドロップアウトする可能性がある(例えば、応答しないかもしれない)。 削除されたユーザの身元は事前に分かっておらず、サーバは生き残ったユーザの合計を確実に回復する必要がある。 セキュアアグリゲーションの最小2ラウンドモデルについて考察する。 最初のラウンドでは、$K$ユーザのうち、$U$ユーザ以下の任意のセットがサーバーに応答し、サーバーは、応答するすべてのユーザの入力の総和を知りたがっている。 残りのユーザーはドロップとして表示される。 第2ラウンドでは、生き残ったユーザのU$ユーザ以下の任意のセット(すなわち、第2ラウンドでドロップアウトが可能)と、生き残ったユーザから得た情報が2ラウンドにわたってデコードされ、サーバは所望の金額をデコードできる。 セキュリティ上の制約は、サーバが$t$のユーザと衝突し、ドロップしたユーザからのメッセージがサーバから受信されたとしても(例えば遅延パケット)、情報理論的な意味において合計以上の追加情報を推測できないことである。 この情報理論的なセキュアアグリゲーション問題に対して,我々は最適な通信コストを特徴付ける。 u \leq t$ の場合、セキュアアグリゲーションは実現不可能であり、$u > t$ が和の1つのシンボルを安全に計算するには、各ユーザからサーバに送信されるシンボルの最小数は、最初のラウンドで1ドル、第2ラウンドでは1ドル/(u-t)$である。

In the robust secure aggregation problem, a server wishes to learn and only learn the sum of the inputs of a number of users while some users may drop out (i.e., may not respond). The identity of the dropped users is not known a priori and the server needs to securely recover the sum of the remaining surviving users. We consider the following minimal two-round model of secure aggregation. Over the first round, any set of no fewer than $U$ users out of $K$ users respond to the server and the server wants to learn the sum of the inputs of all responding users. The remaining users are viewed as dropped. Over the second round, any set of no fewer than $U$ users of the surviving users respond (i.e., dropouts are still possible over the second round) and from the information obtained from the surviving users over the two rounds, the server can decode the desired sum. The security constraint is that even if the server colludes with any $T$ users and the messages from the dropped users are received by the server (e.g., delayed packets), the server is not able to infer any additional information beyond the sum in the information theoretic sense. For this information theoretic secure aggregation problem, we characterize the optimal communication cost. When $U \leq T$, secure aggregation is not feasible, and when $U > T$, to securely compute one symbol of the sum, the minimum number of symbols sent from each user to the server is $1$ over the first round, and $1/(U-T)$ over the second round.
翻訳日:2021-03-22 11:09:14 公開日:2021-01-19
# SEMULATOR:回帰ニューラルネットワークを用いたクロスバーアレイ型アナログニューラルシステムのダイナミクスをエミュレートする

SEMULATOR: Emulating the Dynamics of Crossbar Array-based Analog Neural System with Regression Neural Networks ( http://arxiv.org/abs/2101.07864v1 )

ライセンス: Link先を確認
Chaeun Lee, Seyoung Kim(参考訳) ディープニューラルネットワークは膨大な計算量とメモリを必要とするため、新興メモリデバイスによるアナログコンピューティングは、エッジデバイスのデジタルコンピューティングに代わる有望な選択肢である。 しかし,アナログ計算システムのシミュレーション時間の増加により,まだ検討されていない。 この問題を解決するために、解析的近似シミュレータが開発されたが、これらのモデルは不正確であり、乗算演算(MAC)のための周辺回路の選択肢を狭めている。 この意味では、深いニューラルネットワークを用いてクロスバーベースのアナログコンピューティングシステムの挙動をエミュレートする手法であるSEMULATOR(SiMUlaTOR by Emulated the analog computing block)を提案する。 提案したニューラルアーキテクチャを用いて,実験および理論的に,ニューラル計算のためのMACユニットをエミュレートすることを示した。 また、SPICEなどの回路シミュレータと比較した場合、シミュレーション時間を非比較的に短縮する。

As deep neural networks require tremendous amount of computation and memory, analog computing with emerging memory devices is a promising alternative to digital computing for edge devices. However, because of the increasing simulation time for analog computing system, it has not been explored. To overcome this issue, analytically approximated simulators are developed, but these models are inaccurate and narrow down the options for peripheral circuits for multiply-accumulate operation (MAC). In this sense, we propose a methodology, SEMULATOR (SiMULATOR by Emulating the analog computing block) which uses a deep neural network to emulate the behavior of crossbar-based analog computing system. With the proposed neural architecture, we experimentally and theoretically shows that it emulates a MAC unit for neural computation. In addition, the simulation time is incomparably reduced when it compared to the circuit simulators such as SPICE.
翻訳日:2021-03-22 11:08:46 公開日:2021-01-19
# 説明可能なパターン: データ分析の民主化をサポートするための知見から洞察へ

Explainable Patterns: Going from Findings to Insights to Support Data Analytics Democratization ( http://arxiv.org/abs/2101.08655v1 )

ライセンス: Link先を確認
Leonardo Christino, Martha D. Ferreira, Asal Jalilvand and Fernando V. Paulovich(参考訳) 過去数十年間、企業、非営利団体、政府、その他を含む大規模な取り組みが、データの民主化の概念を支持し、人々がデータと向き合うよう教育する取り組みを推進してきた。 これは、我々の自由世界で最も重要な進歩の1つだが、具体的な事実のないデータへのアクセスや、既存のパターンを理解するための専門家の欠如は、本質的な価値を損ね、民主化を弱める。 ですから、データへの完全なアクセスを提供することのメリットは、さらに一歩進んで、データ分析の民主化をサポートすることで、ドメインの専門家がデータ解釈と検証に拘束力のないアクセスを促進する必要なしに、発見を洞察に変換することを支援することでのみ影響します。 本稿では,データストーリーテリングの探索と作成において,layユーザを支援する新たなフレームワークであるexpatt(solvable patterns)を提案する。外部(テキスト)の情報ソースを使用して,観察あるいは選択された結果に対する妥当な説明を自動的に生成し,ドメイン専門家の必要性を回避あるいは軽減する。 ExPattの適用性は、世界の人口統計指標とウィキペディアを含むさまざまなユースケースを通じて確認されており、データ分析の民主化に向けて実際にどのように使用できるかを示している。

In the past decades, massive efforts involving companies, non-profit organizations, governments, and others have been put into supporting the concept of data democratization, promoting initiatives to educate people to confront information with data. Although this represents one of the most critical advances in our free world, access to data without concrete facts to check or the lack of an expert to help on understanding the existing patterns hampers its intrinsic value and lessens its democratization. So the benefits of giving full access to data will only be impactful if we go a step further and support the Data Analytics Democratization, assisting users in transforming findings into insights without the need of domain experts to promote unconstrained access to data interpretation and verification. In this paper, we present Explainable Patterns (ExPatt), a new framework to support lay users in exploring and creating data storytellings, automatically generating plausible explanations for observed or selected findings using an external (textual) source of information, avoiding or reducing the need for domain experts. ExPatt applicability is confirmed via different use-cases involving world demographics indicators and Wikipedia as an external source of explanations, showing how it can be used in practice towards the data analytics democratization.
翻訳日:2021-03-22 11:08:13 公開日:2021-01-19