このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201215となっている論文です。

PDF登録状況(公開日: 20201215)

TitleAuthorsAbstract論文公表日・翻訳日
# 新しい遺伝子多部構造

New Genuine Multipartite Entanglement ( http://arxiv.org/abs/2003.07153v3 )

ライセンス: Link先を確認
Ming-Xing Luo(参考訳) 非常に重要なリソースの1つである量子絡み合いは、量子情報処理に広く利用されている。 本研究では,新しい種類の真のマルチパーティ・エンタングルメントを提案する。 量子マルチソースネットワークと比較して、絡み合ったシステムの特別な幾何学的特徴に由来する。 対称交絡純状態が双分離モデルにおける真の多部非局所性よりも強い非局所性を示すことを証明する。 同様の結果は、局所次元が3ドル未満の他の絡み合った純状態に対して成り立つ。 さらに,ノイズ状態の新しい非局所性を確認するための計算条件も提供する。 これらの結果から,本モデルは新しい量子エンタングルメントを特徴付けるのに有用であることが示唆された。

The quantum entanglement as one of very important resources has been widely used in quantum information processing. In this work, we present a new kind of genuine multipartite entanglement. It is derived from special geometric feature of entangled systems compared with quantum multisource networks. We prove that any symmetric entangled pure state shows stronger nonlocality than the genuinely multipartite nonlocality in the biseparable model. Similar results hold for other entangled pure states with local dimensions no larger than $3$. We further provide computational conditions for witnessing the new nonlocality of noisy states. These results suggest that the present model is useful characterizing a new kind of generic quantum entanglement.
翻訳日:2023-05-29 00:24:53 公開日:2020-12-15
# ボソニックオットーエンジンの熱力学的不確かさ関係

Thermodynamic Uncertainty Relations for Bosonic Otto Engines ( http://arxiv.org/abs/2007.05399v3 )

ライセンス: Link先を確認
Massimiliano F. Sacchi(参考訳) 2モードボソニックエンジンのオットーサイクルについて検討した。 2つのボゾン系間のエネルギー交換は、周波数変換をモデル化するモード演算子における可変ユニタリ双線形相互作用によって提供されるが、循環操作は相互作用段階ごとに異なる温度で2つの浴槽に緩和することによって保証される。 2点測定アプローチによって、確率的作業と熱の合同確率を提供する。 我々は, 平均抽出作業の相互依存性, 変動, 効率, および観測された作業の信号対雑音比と熱とエントロピー生成との間の熱力学的不確かさの関係を示す, 作業と熱のゆらぎの正確な表現を導出する。 本稿では, 量子オットーエンジンにおける熱力学的不確実性関係を導出するために, 提案手法を適宜適用する方法を概説する。

We study two-mode bosonic engines undergoing an Otto cycle. The energy exchange between the two bosonic systems is provided by a tunable unitary bilinear interaction in the mode operators modeling frequency conversion, whereas the cyclic operation is guaranteed by relaxation to two baths at different temperature after each interacting stage. By means of a two-point-measurement approach we provide the joint probability of the stochastic work and heat. We derive exact expressions for work and heat fluctuations, identities showing the interdependence among average extracted work, fluctuations and efficiency, along with thermodynamic uncertainty relations between the signal-to-noise ratio of observed work and heat and the entropy production. We outline how the presented approach can be suitably applied to derive thermodynamic uncertainty relations for quantum Otto engines with alternative unitary strokes.
翻訳日:2023-05-10 17:12:48 公開日:2020-12-15
# 光対応可能な欠陥量子ビットのための逆設計光子抽出器

Inverse-designed photon extractors for optically addressable defect qubits ( http://arxiv.org/abs/2007.12344v3 )

ライセンス: Link先を確認
Srivatsa Chakravarthi, Pengning Chao, Christian Pederson, Sean Molesky, Andrew Ivanov, Karine Hestroffer, Fariba Hatami, Alejandro W. Rodriguez and Kai-Mei C. Fu(参考訳) スピン光子界面を持つ固体欠陥量子ビット系は量子情報やメトロジーの応用に大いに期待できる。 しかし、光子収集効率は高屈折率ホスト材料における欠陥量子ビットにとって大きな課題となる。 フォトニックデバイスの逆設計最適化により、スペクトル応答、光子偏光、収集モードを含むスピン-フォトニック界面の重要なパラメータを調整できる前例のない柔軟性が得られる。 さらに、設計プロセスは、製造耐性や材料加工の限界といった追加の制約を組み込むことができる。 ここでは,ダイヤモンド逆設計平面誘電体構造上に,単層窒素空隙中心と結合した小型複合リン化ガリウムの設計と実演を行う。 デバイス動作を理論的限界付近で観測し、光子抽出効率の最大14倍の広帯域化を計測する。 このような逆設計のデバイスは、スケーラブルな単一光子エミッタアレイの実現、新しい量子エミッタの迅速なキャラクタリゼーション、センシングと効率的な隠蔽機構の実現を期待する。

Solid-state defect qubit systems with spin-photon interfaces show great promise for quantum information and metrology applications. Photon collection efficiency, however, presents a major challenge for defect qubits in high refractive index host materials. Inverse-design optimization of photonic devices enables unprecedented flexibility in tailoring critical parameters of a spin-photon interface including spectral response, photon polarization and collection mode. Further, the design process can incorporate additional constraints, such as fabrication tolerance and material processing limitations. Here we design and demonstrate a compact hybrid gallium phosphide on diamond inverse-design planar dielectric structure coupled to single near-surface nitrogen-vacancy centers formed by implantation and annealing. We observe device operation near the theoretical limit and measure up to a 14-fold broadband enhancement in photon extraction efficiency. We expect that such inverse-designed devices will enable realization of scalable arrays of single-photon emitters, rapid characterization of new quantum emitters, sensing and efficient heralded entanglement schemes.
翻訳日:2023-05-08 08:35:57 公開日:2020-12-15
# 位相参照のない量子化通信

Quantum-enabled communication without a phase reference ( http://arxiv.org/abs/2010.11974v2 )

ライセンス: Link先を確認
Quntao Zhuang(参考訳) 位相参照は、連続可変量子センシングおよび通信プロトコルにおける標準要件である。 しかし、位相参照の維持は環境変動のため困難であり、絡み合いやコヒーレンスといった量子現象が多くのシナリオで利用されない。 我々は,短期記憶効果が存在する場合,位相参照のない量子通信と絡み合い支援通信が可能であることを示す。 古典的あるいは量子的な情報伝達の通信速度の低下は相関時間と逆向きに減少する。 純粋な減圧チャネルに対する量子キャパシティとエンタングルメント支援古典/量子キャパシティの正確な解法が導出され、非ガウス多部共役状態は通常のガウス情報源よりも厳密な優位性を示す。 熱損失除去チャネルでは, キャパシティの低い境界が導出される。 下限は、チャネル内でフェーディング効果のあるシナリオにも拡張される。 また、絡み合い支援通信では、ノイズが大きい場合の2モード圧縮真空源上の簡単な位相符号化方式により下界を実現することができる。

A phase reference has been a standard requirement in continuous-variable quantum sensing and communication protocols. However, maintaining a phase reference is challenging due to environmental fluctuations, preventing quantum phenomena such as entanglement and coherence from being utilized in many scenarios. We show that quantum communication and entanglement-assisted communication without a phase reference are possible, when a short-time memory effect is present. The degradation in the communication rate of classical or quantum information transmission decreases inversely with the correlation time. An exact solution of the quantum capacity and entanglement-assisted classical/quantum capacity for pure dephasing channels is derived, where non-Gaussian multipartite-entangled states show strict advantages over usual Gaussian sources. For thermal-loss dephasing channels, lower bounds of the capacities are derived. The lower bounds also extend to scenarios with fading effect in the channel. In addition, for entanglement-assisted communication, the lower bounds can be achieved by a simple phase-encoding scheme on two-mode squeezed vacuum sources, when the noise is large.
翻訳日:2023-04-28 00:47:30 公開日:2020-12-15
# 超伝導人工原子のボース・ハッバード鎖における光子輸送

Photon transport in a Bose-Hubbard chain of superconducting artificial atoms ( http://arxiv.org/abs/2011.11454v2 )

ライセンス: Link先を確認
G.P. Fedorov, S.V. Remizov, D.S. Shapiro, W.V. Pogosov, E. Egorova, I. Tsitsilin, M. Andronik, A.A. Dobronosova, I.A. Rodionov, O.V. Astafiev, and A.V. Ustinov(参考訳) 駆動拡散型ボース・ハバード模型をシミュレートした5つの結合した人工原子の鎖を通して非平衡定常光子輸送を示す。 透過分光法を用いて, 2つの開空間に強く結合されているにもかかわらず, 系は多粒子コヒーレンスを保っていることを示す。 システムエネルギーバンドはクロスカー相互作用を用いて高コントラストで可視化できることを示す。 消失障害に対しては、入力出力理論とよく一致して、光子遮断の線形状態から非線形状態への系の遷移を観察する。 最後に,本システムに導入された制御不能障害が,この非局所光子伝達を抑制することを示す。 さらに大きな人工原子配列を持つ多体フロケット力学のアナログシミュレーションに提案アーキテクチャが適用され、量子超越性の実証に代替的な方法が期待できる。

We demonstrate non-equilibrium steady-state photon transport through a chain of five coupled artificial atoms simulating the driven-dissipative Bose-Hubbard model. Using transmission spectroscopy, we show that the system retains many-particle coherence despite being coupled strongly to two open spaces. We show that system energy bands may be visualized with high contrast using cross-Kerr interaction. For vanishing disorder, we observe the transition of the system from the linear to the nonlinear regime of photon blockade in excellent agreement with the input-output theory. Finally, we show how controllable disorder introduced to the system suppresses this non-local photon transmission. We argue that proposed architecture may be applied to analog simulation of many-body Floquet dynamics with even larger arrays of artificial atoms paving an alternative way to demonstration of quantum supremacy
翻訳日:2023-04-23 09:09:48 公開日:2020-12-15
# 超電導量子ビットにおける相関電荷ノイズと緩和誤差

Correlated Charge Noise and Relaxation Errors in Superconducting Qubits ( http://arxiv.org/abs/2012.06029v2 )

ライセンス: Link先を確認
C. D. Wilen (1), S. Abdullah (1), N. A. Kurinsky (2,3), C. Stanford (4), L. Cardani (5), G. D'Imperio (5), C. Tomei (5), L.Faoro (1,6), L. B. Ioffe (7), C. H. Liu (1), A. Opremcak (1), B. G. Christensen (1), J. L. DuBois (8), and R. McDermott (1) ((1) University of Wisconsin-Madison, (2) Fermi National Accelerator Laboratory, (3) Kavli Institute for Cosmological Physics, University of Chicago, (4) Stanford University, (5) INFN Sezione di Roma, (6) Sorbonne Universite, (7) Google, (8) Lawrence Livermore National Laboratory)(参考訳) 量子コンピュータ構築における中心的な課題は、誤り訂正である。 量子ビット(qubits)は1つのタイプのエラーにしか影響しない古典的なビットとは異なり、量子ビット(qubits)は2種類のエラーに感受性があり、$X$-および$Z$-directionsの量子ビット状態のフリップに対応する。 Heisenberg Uncertainty Principleは単一量子ビット上でのX$-およびZ$-flipsの同時監視を妨げるが、エラー率が低い場合、システム内の全てのエラーの正確なモニタリングを可能にする、絡み合った量子ビットの大規模な配列に量子情報をエンコードすることができる。 もうひとつの重要な要件は、エラーを相関できないことだ。 ここでは,超伝導マルチキュービット回路を特徴付け,600〜$\mu$m以上の長さスケールで電荷変動が高い相関関係にあること,さらに,離散電荷ジャンプは,ミリスケールチップ全体の量子ビットエネルギー緩和時間を強い過渡的に抑制する。 得られた相関誤差は、クォービット基板中のガンマ線および宇宙線ミューオンの吸収に伴う電荷事象とフォノンを介する準粒子中毒の観点から説明される。 ロバストな量子誤差補正は、粒子衝突による相関誤差から多ビットアレイを保護するための緩和戦略の開発を必要とする。

The central challenge in building a quantum computer is error correction. Unlike classical bits, which are susceptible to only one type of error, quantum bits ("qubits") are susceptible to two types of error, corresponding to flips of the qubit state about the $X$- and $Z$-directions. While the Heisenberg Uncertainty Principle precludes simultaneous monitoring of $X$- and $Z$-flips on a single qubit, it is possible to encode quantum information in large arrays of entangled qubits that enable accurate monitoring of all errors in the system, provided the error rate is low. Another crucial requirement is that errors cannot be correlated. Here, we characterize a superconducting multiqubit circuit and find that charge fluctuations are highly correlated on a length scale over 600~$\mu$m; moreover, discrete charge jumps are accompanied by a strong transient suppression of qubit energy relaxation time across the millimeter-scale chip. The resulting correlated errors are explained in terms of the charging event and phonon-mediated quasiparticle poisoning associated with absorption of gamma rays and cosmic-ray muons in the qubit substrate. Robust quantum error correction will require the development of mitigation strategies to protect multiqubit arrays from correlated errors due to particle impacts.
翻訳日:2023-04-21 05:26:30 公開日:2020-12-15
# ディックスタークモデルにおける選択相互作用によるディック状態生成

Dicke States Generation via Selective Interactions in Dicke-Stark Model ( http://arxiv.org/abs/2012.08104v1 )

ライセンス: Link先を確認
Fengchun Mu, Ya Gao, Hong-Da Yin and Gangcheng Wang(参考訳) 時間依存摂動理論を用いてDicke-Starkモデルとの選択的相互作用を生成する手法を提案する。 適切な回転フレームワークを選択することで、時間振動項は原子励起数とフォトニック励起数に依存することが分かる。 これにより、2レベルシステムの周波数を適切に選択することで、選択状態間のラビ振動を実現することができる。 この方法では、第二次選択的相互作用も研究できる。 そして、ディック状態、ディック状態の重ね合わせ、GHZ状態などの様々な状態は、そのような選択的相互作用によって生成することができる。 数値計算の結果,高忠実度ディック状態とグリーンベルガー・ホーネ・ザイリンガー状態は,2段階系の固有周波数を選択し,進化時間を制御することによって生成できることが示唆された。

We propose a method to create selective interactions with Dicke-Stark model by means of time-dependent perturbation theory. By choosing the proper rotating framework, we find that the time oscillating terms depend on the number of atomic excitations and the number of photonic excitations. Consequently, the Rabi oscillation between selective states can be realized by properly choosing the frequency of the two-level system. The second order selective interactions can also be studied with this method. Then various states such as Dicke states, superposition of Dicke states and GHZ states can be created by means of such selective interactions. The numerical results show that high fidelity Dicke states and Greenberger-Horne-Zeilinger states can be created by choosing the proper frequency of two-level system and controlling the evolution time.
翻訳日:2023-04-20 19:14:29 公開日:2020-12-15
# 量子システムにおける二元仮説試験の動作特性

Operating Characteristics for Binary Hypothesis Testing in Quantum Systems ( http://arxiv.org/abs/2012.08081v1 )

ライセンス: Link先を確認
Catherine Medlock and Alan Oppenheim and Isaac Chuang and Qi Ding(参考訳) 受信者動作特性(ROCs)は、古典的二項仮説テストにおける検出と誤報確率のトレードオフの確立された表現である。 量子システムにおける2値仮説テストのための2種類の動作特性 - 決定操作特性(QDOC)と測定操作特性(QMOC) - のモチベーションとして古典ROCを用いる。 二項仮説検定の典型的な定式化を古典的シナリオと量子的シナリオの両方において包含するフレームワークの文脈で記述する。 この枠組みにおける誤差の最小確率を持つ2つの量子密度作用素の識別に関するヘルストロムのよく知られた結果について解釈する。 また,古典的解析フレームと量子測定の対応に関して,これまでの結果を一般化する。 この導出は自然にヘルストロームの最適測定以外の多くの異なる測定値を生成する構成的手順を導く。

Receiver operating characteristics (ROCs) are a well-established representation of the tradeoff between detection and false alarm probabilities in classical binary hypothesis testing. We use classical ROCs as motivation for two types of operating characteristics for binary hypothesis testing in quantum systems -- decision operating characteristics (QDOCs) and measurement operating characteristics (QMOCs). Both are described in the context of a framework we propose that encompasses the typical formulations of binary hypothesis testing in both the classical and quantum scenarios. We interpret Helstrom's well-known result regarding discrimination between two quantum density operators with minimum probability of error in this framework. We also present a generalization of previous results regarding the correspondence between classical Parseval frames and quantum measurements. The derivation naturally leads to a constructive procedure for generating many different measurements besides Helstrom's optimal measurement, some standard and others non-standard, that achieve minimum probability of error.
翻訳日:2023-04-20 19:14:15 公開日:2020-12-15
# 決定点過程に基づく新しい多目的進化アルゴリズム

A New Many-Objective Evolutionary Algorithm Based on Determinantal Point Processes ( http://arxiv.org/abs/2012.08063v1 )

ライセンス: Link先を確認
Peng Zhang, Jinlong Li, Tengfei Li, Huanhuan Chen(参考訳) 多目的最適化問題(MaOP)の異なるタイプの多目的進化アルゴリズム(MaOEA)を扱うためには、高次元の目的空間における収束と集団の多様性を同時に維持する必要がある。 本稿では,多様性と収束のバランスをとるために,DPP(Determinantal Point Processes)と呼ばれるカーネル行列と確率モデルを導入する。 決定的点過程(maoeadpps)を持つ多目的進化アルゴリズムを、様々な種類のmaops \textcolor{blue}{} 上のいくつかの最先端アルゴリズムと比較した。 実験の結果,MaOEADPPsは競争力を持つことが示された。

To handle different types of Many-Objective Optimization Problems (MaOPs), Many-Objective Evolutionary Algorithms (MaOEAs) need to simultaneously maintain convergence and population diversity in the high-dimensional objective space. In order to balance the relationship between diversity and convergence, we introduce a Kernel Matrix and probability model called Determinantal Point Processes (DPPs). Our Many-Objective Evolutionary Algorithm with Determinantal Point Processes (MaOEADPPs) is presented and compared with several state-of-the-art algorithms on various types of MaOPs \textcolor{blue}{with different numbers of objectives}. The experimental results demonstrate that MaOEADPPs is competitive.
翻訳日:2023-04-20 19:13:38 公開日:2020-12-15
# 量子エラー除去のサンプリングオーバーヘッド解析:Uncoded vs. Coded Systems

Sampling Overhead Analysis of Quantum Error Mitigation: Uncoded vs. Coded Systems ( http://arxiv.org/abs/2012.08378v1 )

ライセンス: Link先を確認
Yifeng Xiong, Daryus Chandra, Soon Xin Ng, Lajos Hanzo(参考訳) 量子エラー緩和(QEM)は、ハイブリッド量子古典計算をデコヒーレンスから保護するための有望な手法であるが、計算速度を損なうサンプリングオーバーヘッドに悩まされている。 本論文では,QEMによるサンプリングオーバーヘッドの包括的解析を行う。 特に、パウリの誤差は、同じ平均忠実度を持つ多くの現実的な量子チャネルの中で、最も低いサンプリングオーバーヘッドをもたらすことを示す。 さらに, 偏極誤差は, あらゆる種類のパウリ誤差の中で, サンプリングオーバーヘッドが低いことを示す。 さらに,qemと量子チャネル符号化を融合したスキームを考え,そのサンプリングオーバーヘッドを純粋なqemと比較して解析する。 特に、量子回路には臨界数のゲートが存在することが観察され、それらのアマルガメーションは純粋なQEMよりも好まれる。

Quantum error mitigation (QEM) is a promising technique of protecting hybrid quantum-classical computation from decoherence, but it suffers from sampling overhead which erodes the computational speed. In this treatise, we provide a comprehensive analysis of the sampling overhead imposed by QEM. In particular, we show that Pauli errors incur the lowest sampling overhead among a large class of realistic quantum channels having the same average fidelity. Furthermore, we show that depolarizing errors incur the lowest sampling overhead among all kinds of Pauli errors. Additionally, we conceive a scheme amalgamating QEM with quantum channel coding, and analyse its sampling overhead reduction compared to pure QEM. Especially, we observe that there exist a critical number of gates contained in quantum circuits, beyond which their amalgamation is preferable to pure QEM.
翻訳日:2023-04-20 19:05:35 公開日:2020-12-15
# 構造化透明性によるプライバシトレードオフを超えて

Beyond Privacy Trade-offs with Structured Transparency ( http://arxiv.org/abs/2012.08347v1 )

ライセンス: Link先を確認
Andrew Trask and Emma Bluemke and Ben Garfinkel and Claudia Ghezzou Cuervas-Mons and Allan Dafoe(参考訳) 多くの社会的に価値のある活動は、医療研究、公衆衛生政策、政治調整、パーソナライズされたデジタルサービスなど、センシティブな情報に依存している。 私たちはデータ分析やデータプライバシの保持から利益を得ることができますが、その両方ではありません。 いくつかの分野にわたって、このトレードオフを克服して、望ましくない誤用を許さずに情報の生産的利用を可能にするために、膨大な努力が向けられてきました。 本稿では,構造化透明性の確立を目指す研究の最前線について概説する。 私たちは、入力プライバシ、アウトプットプライバシ、インプット検証、アウトプット検証、フローガバナンスといった基本的なコンポーネントと、コピー、バンドル、再帰的な監視に関する基本的な問題を特徴付ける、一般的な理論的フレームワークと語彙を提供しています。 これらの障壁は、しばしば現れるほど基礎的ではないと論じている。 近年の「民営化技術(PET)」の発展は、セキュアな計算やフェデレーションラーニングなど、多くの領域における使い捨てのトレードオフを著しく減少させる可能性がある。 オープンリサーチ、エネルギー管理、クレジットスコアリングシステムにおいて、構造化された透明性の図面と、これらのツールの誤用リスクに関する議論を締めくくります。

Many socially valuable activities depend on sensitive information, such as medical research, public health policies, political coordination, and personalized digital services. This is often posed as an inherent privacy trade-off: we can benefit from data analysis or retain data privacy, but not both. Across several disciplines, a vast amount of effort has been directed toward overcoming this trade-off to enable productive uses of information without also enabling undesired misuse, a goal we term `structured transparency'. In this paper, we provide an overview of the frontier of research seeking to develop structured transparency. We offer a general theoretical framework and vocabulary, including characterizing the fundamental components -- input privacy, output privacy, input verification, output verification, and flow governance -- and fundamental problems of copying, bundling, and recursive oversight. We argue that these barriers are less fundamental than they often appear. Recent progress in developing `privacy-enhancing technologies' (PETs), such as secure computation and federated learning, may substantially reduce lingering use-misuse trade-offs in a number of domains. We conclude with several illustrations of structured transparency -- in open research, energy management, and credit scoring systems -- and a discussion of the risks of misuse of these tools.
翻訳日:2023-04-20 19:05:20 公開日:2020-12-15
# ロスフリーエキソン量子電池」に関するコメント

Comment on "Loss-Free Excitonic Quantum Battery" ( http://arxiv.org/abs/2012.08224v1 )

ライセンス: Link先を確認
A. Tejero, J. Thingna, and D. Manzano(参考訳) refで。 J. Liu, D. Segal, and G. Hanna. J. Phys. Chem. C, 123, 18303 (2019)] 環境相互作用に基づく量子電池の提案がある。 研究されたシステムはパラベンゼン環であり、その対称性は「エネルギーを再分配する」ために崩壊し、各部位間の人口不均衡が生じる。 本稿では, 単一励起近似の下で系の力学を計算し, そのエネルギー論について論じることはない。 我々は,単一励磁の枠組みについて著者のアプローチや数値的な結果について論じていないが,単一励磁集団の観察は,システムのエネルギクスに関する情報を得るには不十分であることを指摘しておきたい。 無限プローブは対称性を破るために取り付けられるため、著者が示唆するようにエネルギーを再分配するだけでなく、環境もシステムとエネルギーを交換する。 さらに、特定の場所での単一励起集団の蓄積は、このサイトが有用な作業を行うために抽出できるより多くのエネルギーを持つことを保証するものではない。 したがって、単一励起の人口が正しいにもかかわらず、パラベンゼンのエネルギーは電池として振る舞わない。

In Ref. [J. Liu, D. Segal, and G. Hanna. J. Phys. Chem. C, 123, 18303 (2019)] there is a novel proposal of a quantum battery based on environmental interaction. The system studied is a para-Benzene ring with a symmetry that is broken in order to "redistribute the energy" creating a population imbalance between the sites. In this paper, the dynamics of the system is calculated under the single-excitation approximation and there is no discussion about its energetics. We do not discuss the authors' approach or numerical results on the single-excitation framework, but we would like to point out that observing the single-excitation populations is insufficient to obtain any information about the system's energetics. Since an infinite probe is attached to break the symmetries, it not only redistributes the energies as the authors suggest but the environment also exchanges energy with the system. Moreover, the accumulation of a single-excitation population at a specific site does not ensure that this site has more energy that can be extracted to do useful work. Thus, despite their single-excitation populations being correct, the para-Benzene's energetics do not behave as a battery.
翻訳日:2023-04-20 19:04:43 公開日:2020-12-15
# 準線形量子確率系のモーメントダイナミクスとオブザーバ設計

Moment dynamics and observer design for a class of quasilinear quantum stochastic systems ( http://arxiv.org/abs/2012.08212v1 )

ライセンス: Link先を確認
Igor G. Vladimirov, Ian R. Petersen(参考訳) 本稿では、動的変数が代数的構造を持つ開量子系のクラスについて論じる。 この系は外部ボゾン場と相互作用し、そのハミルトニアンおよびカップリング作用素は系変数に線形に依存する。 この結果、系の変数のドリフトと分散項がアフィンおよび線型関数であるHudson-Parthasarathy量子確率微分方程式 (QSDE) が導かれる。 QSDEの準線形性は、真空入力場によって駆動される系変数の平均値と高次多点モーメントの抽出可能なダイナミクスをもたらす。 これにより、システムの不変量子状態の準特性関数と、コスト汎関数のクラスに対する無限ホライゾン漸近成長率の閉形式計算が可能になる。 モーメントダイナミクスのトラクタビリティは、カルマン型量子フィルタにつながる準線形量子プラントの計測に基づくフィルタリング問題において、平均2乗最適ルエンベルガーオブザーバの設計にも用いられる。

This paper is concerned with a class of open quantum systems whose dynamic variables have an algebraic structure, similar to that of the Pauli matrices pertaining to finite-level systems. The system interacts with external bosonic fields, and its Hamiltonian and coupling operators depend linearly on the system variables. This results in a Hudson-Parthasarathy quantum stochastic differential equation (QSDE) whose drift and dispersion terms are affine and linear functions of the system variables. The quasilinearity of the QSDE leads to tractable dynamics of mean values and higher-order multi-point moments of the system variables driven by vacuum input fields. This allows for the closed-form computation of the quasi-characteristic function of the invariant quantum state of the system and infinite-horizon asymptotic growth rates for a class of cost functionals. The tractability of the moment dynamics is also used for mean square optimal Luenberger observer design in a measurement-based filtering problem for a quasilinear quantum plant, which leads to a Kalman-like quantum filter.
翻訳日:2023-04-20 19:04:06 公開日:2020-12-15
# トランスモン量子ビットのレーザーアニールによる高忠実超伝導量子プロセッサ

High-fidelity superconducting quantum processors via laser-annealing of transmon qubits ( http://arxiv.org/abs/2012.08475v1 )

ライセンス: Link先を確認
Eric J. Zhang, Srikanth Srinivasan, Neereja Sundaresan, Daniela F. Bogorin, Yves Martin, Jared B. Hertzberg, John Timmerwilke, Emily J. Pritchett, Jeng-Bang Yau, Cindy Wang, William Landers, Eric P. Lewandowski, Adinath Narasgond, Sami Rosenblatt, George A. Keefe, Isaac Lauer, Mary Beth Rothwell, Douglas T. McClure, Oliver E. Dial, Jason S. Orcutt, Markus Brink, Jerry M. Chow(参考訳) 量子ゲートを忠実に維持しながら量子ビット数をスケールすることは、量子コンピューティングの重要な課題である。 現在、50量子ビットの超伝導量子プロセッサが活発に利用可能である。 このようなシステムでは、長いコヒーレンスとノイズ免疫のため、固定周波数トランスモンが魅力的である。 しかしながら、固定周波数アーキテクチャのスケーリングは、正確な相対周波数要求のため困難である。 ここではレーザーアニールを用いてトランモン量子ビットを所望の周波数パターンに選択的にチューニングする。 何百ものアニール量子ビットの統計は、18.5MHzの経験的チューニング精度を示しており、キュービットコヒーレンスに測定可能な影響はない。 調整された65量子ビットプロセッサのゲートエラー統計を定量化し、中央値の2量子ビットゲート忠実度を98.7%とした。 ベースラインチューニング統計は周波数等価抵抗精度が4.7MHzであり、1000量子ビットレベルを超える高収率スケーリングに十分である。 今後、固定周波数アーキテクチャのスケーリングにおいて、選択レーザーアニールが中心的な役割を果たすことを期待する。

Scaling the number of qubits while maintaining high-fidelity quantum gates remains a key challenge for quantum computing. Presently, superconducting quantum processors with >50-qubits are actively available. For such systems, fixed-frequency transmons are attractive due to their long coherence and noise immunity. However, scaling fixed-frequency architectures proves challenging due to precise relative frequency requirements. Here we employ laser annealing to selectively tune transmon qubits into desired frequency patterns. Statistics over hundreds of annealed qubits demonstrate an empirical tuning precision of 18.5 MHz, with no measurable impact on qubit coherence. We quantify gate error statistics on a tuned 65-qubit processor, with median two-qubit gate fidelity of 98.7%. Baseline tuning statistics yield a frequency-equivalent resistance precision of 4.7 MHz, sufficient for high-yield scaling beyond 1000-qubit levels. Moving forward, we anticipate selective laser annealing to play a central role in scaling fixed-frequency architectures.
翻訳日:2023-04-20 18:55:11 公開日:2020-12-15
# 反濃縮量子状態の有効検証

Efficient Verification of Anticoncentrated Quantum States ( http://arxiv.org/abs/2012.08463v1 )

ライセンス: Link先を確認
Ryan S. Bennink(参考訳) 量子コンピュータの有望な用途は、相関電子波動関数や複雑なデータセットの基底分布のような複雑な領域をモデル化する量子状態を作成することである。 このような状態はアルゴリズム近似やデバイス不完全性の観点から検証する必要がある。 しかし、量子コンピュータのサイズが大きくなるにつれて、生成する状態の検証がますます問題になってきた。 比較的効率的な方法はスパース量子状態の検証のために考案されているが、密度量子状態の検証にはコストがかかる。 ここでは、単純な量子回路と、選択された振幅である$\tau$のオンザフライ古典計算(またはルックアップ)を用いて、プリパラブル量子状態$\mu$と古典的に指定された目標状態$\tau$との間の忠実度$f(\mu,\tau)$を推定する新しい方法を提案する。 特に、対象とするレジームでは、この手法は任意の古典的手法よりもサンプル効率において指数関数的な量子優位を示す。 この手法の最も単純なバージョンは、反濃縮量子状態(古典的にシミュレートしにくい多くの状態を含む)に対して効率的であり、サンプルコストはおよそ$4\epsilon^{-2}(1-F)dp_{\text{coll}}$ ここで$\epsilon$は推定の所望の精度であり、$d$はヒルベルト空間の次元であり、$\mu$と$\tau$は存在し、$p_{\text{coll}}$は目標分布の衝突確率である。 また,本手法のより洗練されたバージョンを提示する。このバージョンでは,効率よく準備可能で良好な量子状態が重要サンプルとして使用されており,必要な$\mu$のコピー数をさらに削減することができる。 いくつか課題は残っているが、この研究は量子プロセッサが生成する複雑な状態のスケーラブルな検証に向けて大きな一歩を踏み出した。

A promising use of quantum computers is to prepare quantum states that model complex domains, such as correlated electron wavefunctions or the underlying distribution of a complex dataset. Such states need to be verified in view of algorithmic approximations and device imperfections. As quantum computers grow in size, however, verifying the states they produce becomes increasingly problematic. Relatively efficient methods have been devised for verifying sparse quantum states, but dense quantum states have remained costly to verify. Here I present a novel method for estimating the fidelity $F(\mu,\tau)$ between a preparable quantum state $\mu$ and a classically specified target state $\tau$, using simple quantum circuits and on-the-fly classical calculation (or lookup) of selected amplitudes of $\tau$. Notably, in the targeted regime the method demonstrates an exponential quantum advantage in sample efficiency over any classical method. The simplest version of the method is efficient for anticoncentrated quantum states (including many states that are hard to simulate classically), with a sample cost of approximately $4\epsilon^{-2}(1-F)dp_{\text{coll}}$ where $\epsilon$ is the desired precision of the estimate, $d$ is the dimension of the Hilbert space in which $\mu$ and $\tau$ reside, and $p_{\text{coll}}$ is the collision probability of the target distribution. I also present a more sophisticated version of the method, which uses any efficiently preparable and well-characterized quantum state as an importance sampler to further reduce the number of copies of $\mu$ needed. Though some challenges remain, this work takes a significant step toward scalable verification of complex states produced by quantum processors.
翻訳日:2023-04-20 18:54:29 公開日:2020-12-15
# 資源有効量子鍵分布:パドヴァ市中心部におけるフィールド・トライアル

Resource-effective Quantum Key Distribution: a field-trial in Padua city center ( http://arxiv.org/abs/2012.08457v1 )

ライセンス: Link先を確認
Marco Avesani, Luca Calderaro, Giulio Foletto, Costantino Agnesi, Francesco Picciariello, Francesco Santagiustina, Alessia Scriminich, Andrea Stanco, Francesco Vedovato, Mujtaba Zahidy, Giuseppe Vallone and Paolo Villoresi(参考訳) フィールド・トライアルは、商業化と幅広い普及を目指す新しい技術にとって重要な要素である。 これはquantum key distribution(qkd)にも当てはまります。これは、遠隔の当事者が無条件のセキュリティで秘密鍵を蒸留することを可能にするものです。 通常、都市インフラ上でのQKDデモは、QBER(Quantum Bit Error)の低い秘密鍵レートを維持するために複雑な安定化と同期システムを必要とする。 本稿では,イタリア・パドヴァ市中心部に展開する光ファイバー上でのQKDを実現するために,低複雑自己安定化ハードウェアと新しい同期技術を利用するフィールド・トライアルを提案する。 特に,我々の研究グループが最近導入した2つの技術は,量子状態の生成にiPOGNAC偏光エンコーダを用い,時間同期をQubit4Syncアルゴリズムを用いて行った。 その結果,既存の通信インフラに容易にかつ迅速に設置可能な資源効率の高いQKDシステムの有効性とロバスト性を実証した。

Field-trials are of key importance for novel technologies seeking commercialization and wide-spread adoption. This is certainly also the case for Quantum Key Distribution (QKD), which allows distant parties to distill a secret key with unconditional security. Typically, QKD demonstrations over urban infrastructures require complex stabilization and synchronization systems to maintain a low Quantum Bit Error (QBER) and high secret key rates over time. Here we present a field-trial which exploits a low-complexity self-stabilized hardware and a novel synchronization technique, to perform QKD over optical fibers deployed in the city center of Padua, Italy. In particular, two techniques recently introduced by our research group are evaluated in a real-world environment: the iPOGNAC polarization encoder was used for the preparation of the quantum states, while the temporal synchronization was performed using the Qubit4Sync algorithm. The results here presented demonstrate the validity and robustness of our resource-effective QKD system, that can be easily and rapidly installed in an existing telecommunication infrastructure, thus representing an important step towards mature, efficient and low-cost QKD systems.
翻訳日:2023-04-20 18:53:52 公開日:2020-12-15
# 励起振動状態におけるRaOH分子に対する$\mathcal{P}$,$\mathcal{T}$-odd効果

$\mathcal{P}$,$\mathcal{T}$-odd effects for RaOH molecule in the excited vibrational state ( http://arxiv.org/abs/2012.08427v1 )

ライセンス: Link先を確認
Anna Zakharova, Alexander Petrov(参考訳) 三原子分子 RaOH はレーザー冷却性とスペクトルの相反する二重項の利点を組み合わせたものである。 これにより、$\mathcal{P}$,$\mathcal{T}$-violationの実験的な研究の候補となる。 従来の研究では、可視波関数を平均化せずに異なる幾何学の計算に集中し、$\mathcal{P}$, $\mathcal{T}$パラメータの結合角への依存性が観測値を大きく変化させる可能性を強調していた。 断熱ハミルトニアンから導かれる密結合方程式を用いて、基底電子状態および励起振動状態におけるraohの振動波動関数を求める。 ポテンシャル表面は、ラジウム原子の一般相対論的有効核ポテンシャル(grecp)を用いた2成分相対論的ccsd(t)計算に基づいて構成される。 E_{\rm eff}$および$E_s$のパラメータの平均値は、電子電気双極子モーメントに対する系の感度とスカラー・擬似カル核子-電子相互作用を算出し、$l$doublingの値を求める。

Triatomic molecule RaOH combines the advantages of laser-coolability and the spectrum with close opposite-parity doublets. This makes it a promising candidate for experimental study of the $\mathcal{P}$,$\mathcal{T}$-violation. Previous studies concentrated on the calculations for different geometries without the averaging over the rovibrational wave function and stressed the possibility that the dependence of the $\mathcal{P}$, $\mathcal{T}$ parameters on the bond angle may significantly alter the observed value. We obtain the rovibrational wave functions of RaOH in the ground electronic state and excited vibrational state using the close-coupled equations derived from the adiabatic Hamiltonian. The potential surface is constructed based on the two-component relativistic CCSD(T) computation employing the generalized relativistic effective core potential (GRECP) for the Radium atom. The averaged values of the parameters $E_{\rm eff}$ and $E_s$ describing the sensitivity of the system to the electron electric dipole moment and the scalar-pseudoscalar nucleon-electron interaction are calculated and the value of $l$-doubling is obtained.
翻訳日:2023-04-20 18:53:27 公開日:2020-12-15
# 量子コンピュータのない量子コンピューティング:古典波重ね合わせを用いたデータベース検索とデータ処理

Quantum Computing without Quantum Computers: Database Search and Data Processing Using Classical Wave Superposition ( http://arxiv.org/abs/2012.08401v1 )

ライセンス: Link先を確認
Michael Balynskiy, Howard Chiang, David Gutierrez, Alexander Kozhevnikov, Yuri Filimonov, and Alexander Khitun(参考訳) 量子コンピューティングは科学の新しい分野であり、現在のトランジスタベースの技術の限界をはるかに超える能力を持つ新しい強力な論理デバイスへと導かれるだろう。 量子コンピュータが従来のデジタルコンピュータよりも早く解くことのできる問題にはいくつかの種類がある。 重ね合わせと絡み合わせの両方を必要とする量子アルゴリズムがある(例えばShorアルゴリズム)。 しかし、グローバーアルゴリズムも、deutschとjozsaによる最初の量子アルゴリズムも絡み合う必要はない。 古典波重畳を用いたデータベース検索の高速化は可能か? この興味深い質問はs. lloydによって分析された。 導波路干渉に依存する古典的なデバイスは、量子デバイスと古典的なデジタルデバイスに匹敵するスピードアップをもたらす可能性があると結論付けられた。 グラバーアルゴリズムをエミュレートするために光ビーム重ね合わせを用いた実験が行われた。 古典波重ね合わせの利用は資源の指数関数的な増加のコストが伴うと結論づけられた。 それ以来、量子アルゴリズムに古典的な波動重ね合わせを用いることは、必然的に指数関数的なリソースオーバーヘッド(デバイス数、消費電力、精度要求)をもたらすと信じられている。 本稿では,データベース検索とデータ処理に古典的波動重畳を利用する古典的Oracleマシンについて述べる。 スピン波重畳を用いた磁気データベース探索の実験データを示す。 データは、指数的なリソースオーバーヘッドを伴わずに、デジタルコンピュータの基本的なスピードアップを示す。 古典的な波動に基づくアプローチは、量子コンピュータと同じ速度でデータベース検索を行う場合もあると我々は論じる。

Quantum computing is an emerging field of science which will eventually lead us to new and powerful logic devices with capabilities far beyond the limits of current transistor-based technology. There are certain types of problems which quantum computers can solve fundamentally faster than the tradition digital computers. There are quantum algorithms which require both superposition and entanglement (e.g. Shor algorithm). But neither the Grover algorithm nor the very first quantum algorithm due to Deutsch and Jozsa need entanglement. Is it possible to utilize classical wave superposition to speedup database search? This interesting question was analyzed by S. Lloyd. It was concluded that classical devices that rely on wave interference may provide the same speedup over classical digital devices as quantum devices. There were several experimental works using optical beam superposition for emulating Grover algorithm. It was concluded that the use of classical wave superposition comes with the cost of exponential increase of the resources. Since then, it is widely believed that the use of classical wave superposition for quantum algorithms is inevitably leading to an exponential resources overhead (number of devices, power consumption, precision requirements). In this work, we describe a classical Oracle machine which utilizes classical wave superposition for database search and data processing. We present experimental data on magnetic database search using spin wave superposition. The data show a fundamental speedup over the digital computers without any exponential resource overhead. We argue that in some cases the classical wave-based approach may provide the same speedup in database search as quantum computers.
翻訳日:2023-04-20 18:53:06 公開日:2020-12-15
# 機械学習による量子ドット量子ビット生成の最適化

Optimization of Quantum-dot Qubit Fabrication via Machine Learning ( http://arxiv.org/abs/2012.08653v1 )

ライセンス: Link先を確認
Antonio B. Mei, Ivan Milosavljevic, Amanda L. Simpson, Valerie A. Smetanka, Colin P. Feeney, Shay M. Seguin, Sieu D. Ha, Wonill Ha, Matthew D. Reed(参考訳) 精密ナノファブリケーションは、実用的な量子計算のために半導体量子ドット量子ビットを開発するための重要な課題である。 ここでは,畳み込みニューラルネットワークを設計・訓練し,走査型電子マイクログラフを解釈し,デバイス機能に影響を与える質的特徴を定量化する。 5次元設計空間内でモデルリソグラフィプロセスを最適化し、リソグラフィ効果に対処するための新しいアプローチを示すことにより、高スループット戦略を例示する。 本結果は、堅牢なプロセスの開発、開発サイクルの短縮、キュービット製造における品質管理の強化における機械学習の利点を強調した。

Precise nanofabrication represents a critical challenge to developing semiconductor quantum-dot qubits for practical quantum computation. Here, we design and train a convolutional neural network to interpret in-line scanning electron micrographs and quantify qualitative features affecting device functionality. The high-throughput strategy is exemplified by optimizing a model lithographic process within a five-dimensional design space and by demonstrating a new approach to address lithographic proximity effects. The present results emphasize the benefits of machine learning for developing robust processes, shortening development cycles, and enforcing quality control during qubit fabrication.
翻訳日:2023-04-20 18:46:27 公開日:2020-12-15
# 湯川電位のエネルギースペクトルに及ぼす磁気及びアハラノフボーム場(AB)の影響

Effects of Magnetic And Aharanov-Bohm (AB) Fields on the Energy Spectra of the Yukawa Potential ( http://arxiv.org/abs/2012.08644v1 )

ライセンス: Link先を確認
Collins Edet(参考訳) 本稿では,非相対論的領域における磁束場とabフラックス場の影響を因子分解法を用いて考慮し,湯川ポテンシャルを精査する。 系のエネルギー方程式と波動関数は密接な形で得られる。 その結果、全通過効果は強い魅力を持つ系となり、従って系のバウンド状態エネルギーが大幅に上向きに変化することがわかった。 また, 湯川ポテンシャルの低エネルギー媒体を実現するには, 弱磁場が必要となるが, abフラックス場を制御器として用いることができる。 磁場とAB磁場はスペクトルから縮退を除去する。 以上の結果から, このシステムのエネルギースペクトルを操作するためには, AB-fluxと磁場が大幅に変化することが示唆された。 この研究の結果は凝縮物質物理学、原子物理学、分子物理学に応用できる。

In this article, the Yukawa potential is scrutinized taking into consideration the effects of magnetic and AB flux fields within the non-relativistic regime using the factorization method. The energy equation and wave function of the system are obtained in close form. We find that the all-encompassing effects result in a strongly attractive system and consequently there is a significant upward shift in the bound state energy of the system. We also find that to achieve a low-energy medium for the Yukawa potential, weak magnetic field is required, however the AB flux field can be used as a controller. The magnetic and AB fields eliminates the degeneracy from the spectra. From our findings, it could be concluded that to manipulate the energy spectra of this system, the AB-flux and magnetic field will do so greatly. The results from this study can be applied in condensed matter physics, atomic and molecular physics.
翻訳日:2023-04-20 18:46:15 公開日:2020-12-15
# 偽情報研究のための議題

An Agenda for Disinformation Research ( http://arxiv.org/abs/2012.08572v1 )

ライセンス: Link先を確認
Nadya Bliss, Elizabeth Bradley, Joshua Garland, Filippo Menczer, Scott W. Ruston, Kate Starbird, and Chris Wiggins(参考訳) 21世紀の情報環境において、敵対者は世論を操作するために偽情報を使用する。 偽りの、誤解を招く、または不正確な情報の分布は、アメリカ合衆国にとって存在の脅威である。情報の分散は、民主主義の基本構造である社会・政治機関(合法的なニュースソース、科学者、専門家、さらには仲間市民)の信頼を損なう。 その結果、社会は共有現実の中に集結することが難しくなり、経済や国家として効果的に機能するために必要な共通基盤となる。 コンピューティングと通信技術は、前例のないスピードとスケールで情報の交換を促進した。 これは社会や経済に無数の恩恵をもたらしてきたが、情報の量、多様性、速度の増大において基本的な役割を担ってきた。 技術的進歩は、操作、影響、および騙す新しい機会を生み出した。 彼らは、大観衆に届くための障壁を効果的に減らし、伝統的なマスメディアの役割と彼らが提供した編集監督を減らした。 しかし、情報交換のデジタル化は、偽情報の検出、影響のネットワークの識別、疑わしいコンテンツの特徴付けも可能とする。 この増大する課題を理解し対処するために、これらの余裕を活用するために、新しいツールとアプローチが開発されなければならない。

In the 21st Century information environment, adversarial actors use disinformation to manipulate public opinion. The distribution of false, misleading, or inaccurate information with the intent to deceive is an existential threat to the United States--distortion of information erodes trust in the socio-political institutions that are the fundamental fabric of democracy: legitimate news sources, scientists, experts, and even fellow citizens. As a result, it becomes difficult for society to come together within a shared reality; the common ground needed to function effectively as an economy and a nation. Computing and communication technologies have facilitated the exchange of information at unprecedented speeds and scales. This has had countless benefits to society and the economy, but it has also played a fundamental role in the rising volume, variety, and velocity of disinformation. Technological advances have created new opportunities for manipulation, influence, and deceit. They have effectively lowered the barriers to reaching large audiences, diminishing the role of traditional mass media along with the editorial oversight they provided. The digitization of information exchange, however, also makes the practices of disinformation detectable, the networks of influence discernable, and suspicious content characterizable. New tools and approaches must be developed to leverage these affordances to understand and address this growing challenge.
翻訳日:2023-04-20 18:45:17 公開日:2020-12-15
# データ制御の近代化: 個人デジタルデータを市民と産業に相互に有益にする

Modernizing Data Control: Making Personal Digital Data Mutually Beneficial for Citizens and Industry ( http://arxiv.org/abs/2012.08571v1 )

ライセンス: Link先を確認
Sujata Banerjee, Yiling Chen, Kobbi Nissim, David Parkes, Katie Siek, and Lauren Wilcox(参考訳) 私たちは、日々の生活を移動するときに、オンラインで追跡されることから継続的なトラッキングへと、新たな“データ至る所で”時代に入ります。 私たちの家にはスマートデバイスがあり、私たちの生活に大きな影響を与える決定(ローンから就職面接、司法判断、医療介入まで)を導くために使用されるデータを集めています。 私たちは大量のデータを作成しますが、そのデータを所有しているのは誰か? どのように共有されますか? 使い方は? 平均的な人はデータの使われ方をよく理解していないが、彼らや社会にとってリスクがあることを知っている。 データを所有していると考える人もいるかもしれませんが、実際には、データの収集、共有、使用といった無数の方法を理解するという問題は複雑すぎて、データ自体を管理したいと考える人はごくわずかです。 さらに、(1)個人の個人データ(フィットネス改善か?あなたの家は、このサイズの平均的な家庭よりもエネルギー効率が高いか?)、(2)より大きなグループ(デポジショングループ投票ブロック、購入に対する友人ネットワークの影響)から得られるつながりと洞察にあるため、データの価値の多くは個人だけでは抽出できない。 しかし、これらの洞察は、特にプライバシーの喪失、不公平性、不適切な推論、情報バイアス、操作、差別に関して、意図しない結果をもたらすことがある。 また、言論の自由、政治的操作、弱体化と過疎化に対する被害の増幅など社会的な影響もある。 この目的のために、政策立案者が問うべき重要な質問と、これらのデータ所有に関する懸念に対処する上で考慮すべき事項について検討する。

We are entering a new "data everywhere-anytime" era that pivots us from being tracked online to continuous tracking as we move through our everyday lives. We have smart devices in our homes, on our bodies, and around our communities that collect data that is used to guide decisions that have a major impact on our lives - from loans to job interviews and judicial rulings to health care interventions. We create a lot of data, but who owns that data? How is it shared? How will it be used? While the average person does not have a good understanding of how the data is being used, they know that it carries risks for them and society. Although some people may believe they own their data, in reality, the problem of understanding the myriad ways in which data is collected, shared, and used, and the consequences of these uses is so complex that only a few people want to manage their data themselves. Furthermore, much of the value in the data cannot be extracted by individuals alone, as it lies in the connections and insights garnered from (1) one's own personal data (is your fitness improving? Is your home more energy efficient than the average home of this size?) and (2) one's relationship with larger groups (demographic group voting blocks; friend network influence on purchasing). But sometimes these insights have unintended consequences for the person generating the data, especially in terms of loss of privacy, unfairness, inappropriate inferences, information bias, manipulation, and discrimination. There are also societal impacts, such as effects on speech freedoms, political manipulation, and amplified harms to weakened and underrepresented communities. To this end, we look at major questions that policymakers should ask and things to consider when addressing these data ownership concerns.
翻訳日:2023-04-20 18:44:55 公開日:2020-12-15
# 時空構造のプローブとしてのフィッシャー情報:(a)dsにおける相対論的量子論

Fisher information as a probe of spacetime structure: Relativistic quantum metrology in (A)dS ( http://arxiv.org/abs/2012.08557v1 )

ライセンス: Link先を確認
Haoxing Du, Robert B. Mann(参考訳) 相対論的量子距離論は、量子と相対論的効果の両方を考慮すると、物理量の推定のための最大達成可能な精度を研究する。 3+1次元のド・ジッター空間と反ド・ジッター空間における温度の相対論的量子距離論を研究する。 Uruh-DeWitt検出器を無質量スカラー場に結合してプローブとし、それらをオープン量子系として扱うことにより、温度を推定するためにフィッシャー情報を計算する。 dsにおける加速度の影響とadsにおける境界条件の影響について検討した。 2つの時空におけるフィッシャー情報の現象を統一することができ、温度、検出器エネルギーギャップ、曲率、相互作用時間、検出器初期状態への依存性を分析することができる。 次に,漁獲情報を最大化する推定戦略と推定精度を特定する。

Relativistic quantum metrology studies the maximal achievable precision for estimating a physical quantity when both quantum and relativistic effects are taken into account. We study the relativistic quantum metrology of temperature in (3+1)-dimensional de Sitter and anti-de Sitter space. Using Unruh-DeWitt detectors coupled to a massless scalar field as probes and treating them as open quantum systems, we compute the Fisher information for estimating temperature. We investigate the effect of acceleration in dS, and the effect of boundary condition in AdS. We find that the phenomenology of the Fisher information in the two spacetimes can be unified, and analyze its dependence on temperature, detector energy gap, curvature, interaction time, and detector initial state. We then identify estimation strategies that maximize the Fisher information and therefore the precision of estimation.
翻訳日:2023-04-20 18:44:25 公開日:2020-12-15
# ビッグデータ

Big Data ( http://arxiv.org/abs/2012.09109v1 )

ライセンス: Link先を確認
Andreas L Opdahl and Vimala Nunavath(参考訳) モノのインターネット(internet of things)、クラウドソーシング、ソーシャルメディア、公共当局、その他のソースは、ますます大きなデータセットを生成します。 大規模かつオープンなデータは,緊急管理に多くのメリットを提供すると同時に,新たな課題も生じている。 本章ではビッグデータの源とその特徴について概説する。 次に,緊急管理におけるビッグデータの潜在的メリットと,それがもたらす技術的,社会的な課題について論じる。 Sparkのビッグデータエンジンの詳細を発表する前に、ビッグデータストレージと処理全般の中央技術についてレビューする。 最後に、ビッグデータがもたらす倫理的および社会的脅威についてレビューする。

The Internet of Things, crowdsourcing, social media, public authorities, and other sources generate bigger and bigger data sets. Big and open data offers many benefits for emergency management, but also pose new challenges. This chapter will review the sources of big data and their characteristics. We then discuss potential benefits of big data for emergency management along with the technological and societal challenges it poses. We review central technologies for big-data storage and processing in general, before presenting the Spark big-data engine in more detail. Finally, we review ethical and societal threats that big data pose.
翻訳日:2023-04-20 18:34:38 公開日:2020-12-15
# サイバーセキュリティの脅威が2020年の米大統領選に与える影響

The Impact of Cyber Security Threats on the 2020 US Elections ( http://arxiv.org/abs/2012.08968v1 )

ライセンス: Link先を確認
Nicholas Stedmon(参考訳) 本稿では,2020年米大統領選におけるサイバーセキュリティの脅威に関する文献について検討する。 それは、サイバーセキュリティの概要と、選挙に関するサイバーセキュリティの現状から始まります。 論文の本文では、選挙の結果や投票者に対する影響を考慮して、投票者抑圧、投票者詐欺、不正情報という3つの主要分野の文献レビューに焦点をあてる。 この論文で評価された資料は、2020年の米大統領選で最も大きな影響を与えた地域をまとめたものである。

This paper will investigate the literature surrounding cyber security threats in the 2020 US Elections. It begins with a brief overview of cyber security and the current state of cyber security regarding elections. In the main body of the paper, the focus will be on the literature review of three main areas: voter suppression, voter fraud, and disinformation, considering their impacts on the outcome of the election and on the voting public. Having evaluated sources on each this paper concludes by summarising the areas which have had the greatest impact on the 2020 US elections.
翻訳日:2023-04-20 18:34:30 公開日:2020-12-15
# stein自己反発ダイナミクス:過去のサンプルからの利点

Stein Self-Repulsive Dynamics: Benefits From Past Samples ( http://arxiv.org/abs/2002.09070v2 )

ライセンス: Link先を確認
Mao Ye, Tongzheng Ren, Qiang Liu(参考訳) 非正規化分布から多元化サンプルを得るための新しいスタイン自己反発ダイナミクスを提案する。 我々の考えは、ランゲヴィン力学のサンプルを過去の軌道から遠ざけるための反発力としてスタイン変分勾配を導入することである。 この単純なアイデアにより、ランジュバンダイナミクスの自己相関を著しく減少させ、効果的なサンプルサイズを増加させることができる。 重要なことは、我々が理論分析で確立したように、漸近定常分布は、スタイン変分勾配の特別な性質により、反発力の付加によっても正しいままである。 提案手法は,バニラ・ランジュバン力学よりも試料効率が高く,不確実性推定精度も高いことを示す。

We propose a new Stein self-repulsive dynamics for obtaining diversified samples from intractable un-normalized distributions. Our idea is to introduce Stein variational gradient as a repulsive force to push the samples of Langevin dynamics away from the past trajectories. This simple idea allows us to significantly decrease the auto-correlation in Langevin dynamics and hence increase the effective sample size. Importantly, as we establish in our theoretical analysis, the asymptotic stationary distribution remains correct even with the addition of the repulsive force, thanks to the special properties of the Stein variational gradient. We perform extensive empirical studies of our new algorithm, showing that our method yields much higher sample efficiency and better uncertainty estimation than vanilla Langevin dynamics.
翻訳日:2022-12-30 00:34:52 公開日:2020-12-15
# 小サンプルからの学習における逐次逐次条件最適化

Generative Latent Implicit Conditional Optimization when Learning from Small Sample ( http://arxiv.org/abs/2003.14297v5 )

ライセンス: Link先を確認
Idan Azuri, Daphna Weinshall(参考訳) 我々は,小規模サンプルから学習の長期的課題を再考し,glico (generative latent implicit conditional optimization) と呼ばれる新しい手法を提案する。 glicoはトレーニング例から潜在空間へのマッピングと、潜在空間内のベクトルから画像を生成するジェネレータを学ぶ。 大量のラベル付きデータへのアクセスに依存している最近のほとんどの作業とは異なり、GLICOはラベル付きポイントの小さなセット以外の追加データへのアクセスを必要としない。 実際、GLICOはクラス毎に5から10のサンプルを使用して、すべてのクラスに対して完全に新しいサンプルを合成することを学ぶ。 次にglicoは、小さなサンプルで分類器を訓練しながら、小さなトレーニングセットを強化するために使用される。 そこで,本手法では球面補間を用いて学習した潜在空間をサンプリングし,学習した生成器を用いて新しい例を生成する。 実験の結果,cifar-10,cifar-100,cub-200から得られた小標本を用いて訓練した場合,新しい標本集合は十分な多様性を示し,画像分類の改善に繋がることが示された。

We revisit the long-standing problem of learning from a small sample, to which end we propose a novel method called GLICO (Generative Latent Implicit Conditional Optimization). GLICO learns a mapping from the training examples to a latent space and a generator that generates images from vectors in the latent space. Unlike most recent works, which rely on access to large amounts of unlabeled data, GLICO does not require access to any additional data other than the small set of labeled points. In fact, GLICO learns to synthesize completely new samples for every class using as little as 5 or 10 examples per class, with as few as 10 such classes without imposing any prior. GLICO is then used to augment the small training set while training a classifier on the small sample. To this end, our proposed method samples the learned latent space using spherical interpolation, and generates new examples using the trained generator. Empirical results show that the new sampled set is diverse enough, leading to improvement in image classification in comparison with the state of the art, when trained on small samples obtained from CIFAR-10, CIFAR-100, and CUB-200.
翻訳日:2022-12-18 00:04:56 公開日:2020-12-15
# ニューラルアナロジカルマッチング

Neural Analogical Matching ( http://arxiv.org/abs/2004.03573v5 )

ライセンス: Link先を確認
Maxwell Crouse, Constantine Nakos, Ibrahim Abdelaziz, Kenneth Forbus(参考訳) アナロジーは人間の認知の中核である。 事前の経験に基づいて問題を解決することができ、新しい情報を概念化する方法を制御し、視覚の知覚にも影響を与えます。 人間に対するアナロジーの重要性は、人工知能の幅広い分野における積極的な研究領域となり、人間のような方法で学習し推論するデータ効率の高いモデルを生み出した。 アナロジーと深層学習の認知的視点は、一般的には互いに独立して研究されてきたが、この2つの研究ラインの統合は、より堅牢で効率的な学習技術への有望なステップである。 このような統合に関する研究の活発化の一環として、構造・マッピング理論の原理とほぼ一致した構造的、象徴的な表現間の類似を学習するニューラルネットワークであるAnalogical Matching Networkを紹介します。

Analogy is core to human cognition. It allows us to solve problems based on prior experience, it governs the way we conceptualize new information, and it even influences our visual perception. The importance of analogy to humans has made it an active area of research in the broader field of artificial intelligence, resulting in data-efficient models that learn and reason in human-like ways. While cognitive perspectives of analogy and deep learning have generally been studied independently of one another, the integration of the two lines of research is a promising step towards more robust and efficient learning techniques. As part of a growing body of research on such an integration, we introduce the Analogical Matching Network: a neural architecture that learns to produce analogies between structured, symbolic representations that are largely consistent with the principles of Structure-Mapping Theory.
翻訳日:2022-12-15 22:44:00 公開日:2020-12-15
# グラフ畳み込みネットワークによる軽量共有NASの探索空間設定

Fitting the Search Space of Weight-sharing NAS with Graph Convolutional Networks ( http://arxiv.org/abs/2004.08423v2 )

ライセンス: Link先を確認
Xin Chen, Lingxi Xie, Jun Wu, Longhui Wei, Yuhui Xu and Qi Tian(参考訳) ニューラルアーキテクチャサーチは学術と産業の両方で広く注目を集めている。 そこで研究者たちは、まずスーパーネットワークを訓練し、異なるオペレータ間の計算を再利用し、指数関数的に多数のサブネットワークをサンプリングし、効率的に評価する重み共有手法を提案した。 これらの手法には計算コストの面で大きな利点があるが、個別の訓練プロセスを受けない限り、サンプルサブネットワークは正確に推定されることは保証されていない。 本稿では,ネットワーク層間の不一致が避けられないため,各推定値にランダムな誤差項が加えられた。 この問題を、グラフ畳み込みネットワークをトレーニングして、サンプルサブネットワークの性能に適合させ、ランダムエラーの影響を最小限に抑えることで緩和する。 この戦略により、選択された候補群において高いランク相関係数を達成し、その結果、最終的なアーキテクチャの性能が向上する。 さらに,グラフ畳み込みネットワークは,検索空間全体のアーキテクチャ性能の効率的なルックアップテーブルを提供するため,異なるハードウェア制約下での使用の柔軟性も享受している。

Neural architecture search has attracted wide attentions in both academia and industry. To accelerate it, researchers proposed weight-sharing methods which first train a super-network to reuse computation among different operators, from which exponentially many sub-networks can be sampled and efficiently evaluated. These methods enjoy great advantages in terms of computational costs, but the sampled sub-networks are not guaranteed to be estimated precisely unless an individual training process is taken. This paper owes such inaccuracy to the inevitable mismatch between assembled network layers, so that there is a random error term added to each estimation. We alleviate this issue by training a graph convolutional network to fit the performance of sampled sub-networks so that the impact of random errors becomes minimal. With this strategy, we achieve a higher rank correlation coefficient in the selected set of candidates, which consequently leads to better performance of the final architecture. In addition, our approach also enjoys the flexibility of being used under different hardware constraints, since the graph convolutional network has provided an efficient lookup table of the performance of architectures in the entire search space.
翻訳日:2022-12-12 10:16:52 公開日:2020-12-15
# Segatron: 言語モデリングと理解のためのセグメント対応変換器

Segatron: Segment-Aware Transformer for Language Modeling and Understanding ( http://arxiv.org/abs/2004.14996v2 )

ライセンス: Link先を確認
He Bai, Peng Shi, Jimmy Lin, Yuqing Xie, Luchen Tan, Kun Xiong, Wen Gao and Ming Li(参考訳) トランスフォーマーはシーケンスモデリングに強力です。 ほぼ全ての最先端の言語モデルと事前訓練された言語モデルはTransformerアーキテクチャに基づいている。 しかし、シーケンシャルトークンをトークン位置インデックスのみと区別する。 よりリッチな位置情報を持つトランスフォーマーから、より良い文脈表現を生成できるという仮説を立てる。 これを検証するために,従来のトークン位置エンコーディングを,段落,文,トークンの複合的な位置エンコーディングに置き換えることにより,セグメント対応トランスフォーマ(Segatron)を提案する。 メモリ拡張と相対位置符号化を備えたTransformerベースの言語モデルであるTransformer-XLに,まずセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。 我々はsegatronを用いた事前学習マスク言語モデリングタスクについてさらに検討する。 実験の結果,セガトロン(SegaBERT)で事前学習したBERTは,様々なNLPタスクにおいてバニラトランスフォーマーでBERTを上回り,ゼロショット文表現学習ではRoBERTaを上回ることがわかった。

Transformers are powerful for sequence modeling. Nearly all state-of-the-art language models and pre-trained language models are based on the Transformer architecture. However, it distinguishes sequential tokens only with the token position index. We hypothesize that better contextual representations can be generated from the Transformer with richer positional information. To verify this, we propose a segment-aware Transformer (Segatron), by replacing the original token position encoding with a combined position encoding of paragraph, sentence, and token. We first introduce the segment-aware mechanism to Transformer-XL, which is a popular Transformer-based language model with memory extension and relative position encoding. We find that our method can further improve the Transformer-XL base model and large model, achieving 17.1 perplexity on the WikiText-103 dataset. We further investigate the pre-training masked language modeling task with Segatron. Experimental results show that BERT pre-trained with Segatron (SegaBERT) can outperform BERT with vanilla Transformer on various NLP tasks, and outperforms RoBERTa on zero-shot sentence representation learning.
翻訳日:2022-12-08 03:13:44 公開日:2020-12-15
# 重み付き勾配下でのスケーラビリティ向上

Better scalability under potentially heavy-tailed gradients ( http://arxiv.org/abs/2006.00784v2 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 本研究では, 勾配を重み付けできる場合, 使用可能なロバスト勾配勾配降下法(RGD)のスケーラブルな代替法について検討する。 各ステップでグラデーションを頑健に集約する代わりに、コストが高く、リスク境界の準最適次元依存性をもたらす代わりに、分割されたデータに対して実行される安価な確率的サブプロセスの大多数からそれほど遠く離れない候補を選択する。 フォーマルな保証に加えて、ガウス級および重尾級の両データの下で、実験条件に対する摂動に対する堅牢性の実証分析も提供する。 その結果、実装が簡単で、並列化が簡単で、RGD法の形式的強度を保ちながら、大規模な学習問題に対してはるかに優れたスケールを実現することができる。

We study a scalable alternative to robust gradient descent (RGD) techniques that can be used when the gradients can be heavy-tailed, though this will be unknown to the learner. The core technique is simple: instead of trying to robustly aggregate gradients at each step, which is costly and leads to sub-optimal dimension dependence in risk bounds, we choose a candidate which does not diverge too far from the majority of cheap stochastic sub-processes run for a single pass over partitioned data. In addition to formal guarantees, we also provide empirical analysis of robustness to perturbations to experimental conditions, under both sub-Gaussian and heavy-tailed data. The result is a procedure that is simple to implement, trivial to parallelize, which keeps the formal strength of RGD methods but scales much better to large learning problems.
翻訳日:2022-11-26 06:03:17 公開日:2020-12-15
# 強凸性のない重尾部でのスケーラビリティ向上

Improved scalability under heavy tails, without strong convexity ( http://arxiv.org/abs/2006.01364v2 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 実世界のデータは、外向きの値で並んでいます。 機械学習の課題は、学習者が通常、受け取ったフィードバック(損失、勾配など)が重くなるかどうかについての事前知識がないことである。 本研究では,損失と勾配の両方を重み付けできるような単純なアルゴリズム戦略について検討する。 コア技術は単純なロバスト検証サブルーチンを導入し、安価な勾配ベースのサブプロセスの信頼性を高めるために使用される。 文献からの最近のロバスト勾配降下法と比較すると、強い凸性や高価なステップ単位のロバスト化に頼ることなく、次元依存性(リスク境界とコストの両方)を大幅に改善する。 また,本手法では,過度な損失が伴う場合,簡易なクロスバリデーションに置き換えることができないことを示す。 総合すると、私たちは透過的な保証を備えたスケーラブルなメソッドを用意しています。

Real-world data is laden with outlying values. The challenge for machine learning is that the learner typically has no prior knowledge of whether the feedback it receives (losses, gradients, etc.) will be heavy-tailed or not. In this work, we study a simple algorithmic strategy that can be leveraged when both losses and gradients can be heavy-tailed. The core technique introduces a simple robust validation sub-routine, which is used to boost the confidence of inexpensive gradient-based sub-processes. Compared with recent robust gradient descent methods from the literature, dimension dependence (both risk bounds and cost) is substantially improved, without relying upon strong convexity or expensive per-step robustification. Empirically, we also show that under heavy-tailed losses, the proposed procedure cannot simply be replaced with naive cross-validation. Taken together, we have a scalable method with transparent guarantees, which performs well without prior knowledge of how "convenient" the feedback it receives will be.
翻訳日:2022-11-25 23:26:38 公開日:2020-12-15
# 実用的推論コミュニケーションを創発言語に組み込む

Incorporating Pragmatic Reasoning Communication into Emergent Language ( http://arxiv.org/abs/2006.04109v2 )

ライセンス: Link先を確認
Yipeng Kang, Tonghan Wang, Gerard de Melo(参考訳) 創発主義とプラグマティクス(英: Emergentism)は、言語コミュニケーションのダイナミクスを研究する2つの研究分野である。 マルチエージェント強化学習の観点からは、強化訓練を伴う確率ゲームや対戦意識のあるステージゲームに対応している。 それらの組み合わせが言語学で研究されていることを踏まえ、短期的相互推論に基づく実用性と長期言語創発性を組み合わせた計算モデルを提案する。 我々は、エージェント通信参照ゲームや、Starcraft IIにおいて、異なる種類の相互推論プラグマティクスモデルの相対的な利点を経験的および理論的に評価する。 結果から,より自然な,正確,堅牢,きめ細かい,簡潔な発話を実現する上で,その重要性が明らかになった。

Emergentism and pragmatics are two research fields that study the dynamics of linguistic communication along substantially different timescales and intelligence levels. From the perspective of multi-agent reinforcement learning, they correspond to stochastic games with reinforcement training and stage games with opponent awareness. Given that their combination has been explored in linguistics, we propose computational models that combine short-term mutual reasoning-based pragmatics with long-term language emergentism. We explore this for agent communication referential games as well as in Starcraft II, assessing the relative merits of different kinds of mutual reasoning pragmatics models both empirically and theoretically. Our results shed light on their importance for making inroads towards getting more natural, accurate, robust, fine-grained, and succinct utterances.
翻訳日:2022-11-24 07:19:54 公開日:2020-12-15
# Arm Cortex-A CPU上でのDNNの最適化展開のための設計空間の自動探索

Automated Design Space Exploration for optimised Deployment of DNN on Arm Cortex-A CPUs ( http://arxiv.org/abs/2006.05181v2 )

ライセンス: Link先を確認
Miguel de Prado, Andrew Mundy, Rabia Saeed, Maurizio Denna, Nuria Pazos and Luca Benini(参考訳) 組み込みデバイスへのディープラーニングの普及により、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発が進められている。 主に作品に焦点が当てられている。 i)効率的なdnnアーキテクチャ 二 刈り取り及び量子化等のネットワーク最適化技術 三 最適化アルゴリズムにより、最も計算集約的な層の実行を高速化し、かつ、 四 データの流れ及び計算を加速するための専用ハードウェア しかし、アプローチの空間が大きすぎるとテストが困難になり、グローバルに最適化された解を得るため、クロスレベル最適化の研究は欠如している。 したがって、レイテンシ、正確性、メモリという観点で、最適でないデプロイメントに繋がる。 本稿では,まず,ソフトウェア最適化の異なるレベルにまたがるdnnの展開を改善する手法を詳述し,分析する。 この知識に基づいてDNNの展開を容易にするための自動探索フレームワークを提案する。 このフレームワークは、ディープラーニング推論フレームワークと組み合わせて、自動的に設計空間を探索し、パフォーマンスを高速化し、組み込みCPUプラットフォーム上のメモリを削減する最適化されたソリューションを学ぶ強化学習検索に依存している。 そこで本研究では,Arm Cortex-A CPUプラットフォーム上での最先端DNNの性能向上と,BLAS浮動小数点実装における精度の低下を考慮せずに,メモリの2倍以上の削減を実現していることを示す。

The spread of deep learning on embedded devices has prompted the development of numerous methods to optimise the deployment of deep neural networks (DNN). Works have mainly focused on: i) efficient DNN architectures, ii) network optimisation techniques such as pruning and quantisation, iii) optimised algorithms to speed up the execution of the most computational intensive layers and, iv) dedicated hardware to accelerate the data flow and computation. However, there is a lack of research on cross-level optimisation as the space of approaches becomes too large to test and obtain a globally optimised solution. Thus, leading to suboptimal deployment in terms of latency, accuracy, and memory. In this work, we first detail and analyse the methods to improve the deployment of DNNs across the different levels of software optimisation. Building on this knowledge, we present an automated exploration framework to ease the deployment of DNNs. The framework relies on a Reinforcement Learning search that, combined with a deep learning inference framework, automatically explores the design space and learns an optimised solution that speeds up the performance and reduces the memory on embedded CPU platforms. Thus, we present a set of results for state-of-the-art DNNs on a range of Arm Cortex-A CPU platforms achieving up to 4x improvement in performance and over 2x reduction in memory with negligible loss in accuracy with respect to the BLAS floating-point implementation.
翻訳日:2022-11-23 13:24:48 公開日:2020-12-15
# STL-SGD: 段階通信によるローカルSGDの高速化

STL-SGD: Speeding Up Local SGD with Stagewise Communication Period ( http://arxiv.org/abs/2006.06377v2 )

ライセンス: Link先を確認
Shuheng Shen, Yifei Cheng, Jingchang Liu and Linli Xu(参考訳) 分散並列確率勾配勾配アルゴリズムは大規模機械学習タスクのためのワークホースである。 中でも局所確率勾配降下(局所SGD)は,通信の複雑さが低かったために注目されている。 これまでの研究では、固定または適応的な通信期間を持つローカルSGDの通信複雑性が$O(N^{\frac{3}{2}} T^{\frac{1}{2}})$と$O(N^{\frac{3}{4}} T^{\frac{3}{4}})$の順にあることが証明されていた。 本稿では,コミュニケーションの複雑さを減らして収束を加速させるため,学習率の低下とともに通信期間を徐々に増加させる「textit{ST}agewise \textit{L}ocal \textit{SGD}」(STL-SGD)を提案する。 STL-SGD はミニバッチ SGD と同じ収束率と線形高速化を維持できることを示す。 加えて、通信期間を増加させる利点として、目的がポリak-\l ojasiewicz条件の強い凸または満足する場合、stl-sgdの通信複雑性は、それぞれiidケースと非iidケースに対して$o (n \log{t})$および$o (n^{\frac{1}{2}} t^{\frac{1}{2}})$であり、ローカルsgdよりも大幅に改善される。 凸問題と非凸問題の両方の実験は、STL-SGDの優れた性能を示す。

Distributed parallel stochastic gradient descent algorithms are workhorses for large scale machine learning tasks. Among them, local stochastic gradient descent (Local SGD) has attracted significant attention due to its low communication complexity. Previous studies prove that the communication complexity of Local SGD with a fixed or an adaptive communication period is in the order of $O (N^{\frac{3}{2}} T^{\frac{1}{2}})$ and $O (N^{\frac{3}{4}} T^{\frac{3}{4}})$ when the data distributions on clients are identical (IID) or otherwise (Non-IID), where $N$ is the number of clients and $T$ is the number of iterations. In this paper, to accelerate the convergence by reducing the communication complexity, we propose \textit{ST}agewise \textit{L}ocal \textit{SGD} (STL-SGD), which increases the communication period gradually along with decreasing learning rate. We prove that STL-SGD can keep the same convergence rate and linear speedup as mini-batch SGD. In addition, as the benefit of increasing the communication period, when the objective is strongly convex or satisfies the Polyak-\L ojasiewicz condition, the communication complexity of STL-SGD is $O (N \log{T})$ and $O (N^{\frac{1}{2}} T^{\frac{1}{2}})$ for the IID case and the Non-IID case respectively, achieving significant improvements over Local SGD. Experiments on both convex and non-convex problems demonstrate the superior performance of STL-SGD.
翻訳日:2022-11-22 13:05:29 公開日:2020-12-15
# 公正影響の最大化:福祉最適化アプローチ

Fair Influence Maximization: A Welfare Optimization Approach ( http://arxiv.org/abs/2006.07906v2 )

ライセンス: Link先を確認
Aida Rahmattalabi, Shahin Jabbari, Himabindu Lakkaraju, Phebe Vayanos, Max Izenberg, Ryan Brown, Eric Rice, Milind Tambe(参考訳) 自殺・HIV予防や自然災害に対する地域社会の準備など、行動、社会的、公衆衛生上の介入は、アウトリーチを最大化するためにソーシャルネットワーク情報を活用する。 アルゴリズムによる影響の最大化技術は、そのような介入における「ピアリーダー」や「インフルエンサー」の選択を支援するために提案されている。 しかし、影響の最大化のための伝統的なアルゴリズムは、これらの介入を念頭に設計されていない。 結果として、介入の恩恵から少数派コミュニティを不均等に排除することができる。 これは公正影響の最大化の研究の動機となった。 既存の技術には2つの大きな欠点がある。 まず、単一の公平度尺度にコミットする必要があります。 第二に、これらの措置は典型的には資源の浪費のような望ましくない性質につながる厳しい制約として課せられる。 これらの欠点に対処するために、公平な影響最大化アルゴリズムが満たすべき特性の原理的特徴付けを提供する。 特に, 社会福祉理論に基づく枠組みを提案し, 社会福祉の等弾性関数を用いて, 各共同体が導出した基本ユーティリティを集約する。 この枠組みの下では、公平性と効率のトレードオフは、単一の不等式反転設計パラメータによって制御できる。 次に、我々の提案した原則が福祉機能によって満足できる状況を示す。 その結果得られる最適化問題は単調かつ亜モジュラーであり、最適性保証により効率的に解くことができる。 我々の枠組みは、特殊ケースのレキシミンと比例公正である。 地すべりリスク管理を含む総合的および実世界のデータセットに関する広範な実験により,提案手法の有効性が実証された。

Several behavioral, social, and public health interventions, such as suicide/HIV prevention or community preparedness against natural disasters, leverage social network information to maximize outreach. Algorithmic influence maximization techniques have been proposed to aid with the choice of "peer leaders" or "influencers" in such interventions. Yet, traditional algorithms for influence maximization have not been designed with these interventions in mind. As a result, they may disproportionately exclude minority communities from the benefits of the intervention. This has motivated research on fair influence maximization. Existing techniques come with two major drawbacks. First, they require committing to a single fairness measure. Second, these measures are typically imposed as strict constraints leading to undesirable properties such as wastage of resources. To address these shortcomings, we provide a principled characterization of the properties that a fair influence maximization algorithm should satisfy. In particular, we propose a framework based on social welfare theory, wherein the cardinal utilities derived by each community are aggregated using the isoelastic social welfare functions. Under this framework, the trade-off between fairness and efficiency can be controlled by a single inequality aversion design parameter. We then show under what circumstances our proposed principles can be satisfied by a welfare function. The resulting optimization problem is monotone and submodular and can be solved efficiently with optimality guarantees. Our framework encompasses as special cases leximin and proportional fairness. Extensive experiments on synthetic and real world datasets including a case study on landslide risk management demonstrate the efficacy of the proposed framework.
翻訳日:2022-11-21 12:42:17 公開日:2020-12-15
# 全帯域または部分線形フィードバックによる組合せ純粋探索

Combinatorial Pure Exploration with Full-Bandit or Partial Linear Feedback ( http://arxiv.org/abs/2006.07905v2 )

ライセンス: Link先を確認
Yihan Du, Yuko Kuroki, Wei Chen(参考訳) 本稿では,まず,学習者が組合せ作用空間 $\mathcal{x} \subseteq \{0,1\}^d$ を与えられ,各ラウンドにおいて,学習者がアクション $x \in \mathcal{x}$ をプルし,期待値 $x^{\top} \theta$, with $\theta \in \mathbb{r}^d$ a latent and unknown environment vector でランダム報酬を受ける,完全帯域フィードバック (cpe-bl) による組合せ純粋探索の問題を研究する。 目的は、できるだけ少数のサンプルを使用して、最も期待された報酬で最適なアクションを特定することである。 cpe-blでは、サンプル複雑性がインスタンス群の下限(対数係数を含む)と一致し、$\delta_{\min}$(最適アクションとサブ最適アクションの間の最小のギャップ)の光依存性を持つ最初の {\em polynomial-time adaptive}アルゴリズムを設計する。 さらに,CPE-BLのフレキシブルなフィードバック構造を持つ新たな一般化として,完全帯域フィードバック,半帯域フィードバック,部分フィードバック,非線形報酬関数を含むいくつかのサブプロブレムを含む,線形線形フィードバックを用いた組合せ純粋探索(CPE-PL)を提案する。 CPE-PL では、各アクション $x$ は、$M_{x} \theta $ を期待してランダムなフィードバックベクトルを報告し、$M_x \in \mathbb{R}^{m_x \times d}$ は$x$ の変換行列であり、$x$ に関連するランダムな(おそらく非線形な)報酬を得る。 cpe-plでは,限られたフィードバック,一般報酬関数,組合せ作用空間を同時に処理し,そのサンプル複雑性解析を提供する,最初の {\em polynomial-time}アルゴリズムを開発した。 我々のCPE-PLアルゴリズムは、非線形報酬関数に対して正しい答えを返す唯一のアルゴリズムである一方、我々のCPE-BLアルゴリズムは、異なる$\Delta_{\min}$設定に対して堅牢である。

In this paper, we first study the problem of combinatorial pure exploration with full-bandit feedback (CPE-BL), where a learner is given a combinatorial action space $\mathcal{X} \subseteq \{0,1\}^d$, and in each round the learner pulls an action $x \in \mathcal{X}$ and receives a random reward with expectation $x^{\top} \theta$, with $\theta \in \mathbb{R}^d$ a latent and unknown environment vector. The objective is to identify the optimal action with the highest expected reward, using as few samples as possible. For CPE-BL, we design the first {\em polynomial-time adaptive} algorithm, whose sample complexity matches the lower bound (within a logarithmic factor) for a family of instances and has a light dependence of $\Delta_{\min}$ (the smallest gap between the optimal action and sub-optimal actions). Furthermore, we propose a novel generalization of CPE-BL with flexible feedback structures, called combinatorial pure exploration with partial linear feedback (CPE-PL), which encompasses several families of sub-problems including full-bandit feedback, semi-bandit feedback, partial feedback and nonlinear reward functions. In CPE-PL, each pull of action $x$ reports a random feedback vector with expectation of $M_{x} \theta $, where $M_x \in \mathbb{R}^{m_x \times d}$ is a transformation matrix for $x$, and gains a random (possibly nonlinear) reward related to $x$. For CPE-PL, we develop the first {\em polynomial-time} algorithm, which simultaneously addresses limited feedback, general reward function and combinatorial action space, and provide its sample complexity analysis. Our empirical evaluation demonstrates that our algorithms run orders of magnitude faster than the existing ones, and our CPE-BL algorithm is robust across different $\Delta_{\min}$ settings while our CPE-PL algorithm is the only one returning correct answers for nonlinear reward functions.
翻訳日:2022-11-21 10:00:34 公開日:2020-12-15
# 数百万人を助けるプライバシ保護技術:ストローク防止のためのフェデレーション予測モデル

Privacy-Preserving Technology to Help Millions of People: Federated Prediction Model for Stroke Prevention ( http://arxiv.org/abs/2006.10517v2 )

ライセンス: Link先を確認
Ce Ju, Ruihui Zhao, Jichao Sun, Xiguang Wei, Bo Zhao, Yang Liu, Hongshan Li, Tianjian Chen, Xinwei Zhang, Dashan Gao, Ben Tan, Han Yu, Chuning He and Yuan Jin(参考訳) 脳卒中と関連する危険因子の予防は、世界中で公衆衛生上の優先事項となっている。 脳卒中を予測する人工知能技術が、ますます採用されてきている。 プライバシー上の懸念から、患者データは分散電子健康記録(EHR)データベースに格納され、患者データが集約されるのを防ぎ、集中トレーニングデータによる脳卒中予測の精度を高めるためにAI技術を抑制する。 本研究では,脳卒中リスクを予測し,当社のフェデレーション予測モデルをクラウドサーバに展開するためのプライバシ保護手法を提案する。 フェデレーション予測モデルでは,各通信ラウンド毎に任意のクライアント接続と任意の局所勾配イテレーションを非同期にサポートする。 モデルトレーニングと予測のプロセス全体において、患者データが病院から取り出されることなく、モデルトレーニングプロセス中に、フェデレーション平均化を採用する。 プライバシ保護機構により、当社のフェデレーション予測モデルは、特定の都市の病院からの医療データを、実際のデータ共有なしにトレーニングする。 したがって、1つの病院からのみデータをトレーニングする1つの予測モデルよりも安全であるだけでなく、より正確である。 特に脳卒中例が少ない小さな病院では,いくつかの機械学習指標でフェデレーションモデルによりモデル性能が10%~20%向上する。 脳卒中での予測システムの利点をより直感的に理解するために,我々は,患者統計のキー情報を収集し,フェデレーショントレーニング過程におけるフェデレーション予測モデルと単一予測モデルの性能比較を示すモバイルアプリを開発した。

Prevention of stroke with its associated risk factors has been one of the public health priorities worldwide. Emerging artificial intelligence technology is being increasingly adopted to predict stroke. Because of privacy concerns, patient data are stored in distributed electronic health record (EHR) databases, voluminous clinical datasets, which prevent patient data from being aggregated and restrains AI technology to boost the accuracy of stroke prediction with centralized training data. In this work, our scientists and engineers propose a privacy-preserving scheme to predict the risk of stroke and deploy our federated prediction model on cloud servers. Our system of federated prediction model asynchronously supports any number of client connections and arbitrary local gradient iterations in each communication round. It adopts federated averaging during the model training process, without patient data being taken out of the hospitals during the whole process of model training and forecasting. With the privacy-preserving mechanism, our federated prediction model trains over all the healthcare data from hospitals in a certain city without actual data sharing among them. Therefore, it is not only secure but also more accurate than any single prediction model that trains over the data only from one single hospital. Especially for small hospitals with few confirmed stroke cases, our federated model boosts model performance by 10%~20% in several machine learning metrics. To help stroke experts comprehend the advantage of our prediction system more intuitively, we developed a mobile app that collects the key information of patients' statistics and demonstrates performance comparisons between the federated prediction model and the single prediction model during the federated training process.
翻訳日:2022-11-21 05:21:21 公開日:2020-12-15
# JPEG 2000圧縮領域におけるディープニューラルネットワークを用いたリモートセンシング画像シーン分類

Remote Sensing Image Scene Classification with Deep Neural Networks in JPEG 2000 Compressed Domain ( http://arxiv.org/abs/2006.11529v2 )

ライセンス: Link先を確認
Akshara Preethy Byju, Gencer Sumbul, Beg\"um Demir, Lorenzo Bruzzone(参考訳) ストレージの要求を減らすため、リモートセンシング(RS)画像は通常圧縮形式で保存される。 ディープニューラルネットワーク(DNN)を用いた既存のシーン分類アプローチでは、運用アプリケーションで計算に要求されるタスクである画像を完全に圧縮する必要がある。 本稿では,JPEG 2000圧縮RS画像におけるシーン分類を実現するための新しい手法を提案する。 提案手法は,2つの主要なステップから構成される。 i)jpeg 2000で使用される可逆性バイオ正方形ウェーブレットフィルタの分解能サブバンドの近似 二 学習記述子に基づく近似ウェーブレットサブバンドの高レベル意味コンテンツのキャラクタリゼーション及びシーン分類 これは、粗い解像度ウェーブレットサブバンドに付随するコードストリームを入力として取り、多数の変換畳み込み層を用いて、より微細な解像度サブバンドを近似することで実現される。 次に、一連の畳み込み層が近似ウェーブレットサブバンドの高レベルなセマンティックコンテンツをモデル化する。 そこで,提案手法は,エンドツーエンドの学習可能な統一ニューラルネットワークにおけるjpeg 2000圧縮アルゴリズムのマルチレゾリューションパラダイムをモデル化する。 分類段階において,提案手法は粗大分解能ウェーブレットサブバンドのみを入力とし,復号化に要する時間を短縮する。 2つのベンチマーク航空画像アーカイブで行った実験結果から,提案手法は従来のRSシーン分類手法と比較して,類似の分類精度で計算時間を著しく短縮することを示した。

To reduce the storage requirements, remote sensing (RS) images are usually stored in compressed format. Existing scene classification approaches using deep neural networks (DNNs) require to fully decompress the images, which is a computationally demanding task in operational applications. To address this issue, in this paper we propose a novel approach to achieve scene classification in JPEG 2000 compressed RS images. The proposed approach consists of two main steps: i) approximation of the finer resolution sub-bands of reversible biorthogonal wavelet filters used in JPEG 2000; and ii) characterization of the high-level semantic content of approximated wavelet sub-bands and scene classification based on the learnt descriptors. This is achieved by taking codestreams associated with the coarsest resolution wavelet sub-band as input to approximate finer resolution sub-bands using a number of transposed convolutional layers. Then, a series of convolutional layers models the high-level semantic content of the approximated wavelet sub-band. Thus, the proposed approach models the multiresolution paradigm given in the JPEG 2000 compression algorithm in an end-to-end trainable unified neural network. In the classification stage, the proposed approach takes only the coarsest resolution wavelet sub-bands as input, thereby reducing the time required to apply decoding. Experimental results performed on two benchmark aerial image archives demonstrate that the proposed approach significantly reduces the computational time with similar classification accuracies when compared to traditional RS scene classification approaches (which requires full image decompression).
翻訳日:2022-11-18 22:37:11 公開日:2020-12-15
# 自己監督エッジ特徴とグラフニューラルネットワークを用いたSARS-CoV-2感染とCOVID-19重症度の検討

Gaining Insight into SARS-CoV-2 Infection and COVID-19 Severity Using Self-supervised Edge Features and Graph Neural Networks ( http://arxiv.org/abs/2006.12971v2 )

ライセンス: Link先を確認
Arijit Sehanobish, Neal G. Ravindra, David van Dijk(参考訳) SARS-CoV-2がウイルスにどのように感染し、深刻な新型コロナウイルスを引き起こすかの分子的および細胞的な理解は、パンデミックを終わらせるための介入を開発する上でボトルネックとなっている。 我々は,SARS-CoV-2感染および新型コロナウイルス重症度に関連する転写パターンと細胞型を同定し,深層学習を用いてSARS-CoV-2感染の生物学と新型コロナウイルス重症度を調べた。 そこで我々は,自己教師付きエッジ機能を生成する新しい手法を開発した。 本稿では,グラフ注意ネットワーク(GAT)上に構築され,自己教師付き学習を用いてエッジ機能を生成し,これらのエッジ機能をSet Transformer経由で取り込み,そのモデルを提案する。 このモデルは、転写産物を与えられた個々の細胞の疾患状態を予測する上で重要な改善を達成している。 我々は,SARS-CoV-2感染肺オルガノイドの単細胞RNAシークエンシングデータセットとCOVID-19患者の気管支肺胞洗浄液サンプルに本モデルを適用し,両モデルで最先端のパフォーマンスを達成した。 次に、説明可能なAI(XAI)の分野から借用し、傍観者と感染した細胞を識別する特徴(遺伝子)と細胞タイプを時間的・中等度に識別する。 我々の知る限り、これはSARS-CoV-2感染とCOVID-19重症度の分子および細胞決定因子を単一細胞オミクスデータを用いて同定するための、ディープラーニングの最初の応用である。

A molecular and cellular understanding of how SARS-CoV-2 variably infects and causes severe COVID-19 remains a bottleneck in developing interventions to end the pandemic. We sought to use deep learning to study the biology of SARS-CoV-2 infection and COVID-19 severity by identifying transcriptomic patterns and cell types associated with SARS-CoV-2 infection and COVID-19 severity. To do this, we developed a new approach to generating self-supervised edge features. We propose a model that builds on Graph Attention Networks (GAT), creates edge features using self-supervised learning, and ingests these edge features via a Set Transformer. This model achieves significant improvements in predicting the disease state of individual cells, given their transcriptome. We apply our model to single-cell RNA sequencing datasets of SARS-CoV-2 infected lung organoids and bronchoalveolar lavage fluid samples of patients with COVID-19, achieving state-of-the-art performance on both datasets with our model. We then borrow from the field of explainable AI (XAI) to identify the features (genes) and cell types that discriminate bystander vs. infected cells across time and moderate vs. severe COVID-19 disease. To the best of our knowledge, this represents the first application of deep learning to identifying the molecular and cellular determinants of SARS-CoV-2 infection and COVID-19 severity using single-cell omics data.
翻訳日:2022-11-17 22:33:32 公開日:2020-12-15
# 音声認識のための教師なし言語間表現学習

Unsupervised Cross-lingual Representation Learning for Speech Recognition ( http://arxiv.org/abs/2006.13979v2 )

ライセンス: Link先を確認
Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli(参考訳) 本稿では,複数言語における音声の生波形から単一モデルの事前学習を行い,言語間音声表現を学習するxlsrを提案する。 wav2vec 2.0をベースとし,マスク付き潜在音声表現の対比課題を解決し,言語間で共有される潜在話者の量子化を共同で学習する。 結果として得られたモデルはラベル付きデータに基づいて微調整され、実験により言語間前訓練が単言語前訓練を大幅に上回ることが示された。 CommonVoiceベンチマークでは、最もよく知られた結果と比較して、XLSRは相対音素誤り率を72%削減した。 BABELでは,同等のシステムと比較して単語誤り率を16%向上させる。 提案手法は,強い個人モデルと競合する単一の多言語音声認識モデルを実現する。 分析の結果、潜在離散音声表現は言語間で共有され、関連言語への共有が増加することが示された。 我々は、53言語で事前学習された大型モデルであるxlsr-53をリリースし、低リソース音声理解の研究を触媒することを期待している。

This paper presents XLSR which learns cross-lingual speech representations by pretraining a single model from the raw waveform of speech in multiple languages. We build on wav2vec 2.0 which is trained by solving a contrastive task over masked latent speech representations and jointly learns a quantization of the latents shared across languages. The resulting model is fine-tuned on labeled data and experiments show that cross-lingual pretraining significantly outperforms monolingual pretraining. On the CommonVoice benchmark, XLSR shows a relative phoneme error rate reduction of 72% compared to the best known results. On BABEL, our approach improves word error rate by 16% relative compared to a comparable system. Our approach enables a single multilingual speech recognition model which is competitive to strong individual models. Analysis shows that the latent discrete speech representations are shared across languages with increased sharing for related languages. We hope to catalyze research in low-resource speech understanding by releasing XLSR-53, a large model pretrained in 53 languages.
翻訳日:2022-11-17 09:40:29 公開日:2020-12-15
# チューリングGPUにおけるビットテンソルコアによる二元化ニューラルネットワークの高速化

Accelerating Binarized Neural Networks via Bit-Tensor-Cores in Turing GPUs ( http://arxiv.org/abs/2006.16578v2 )

ライセンス: Link先を確認
Ang Li and Simon Su(参考訳) 従来のディープニューラルネットワークよりも大幅にスピードアップするが、binarized neural networks(bnns)のパフォーマンス上の優位性は、cpuやgpuといった汎用プロセッサでのみ実証されている。 実際、ワードベースのアーキテクチャではビットレベルの並列処理を利用できないため、GPUはBNNの実行時に非常に低い使用率(1%)で批判されている。 その結果、NVIDIA Turing GPUの最新のテンソルコアは、ビット計算を実験的にサポートし始めた。 本稿では,この新たなビット計算機能について検討し,その特徴を特徴付ける。 メモリアクセスの進歩はパフォーマンスに大きく影響し,テンソルコアのない既存のソフトウェアソリューションよりも優れたパフォーマンスを実現するために,データフォーマットの共設計が望まれている。 テンソルコア加速BNN設計,特に完全接続層と畳み込み層とビット行列乗算とビット畳み込みの主要な機能を実現する。 2つのNVIDIA Turing GPUの評価によると、ResNet-18では、BTC-BNNの設計により、ImageNetを毎秒5.6Kで処理でき、最先端技術よりも77%高速である。 私たちのBNNアプローチはhttps://github.com/pnnl/TCBNNで公開されています。

Despite foreseeing tremendous speedups over conventional deep neural networks, the performance advantage of binarized neural networks (BNNs) has merely been showcased on general-purpose processors such as CPUs and GPUs. In fact, due to being unable to leverage bit-level-parallelism with a word-based architecture, GPUs have been criticized for extremely low utilization (1%) when executing BNNs. Consequently, the latest tensorcores in NVIDIA Turing GPUs start to experimentally support bit computation. In this work, we look into this brand new bit computation capability and characterize its unique features. We show that the stride of memory access can significantly affect performance delivery and a data-format co-design is highly desired to support the tensorcores for achieving superior performance than existing software solutions without tensorcores. We realize the tensorcore-accelerated BNN design, particularly the major functions for fully-connect and convolution layers -- bit matrix multiplication and bit convolution. Evaluations on two NVIDIA Turing GPUs show that, with ResNet-18, our BTC-BNN design can process ImageNet at a rate of 5.6K images per second, 77% faster than state-of-the-art. Our BNN approach is released on https://github.com/pnnl/TCBNN.
翻訳日:2022-11-15 06:24:35 公開日:2020-12-15
# 液体アルゴン時間射影チャンバーデータにおける電磁ショーラのクラスタリングとグラフニューラルネットワークとの粒子相互作用

Clustering of Electromagnetic Showers and Particle Interactions with Graph Neural Networks in Liquid Argon Time Projection Chambers Data ( http://arxiv.org/abs/2007.01335v3 )

ライセンス: Link先を確認
Francois Drielsma, Qing Lin, Pierre C\^ote de Soux, Laura Domin\'e, Ran Itay, Dae Heun Koh, Bradley J. Nelson, Kazuhiro Terao, Ka Vang Tsang, Tracy L. Usher(参考訳) 液体アルゴン時間射影チャンバー(Liquid Argon Time Projection Chambers、LArTPC)は、荷電粒子の高解像度画像を生成する検出器である。 これらの画像では、異なる粒子の超構造へのクラスタリングが、現在と将来のニュートリノ物理学プログラムの中心的な重要性である。 電磁活動(EM)は、通常、伝統的なアルゴリズムを用いて効率的に組み立てることが難しい様々な形態と方向の空間的に分離された断片を示す。 同様に、検出器内で互いに空間的に除去される粒子は、共通の相互作用から生じる可能性がある。 グラフニューラルネットワーク(GNN)は近年,任意の空間に埋め込まれたオブジェクト間の相関関係を見つけるために開発された。 Graph Particle Aggregator (GrapPA)は、まずGNNを活用して、EMシャワーフラグメントの隣接行列を予測し、シャワーの起源、すなわち一次フラグメントを識別する。 PILArNet公開LArTPCシミュレーションデータセットでは、平均調整されたRand index(ARI)97.8%、一次識別精度99.8%を特徴とするシャワークラスタリング精度を達成する。 相対シャワーエネルギー分解能は$(4.1+1.4/\sqrt{E(\text{GeV})})\,\%$およびシャワー方向分解能は$(2.1/\sqrt{E(\text{GeV})})^{\circ}$である。 最適化されたアルゴリズムは、粒子インスタンスを相互作用にクラスタリングする関連するタスクに適用され、相互作用密度が$\sim\mathcal{O}(1)\,m^{-3}$の平均ARIは99.2 %となる。

Liquid Argon Time Projection Chambers (LArTPCs) are a class of detectors that produce high resolution images of charged particles within their sensitive volume. In these images, the clustering of distinct particles into superstructures is of central importance to the current and future neutrino physics program. Electromagnetic (EM) activity typically exhibits spatially detached fragments of varying morphology and orientation that are challenging to efficiently assemble using traditional algorithms. Similarly, particles that are spatially removed from each other in the detector may originate from a common interaction. Graph Neural Networks (GNNs) were developed in recent years to find correlations between objects embedded in an arbitrary space. The Graph Particle Aggregator (GrapPA) first leverages GNNs to predict the adjacency matrix of EM shower fragments and to identify the origin of showers, i.e. primary fragments. On the PILArNet public LArTPC simulation dataset, the algorithm achieves achieves a shower clustering accuracy characterized by a mean adjusted Rand index (ARI) of 97.8 % and a primary identification accuracy of 99.8 %. It yields a relative shower energy resolution of $(4.1+1.4/\sqrt{E (\text{GeV})})\,\%$ and a shower direction resolution of $(2.1/\sqrt{E(\text{GeV})})^{\circ}$. The optimized algorithm is then applied to the related task of clustering particle instances into interactions and yields a mean ARI of 99.2 % for an interaction density of $\sim\mathcal{O}(1)\,m^{-3}$.
翻訳日:2022-11-14 14:46:13 公開日:2020-12-15
# PaMIR:画像に基づく人体再構成のためのパラメトリックモデル記述型暗示表現

PaMIR: Parametric Model-Conditioned Implicit Representation for Image-based Human Reconstruction ( http://arxiv.org/abs/2007.03858v2 )

ライセンス: Link先を確認
Zerong Zheng and Tao Yu and Yebin Liu and Qionghai Dai(参考訳) 一つの画像から3dモデルを正確かつロバストにモデル化することは非常に困難であり、そのような不適切な問題の鍵は3d表現である。 通常の3次元表現の限界を克服するために,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたPaMIR(Parametric Model-Conditioned Implicit Representation)を提案する。 PaMIRをベースとした再構築フレームワークでは,パラメトリックモデルのセマンティックな特徴を用いて,自由形式の深い暗黙関数を正規化するための新しいディープニューラルネットワークが提案されている。 さらに、深度あいまいを解消し、不完全なボディ参照による表面詳細再構築を成功させるために、新しい深度あいまいさ対応トレーニング損失をさらに統合する。 最後に,パラメトリックモデル推定精度を向上し,パラメトリックモデルと暗黙関数との一貫性を高めるためのボディーリファレンス最適化手法を提案する。 pamir表現を使えば,マルチカメラキャリブレーションやポーズ同期を必要とせずに,マルチイメージ入力シナリオに容易に拡張できる。 提案手法は,ポーズや衣服のタイプに挑戦する場合に,画像に基づく3次元人体再構成の最先端性能を実現することが実証された。

Modeling 3D humans accurately and robustly from a single image is very challenging, and the key for such an ill-posed problem is the 3D representation of the human models. To overcome the limitations of regular 3D representations, we propose Parametric Model-Conditioned Implicit Representation (PaMIR), which combines the parametric body model with the free-form deep implicit function. In our PaMIR-based reconstruction framework, a novel deep neural network is proposed to regularize the free-form deep implicit function using the semantic features of the parametric model, which improves the generalization ability under the scenarios of challenging poses and various clothing topologies. Moreover, a novel depth-ambiguity-aware training loss is further integrated to resolve depth ambiguities and enable successful surface detail reconstruction with imperfect body reference. Finally, we propose a body reference optimization method to improve the parametric model estimation accuracy and to enhance the consistency between the parametric model and the implicit function. With the PaMIR representation, our framework can be easily extended to multi-image input scenarios without the need of multi-camera calibration and pose synchronization. Experimental results demonstrate that our method achieves state-of-the-art performance for image-based 3D human reconstruction in the cases of challenging poses and clothing types.
翻訳日:2022-11-12 13:16:35 公開日:2020-12-15
# ぼやけ不変カーネル適応ネットワークによる単一画像ブラインドデブラリング

Blur Invariant Kernel-Adaptive Network for Single Image Blind deblurring ( http://arxiv.org/abs/2007.04543v3 )

ライセンス: Link先を確認
Sungkwon An, Hyungmin Roh and Myungjoo Kang(参考訳) 本稿では,ぼやけたカーネルに関する情報を利用した,目が見えないシングルイメージデブロアリング手法を提案する。 本モデルでは,(1)ぼかしカーネル推定と(2)シャープイメージ復元の2つのタスクに分割し,デブラリング問題を解消する。 まず,画像解析に基づいて適応型ぼかしカーネルを生成するカーネル推定ネットワークを提案する。 ネットワークは入力画像のぼかしパターンを学習し、画像固有のぼかしカーネルの推定を生成する。 次に,推定したボケカーネルを用いてシャープな画像を復元するデブラリングネットワークを提案する。 カーネルを効率的に利用するために,ぼやけた画像とぼやけたカーネルの両方の特徴を低次元空間に符号化し,同時にデコードし,適切に合成された特徴表現を得るカーネル適応型aeブロックを提案する。 ガウスアンボウカーネルを用いたREDS, GOPRO, Flickr2Kデータセットのモデルの評価を行った。 実験により,本モデルでは各データセットの最先端結果が得られた。

We present a novel, blind, single image deblurring method that utilizes information regarding blur kernels. Our model solves the deblurring problem by dividing it into two successive tasks: (1) blur kernel estimation and (2) sharp image restoration. We first introduce a kernel estimation network that produces adaptive blur kernels based on the analysis of the blurred image. The network learns the blur pattern of the input image and trains to generate the estimation of image-specific blur kernels. Subsequently, we propose a deblurring network that restores sharp images using the estimated blur kernel. To use the kernel efficiently, we propose a kernel-adaptive AE block that encodes features from both blurred images and blur kernels into a low dimensional space and then decodes them simultaneously to obtain an appropriately synthesized feature representation. We evaluate our model on REDS, GOPRO and Flickr2K datasets using various Gaussian blur kernels. Experiments show that our model can achieve state-of-the-art results on each dataset.
翻訳日:2022-11-12 04:34:44 公開日:2020-12-15
# 多腕バンディットの量子探索アルゴリズム

Quantum exploration algorithms for multi-armed bandits ( http://arxiv.org/abs/2007.07049v2 )

ライセンス: Link先を確認
Daochen Wang, Xuchen You, Tongyang Li, Andrew M. Childs(参考訳) マルチアームバンディットの最適腕を特定することは、バンディット最適化における中心的な問題である。 我々は、各アームの報酬確率を量子振幅としてエンコードする状態に対するoracleの一貫性のあるアクセスを用いて、この問題の量子計算版を研究した。 具体的には、$\tilde{O}\bigl(\sqrt{\sum_{i=2}^n\Delta^{\smash{-2}}_i}\bigr)$量子クエリーを用いて、最適な腕と$i^\text{th}$-bestアームの平均的な報酬の差を表す。 このアルゴリズムは、可変時間振幅増幅と推定に基づいて、最良の古典的結果と比較して二次的なスピードアップを与える。 また、(多対数因子まで)一致する量子下界も証明する。

Identifying the best arm of a multi-armed bandit is a central problem in bandit optimization. We study a quantum computational version of this problem with coherent oracle access to states encoding the reward probabilities of each arm as quantum amplitudes. Specifically, we show that we can find the best arm with fixed confidence using $\tilde{O}\bigl(\sqrt{\sum_{i=2}^n\Delta^{\smash{-2}}_i}\bigr)$ quantum queries, where $\Delta_{i}$ represents the difference between the mean reward of the best arm and the $i^\text{th}$-best arm. This algorithm, based on variable-time amplitude amplification and estimation, gives a quadratic speedup compared to the best possible classical result. We also prove a matching quantum lower bound (up to poly-logarithmic factors).
翻訳日:2022-11-10 15:34:55 公開日:2020-12-15
# モンテカルロ変換器:シーケンス予測のための確率的自己アテンションモデル

The Monte Carlo Transformer: a stochastic self-attention model for sequence prediction ( http://arxiv.org/abs/2007.08620v2 )

ライセンス: Link先を確認
Alice Martin (CMAP, IP Paris, CITI, TIPIC-SAMOVAR), Charles Ollion (CMAP), Florian Strub, Sylvain Le Corff (IP Paris, CITI, TIPIC-SAMOVAR), Olivier Pietquin(参考訳) 本稿では,変圧器アーキテクチャにおける観測分布を自然にキャプチャする手法であるSequential Monte Carlo Transformerを紹介する。 ネットワークのキー、クエリ、値、アテンションベクトルは、その隠された構造の観測されていない確率状態と見なされる。 この生成モデルは、各時間ステップにおいて受信された観測が与えられた注意窓内の過去の状態のランダムな関数であるようなものである。 この一般的な状態空間設定では、Sequential Monte Carlo法を用いて、観測された状態の後方分布を近似し、ログのような勾配を推定する。 そこで我々は,単点推定ではなく,予測分布を与える生成モデルを提案する。

This paper introduces the Sequential Monte Carlo Transformer, an original approach that naturally captures the observations distribution in a transformer architecture. The keys, queries, values and attention vectors of the network are considered as the unobserved stochastic states of its hidden structure. This generative model is such that at each time step the received observation is a random function of its past states in a given attention window. In this general state-space setting, we use Sequential Monte Carlo methods to approximate the posterior distributions of the states given the observations, and to estimate the gradient of the log-likelihood. We hence propose a generative model giving a predictive distribution, instead of a single-point estimate.
翻訳日:2022-11-10 04:34:20 公開日:2020-12-15
# 対人訓練は情報の低減と伝達性を改善する

Adversarial Training Reduces Information and Improves Transferability ( http://arxiv.org/abs/2007.11259v4 )

ライセンス: Link先を確認
Matteo Terzi, Alessandro Achille, Marco Maggipinto, Gian Antonio Susto(参考訳) 近年の研究では, 頑健性に加えて, 可逆性などの望ましい特性が期待できることが示されている。 後者の性質は、コミュニティによって広く受け入れられているように思えるが、分類モデルはタスクに必要な最小限の情報(機能)のみをキャプチャーすべきである。 本研究は,この相違に起因し,敵対的学習と情報理論の二重関係を考察する。 本稿では,新たなタスクへの線形転送性の向上を図り,表現の伝達可能性とソースタスクの精度の間に新たなトレードオフが生じていることを示す。 CIFAR-10, CIFAR-100, ImageNetでトレーニングされたロバストネットワークを用いて, 実験結果を検証した。 さらに, 逆訓練は, 入力とタスクの重みに関する表現のフィッシャー情報を削減することを示し, 決定論的ネットワークの可逆性を説明する理論的議論を最小性原理に違反することなく提供する。 最後に,理論的な知見を活用し,逆変換による再構成画像の品質を著しく向上させる。

Recent results show that features of adversarially trained networks for classification, in addition to being robust, enable desirable properties such as invertibility. The latter property may seem counter-intuitive as it is widely accepted by the community that classification models should only capture the minimal information (features) required for the task. Motivated by this discrepancy, we investigate the dual relationship between Adversarial Training and Information Theory. We show that the Adversarial Training can improve linear transferability to new tasks, from which arises a new trade-off between transferability of representations and accuracy on the source task. We validate our results employing robust networks trained on CIFAR-10, CIFAR-100 and ImageNet on several datasets. Moreover, we show that Adversarial Training reduces Fisher information of representations about the input and of the weights about the task, and we provide a theoretical argument which explains the invertibility of deterministic networks without violating the principle of minimality. Finally, we leverage our theoretical insights to remarkably improve the quality of reconstructed images through inversion.
翻訳日:2022-11-07 22:03:30 公開日:2020-12-15
# 子どもの目を通しての自己監督学習

Self-supervised learning through the eyes of a child ( http://arxiv.org/abs/2007.16189v3 )

ライセンス: Link先を確認
A. Emin Orhan, Vaibhav V. Gupta, Brenden M. Lake(参考訳) 生後数ヶ月以内に、子供たちは周囲の世界に対して有意義な期待を抱く。 感覚データに適用される一般的な学習メカニズムを通じて、この初期の知識のどの程度が説明できるのか、また、それのどれ程がより原始的な帰納的バイアスを必要とするのか? しかし、データ収集技術の改善と最近のディープラーニングの進歩のおかげで、ハイレベルなビジュアルカテゴリの開発など、より狭く定義された領域で真の進歩を期待できる。 本稿では,3人の幼児(Sullivan et al., 2020)の視点から,現代の自己指導型深層学習手法と,近年の縦型・自我中心型ビデオデータセットを活用することで,その進歩を正確に達成することを目的とする。 本研究は,汎用的な自己教師型学習目標を用いた,発達的な自然映像から高レベルな視覚表現が出現することを示す。

Within months of birth, children develop meaningful expectations about the world around them. How much of this early knowledge can be explained through generic learning mechanisms applied to sensory data, and how much of it requires more substantive innate inductive biases? Addressing this fundamental question in its full generality is currently infeasible, but we can hope to make real progress in more narrowly defined domains, such as the development of high-level visual categories, thanks to improvements in data collecting technology and recent progress in deep learning. In this paper, our goal is precisely to achieve such progress by utilizing modern self-supervised deep learning methods and a recent longitudinal, egocentric video dataset recorded from the perspective of three young children (Sullivan et al., 2020). Our results demonstrate the emergence of powerful, high-level visual representations from developmentally realistic natural videos using generic self-supervised learning objectives.
翻訳日:2022-11-04 05:37:26 公開日:2020-12-15
# 点次部分モジュラリティを超えて:非モノトン適応部分モジュラー最大化

Beyond Pointwise Submodularity: Non-Monotone Adaptive Submodular Maximization in Linear Time ( http://arxiv.org/abs/2008.05004v4 )

ライセンス: Link先を確認
Shaojie Tang(参考訳) 本稿では,濃度制約を受ける非単調適応部分モジュラー最大化問題について検討する。 対象関数が適応部分モジュラーかつポイントワイズ部分モジュラーである場合、このアルゴリズムが1/e$近似比を達成することを示すために、まず、encitep{gotovos2015non} で提案された適応ランダムグリーディアルゴリズムを再検討する。 同じ保証が適応部分モジュラリティ(ポイントワイド部分モジュラリティに頼らない)の下で成立するかどうかは不明である。 我々の最初の貢献は、適応的ランダムグリーディアルゴリズムが適応的部分モジュラリティの下で1/e$近似比を達成することを示すことである。 適応的ランダムグリードアルゴリズムの1つの制限は、$O(n\times k)$ value oracle queryを必要とし、$n$は基底集合のサイズ、$k$は濃度制約である。 第2の貢献は,非単調適応部分モジュラー最大化問題に対する最初の線形時間アルゴリズムの開発である。 このアルゴリズムは1/e-\epsilon$近似比(モノトーンの場合は1-1/e-\epsilon$)を達成し、oracleクエリの値が$o(n\epsilon^{-2}\log \epsilon^{-1})である。 特に、$O(n\epsilon^{-2}\log \epsilon^{-1})$ は濃度制約とは独立である。 モノトーンの場合,$O(n \log \frac{1}{\epsilon})$value oracle queryを期待して,1-1/e-\epsilon$近似比を高速化するアルゴリズムを提案する。 また,分割マトロイド制約を考慮し,モノトーンおよび完全適応部分モジュラー関数に対する線形時間アルゴリズムを開発することで,本研究を一般化する。

In this paper, we study the non-monotone adaptive submodular maximization problem subject to a cardinality constraint. We first revisit the adaptive random greedy algorithm proposed in \citep{gotovos2015non}, where they show that this algorithm achieves a $1/e$ approximation ratio if the objective function is adaptive submodular and pointwise submodular. It is not clear whether the same guarantee holds under adaptive submodularity (without resorting to pointwise submodularity) or not. Our first contribution is to show that the adaptive random greedy algorithm achieves a $1/e$ approximation ratio under adaptive submodularity. One limitation of the adaptive random greedy algorithm is that it requires $O(n\times k)$ value oracle queries, where $n$ is the size of the ground set and $k$ is the cardinality constraint. Our second contribution is to develop the first linear-time algorithm for the non-monotone adaptive submodular maximization problem. Our algorithm achieves a $1/e-\epsilon$ approximation ratio (this bound is improved to $1-1/e-\epsilon$ for monotone case), using only $O(n\epsilon^{-2}\log \epsilon^{-1})$ value oracle queries. Notably, $O(n\epsilon^{-2}\log \epsilon^{-1})$ is independent of the cardinality constraint. For the monotone case, we propose a faster algorithm that achieves a $1-1/e-\epsilon$ approximation ratio in expectation with $O(n \log \frac{1}{\epsilon})$ value oracle queries. We also generalize our study by considering a partition matroid constraint, and develop a linear-time algorithm for monotone and fully adaptive submodular functions.
翻訳日:2022-10-31 10:45:24 公開日:2020-12-15
# 連合学習におけるクラス不均衡の解消

Addressing Class Imbalance in Federated Learning ( http://arxiv.org/abs/2008.06217v2 )

ライセンス: Link先を確認
Lixu Wang, Shichao Xu, Xiao Wang, Qi Zhu(参考訳) フェデレートラーニング(FL)は、効率とプライバシを改善しながら、ローカルクライアントデバイス上の分散データをトレーニングするための有望なアプローチである。 しかし、クライアント側でのトレーニングデータの分布と量は、クラス不均衡や非IID(非独立で同一の分散)データといった重大な課題を招き、共通のモデルの性能に大きな影響を及ぼす可能性がある。 FLモデルが非IIDデータに遭遇する際には、多くの努力が注がれているが、不均衡問題は十分に解決されていない。 特に、flトレーニングは、暗号化された形式で勾配を交換することで実行されるので、トレーニングデータはクライアントやサーバに対して完全には観測できないし、以前のクラス不均衡の方法はflに対してうまく機能しない。 したがって、flにおけるクラス不均衡を検出し、その影響を緩和するための新しい手法を設計することが重要である。 本研究では,flラウンド毎のトレーニングデータの構成を推定し,不均衡の影響を軽減するために新たな損失関数 -\textbf{ratio loss} を設計するためのモニタリング手法を提案する。 本実験は,クラス不均衡を認め,flトレーニングにおいて可能な限り早期に対策を講じることの重要性と,その効果を緩和する手法の有効性を実証する。 提案手法は,クライアントのプライバシを維持しつつ,従来手法を大幅に上回っている。

Federated learning (FL) is a promising approach for training decentralized data located on local client devices while improving efficiency and privacy. However, the distribution and quantity of the training data on the clients' side may lead to significant challenges such as class imbalance and non-IID (non-independent and identically distributed) data, which could greatly impact the performance of the common model. While much effort has been devoted to helping FL models converge when encountering non-IID data, the imbalance issue has not been sufficiently addressed. In particular, as FL training is executed by exchanging gradients in an encrypted form, the training data is not completely observable to either clients or servers, and previous methods for class imbalance do not perform well for FL. Therefore, it is crucial to design new methods for detecting class imbalance in FL and mitigating its impact. In this work, we propose a monitoring scheme that can infer the composition of training data for each FL round, and design a new loss function -- \textbf{Ratio Loss} to mitigate the impact of the imbalance. Our experiments demonstrate the importance of acknowledging class imbalance and taking measures as early as possible in FL training, and the effectiveness of our method in mitigating the impact. Our method is shown to significantly outperform previous methods, while maintaining client privacy.
翻訳日:2022-10-30 16:44:54 公開日:2020-12-15
# 線形不等角表現と教師なし動作推定

Linear Disentangled Representations and Unsupervised Action Estimation ( http://arxiv.org/abs/2008.07922v2 )

ライセンス: Link先を確認
Matthew Painter, Jonathon Hare and Adam Prugel-Bennett(参考訳) ディスタングル付き表現学習は近年、多くの異なるディアングルメント指標の1つを最適化する新しいモデルに重点を置いて、関心が高まりつつある。 対称性に基づく不整合表現学習は「線形不整合表現」の意味を正確に定義した頑健な数学的枠組みを導入した。 この枠組みは、そのような表現はデータに作用する対称性群の特定の分解に依存し、独立表現部分空間に作用する既約群表現を通して作用が現れることを示した。 Caselles-Dupre et al [2019] は後に VAE モデルにおいて線形不整合表現を誘導し示す最初のモデルを提案した。 本研究では、線形不等角表現は一般に標準vaeモデルには存在せず、その代わりに損失景観を変更する必要があることを実証的に示す。 このような表現が古典的絡み合いの指標に関して望ましい性質であることを示す。 最後に,先行研究で要求されるようにラベル付きアクションシーケンスの必要性をなくし,既約表現を誘導する手法を提案する。 本手法は,中間状態の知識や視覚雑音下でのロバスト性のない動作列から学習する能力を含む,様々な特性を探索する。 また,画素から4つの独立した対称性を直接学習できることを示す。

Disentangled representation learning has seen a surge in interest over recent times, generally focusing on new models which optimise one of many disparate disentanglement metrics. Symmetry Based Disentangled Representation learning introduced a robust mathematical framework that defined precisely what is meant by a "linear disentangled representation". This framework determined that such representations would depend on a particular decomposition of the symmetry group acting on the data, showing that actions would manifest through irreducible group representations acting on independent representational subspaces. Caselles-Dupre et al [2019] subsequently proposed the first model to induce and demonstrate a linear disentangled representation in a VAE model. In this work we empirically show that linear disentangled representations are not generally present in standard VAE models and that they instead require altering the loss landscape to induce them. We proceed to show that such representations are a desirable property with regard to classical disentanglement metrics. Finally we propose a method to induce irreducible representations which forgoes the need for labelled action sequences, as was required by prior work. We explore a number of properties of this method, including the ability to learn from action sequences without knowledge of intermediate states and robustness under visual noise. We also demonstrate that it can successfully learn 4 independent symmetries directly from pixels.
翻訳日:2022-10-27 20:56:13 公開日:2020-12-15
# 経時的共同創設者による個別治療効果の推定

Estimating Individual Treatment Effects with Time-Varying Confounders ( http://arxiv.org/abs/2008.13620v2 )

ライセンス: Link先を確認
Ruoqi Liu, Changchang Yin, Ping Zhang(参考訳) 医療において、観察データから個別治療効果(ITE)を推定することは意義があり実用的である。 既存の作業は主に、隠れた共同設立者が存在しないという強い無知の仮定に依存しており、因果効果を推定するバイアスにつながる可能性がある。 隠れた共同設立者は静的環境のために設計されており、動的環境に容易に適応できないと考える研究もある。 実際、ほとんどの観測データ(例えば電子医療記録)は自然に動的であり、シーケンシャルな情報で構成されている。 本稿では,時間変化のある共同設立者とITEを推定するための深度重み付け(DSW)を提案する。 具体的には、dswは、ディープリカレント重み付けニューラルネットワークを用いて、現在の治療課題と過去の情報を組み込むことで、隠れた共同創設者を推測する。 隠れた共同設立者の学習された表現と現在の観測データの組み合わせは、潜在的な結果と治療予測に活用される。 人口再重み付けのための治療の時間変化の逆確率を計算する。 我々は、モデルとベースラインの性能を評価するために、完全合成、半合成、実世界のデータセットに関する包括的な比較実験を行う。 以上の結果から, 当モデルでは, 経過観察者と隠れた共同設立者の両方を条件づけることで, 偏りなく正確な治療効果が得られ, パーソナライズ医療への道を開くことができた。

Estimating the individual treatment effect (ITE) from observational data is meaningful and practical in healthcare. Existing work mainly relies on the strong ignorability assumption that no hidden confounders exist, which may lead to bias in estimating causal effects. Some studies consider the hidden confounders are designed for static environment and not easily adaptable to a dynamic setting. In fact, most observational data (e.g., electronic medical records) is naturally dynamic and consists of sequential information. In this paper, we propose Deep Sequential Weighting (DSW) for estimating ITE with time-varying confounders. Specifically, DSW infers the hidden confounders by incorporating the current treatment assignments and historical information using a deep recurrent weighting neural network. The learned representations of hidden confounders combined with current observed data are leveraged for potential outcome and treatment predictions. We compute the time-varying inverse probabilities of treatment for re-weighting the population. We conduct comprehensive comparison experiments on fully-synthetic, semi-synthetic and real-world datasets to evaluate the performance of our model and baselines. Results demonstrate that our model can generate unbiased and accurate treatment effect by conditioning both time-varying observed and hidden confounders, paving the way for personalized medicine.
翻訳日:2022-10-24 08:38:48 公開日:2020-12-15
# オンライン音声タスクからパーキンソン病を検出する

Detecting Parkinson's Disease From an Online Speech-task ( http://arxiv.org/abs/2009.01231v4 )

ライセンス: Link先を確認
Wasifur Rahman, Sangwu Lee, Md. Saiful Islam, Victor Nikhil Antony, Harshil Ratnu, Mohammad Rafayet Ali, Abdullah Al Mamun, Ellen Wagner, Stella Jensen-Roberts, Max A. Little, Ray Dorsey, and Ehsan Hoque(参考訳) 本稿では,世界中のどこでも短時間の音声タスクを記録できるWebベースのフレームワークを構想し,パーキンソン病(PD)のスクリーニングのために記録データを解析する。 726人の独特な参加者(262人、女性38%、非pd464人、女性65%、平均年齢61人)のデータを米国中以降から収集した。 データのごく一部は、品質を比較するために実験室で収集された。 参加者は、英語のアルファベット「the quick brown fox jump over the lazy dog.」の文字を全て含む人気パングラムを発声するよう指示された。 音声データから標準音響的特徴(メル周波数ケプストラム係数(mfcc)、ジッターおよびシマー変種)とディープラーニングに基づく特徴を抽出した。 これらの機能を使って、いくつかの機械学習アルゴリズムを訓練しました。 傾斜型決定木モデルXGBoostを用いて,標準的な音響特性をモデル化し,自己報告型パーキンソン病の有無を判定する性能を 0.75 AUC (Area Under The Curve) で達成した。 さらなる分析により、広く使われているmfccの特徴と、パーキンソンの言語発声タスク(ahh)からパーキンソンを検出するために設計された、以前に検証された不協和音の特徴のサブセットが、最も異なる情報を含んでいることが判明した。 実験では,対照実験環境で収集したデータと,性別や年齢の異なる「野生」のデータについて,等しく評価した。 このツールを使用することで、ビデオ/オーディオ対応デバイスを使用して、ほぼ誰からもデータを集め、公平性と神経学的ケアへのアクセスに貢献することができます。

In this paper, we envision a web-based framework that can help anyone, anywhere around the world record a short speech task, and analyze the recorded data to screen for Parkinson's disease (PD). We collected data from 726 unique participants (262 PD, 38% female; 464 non-PD, 65% female; average age: 61) -- from all over the US and beyond. A small portion of the data was collected in a lab setting to compare quality. The participants were instructed to utter a popular pangram containing all the letters in the English alphabet "the quick brown fox jumps over the lazy dog..". We extracted both standard acoustic features (Mel Frequency Cepstral Coefficients (MFCC), jitter and shimmer variants) and deep learning based features from the speech data. Using these features, we trained several machine learning algorithms. We achieved 0.75 AUC (Area Under The Curve) performance on determining presence of self-reported Parkinson's disease by modeling the standard acoustic features through the XGBoost -- a gradient-boosted decision tree model. Further analysis reveal that the widely used MFCC features and a subset of previously validated dysphonia features designed for detecting Parkinson's from verbal phonation task (pronouncing 'ahh') contains the most distinct information. Our model performed equally well on data collected in controlled lab environment as well as 'in the wild' across different gender and age groups. Using this tool, we can collect data from almost anyone anywhere with a video/audio enabled device, contributing to equity and access in neurological care.
翻訳日:2022-10-22 19:01:45 公開日:2020-12-15
# AutoMLは人間より優れているか? AutoMLベンチマークを用いた人気のあるOpenMLデータセットの評価

Can AutoML outperform humans? An evaluation on popular OpenML datasets using AutoML Benchmark ( http://arxiv.org/abs/2009.01564v2 )

ライセンス: Link先を確認
Marc Hanussek, Matthias Blohm, Maximilien Kintz(参考訳) ここ数年、Automated Machine Learning(AutoML)が注目されている。 そうは言っても、AutoMLが人間のデータサイエンティストによって達成された結果より優れているかどうかという問題が発生する。 本稿では、openmlから12の異なるポピュラーデータセット上の4つのautomlフレームワークを比較し、そのうち6つは分類タスクを監督し、他の6つは教師付き回帰処理を行う。 さらに、最近のプロジェクトからの実際のデータセットも検討しています。 その結果、自動化されたフレームワークは、12のOpenMLタスクのうち7つの機械学習コミュニティより優れているか同等であることがわかった。

In the last few years, Automated Machine Learning (AutoML) has gained much attention. With that said, the question arises whether AutoML can outperform results achieved by human data scientists. This paper compares four AutoML frameworks on 12 different popular datasets from OpenML; six of them supervised classification tasks and the other six supervised regression ones. Additionally, we consider a real-life dataset from one of our recent projects. The results show that the automated frameworks perform better or equal than the machine learning community in 7 out of 12 OpenML tasks.
翻訳日:2022-10-22 07:08:35 公開日:2020-12-15
# FILTER: 言語間言語理解のための拡張融合法

FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding ( http://arxiv.org/abs/2009.05166v3 )

ライセンス: Link先を確認
Yuwei Fang, Shuohang Wang, Zhe Gan, Siqi Sun, Jingjing Liu(参考訳) mBERT、Unicoder、XLMなどの大規模言語モデル(LM)は、言語間表現学習において大きな成功を収めている。 しかしながら、ゼロショットのクロスランガル変換タスクに適用する場合、既存のほとんどのメソッドは、多言語タスクに不可欠な言語間の固有のクロスランガルアライメントを活用することなく、単一言語入力のみをLM微調整に使用する。 本稿では,XLMファインタニングの入力として言語間データを利用する拡張融合法であるFILTERを提案する。 具体的には、FILTERは、まずソース言語で入力されたテキストとその翻訳を、浅い層で独立して対象言語でエンコードし、次に中間層で多言語的な知識を抽出し、さらに言語固有のエンコーディングを行う。 推論中、モデルは、対象言語におけるテキスト入力とそのソース言語での翻訳に基づいて予測を行う。 分類などの単純なタスクでは、対象言語の翻訳されたテキストはソース言語と同じラベルを共有する。 しかし、この共有ラベルは、質問応答、NER、POSタグ付けといったより複雑なタスクでは正確でないか、あるいは利用できないものになっている。 この問題に対処するために、ターゲット言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。 広範な実験により、フィルタは2つの挑戦的な多言語マルチタスクベンチマーク、xtremeとxglueで新しい状態を達成することが示されている。

Large-scale cross-lingual language models (LM), such as mBERT, Unicoder and XLM, have achieved great success in cross-lingual representation learning. However, when applied to zero-shot cross-lingual transfer tasks, most existing methods use only single-language input for LM finetuning, without leveraging the intrinsic cross-lingual alignment between different languages that proves essential for multilingual tasks. In this paper, we propose FILTER, an enhanced fusion method that takes cross-lingual data as input for XLM finetuning. Specifically, FILTER first encodes text input in the source language and its translation in the target language independently in the shallow layers, then performs cross-language fusion to extract multilingual knowledge in the intermediate layers, and finally performs further language-specific encoding. During inference, the model makes predictions based on the text input in the target language and its translation in the source language. For simple tasks such as classification, translated text in the target language shares the same label as the source language. However, this shared label becomes less accurate or even unavailable for more complex tasks such as question answering, NER and POS tagging. To tackle this issue, we further propose an additional KL-divergence self-teaching loss for model training, based on auto-generated soft pseudo-labels for translated text in the target language. Extensive experiments demonstrate that FILTER achieves new state of the art on two challenging multilingual multi-task benchmarks, XTREME and XGLUE.
翻訳日:2022-10-20 03:27:27 公開日:2020-12-15
# 過大な補正フィードバックの視覚音声合成

Visual-speech Synthesis of Exaggerated Corrective Feedback ( http://arxiv.org/abs/2009.05748v2 )

ライセンス: Link先を確認
Yaohua Bu, Weijun Li, Tianyi Ma, Shengqi Chen, Jia Jia, Kun Li, Xiaobo Lu(参考訳) 第二言語(L2)学習者に対して、その誤発音をよりよく識別するための識別的フィードバックを提供するため、コンピュータ支援発音訓練(CAPT)において、視覚音声フィードバックを誇張する手法を提案する。 音声強調は、タコトロンに基づく強調音声生成ニューラルネットワークにより実現され、視覚強調は、ADC Viseme Blendingによって実現される。 ユーザ研究によれば、大げさなフィードバックは、発音の識別と発音の改善を学習者に支援する非大げさなバージョンよりも優れている。

To provide more discriminative feedback for the second language (L2) learners to better identify their mispronunciation, we propose a method for exaggerated visual-speech feedback in computer-assisted pronunciation training (CAPT). The speech exaggeration is realized by an emphatic speech generation neural network based on Tacotron, while the visual exaggeration is accomplished by ADC Viseme Blending, namely increasing Amplitude of movement, extending the phone's Duration and enhancing the color Contrast. User studies show that exaggerated feedback outperforms non-exaggerated version on helping learners with pronunciation identification and pronunciation improvement.
翻訳日:2022-10-19 08:16:39 公開日:2020-12-15
# Dual-Mandate Patrols: グリーンセキュリティのためのマルチアーマッドバンド

Dual-Mandate Patrols: Multi-Armed Bandits for Green Security ( http://arxiv.org/abs/2009.06560v2 )

ライセンス: Link先を確認
Lily Xu, Elizabeth Bondi, Fei Fang, Andrew Perrault, Kai Wang, Milind Tambe(参考訳) グリーン・セキュリティ・ドメインにおける野生動物や森林を保護する保護活動は、攻撃者(密猟者や不法伐採者など)から守るために広大な地域をパトロールしなければならない防衛者(パトロール者など)が限られている。 守備隊は保護地域の各地域でどれだけの時間を費やすかを決め、頻繁に訪れた地域を探検し、既知のホットスポットを搾取する。 我々は、この問題を、各行動がパトロール戦略を表す確率的多武装バンディットとして定式化し、パトロール政策の収束率の保証を可能にする。 しかし、ナイーブ・バンディットのアプローチは長期的な最適性のために短期的なパフォーマンスを損なうことになり、動物が密猟され森林が破壊された。 性能向上のために,報酬関数の滑らかさと動作の分解可能性を活用する。 リプシッツ連続性と分解の相乗効果を示す。 その際、組合せとリプシッツの帯域幅のギャップを埋め、短期性能を最適化しながら既存の保証を厳格化するための非相対的なアプローチを提案する。 我々のアルゴリズムであるLIZARDはカンボジアの現実世界の密猟データの性能を向上させることを実証する。

Conservation efforts in green security domains to protect wildlife and forests are constrained by the limited availability of defenders (i.e., patrollers), who must patrol vast areas to protect from attackers (e.g., poachers or illegal loggers). Defenders must choose how much time to spend in each region of the protected area, balancing exploration of infrequently visited regions and exploitation of known hotspots. We formulate the problem as a stochastic multi-armed bandit, where each action represents a patrol strategy, enabling us to guarantee the rate of convergence of the patrolling policy. However, a naive bandit approach would compromise short-term performance for long-term optimality, resulting in animals poached and forests destroyed. To speed up performance, we leverage smoothness in the reward function and decomposability of actions. We show a synergy between Lipschitz-continuity and decomposition as each aids the convergence of the other. In doing so, we bridge the gap between combinatorial and Lipschitz bandits, presenting a no-regret approach that tightens existing guarantees while optimizing for short-term performance. We demonstrate that our algorithm, LIZARD, improves performance on real-world poaching data from Cambodia.
翻訳日:2022-10-18 11:40:12 公開日:2020-12-15
# 平面対称性群における多・少周期画像集合の客観的・確率的・一般化騒音レベル依存分類

Objective, Probabilistic, and Generalized Noise Level Dependent Classifications of sets of more or less 2D Periodic Images into Plane Symmetry Groups ( http://arxiv.org/abs/2009.08539v2 )

ライセンス: Link先を確認
Andrew Dempsey and Peter Moeck(参考訳) 2次元の周期性を持つ実世界の画像からの結晶対称性の分類は、結晶学者やコンピュータビジョン研究の実践者にも関心がある。 現在では、これらの分類は通常、判断の任意のしきい値に依存する主観的な方法で両コミュニティによって作成され、決定的であることを前提として報告されているが、不可能である。 さらに、コンピュータビジョンコミュニティは、より強力で計算効率の良いフーリエ空間法ではなく、直接空間法を用いて分類する傾向がある。 これは、コンピュータビジョンのコミュニティで解析される画像に一般的に見られるよりも、単位細胞モチーフの周期的な反復を必要とするためである。 金谷健一の幾何学的アカイケ情報基準と関連する幾何学的アカイケ重みによって実現される平面対称性群分類に対する新しいアプローチを示す。 我々の手法はフーリエ空間での作業の利点を活用し、結晶対称性の階層性を扱うのに適しており、一般化された雑音レベルに依存する確率的結果が得られる。 後者の特徴は、ノイズの少ない画像データとより正確な処理アルゴリズムが利用可能になると、結晶対称性の分類を更新できることを意味する。 本手法は,赤緑色・青・広帯域ノイズの異なる合成2d周期画像の集合の面対称性と擬対称性を客観的に推定する能力を示す。 さらに、フーリエ空間法を実践するために、入力画像に周期的反復が多すぎるという問題に対する簡単な解を提案する。 そこで我々は,ノイズの存在下での画像からの対称性の検出と分類のコンピュータビジョンから,何十年も前からある難解な問題を効果的に解く。

Crystallographic symmetry classifications from real-world images with periodicities in two dimensions (2D) are of interest to crystallographers and practitioners of computer vision studies alike. Currently, these classifications are typically made by both communities in a subjective manner that relies on arbitrary thresholds for judgments, and are reported under the pretense of being definitive, which is impossible. Moreover, the computer vision community tends to use direct space methods to make such classifications instead of more powerful and computationally efficient Fourier space methods. This is because the proper functioning of those methods requires more periodic repeats of a unit cell motif than are commonly present in images analyzed by the computer vision community. We demonstrate a novel approach to plane symmetry group classifications that is enabled by Kenichi Kanatani's Geometric Akaike Information Criterion and associated Geometric Akaike weights. Our approach leverages the advantages of working in Fourier space, is well suited for handling the hierarchic nature of crystallographic symmetries, and yields probabilistic results that are generalized noise level dependent. The latter feature means crystallographic symmetry classifications can be updated when less noisy image data and more accurate processing algorithms become available. We demonstrate the ability of our approach to objectively estimate the plane symmetry and pseudosymmetries of sets of synthetic 2D-periodic images with varying amounts of red-green-blue and spread noise. Additionally, we suggest a simple solution to the problem of too few periodic repeats in an input image for practical application of Fourier space methods. In doing so, we effectively solve the decades-old and heretofore intractable problem from computer vision of symmetry detection and classification from images in the presence of noise.
翻訳日:2022-10-17 11:46:55 公開日:2020-12-15
# 出力コードの深部N項誤り訂正

Deep N-ary Error Correcting Output Codes ( http://arxiv.org/abs/2009.10465v4 )

ライセンス: Link先を確認
Hao Zhang, Joey Tianyi Zhou, Tianying Wang, Ivor W. Tsang, Rick Siow Mong Goh(参考訳) アンサンブル学習は、一連の基底分類器を集約することで、多クラス分類の性能を一貫して改善する。 この目的のために、Error Correcting Output Codes (ECOC) のようなデータ非依存のアンサンブル手法は、実装と並列化の容易さから注目を集めている。 具体的には、従来のECOCとその一般的な拡張 N-ary ECOC は、元の多重クラス分類問題を、一連の独立した単純分類サブプロブレムに分解する。 残念ながら、ECOC(特にN-ary ECOC)とディープニューラルネットワーク(Deep N-ary ECOC)を統合することは、トレーニングベースラーナーのコストが高いため、文学において簡単ではなく、完全に活用されているわけではない。 深層学習者によるN-ary ECOCの学習を容易にするために,N-ary ECOCのパラメータ共有アーキテクチャの3つのバリエーションを提案する。 深部N-ary ECOCの一般化能力を検証するため,画像とテキストの分類作業において,異なる深部ニューラルネットワークアーキテクチャでバックボーンを可変させて実験を行った。 さらに、深部N-ary ECOCに関する広範なアブレーション研究は、他の深部データ独立アンサンブル法よりも優れた性能を示している。

Ensemble learning consistently improves the performance of multi-class classification through aggregating a series of base classifiers. To this end, data-independent ensemble methods like Error Correcting Output Codes (ECOC) attract increasing attention due to its easiness of implementation and parallelization. Specifically, traditional ECOCs and its general extension N-ary ECOC decompose the original multi-class classification problem into a series of independent simpler classification subproblems. Unfortunately, integrating ECOCs, especially N-ary ECOC with deep neural networks, termed as deep N-ary ECOC, is not straightforward and yet fully exploited in the literature, due to the high expense of training base learners. To facilitate the training of N-ary ECOC with deep learning base learners, we further propose three different variants of parameter sharing architectures for deep N-ary ECOC. To verify the generalization ability of deep N-ary ECOC, we conduct experiments by varying the backbone with different deep neural network architectures for both image and text classification tasks. Furthermore, extensive ablation studies on deep N-ary ECOC show its superior performance over other deep data-independent ensemble methods.
翻訳日:2022-10-15 22:59:22 公開日:2020-12-15
# certrl: coqにおける価値と政策イテレーションの収束証明の形式化

CertRL: Formalizing Convergence Proofs for Value and Policy Iteration in Coq ( http://arxiv.org/abs/2009.11403v2 )

ライセンス: Link先を確認
Koundinya Vajjha, Avraham Shinnar, Vasily Pestun, Barry Trager, Nathan Fulton(参考訳) 強化学習アルゴリズムは長期報酬を最適化することで確率的環境における逐次意思決定問題を解決する。 安全クリティカルな環境で強化学習を利用するという欲求は、公式に制約された強化学習に関する最近の取り組みを刺激するが、これらの手法は信頼されたコンピューティング基盤に学習アルゴリズムを実装する。 これらの実装の重要な正確性は、学習アルゴリズムが最適なポリシーに収束する保証である。 本稿では,このギャップを埋める作業として,有限状態マルコフ決定過程に対する値とポリシーの反復という,2つの正準強化学習アルゴリズムのCoq形式化を開発する。 中心となる結果はベルマンの最適性原理とその証明の形式化であり、ベルマン最適性作用素の縮約性を用いて、列が無限大地平線極限に収束することを示す。 certrlの開発は、強化学習アルゴリズムに対するgiry monadと機械化されたメートル法推論の合理性証明の例である。 CertRLライブラリは、マルコフ決定プロセスと強化学習アルゴリズムに関する特性を証明するための一般的なフレームワークを提供する。

Reinforcement learning algorithms solve sequential decision-making problems in probabilistic environments by optimizing for long-term reward. The desire to use reinforcement learning in safety-critical settings inspires a recent line of work on formally constrained reinforcement learning; however, these methods place the implementation of the learning algorithm in their Trusted Computing Base. The crucial correctness property of these implementations is a guarantee that the learning algorithm converges to an optimal policy. This paper begins the work of closing this gap by developing a Coq formalization of two canonical reinforcement learning algorithms: value and policy iteration for finite state Markov decision processes. The central results are a formalization of Bellman's optimality principle and its proof, which uses a contraction property of Bellman optimality operator to establish that a sequence converges in the infinite horizon limit. The CertRL development exemplifies how the Giry monad and mechanized metric coinduction streamline optimality proofs for reinforcement learning algorithms. The CertRL library provides a general framework for proving properties about Markov decision processes and reinforcement learning algorithms, paving the way for further work on formalization of reinforcement learning algorithms.
翻訳日:2022-10-15 16:46:42 公開日:2020-12-15
# メタ強化学習における効果的な文脈を目指して--コントラスト学習に基づくアプローチ

Towards Effective Context for Meta-Reinforcement Learning: an Approach based on Contrastive Learning ( http://arxiv.org/abs/2009.13891v3 )

ライセンス: Link先を確認
Haotian Fu, Hongyao Tang, Jianye Hao, Chen Chen, Xidong Feng, Dong Li, Wulong Liu(参考訳) 以前収集したトラジェクトリの埋め込みであるContextはメタ強化学習(Meta-RL)アルゴリズムの強力な構成法である。 効果的なコンテキストを条件付けすることで、メタRLポリシーはいくつかの適応ステップで簡単に新しいタスクに一般化できる。 文脈の質を向上させるには2つの質問に答える必要があると論じています。 1. 事前の軌跡に含まれるタスク固有の情報を組み込むことのできるコンパクトで十分なエンコーダの訓練方法 2 対応するコンテキストがタスクの仕様を反映した情報的トラジェクタの収集方法 そこで本研究では,CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれるメタRLフレームワークを提案する。 まず、異なるタスクの背後にある対照的な性質に注目し、コンパクトで十分なコンテキストエンコーダのトレーニングに活用します。 さらに,異なる探索政策を訓練し,いくつかのステップで情報トラジェクトリを収集することを目的とした情報ゲインに基づく新たな目的を理論的に導出する。 経験的に、我々は共通ベンチマークおよびいくつかの複雑なスパースワード環境におけるアプローチを評価した。 実験の結果, ccmは, 前述の問題に対処し, 最先端アルゴリズムよりも優れていた。

Context, the embedding of previous collected trajectories, is a powerful construct for Meta-Reinforcement Learning (Meta-RL) algorithms. By conditioning on an effective context, Meta-RL policies can easily generalize to new tasks within a few adaptation steps. We argue that improving the quality of context involves answering two questions: 1. How to train a compact and sufficient encoder that can embed the task-specific information contained in prior trajectories? 2. How to collect informative trajectories of which the corresponding context reflects the specification of tasks? To this end, we propose a novel Meta-RL framework called CCM (Contrastive learning augmented Context-based Meta-RL). We first focus on the contrastive nature behind different tasks and leverage it to train a compact and sufficient context encoder. Further, we train a separate exploration policy and theoretically derive a new information-gain-based objective which aims to collect informative trajectories in a few steps. Empirically, we evaluate our approaches on common benchmarks as well as several complex sparse-reward environments. The experimental results show that CCM outperforms state-of-the-art algorithms by addressing previously mentioned problems respectively.
翻訳日:2022-10-13 05:10:03 公開日:2020-12-15
# CardioGAN:PSGからの心電図合成のための二重判別器を用いた注意生成対向ネットワーク

CardioGAN: Attentive Generative Adversarial Network with Dual Discriminators for Synthesis of ECG from PPG ( http://arxiv.org/abs/2010.00104v2 )

ライセンス: Link先を確認
Pritam Sarkar, Ali Etemad(参考訳) 心電図 (ECG) は心臓活動の電気的測定であり、光胸腺図 (PPG) は血液循環の体積変化の光学的測定である。 どちらの信号も心拍モニタリングに使用されるが、医療の観点から見れば、心電図は追加の心臓情報を運ぶためより有用である。 連続的かつ信頼性の高い心臓モニタリングのために、スマートウォッチや同様のウェアラブルデバイスに心電図センサーを組み込もうとする試みは数多くあるが、PSGセンサーは利用可能な主要なセンサーソリューションである。 そこで本研究では,ppgを入力とし,ecgを出力として生成する逆向モデルであるcardiganを提案する。 提案するネットワークは,時間領域と周波数領域の両方で生成したデータの整合性を維持するために,アテンションベースのジェネレータを用いて局所的に有意な特徴を学習する。 実験の結果,CardioGANが生成した心電図は,元の入力PSGと比較して信頼性の高い心拍数測定が可能であり,1分9.74拍子から2.89拍子まで誤差を低減できた。

Electrocardiogram (ECG) is the electrical measurement of cardiac activity, whereas Photoplethysmogram (PPG) is the optical measurement of volumetric changes in blood circulation. While both signals are used for heart rate monitoring, from a medical perspective, ECG is more useful as it carries additional cardiac information. Despite many attempts toward incorporating ECG sensing in smartwatches or similar wearable devices for continuous and reliable cardiac monitoring, PPG sensors are the main feasible sensing solution available. In order to tackle this problem, we propose CardioGAN, an adversarial model which takes PPG as input and generates ECG as output. The proposed network utilizes an attention-based generator to learn local salient features, as well as dual discriminators to preserve the integrity of generated data in both time and frequency domains. Our experiments show that the ECG generated by CardioGAN provides more reliable heart rate measurements compared to the original input PPG, reducing the error from 9.74 beats per minute (measured from the PPG) to 2.89 (measured from the generated ECG).
翻訳日:2022-10-13 00:30:01 公開日:2020-12-15
# 単段階逆行訓練における破滅的オーバーフィッティングの理解

Understanding Catastrophic Overfitting in Single-step Adversarial Training ( http://arxiv.org/abs/2010.01799v2 )

ライセンス: Link先を確認
Hoki Kim, Woojin Lee, Jaewook Lee(参考訳) 迅速な敵意訓練は頑健さと効率性の両方を示したが、"破滅的な過剰フィッティング"の問題も指摘されている。 この現象は, 単段階逆行訓練において, 投射勾配降下(PGD)に対する頑健な精度が数回経過すると突然0%に低下するのに対して, 高速勾配標識法(FGSM)に対する頑健な精度は100%に上昇する。 本稿では, 倒立オーバーフィッティングが, 最大摂動の対向例のみを用いる単段階対向訓練の特徴と非常に密接に関連していることを示し, 対向方向の対向例がすべてでなく, 決定境界歪みと高い湾曲した損失面をもたらすことを示した。 本研究は, 破滅的なオーバーフィッティングを予防するだけでなく, 単段階の逆行訓練による多段階の逆行攻撃を防ぐことが難しいという信念を覆す簡易な手法を提案する。

Although fast adversarial training has demonstrated both robustness and efficiency, the problem of "catastrophic overfitting" has been observed. This is a phenomenon in which, during single-step adversarial training, the robust accuracy against projected gradient descent (PGD) suddenly decreases to 0% after a few epochs, whereas the robust accuracy against fast gradient sign method (FGSM) increases to 100%. In this paper, we demonstrate that catastrophic overfitting is very closely related to the characteristic of single-step adversarial training which uses only adversarial examples with the maximum perturbation, and not all adversarial examples in the adversarial direction, which leads to decision boundary distortion and a highly curved loss surface. Based on this observation, we propose a simple method that not only prevents catastrophic overfitting, but also overrides the belief that it is difficult to prevent multi-step adversarial attacks with single-step adversarial training.
翻訳日:2022-10-10 21:04:45 公開日:2020-12-15
# SWIFT:スパース非負テンソルに対するスケーラブルなワッサースタイン因子化

SWIFT: Scalable Wasserstein Factorization for Sparse Nonnegative Tensors ( http://arxiv.org/abs/2010.04081v2 )

ライセンス: Link先を確認
Ardavan Afshar, Kejing Yin, Sherry Yan, Cheng Qian, Joyce C. Ho, Haesun Park, Jimeng Sun(参考訳) 既存のテンソル分解法は、入力テンソルが特定の分布(ポアソン、ベルヌーイ、ガウス)に従うと仮定し、対応する分布に基づいて定義された経験的損失関数を最小化することで分解を解く。 しかし、いくつかの欠点がある。 1) 実際には, 基礎となる分布は複雑で未知であり, 単純な分布で近似することは不可能である。 2) 入力テンソルの次元間の相関は十分に利用されず, 準最適性能に繋がる。 ヒューリスティックスはガウス分布の側情報のような相関関係を組み込むことが提案されたが、他の分布に容易に一般化することはできない。 したがって、テンソル分解モデルにおける相関を利用するより原理的な方法は、まだ未解決の課題である。 明示的な分布を仮定せずに、テンソル因子分解を、非負入力を扱えるwasserstein距離の最適輸送問題として定式化する。 本稿では、入力テンソルと再構成の距離を測定するワッサーシュタイン距離を最小化するSWIFTを紹介する。 特に、広く使われているテンソルcp因子分解のn次テンソルwasserstein損失を定義し、それを最小化する最適化アルゴリズムを導出する。 SWIFTは、分散構造と異なる等価な定式化を利用して計算効率を最適化することにより、他のよく知られたCPアルゴリズムと同じくらいスケーラブルである。 因子行列を特徴として、SWIFTは、下流予測タスクのベースラインよりも最大9.65%、11.31%改善している。 ノイズの多い条件下では、SWIFTは予測タスクのベストコンペティターよりも15%と17%の相対的な改善を達成している。

Existing tensor factorization methods assume that the input tensor follows some specific distribution (i.e. Poisson, Bernoulli, and Gaussian), and solve the factorization by minimizing some empirical loss functions defined based on the corresponding distribution. However, it suffers from several drawbacks: 1) In reality, the underlying distributions are complicated and unknown, making it infeasible to be approximated by a simple distribution. 2) The correlation across dimensions of the input tensor is not well utilized, leading to sub-optimal performance. Although heuristics were proposed to incorporate such correlation as side information under Gaussian distribution, they can not easily be generalized to other distributions. Thus, a more principled way of utilizing the correlation in tensor factorization models is still an open challenge. Without assuming any explicit distribution, we formulate the tensor factorization as an optimal transport problem with Wasserstein distance, which can handle non-negative inputs. We introduce SWIFT, which minimizes the Wasserstein distance that measures the distance between the input tensor and that of the reconstruction. In particular, we define the N-th order tensor Wasserstein loss for the widely used tensor CP factorization and derive the optimization algorithm that minimizes it. By leveraging sparsity structure and different equivalent formulations for optimizing computational efficiency, SWIFT is as scalable as other well-known CP algorithms. Using the factor matrices as features, SWIFT achieves up to 9.65% and 11.31% relative improvement over baselines for downstream prediction tasks. Under the noisy conditions, SWIFT achieves up to 15% and 17% relative improvements over the best competitors for the prediction tasks.
翻訳日:2022-10-09 12:44:39 公開日:2020-12-15
# AIにおける高速でスローな思考

Thinking Fast and Slow in AI ( http://arxiv.org/abs/2010.06002v2 )

ライセンス: Link先を確認
Grady Booch, Francesco Fabiano, Lior Horesh, Kiran Kate, Jon Lenchner, Nick Linck, Andrea Loreggia, Keerthiram Murugesan, Nicholas Mattei, Francesca Rossi, Biplav Srivastava(参考訳) 本稿では,人間の意思決定の認知理論からインスピレーションを得たAI研究の方向性を提案する。 前提は、AIにまだ欠けているいくつかの人間の能力の原因(適応性、一般化可能性、常識、因果推論など)についての洞察を得ることができれば、これらの因果成分を埋め込むことで、AIシステムで同様の能力を得ることができるということです。 この論文に含まれるビジョンのハイレベルな説明と、私たちが検討するいくつかの研究課題が、人間と機械の知性の両方をよりよく理解するための精神の中で、AI研究コミュニティに新しい方法論、フレームワーク、評価指標を定義し、評価するように促すことを願っています。

This paper proposes a research direction to advance AI which draws inspiration from cognitive theories of human decision making. The premise is that if we gain insights about the causes of some human capabilities that are still lacking in AI (for instance, adaptability, generalizability, common sense, and causal reasoning), we may obtain similar capabilities in an AI system by embedding these causal components. We hope that the high-level description of our vision included in this paper, as well as the several research questions that we propose to consider, can stimulate the AI research community to define, try and evaluate new methodologies, frameworks, and evaluation metrics, in the spirit of achieving a better understanding of both human and machine intelligence.
翻訳日:2022-10-08 07:07:09 公開日:2020-12-15
# 勾配ロールバックによる神経マトリックス因子分解の解明

Explaining Neural Matrix Factorization with Gradient Rollback ( http://arxiv.org/abs/2010.05516v4 )

ライセンス: Link先を確認
Carolin Lawrence, Timo Sztyler, Mathias Niepert(参考訳) ニューラルブラックボックスモデルの予測を説明することは、特にユーザ信頼が不可欠であるアプリケーションでそのようなモデルが使用される場合、重要な問題である。 学習したニューラルネットワークの振る舞いに対するトレーニングサンプルの影響を推定することで、与えられた予測に最も責任を持つトレーニングサンプルを識別できるため、ブラックボックスモデルのアウトプットを忠実に説明できる。 最も一般的な既存手法は、より大きなサンプルサイズやモデルに対して低スケールの影響関数に基づいている。 勾配降下中の各パラメータ更新ステップが、パラメータ全体の数が大きい場合でもより少ないパラメータに接するニューラルモデルに適用可能な、影響推定のための一般的なアプローチである勾配ロールバックを提案する。 勾配降下で訓練された神経マトリックス因子化モデルは、このモデルクラスの一部である。 これらのモデルは人気があり、業界に広く応用されている。 特にこのクラスに属する知識グラフ埋め込みメソッドは広く使われている。 グラデーションロールバックは,トレーニング時間とテスト時間の両方において非常に効率的であることを示す。 さらに, 勾配ロールバックの影響近似とモデル行動に対する真の影響との差が, 確率的勾配降下の安定性に対する既知の境界よりも小さいことを理論的に示す。 これにより、勾配ロールバックは、サンプルの影響をロバストに推定できる。 また,グラデーションロールバックが知識ベース補完とレコメンダデータセットに対して忠実な説明を提供することを示す実験を行った。

Explaining the predictions of neural black-box models is an important problem, especially when such models are used in applications where user trust is crucial. Estimating the influence of training examples on a learned neural model's behavior allows us to identify training examples most responsible for a given prediction and, therefore, to faithfully explain the output of a black-box model. The most generally applicable existing method is based on influence functions, which scale poorly for larger sample sizes and models. We propose gradient rollback, a general approach for influence estimation, applicable to neural models where each parameter update step during gradient descent touches a smaller number of parameters, even if the overall number of parameters is large. Neural matrix factorization models trained with gradient descent are part of this model class. These models are popular and have found a wide range of applications in industry. Especially knowledge graph embedding methods, which belong to this class, are used extensively. We show that gradient rollback is highly efficient at both training and test time. Moreover, we show theoretically that the difference between gradient rollback's influence approximation and the true influence on a model's behavior is smaller than known bounds on the stability of stochastic gradient descent. This establishes that gradient rollback is robustly estimating example influence. We also conduct experiments which show that gradient rollback provides faithful explanations for knowledge base completion and recommender datasets.
翻訳日:2022-10-08 05:21:10 公開日:2020-12-15
# ランダム化平滑化のための第2級認証

Tight Second-Order Certificates for Randomized Smoothing ( http://arxiv.org/abs/2010.10549v2 )

ライセンス: Link先を確認
Alexander Levine, Aounon Kumar, Thomas Goldstein, and Soheil Feizi(参考訳) ランダム化平滑化(Randomized smoothing)は、敵攻撃に対する堅牢性を保証する一般的な方法である: ランダムに滑らかな関数は、普遍的なリプシッツのような境界を持ち、ロバスト性証明を容易に計算できる。 本研究では、ガウス確率平滑化に対する普遍曲率的境界の存在も示す: 滑らか化関数の正確な値と勾配を考えると、点から最も近い逆向きの例までの距離における下限を計算し、二階平滑化(sos)ロバストネス証明(英語版)(second-order smoothing (sos) robustness certificate) と呼ばれる。 この新証明書の正確性を証明することに加えて,sos証明書が実現可能であり,かつタイトであることを示す。 興味深いことに、勾配ノルムの付加的な情報を使用することによる証明された堅牢性の観点から、達成可能な最大利益は比較的小さい:我々の境界はきついので、これは根本的な負の結果である。 評価器を開発した勾配基準の推定誤差を考慮すると,SoS証明書の獲得はさらに減少する。 そこで我々はさらに,グラデーション情報を用いたランダム化平滑化と同様の境界を提供するガウス型双極子平滑化(gaussian dipole smoothing)と呼ばれるガウス型平滑化(gaussian smoothing)の変種を開発した。 これにより,CIFAR-10 や ImageNet などの高次元データセット上での堅牢性証明を(階層的に)向上させることができる。 コードはhttps://github.com/alevine0/smoothing_second_orderで入手できる。

Randomized smoothing is a popular way of providing robustness guarantees against adversarial attacks: randomly-smoothed functions have a universal Lipschitz-like bound, allowing for robustness certificates to be easily computed. In this work, we show that there also exists a universal curvature-like bound for Gaussian random smoothing: given the exact value and gradient of a smoothed function, we compute a lower bound on the distance of a point to its closest adversarial example, called the Second-order Smoothing (SoS) robustness certificate. In addition to proving the correctness of this novel certificate, we show that SoS certificates are realizable and therefore tight. Interestingly, we show that the maximum achievable benefits, in terms of certified robustness, from using the additional information of the gradient norm are relatively small: because our bounds are tight, this is a fundamental negative result. The gain of SoS certificates further diminishes if we consider the estimation error of the gradient norms, for which we have developed an estimator. We therefore additionally develop a variant of Gaussian smoothing, called Gaussian dipole smoothing, which provides similar bounds to randomized smoothing with gradient information, but with much-improved sample efficiency. This allows us to achieve (marginally) improved robustness certificates on high-dimensional datasets such as CIFAR-10 and ImageNet. Code is available at https://github.com/alevine0/smoothing_second_order.
翻訳日:2022-10-05 06:19:23 公開日:2020-12-15
# greedy Policy SearchによるMRIの実験的検討

Experimental design for MRI by greedy policy search ( http://arxiv.org/abs/2010.16262v2 )

ライセンス: Link先を確認
Tim Bakker, Herke van Hoof, Max Welling(参考訳) 今日の臨床実践では、MRIは関連するフーリエ領域のサブサンプリングによって定期的に加速される。 現在、これらのサブサンプリング戦略(実験設計として知られる)の構築は主にヒューリスティックスに依存している。 政策勾配法による高速化MRIの実験的設計戦略を学習することを提案する。 予期せず、我々の実験は、目的の単純な欲求近似が、より一般的な非欲求的アプローチとほぼ一致した解をもたらすことを示した。 我々は,この現象が非欲客の勾配推定値のばらつきに根ざした部分的な説明を提供し,そのばらつきが非欲客モデルに個々のmr画像への適応を妨げていることを実験的に検証した。 この適応性がサブサンプリング設計の改善の鍵であることを実証的に示す。

In today's clinical practice, magnetic resonance imaging (MRI) is routinely accelerated through subsampling of the associated Fourier domain. Currently, the construction of these subsampling strategies - known as experimental design - relies primarily on heuristics. We propose to learn experimental design strategies for accelerated MRI with policy gradient methods. Unexpectedly, our experiments show that a simple greedy approximation of the objective leads to solutions nearly on-par with the more general non-greedy approach. We offer a partial explanation for this phenomenon rooted in greater variance in the non-greedy objective's gradient estimates, and experimentally verify that this variance hampers non-greedy models in adapting their policies to individual MR images. We empirically show that this adaptivity is key to improving subsampling designs.
翻訳日:2022-10-01 15:52:15 公開日:2020-12-15
# 階層型畳み込みネットワークを用いた胸部x線画像からのcovid-19患者のトリアージ

Triage of Potential COVID-19 Patients from Chest X-ray Images using Hierarchical Convolutional Networks ( http://arxiv.org/abs/2011.00618v2 )

ライセンス: Link先を確認
Kapal Dev, Sunder Ali Khowaja, Ankur Singh Bist, Vaibhav Saini, Surbhi Bhatia(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、検査の規模が限られているため、逆転写-ポリメラーゼ連鎖反応(RT-PCR)の代替として人工知能技術を使用する動機となっている。 胸部X線(CXR)は早期診断のための代替手段の1つであるが、大規模な注釈付きデータの有効性は、機械学習による新型コロナウイルス検出の臨床的実装を困難にしている。 もう一つの問題は、医療画像から信頼できる特徴表現を抽出しないImageNet事前訓練ネットワークの利用である。 本稿では,階層型畳み込みネットワーク(hcn)アーキテクチャを用いて,多様な特徴とともにデータを自然に拡張する手法を提案する。 HCNは、COVIDNetの最初の畳み込み層と、よく知られたトレーニング済みネットワークからの畳み込み層を使用して特徴を抽出する。 COVIDNetからの畳み込み層の使用により、CXRのモダリティに関連する表現の抽出が保証される。 また,認識性能を向上させるために,マルチクラス問題をバイナリ分類に符号化するECOCを提案する。 実験の結果,hcnアーキテクチャは既存の研究よりも優れた結果が得られることがわかった。 提案手法は,cxr画像を用いて,検査負荷の共有と検査能力の増大に寄与する。

The current COVID-19 pandemic has motivated the researchers to use artificial intelligence techniques for a potential alternative to reverse transcription-polymerase chain reaction (RT-PCR) due to the limited scale of testing. The chest X-ray (CXR) is one of the alternatives to achieve fast diagnosis but the unavailability of large-scale annotated data makes the clinical implementation of machine learning-based COVID detection difficult. Another issue is the usage of ImageNet pre-trained networks which does not extract reliable feature representations from medical images. In this paper, we propose the use of hierarchical convolutional network (HCN) architecture to naturally augment the data along with diversified features. The HCN uses the first convolution layer from COVIDNet followed by the convolutional layers from well-known pre-trained networks to extract the features. The use of the convolution layer from COVIDNet ensures the extraction of representations relevant to the CXR modality. We also propose the use of ECOC for encoding multiclass problems to binary classification for improving the recognition performance. Experimental results show that HCN architecture is capable of achieving better results in comparison to the existing studies. The proposed method can accurately triage potential COVID-19 patients through CXR images for sharing the testing load and increasing the testing capacity.
翻訳日:2022-09-30 23:11:52 公開日:2020-12-15
# GAPのギャップ:バイアス計測データセットにおけるデータの分散問題に対処する

The Gap on GAP: Tackling the Problem of Differing Data Distributions in Bias-Measuring Datasets ( http://arxiv.org/abs/2011.01837v3 )

ライセンス: Link先を確認
Vid Kocijan, Oana-Maria Camburu, Thomas Lukasiewicz(参考訳) バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。 しかし、収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにすることができる。 例えば、性別バイアス測定コア参照解決データセットの女性のサブセットが、代名詞と正しい候補の間の平均距離が長い文を含む場合、RNNベースのモデルは、長期依存のため、このサブセットでさらに悪化する可能性がある。 本研究では,実験データのパターンに対処するため,実験サンプルを重み付けする理論的基礎的手法を提案する。 コア参照解決のためのGAPデータセット上で本手法を実証する。 我々は、すべての個人名をGAPに注釈し、女性サブセットの例には、より多くの個人名と代名詞とその参照語の間の長い距離が含まれており、望ましくない方法でバイアススコアに影響を与える可能性があることを示す。 重み付け法を用いて、これらの相関に対処するために使用するテストインスタンスの重み付けセットを見つけ、最近リリースされた16のコリファレンスモデルを再評価する。

Diagnostic datasets that can detect biased models are an important prerequisite for bias reduction within natural language processing. However, undesired patterns in the collected data can make such tests incorrect. For example, if the feminine subset of a gender-bias-measuring coreference resolution dataset contains sentences with a longer average distance between the pronoun and the correct candidate, an RNN-based model may perform worse on this subset due to long-term dependencies. In this work, we introduce a theoretically grounded method for weighting test samples to cope with such patterns in the test data. We demonstrate the method on the GAP dataset for coreference resolution. We annotate GAP with spans of all personal names and show that examples in the female subset contain more personal names and a longer distance between pronouns and their referents, potentially affecting the bias score in an undesired way. Using our weighting method, we find the set of weights on the test instances that should be used for coping with these correlations, and we re-evaluate 16 recently released coreference models.
翻訳日:2022-09-30 04:51:38 公開日:2020-12-15
# 視覚課題のためのクラスインクリメンタル学習アルゴリズムの総合的研究

A Comprehensive Study of Class Incremental Learning Algorithms for Visual Tasks ( http://arxiv.org/abs/2011.01844v4 )

ライセンス: Link先を確認
Eden Belouadah, Adrian Popescu and Ioannis Kanellos(参考訳) 新しいデータに直面するとき、人工知能エージェントが能力を高める能力は、人工知能におけるオープンな挑戦である。 このようなケースで直面している主な課題は、破滅的な忘れ、すなわち、ニューラルネットワークが新しいものを摂取する際に過去のデータを過小評価する傾向である。 アプローチの最初のグループは、新しい知識に対応するために、深いモデル能力を増やすことで忘れることに取り組む。 第二のタイプのアプローチは、モデルのサイズを深く修正し、モデルの安定性と可塑性の良好な妥協を保証するためのメカニズムを導入する。 最初のタイプのアルゴリズムは徹底的に比較されたが、固定サイズのモデルを利用するメソッドではそうではない。 Here, we focus on the latter, place them in a common conceptual and experimental framework and propose the following contributions: (1) define six desirable properties of incremental learning algorithms and analyze them according to these properties, (2) introduce a unified formalization of the class-incremental learning problem, (3) propose a common evaluation framework which is more thorough than existing ones in terms of number of datasets, size of datasets, size of bounded memory and number of incremental states, (4) investigate the usefulness of herding for past exemplars selection, (5) provide experimental evidence that it is possible to obtain competitive performance without the use of knowledge distillation to tackle catastrophic forgetting and (6) facilitate reproducibility by integrating all tested methods in a common open-source repository. 主な実験的発見は、既存のアルゴリズムが評価されたすべての設定で最高の結果を得ることはないことである。 特に重要な違いは、過去のクラスの境界メモリが許可されているかどうかである。

The ability of artificial agents to increment their capabilities when confronted with new data is an open challenge in artificial intelligence. The main challenge faced in such cases is catastrophic forgetting, i.e., the tendency of neural networks to underfit past data when new ones are ingested. A first group of approaches tackles forgetting by increasing deep model capacity to accommodate new knowledge. A second type of approaches fix the deep model size and introduce a mechanism whose objective is to ensure a good compromise between stability and plasticity of the model. While the first type of algorithms were compared thoroughly, this is not the case for methods which exploit a fixed size model. Here, we focus on the latter, place them in a common conceptual and experimental framework and propose the following contributions: (1) define six desirable properties of incremental learning algorithms and analyze them according to these properties, (2) introduce a unified formalization of the class-incremental learning problem, (3) propose a common evaluation framework which is more thorough than existing ones in terms of number of datasets, size of datasets, size of bounded memory and number of incremental states, (4) investigate the usefulness of herding for past exemplars selection, (5) provide experimental evidence that it is possible to obtain competitive performance without the use of knowledge distillation to tackle catastrophic forgetting and (6) facilitate reproducibility by integrating all tested methods in a common open-source repository. The main experimental finding is that none of the existing algorithms achieves the best results in all evaluated settings. Important differences arise notably if a bounded memory of past classes is allowed or not.
翻訳日:2022-09-30 04:16:44 公開日:2020-12-15
# 構造接続と皮質表面の特徴の結合解析 : 軽度外傷性脳損傷との関連

Joint analysis of structural connectivity and cortical surface features: correlates with mild traumatic brain injury ( http://arxiv.org/abs/2012.03671v2 )

ライセンス: Link先を確認
Cailey I. Kerley, Leon Y. Cai, Chang Yu, Logan M. Crawford, Jason M. Elenberger, Eden S. Singh, Kurt G. Schilling, Katherine S. Aboud, Bennett A. Landman, Tonia S. Rex(参考訳) 軽度の外傷性脳損傷(mTBI)は、100,000人あたり600人程度に影響を及ぼす複雑な症候群である。 約半数のmTBI患者は、急性外傷後長く持続する様々な慢性症状を経験する。 したがって、mtbiに関連する白質と灰色質の病理をより深く理解し、どの脳系が影響を受けるかをマッピングし、介入の過程を特定する必要がある。 これまでの研究で、mTBIは白質経路の破壊と皮質表面の異常に結びついている。 本稿では,mTBIとその慢性症状に関連する関節構造と皮質表面の変化に関する探索的研究において,これらの仮説的リンクについて検討する。 簡潔に,12mTBI,26名のコントロール被験者のコホートを考察した。 皮質表面積から588個の皮質表面積と4,753個の構造接続測度を抽出し,各被験者の拡散重み付け磁気共鳴イメージングを行った。 主成分分析(PCA)は各計量集合の次元性を低減するために用いられた。 次に,各PCA空間に独立成分分析(ICA)を適用し,共同ICA手法で個別に組み合わせた。 被験者の負荷に有意な群差 (p<0.05, corrected) を呈し, 接続のみおよび関節ICA間の安定な独立成分を同定した。 また,2つのmTBI症状(思考の遅さと忘れやすさ)は,表面のみICAにおけるmTBI負荷と有意に相関していた(p<0.05, corrected)。 これらの表面のみの荷重は両側皮質の厚さを増大させた。

Mild traumatic brain injury (mTBI) is a complex syndrome that affects up to 600 per 100,000 individuals, with a particular concentration among military personnel. About half of all mTBI patients experience a diverse array of chronic symptoms which persist long after the acute injury. Hence, there is an urgent need for better understanding of the white matter and gray matter pathologies associated with mTBI to map which specific brain systems are impacted and identify courses of intervention. Previous works have linked mTBI to disruptions in white matter pathways and cortical surface abnormalities. Herein, we examine these hypothesized links in an exploratory study of joint structural connectivity and cortical surface changes associated with mTBI and its chronic symptoms. Briefly, we consider a cohort of 12 mTBI and 26 control subjects. A set of 588 cortical surface metrics and 4,753 structural connectivity metrics were extracted from cortical surface regions and diffusion weighted magnetic resonance imaging in each subject. Principal component analysis (PCA) was used to reduce the dimensionality of each metric set. We then applied independent component analysis (ICA) both to each PCA space individually and together in a joint ICA approach. We identified a stable independent component across the connectivity-only and joint ICAs which presented significant group differences in subject loadings (p<0.05, corrected). Additionally, we found that two mTBI symptoms, slowed thinking and forgetfulness, were significantly correlated (p<0.05, corrected) with mTBI subject loadings in a surface-only ICA. These surface-only loadings captured an increase in bilateral cortical thickness.
翻訳日:2022-09-24 05:27:43 公開日:2020-12-15
# アンサンブル蒸留法による文法誤差補正

Ensemble Distillation Approaches for Grammatical Error Correction ( http://arxiv.org/abs/2012.07535v2 )

ライセンス: Link先を確認
Yassir Fathullah, Mark Gales, Andrey Malinin(参考訳) アンサンブルアプローチは、複数のモデル予測を組み合わせることでシステムを改善するために一般的に使用される手法である。 さらに、これらのスキームは不確実性や不確実性の原因を予測のために導出することができる。 残念ながら、これらの利点は計算とメモリのコストがかかる。 この問題を解決するために、アンサンブル蒸留(end)とより最近ではアンサンブル分布蒸留(endd)が提案されており、アンサンブル平均予測と予測分布の両方を表す単一のモデルに圧縮されている。 本稿では,これら2つの蒸留手法のシーケンス予測タスク,文法的誤り訂正(GEC)への適用について検討する。 これは、学習者に非常に有用なフィードバックを与えることができるため、言語学習タスクにとって重要な応用領域である。 しかし、単語に対する文法的修正の予測は、単語の入力シーケンスと生成した出力履歴の両方に非常に依存するので、蒸留のために検討された標準的なタスクよりも難しい。 EnDとEnDDの両方の性能は、公用GECタスクと音声言語タスクの両方で評価される。

Ensemble approaches are commonly used techniques to improving a system by combining multiple model predictions. Additionally these schemes allow the uncertainty, as well as the source of the uncertainty, to be derived for the prediction. Unfortunately these benefits come at a computational and memory cost. To address this problem ensemble distillation (EnD) and more recently ensemble distribution distillation (EnDD) have been proposed that compress the ensemble into a single model, representing either the ensemble average prediction or prediction distribution respectively. This paper examines the application of both these distillation approaches to a sequence prediction task, grammatical error correction (GEC). This is an important application area for language learning tasks as it can yield highly useful feedback to the learner. It is, however, more challenging than the standard tasks investigated for distillation as the prediction of any grammatical correction to a word will be highly dependent on both the input sequence and the generated output history for the word. The performance of both EnD and EnDD are evaluated on both publicly available GEC tasks as well as a spoken language task.
翻訳日:2022-09-21 12:08:58 公開日:2020-12-15
# (参考訳) 線形二次深部構造チームにおける強化学習:政策勾配法のグローバルコンバージェンス

Reinforcement Learning in Linear Quadratic Deep Structured Teams: Global Convergence of Policy Gradient Methods ( http://arxiv.org/abs/2011.14393v2 )

ライセンス: CC BY 4.0
Vida Fathi, Jalal Arabneydi and Amir G. Aghdam(参考訳) 本稿では,線形2次深層構造チームに対するモデルベースおよびモデルフリー政策勾配勾配と自然政策勾配勾配アルゴリズムのグローバル収束性について検討する。 このようなシステムでは、エージェントはいくつかのサブポピュレーションに分割され、各サブポピュレーション内のエージェントは、すべてのエージェントの状態とアクションの線形回帰によって、動的およびコスト関数に結合される。 すべてのエージェントはその局所状態とディープ状態と呼ばれる状態の線形回帰を観察する。 十分小さいリスクファクターおよび/または十分な人口に対して、モデルに基づく政策勾配法がグローバルに最適解に収束することを証明する。 任意の数のエージェントが与えられた場合、リスクニュートラルコスト関数の特別な場合に、モデルフリーポリシー勾配と自然ポリシー勾配アルゴリズムを開発する。 提案アルゴリズムは,各サブ人口におけるエージェント数に依存しないため,エージェント数に対してスケーラブルである。 理論結果を検証するためのシミュレーションが提供される。

In this paper, we study the global convergence of model-based and model-free policy gradient descent and natural policy gradient descent algorithms for linear quadratic deep structured teams. In such systems, agents are partitioned into a few sub-populations wherein the agents in each sub-population are coupled in the dynamics and cost function through a set of linear regressions of the states and actions of all agents. Every agent observes its local state and the linear regressions of states, called deep states. For a sufficiently small risk factor and/or sufficiently large population, we prove that model-based policy gradient methods globally converge to the optimal solution. Given an arbitrary number of agents, we develop model-free policy gradient and natural policy gradient algorithms for the special case of risk-neutral cost function. The proposed algorithms are scalable with respect to the number of agents due to the fact that the dimension of their policy space is independent of the number of agents in each sub-population. Simulations are provided to verify the theoretical results.
翻訳日:2021-06-07 10:25:12 公開日:2020-12-15
# (参考訳) StructFormer: マスケッド言語モデリングによる依存性と構成構造の非教師付き誘導

StructFormer: Joint Unsupervised Induction of Dependency and Constituency Structure from Masked Language Modeling ( http://arxiv.org/abs/2012.00857v2 )

ライセンス: CC BY 4.0
Yikang Shen, Yi Tay, Che Zheng, Dara Bahri, Donald Metzler, Aaron Courville(参考訳) 自然言語文法には2つの主要なクラスがあり、単語間の1対1の対応をモデル化する依存文法と、1つまたは複数の対応語の集合をモデル化する構成文法である。 従来の教師なし構文解析法は1つの文法クラスのみに焦点をあてるが、我々は依存性と構成構造を同時に誘導する新しいモデルであるstructformerを導入する。 これを実現するために,構成木と依存性グラフを共同で生成可能な新しい構文解析フレームワークを提案する。 次に,新たな依存制約型自己着脱機構により,誘導された依存関係をトランスフォーマタに微分可能な方法で統合する。 実験結果から, 教師なし選挙区解析, 教師なし依存関係解析, マスキング言語モデリングを同時に行うことができることがわかった。

There are two major classes of natural language grammars -- the dependency grammar that models one-to-one correspondences between words and the constituency grammar that models the assembly of one or several corresponded words. While previous unsupervised parsing methods mostly focus on only inducing one class of grammars, we introduce a novel model, StructFormer, that can induce dependency and constituency structure at the same time. To achieve this, we propose a new parsing framework that can jointly generate a constituency tree and dependency graph. Then we integrate the induced dependency relations into the transformer, in a differentiable manner, through a novel dependency-constrained self-attention mechanism. Experimental results show that our model can achieve strong results on unsupervised constituency parsing, unsupervised dependency parsing, and masked language modeling at the same time.
翻訳日:2021-05-30 23:23:52 公開日:2020-12-15
# 再帰木文法オートエンコーダ

Recursive Tree Grammar Autoencoders ( http://arxiv.org/abs/2012.02097v2 )

ライセンス: Link先を確認
Benjamin Paassen, Irena Koprinska, Kalina Yacef(参考訳) ツリーデータの機械学習は、主にインプットとして木に焦点が当てられている。 薬物発見のための分子最適化やインテリジェントチューターシステムのためのヒント生成など、出力として木を研究する研究ははるかに少ない。 本研究では,再帰的木文法オートエンコーダ(RTG-AE)と呼ばれる新しいオートエンコーダ手法を提案し,ボトムアップパーサを介して木を符号化し,ツリー文法を介して木をデコードする。 結果として得られるエンコーディングとデコード関数は、最適化や時系列予測のような後続のタスクに利用することができる。 RTG-AEは変分オートエンコーダ、文法知識、再帰処理を組み合わせる。 私たちの重要なメッセージは、この組み合わせは、これら3つのコンポーネントのうち2つだけを組み合わせるよりもパフォーマンスが向上するということです。 特に,提案手法は,文献のベースラインと比較して,4つのベンチマークデータセットのオートエンコーディング誤差,トレーニング時間,最適化スコアを改善することを実験的に示す。

Machine learning on tree data has been mostly focused on trees as input. Much less research has investigates trees as output, like in molecule optimization for drug discovery or hint generation for intelligent tutoring systems. In this work, we propose a novel autoencoder approach, called recursive tree grammar autoencoder (RTG-AE), which encodes trees via a bottom-up parser and decodes trees via a tree grammar, both controlled by neural networks that minimize the variational autoencoder loss. The resulting encoding and decoding functions can then be employed in subsequent tasks, such as optimization and time series prediction. RTG-AE combines variational autoencoders, grammatical knowledge, and recursive processing. Our key message is that this combination improves performance compared to only combining two of these three components. In particular, we show experimentally that our proposed method improves the autoencoding error, training time, and optimization score on four benchmark datasets compared to baselines from the literature.
翻訳日:2021-05-23 14:40:46 公開日:2020-12-15
# 論理合成と機械学習: 一般化のための取引慣性

Logic Synthesis Meets Machine Learning: Trading Exactness for Generalization ( http://arxiv.org/abs/2012.02530v2 )

ライセンス: Link先を確認
Shubham Rai, Walter Lau Neto, Yukio Miyasaka, Xinpei Zhang, Mingfei Yu, Qingyang Yi Masahiro Fujita, Guilherme B. Manske, Matheus F. Pontes, Leomar S. da Rosa Junior, Marilton S. de Aguiar, Paulo F. Butzen, Po-Chun Chien, Yu-Shan Huang, Hoa-Ren Wang, Jie-Hong R. Jiang, Jiaqi Gu, Zheng Zhao, Zixuan Jiang, David Z. Pan, Brunno A. de Abreu, Isac de Souza Campos, Augusto Berndt, Cristina Meinhardt, Jonata T. Carvalho, Mateus Grellert, Sergio Bampi, Aditya Lohana, Akash Kumar, Wei Zeng, Azadeh Davoodi, Rasit O. Topaloglu, Yuan Zhou, Jordan Dotzel, Yichi Zhang, Hanyu Wang, Zhiru Zhang, Valerio Tenace, Pierre-Emmanuel Gaillardon, Alan Mishchenko, and Satrajit Chatterjee(参考訳) 論理合成はハードウェア設計における基本的なステップであり、その目標は遅延と面積を最小化しながらブール関数の構造表現を見つけることである。 関数が完全に指定されている場合、実装は関数を正確に表現する。 関数が不完全特定されている場合、実装はケアセットにのみ真である必要がある。 論理合成のアルゴリズムのほとんどは、ケアセットを正確に実装するためにsatとbooleanメソッドに依存しているが、我々は論理合成における学習を調査し、汎化のために厳密さを交換しようとしている。 この作業は、ケアセットがトレーニングセットであり、実装が検証セットに一般化することが期待される機械学習に直接関係している。 我々は,IWLS 2020で実施した競技結果に基づいて,不完全特定関数を学習する。 競争の目標は、同じ関数からサンプリングされた検証小数点セットを使用して、トレーニングのためのケア小数点セットによって与えられる100の関数を実装することである。 このベンチマークスイートを利用可能にし、学習アプローチの詳細な比較分析を提供する

Logic synthesis is a fundamental step in hardware design whose goal is to find structural representations of Boolean functions while minimizing delay and area. If the function is completely-specified, the implementation accurately represents the function. If the function is incompletely-specified, the implementation has to be true only on the care set. While most of the algorithms in logic synthesis rely on SAT and Boolean methods to exactly implement the care set, we investigate learning in logic synthesis, attempting to trade exactness for generalization. This work is directly related to machine learning where the care set is the training set and the implementation is expected to generalize on a validation set. We present learning incompletely-specified functions based on the results of a competition conducted at IWLS 2020. The goal of the competition was to implement 100 functions given by a set of care minterms for training, while testing the implementation using a set of validation minterms sampled from the same function. We make this benchmark suite available and offer a detailed comparative analysis of the different approaches to learning
翻訳日:2021-05-22 20:37:18 公開日:2020-12-15
# (参考訳) CSMTチャレンジにおけるコンピュータ生成メロディ識別のための新しいデータセット

A novel dataset for the identification of computer generated melodies in the CSMT challenge ( http://arxiv.org/abs/2012.03646v2 )

ライセンス: CC BY 4.0
Shengchen Li and Yinji Jing and Georgy Fazekas(参考訳) 本稿では,CSMT(Conference on Sound and Music Technology)が主催するデータチャレンジのためのデータセットを紹介する。 csmtデータチャレンジでは、参加者は与えられたメロディがコンピュータによって生成されたか、あるいは人間が構成しているかを特定する必要がある。 データセットは、開発データセットと評価データセットの2つの部分で構成されている。 開発データセットは、コンピュータ生成メロディのみを含むが、評価データセットは、コンピュータ生成メロディと人間の合成メロディの両方を含む。 このデータセットの目的は、生成されたメロディの特徴を学習することで、コンピュータが生成したメロディを区別できるかどうかを調べることである。

In this paper, the dataset used for the data challenge organised by Conference on Sound and Music Technology (CSMT) is introduced. The CSMT data challenge requires participants to identify whether a given piece of melody is generated by computer or is composed by human. The dataset is formed by two parts: development dataset and evaluation dataset. The development dataset contains only computer generated melodies whereas the evaluation dataset contain both computer generated melodies and human composed melodies. The aim of the dataset is to examine whether it is possible to distinguish computer generated melodies by learning the feature of generated melodies.
翻訳日:2021-05-20 09:25:36 公開日:2020-12-15
# ラベルを付加したコンセプトドリフトと共変量シフト検出

Concept Drift and Covariate Shift Detection Ensemble with Lagged Labels ( http://arxiv.org/abs/2012.04759v3 )

ライセンス: Link先を確認
Yiming Xu, Diego Klabjan(参考訳) モデルサービスでは、生涯にわたる推論プロセス全体を通して1つの固定されたモデルを持つことは、データ分散が時間とともに進化するにつれて、モデルのパフォーマンスを損なうことになり、履歴データでトレーニングされたモデルの信頼性が失われる。 変更を検出し、モデルを再トレーニングすることが重要です。 既存の手法では,(1)分類誤り率のみを信号として使用すること,(2)サンプルから特徴が受信された後に真実ラベルがすぐに利用可能であると仮定すること,(3)変更時にモデルの再トレーニングに使用するデータを決定することができないこと,の3つの弱点がある。 まず,6つの異なる信号を用いてデータの特徴を広範囲に把握し,ラベルのラグを許容し,ラグ後に対応する特徴のラベルを受信することで,第2の問題を解決する。 第3の問題として,提案手法では,信号に基づいて再トレーニングするデータを自動的に決定する。 異なる種類のデータ変更に対する構造化データと非構造化データに関する広範囲な実験は、この手法が最先端のメソッドを一貫して高いマージンで上回っていることを証明している。

In model serving, having one fixed model during the entire often life-long inference process is usually detrimental to model performance, as data distribution evolves over time, resulting in lack of reliability of the model trained on historical data. It is important to detect changes and retrain the model in time. The existing methods generally have three weaknesses: 1) using only classification error rate as signal, 2) assuming ground truth labels are immediately available after features from samples are received and 3) unable to decide what data to use to retrain the model when change occurs. We address the first problem by utilizing six different signals to capture a wide range of characteristics of data, and we address the second problem by allowing lag of labels, where labels of corresponding features are received after a lag in time. For the third problem, our proposed method automatically decides what data to use to retrain based on the signals. Extensive experiments on structured and unstructured data for different type of data changes establish that our method consistently outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-05-16 21:26:49 公開日:2020-12-15
# 任意指向物体検出のための動的アンカー学習

Dynamic Anchor Learning for Arbitrary-Oriented Object Detection ( http://arxiv.org/abs/2012.04150v2 )

ライセンス: Link先を確認
Qi Ming, Zhiqiang Zhou, Lingjuan Miao, Hongwei Zhang, Linhao Li(参考訳) 任意指向物体は自然の風景や航空写真、リモートセンシング画像などに広く現れるため、任意指向物体検出は注目されている。 現在のローテーション検出器の多くは、異なる向きのアンカーを多数使用して、地上の真理箱と空間的アライメントを達成し、次に、IoU(Intersection-over-Union)を適用して、トレーニングの正と負の候補をサンプリングする。 しかし, 選択された正のアンカーは回帰後の正確な検出を常に保証できないが, 負のサンプルによっては正確な位置決めが可能である。 また,IoUによるアンカーの品質評価は適切ではなく,分類信頼度と局所化精度の整合性がもたらされることが示唆された。 本稿では,新たに定義されたマッチング度を用いて,アンカーの局在ポテンシャルを包括的に評価し,より効率的なラベル割当処理を行う動的アンカー学習(dal)手法を提案する。 このようにして、検出器は動的に高品質なアンカーを選択して正確な物体検出を実現し、分類と回帰のばらつきを緩和する。 新たに導入されたDALでは,数個の水平プリセットアンカーを持つ任意の対象に対して,優れた検出性能が得られる。 3つのリモートセンシングデータセット hrsc2016, dota, ucas-aod およびシーンテキストデータセット icdar 2015 の実験結果から,本手法はベースラインモデルと比較して相当な改善を達成した。 また,水平境界ボックスを用いた物体検出にも汎用性がある。 コードとモデルはhttps://github.com/ming71/dalで入手できる。

Arbitrary-oriented objects widely appear in natural scenes, aerial photographs, remote sensing images, etc., thus arbitrary-oriented object detection has received considerable attention. Many current rotation detectors use plenty of anchors with different orientations to achieve spatial alignment with ground truth boxes, then Intersection-over-Union (IoU) is applied to sample the positive and negative candidates for training. However, we observe that the selected positive anchors cannot always ensure accurate detections after regression, while some negative samples can achieve accurate localization. It indicates that the quality assessment of anchors through IoU is not appropriate, and this further lead to inconsistency between classification confidence and localization accuracy. In this paper, we propose a dynamic anchor learning (DAL) method, which utilizes the newly defined matching degree to comprehensively evaluate the localization potential of the anchors and carry out a more efficient label assignment process. In this way, the detector can dynamically select high-quality anchors to achieve accurate object detection, and the divergence between classification and regression will be alleviated. With the newly introduced DAL, we achieve superior detection performance for arbitrary-oriented objects with only a few horizontal preset anchors. Experimental results on three remote sensing datasets HRSC2016, DOTA, UCAS-AOD as well as a scene text dataset ICDAR 2015 show that our method achieves substantial improvement compared with the baseline model. Besides, our approach is also universal for object detection using horizontal bound box. The code and models are available at https://github.com/ming71/DAL.
翻訳日:2021-05-16 21:18:55 公開日:2020-12-15
# 正方形損失を持つReLUネットワークにおける入射正則化

Implicit Regularization in ReLU Networks with the Square Loss ( http://arxiv.org/abs/2012.05156v2 )

ライセンス: Link先を確認
Gal Vardi and Ohad Shamir(参考訳) 勾配降下の暗黙の正規化(または暗黙のバイアス)を理解することは、最近非常に活発な研究領域である。 しかし、非線形ニューラルネットワークにおける暗黙の正則化は、特に正方形損失のような回帰損失についてはまだ理解されていない。 意外なことに、単一のReLUニューロンであっても、モデルパラメータの明示的な関数によって平方損失による暗黙の正規化を特徴付けることは不可能である(正の側では、概ね特徴付けられる)。 1つの隠れ層ネットワークに対して、Du et al で特定される「均衡性」の性質を除いて、一般にこの方法で暗黙の正規化特性を特徴づけることは不可能である。 [2018]. この結果から, 非線形予測器の暗黙的正規化を理解するためには, これまでに検討したフレームワークよりも一般的なフレームワークが必要であることが示唆された。

Understanding the implicit regularization (or implicit bias) of gradient descent has recently been a very active research area. However, the implicit regularization in nonlinear neural networks is still poorly understood, especially for regression losses such as the square loss. Perhaps surprisingly, we prove that even for a single ReLU neuron, it is impossible to characterize the implicit regularization with the square loss by any explicit function of the model parameters (although on the positive side, we show it can be characterized approximately). For one hidden-layer networks, we prove a similar result, where in general it is impossible to characterize implicit regularization properties in this manner, except for the "balancedness" property identified in Du et al. [2018]. Our results suggest that a more general framework than the one considered so far may be needed to understand implicit regularization for nonlinear predictors, and provides some clues on what this framework should be.
翻訳日:2021-05-16 02:12:56 公開日:2020-12-15
# 因果関係の非現実的定義

The Counterfactual NESS Definition of Causation ( http://arxiv.org/abs/2012.05123v2 )

ライセンス: Link先を確認
Sander Beckers(参考訳) joost vennekens氏との以前の仕事において、ある種の正当な原則に基づいた実際の因果関係の定義を提案し、因果関係に関する議論が、例からより体系的な分析へとシフトすることを可能にした。 本稿では2つの方法でその分析に寄与する。 まず、我々の定義は実際、ライトの有名な因果関係の定義と反実差分法条件の形式化であることを示す。 これは、我々の定義が互いに対立していると主張する因果関係に対する2つの非常に影響力のあるアプローチを統合することを意味する。 第二に、私は、この定義を大幅に改善するために修正し、先制のケースの問題を回避できるように、差分条件を弱めます。 因果関係の相反性定義は相反性アプローチと相反性アプローチの間の自然な妥協を形成する。

In previous work with Joost Vennekens I proposed a definition of actual causation that is based on certain plausible principles, thereby allowing the debate on causation to shift away from its heavy focus on examples towards a more systematic analysis. This paper contributes to that analysis in two ways. First, I show that our definition is in fact a formalization of Wright's famous NESS definition of causation combined with a counterfactual difference-making condition. This means that our definition integrates two highly influential approaches to causation that are claimed to stand in opposition to each other. Second, I modify our definition to offer a substantial improvement: I weaken the difference-making condition in such a way that it avoids the problematic analysis of cases of preemption. The resulting Counterfactual NESS definition of causation forms a natural compromise between counterfactual approaches and the NESS approach.
翻訳日:2021-05-16 02:05:00 公開日:2020-12-15
# (参考訳) LGE-MRIの深層学習に基づくセグメンテーションにおける正規化ハイパーパラメータの効果

Effect of the regularization hyperparameter on deep learning-based segmentation in LGE-MRI ( http://arxiv.org/abs/2012.05661v3 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) 本研究では,L2正規化ハイパーパラメータの任意の選択が,LGE-MRIにおける深層学習に基づくセグメンテーションの結果にどの程度影響するかを示すことを目的とする。 ここでは、任意のL2正規化値を使用して、異なるディープラーニングベースのセグメンテーションネットワークを作成する。 また、著者らは、他のディープラーニングハイパーパラメータのマニュアル調整やチューニングを採用し、90%の精度を達成する前に、すべてのエポックの10%に達する場合にのみ行うようにしている。 実験的比較の結果,l2正規化値が小さいほど心筋境界の分画性が向上する可能性が示唆された。

In this work, the author aims at demonstrating the extent to which the arbitrary selection of the L2 regularization hyperparameter can affect the outcome of deep learning-based segmentation in LGE-MRI. Here, arbitrary L2 regularization values are used to create different deep learning-based segmentation networks. Also, the author adopts the manual adjustment or tunning, of other deep learning hyperparameters, to be done only when 10% of all epochs are reached before achieving the 90% validation accuracy. The experimental comparisons demonstrate that small L2 regularization values can lead to better segmentation of the myocardial boundaries.
翻訳日:2021-05-15 16:00:21 公開日:2020-12-15
# SSD-GAN:空間領域とスペクトル領域における実測

SSD-GAN: Measuring the Realness in the Spatial and Spectral Domains ( http://arxiv.org/abs/2012.05535v3 )

ライセンス: Link先を確認
Yuanqi Chen, Ge Li, Cece Jin, Shan Liu, Thomas Li(参考訳) 本稿では,標準GANの識別器に高周波数が欠落していることが観察され,ネットワークアーキテクチャにおけるダウンサンプリング層に起因することが判明した。 この問題により、ジェネレータは、データの高周波コンテンツを学ぶための判別器からのインセンティブを欠き、生成された画像と実際の画像の間にかなりのスペクトルの差が生じる。 フーリエ変換は単射写像であるため、このスペクトルの差分を減らせば GAN の性能が向上すると主張する。 この目的のために、識別器のスペクトル情報損失を軽減するため、GANの強化であるSSD-GANを導入する。 具体的には、周波数認識型分類器を識別器に組み込んで、空間領域とスペクトル領域の両方における入力の現実性を測定する。 これにより、SSD-GANの生成元は、実データの高周波コンテンツを学習し、正確な詳細を生成することができる。 提案手法は汎用的であり,過剰なコストを伴わずに既存のほとんどのGANフレームワークに容易に統合できる。 SSD-GANの有効性は、様々なネットワークアーキテクチャ、目的関数、データセットで検証される。 コードはhttps://github.com/cyq373/SSD-GANで入手できる。

This paper observes that there is an issue of high frequencies missing in the discriminator of standard GAN, and we reveal it stems from downsampling layers employed in the network architecture. This issue makes the generator lack the incentive from the discriminator to learn high-frequency content of data, resulting in a significant spectrum discrepancy between generated images and real images. Since the Fourier transform is a bijective mapping, we argue that reducing this spectrum discrepancy would boost the performance of GANs. To this end, we introduce SSD-GAN, an enhancement of GANs to alleviate the spectral information loss in the discriminator. Specifically, we propose to embed a frequency-aware classifier into the discriminator to measure the realness of the input in both the spatial and spectral domains. With the enhanced discriminator, the generator of SSD-GAN is encouraged to learn high-frequency content of real data and generate exact details. The proposed method is general and can be easily integrated into most existing GANs framework without excessive cost. The effectiveness of SSD-GAN is validated on various network architectures, objective functions, and datasets. Code will be available at https://github.com/cyq373/SSD-GAN.
翻訳日:2021-05-15 06:24:06 公開日:2020-12-15
# 教師付きセグメンテーションモデルを用いた過分散ChIP-seqデータのピーク検出精度の向上

Increased peak detection accuracy in over-dispersed ChIP-seq data with supervised segmentation models ( http://arxiv.org/abs/2012.06848v2 )

ライセンス: Link先を確認
Arnaud Liehrmann, Guillem Rigaill and Toby Dylan Hocking(参考訳) モチベーション:ヒストン修飾は遺伝子発現の遺伝的調節の基本的なメカニズムである。 2000年代初期には、高スループットシークエンシング(ChIP-seq)とクロマチンの免疫沈降が結合する強力な技術が出現した。 この技術はこれらの修飾に関連するDNA領域を直接調査する。 この手法の可能性を最大限に発揮するために、大量のデータを分析するために、より高度な統計アルゴリズムが開発され、応用されている。 これらのアルゴリズムの多くは、カウントデータのノイズをモデル化するpoissonのような自然仮定に基づいて構築された。 この作業では、これらの自然な仮定から始め、それらを改善することが可能であることを示します。 結果: ヒストン修飾の基準データセット(H3K36me3およびH3K4me3)との比較結果から, 自然仮定は適用条件下では必ずしも現実的とは限らないことが示唆された。 本研究では,制約のない複数の変化点検出モデル,代替ノイズ仮定と適切な設定により,カウントデータによる過分散を低減し,これらの自然な仮定に依存するアルゴリズムよりも高精度にピークを検出することを示す。

Motivation: Histone modification constitutes a basic mechanism for the genetic regulation of gene expression. In early 2000s, a powerful technique has emerged that couples chromatin immunoprecipitation with high-throughput sequencing (ChIP-seq). This technique provides a direct survey of the DNA regions associated to these modifications. In order to realize the full potential of this technique, increasingly sophisticated statistical algorithms have been developed or adapted to analyze the massive amount of data it generates. Many of these algorithms were built around natural assumptions such as the Poisson one to model the noise in the count data. In this work we start from these natural assumptions and show that it is possible to improve upon them. Results: The results of our comparisons on seven reference datasets of histone modifications (H3K36me3 and H3K4me3) suggest that natural assumptions are not always realistic under application conditions. We show that the unconstrained multiple changepoint detection model, with alternative noise assumptions and a suitable setup, reduces the over-dispersion exhibited by count data and turns out to detect peaks more accurately than algorithms which rely on these natural assumptions.
翻訳日:2021-05-10 05:13:37 公開日:2020-12-15
# (参考訳) 深層集合表現の学習による効率的な人文推定

Efficient Human Pose Estimation by Learning Deeply Aggregated Representations ( http://arxiv.org/abs/2012.07033v2 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Zhicheng Wang, Yuanhao Cai, Guanan Wang, Yan Huang, Liang Wang, Erjin Zhou, Tieniu Tan, Jian Sun(参考訳) 本稿では,より深く集約された表現を学習し,効率の良い人間ポーズ推定ネットワーク(DANet)を提案する。 既存のモデルの多くは、主に空間サイズが異なる特徴からマルチスケール情報を探究している。 強力なマルチスケール表現は通常カスケードピラミッドフレームワークに依存する。 このフレームワークはパフォーマンスを大幅に向上させるが、一方でネットワークを深く複雑にしている。 代わりに、異なる受容界サイズを持つ層からのマルチスケール情報を活用することに集中し、融合法を改善することで、この情報をフル活用する。 具体的には,直交注意ブロック (OAB) と2階融合ユニット (SFU) を提案する。 OABは異なるレイヤからマルチスケール情報を学び、多様性を奨励することでそれらを強化する。 SFUは、多様なマルチスケール情報を適応的に選択してヒューズし、冗長な情報を抑圧する。 これにより、最終的な融合表現における有効な情報を最大化することができる。 OABとSFUの助けを借りて、我々の単一のピラミッドネットワークは、よりリッチなマルチスケール情報を含み、カスケードネットワークよりも大きな表現能力を持つ、深く集約された表現を生成することができるかもしれない。 したがって、我々のネットワークは、モデルの複雑さをはるかに小さくして、同等、あるいはさらに優れた精度を達成できます。 具体的には、私たちの \mbox{DANet-72} は、わずか1.0G$ FLOPsの COCO test-dev セットで 70.5$ のAPスコアを得る。 CPUプラットフォーム上での速度は、PPS(Persons-Per-Second~)$58である。

In this paper, we propose an efficient human pose estimation network (DANet) by learning deeply aggregated representations. Most existing models explore multi-scale information mainly from features with different spatial sizes. Powerful multi-scale representations usually rely on the cascaded pyramid framework. This framework largely boosts the performance but in the meanwhile makes networks very deep and complex. Instead, we focus on exploiting multi-scale information from layers with different receptive-field sizes and then making full of use this information by improving the fusion method. Specifically, we propose an orthogonal attention block (OAB) and a second-order fusion unit (SFU). The OAB learns multi-scale information from different layers and enhances them by encouraging them to be diverse. The SFU adaptively selects and fuses diverse multi-scale information and suppress the redundant ones. This could maximize the effective information in final fused representations. With the help of OAB and SFU, our single pyramid network may be able to generate deeply aggregated representations that contain even richer multi-scale information and have a larger representing capacity than that of cascaded networks. Thus, our networks could achieve comparable or even better accuracy with much smaller model complexity. Specifically, our \mbox{DANet-72} achieves $70.5$ in AP score on COCO test-dev set with only $1.0G$ FLOPs. Its speed on a CPU platform achieves $58$ Persons-Per-Second~(PPS).
翻訳日:2021-05-09 17:35:13 公開日:2020-12-15
# 抽象ルール学習のためのメモリ型ニューラルネットワークモデル

A Memory-Augmented Neural Network Model of Abstract Rule Learning ( http://arxiv.org/abs/2012.07172v2 )

ライセンス: Link先を確認
Ishan Sinha, Taylor W. Webb, Jonathan D. Cohen(参考訳) 人間の知性は、経験から抽象的なルールを推論し、これらのルールを新しいドメインに適用する素晴らしい能力によって特徴づけられる。 このように、この能力でニューラルネットワークアルゴリズムを設計することは、より人間的な知能を持つディープラーニングシステムの開発に向けた重要なステップである。 しかし、それは大きな課題であり、ニューラルネットワークが明示的なシンボル処理メカニズムを使用する必要があると主張する人もいる。 本研究では,任意のロールフィラー結合に対するニューラルネットワークの能力,抽象的"ロール"とコンテキスト固有の"フィラー"を関連付ける能力に注目する。 人間の知性の目覚しいテストであるRaven's Progressive Matricesの簡易版を用いて、このような結合を必要とする視覚的問題解決タスクのシーケンシャルな定式化を導入する。 さらに,外部メモリを結合機構として使用することを学習するリカレントニューラルネットワークモデルであるEmergent Symbol Binding Network (ESBN)を導入する。 このメカニズムは、明示的なシンボル処理機構を必要とせずに、ESBNのトレーニングプロセスを通じてシンボルのような変数表現を発生させることができる。 我々はESBNが我々のタスクの根底にある抽象ルール構造をうまく学習し、このルール構造を完全に新しいフィラーに一般化することを実証的に実証した。

Human intelligence is characterized by a remarkable ability to infer abstract rules from experience and apply these rules to novel domains. As such, designing neural network algorithms with this capacity is an important step toward the development of deep learning systems with more human-like intelligence. However, doing so is a major outstanding challenge, one that some argue will require neural networks to use explicit symbol-processing mechanisms. In this work, we focus on neural networks' capacity for arbitrary role-filler binding, the ability to associate abstract "roles" to context-specific "fillers," which many have argued is an important mechanism underlying the ability to learn and apply rules abstractly. Using a simplified version of Raven's Progressive Matrices, a hallmark test of human intelligence, we introduce a sequential formulation of a visual problem-solving task that requires this form of binding. Further, we introduce the Emergent Symbol Binding Network (ESBN), a recurrent neural network model that learns to use an external memory as a binding mechanism. This mechanism enables symbol-like variable representations to emerge through the ESBN's training process without the need for explicit symbol-processing machinery. We empirically demonstrate that the ESBN successfully learns the underlying abstract rule structure of our task and perfectly generalizes this rule structure to novel fillers.
翻訳日:2021-05-09 12:49:58 公開日:2020-12-15
# 複合型および匿名型フィードバックを持つマルチアーム帯域適応アルゴリズム

Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous Feedback ( http://arxiv.org/abs/2012.07048v2 )

ライセンス: Link先を確認
Siwei Wang, Haoyun Wang, Longbo Huang(参考訳) 複合・匿名フィードバックを用いたマルチアームバンディット(MAB)問題について検討した。 このモデルでは、アームを引っ張る報酬は一定期間にわたって広がり(この期間を報酬間隔と呼ぶ)、プレイヤーはアクションの部分的な報酬を受け取り、他のアームを引っ張ることによる報酬と相まって連続する。 このモデルの既存の結果は、アルゴリズムへの入力として報酬間隔サイズに関する事前知識を必要とする。 本稿では,報奨区間に関する事前情報を必要とせず,確率的ケースと逆ケースの両方に対する適応アルゴリズムを提案する。 確率の場合、このアルゴリズムは(順序の)下限に一致する後悔を保証することを証明します。 逆境の場合,非聖書的逆境と未知の報酬区間サイズを共同で処理する最初のアルゴリズムを提案する。 また,実世界のデータセットに基づいてシミュレーションを行う。 その結果,我々のアルゴリズムは既存のベンチマークより優れていることがわかった。

We study the multi-armed bandit (MAB) problem with composite and anonymous feedback. In this model, the reward of pulling an arm spreads over a period of time (we call this period as reward interval) and the player receives partial rewards of the action, convoluted with rewards from pulling other arms, successively. Existing results on this model require prior knowledge about the reward interval size as an input to their algorithms. In this paper, we propose adaptive algorithms for both the stochastic and the adversarial cases, without requiring any prior information about the reward interval. For the stochastic case, we prove that our algorithm guarantees a regret that matches the lower bounds (in order). For the adversarial case, we propose the first algorithm to jointly handle non-oblivious adversary and unknown reward interval size. We also conduct simulations based on real-world dataset. The results show that our algorithms outperform existing benchmarks.
翻訳日:2021-05-09 12:49:19 公開日:2020-12-15
# InferCode: サブツリー予測によるコード表現の自己教師付き学習

InferCode: Self-Supervised Learning of Code Representations by Predicting Subtrees ( http://arxiv.org/abs/2012.07023v2 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang(参考訳) ソースコード上にディープラーニングモデルを構築することで、コード検索、コードコメント生成、バグ検出、コードマイグレーションなど、多くのソフトウェアエンジニアリングアプリケーションが成功しています。 しかし、現在の学習技術は、これらのモデルが主に特定の下流タスクにラベル付けされたデータセットで訓練されており、コード表現は他のタスクには適さないという大きな欠点がある。 いくつかのテクニックはラベルのないコードから表現を生成するが、下流のタスクに適用しても満足できない。 特定のテクニックは、下流のタスクに適用するとラベルのないコードから表現を生成するが、満足には程遠い。 本稿では,自己教師付き学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。 ASTのコンテキストから自動的に同定されたサブツリーを予測することで、コード表現のトレーニングに重要な新機能がある。 ASTのサブツリーは、人間のラベル付け作業や高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとしてInferCodeで扱われ、トレーニングされた表現は、特定の下流タスクやコードユニットに縛られなくなった。 我々は、木ベースのcnnを多数のjavaコードのエンコーダとして使用して、infercodeモデルインスタンスをトレーニングし、コードクラスタリング、コードクローン検出、クロス言語コード検索、転送学習スキームで再利用された下流の非教師付きタスクに適用し、コード分類やメソッド名予測のような教師付きタスクのモデルウェイトのトレーニングを継続する。 Code2Vec、Code2Seq、ASTNNのような、同じ下流タスクに適用された以前のコード学習技術と比較すると、トレーニング済みのInferCodeモデルを使用してより高いパフォーマンスを実現しています。

Building deep learning models on source code has found many successful software engineering applications, such as code search, code comment generation, bug detection, code migration, and so on. Current learning techniques, however, have a major drawback that these models are mostly trained on datasets labeled for particular downstream tasks, and code representations may not be suitable for other tasks. While some techniques produce representations from unlabeled code, they are far from satisfactory when applied to downstream tasks. Although certain techniques generate representations from unlabeled code when applied to downstream tasks they are far from satisfactory. This paper proposes InferCode to overcome the limitation by adapting the self-supervised learning mechanism to build source code model. The key novelty lies in training code representations by predicting automatically identified subtrees from the context of the ASTs. Subtrees in ASTs are treated with InferCode as the labels for training code representations without any human labeling effort or the overhead of expensive graph construction, and the trained representations are no longer tied to any specific downstream tasks or code units. We trained an InferCode model instance using the Tree-based CNN as the encoder of a large set of Java code and applied it to downstream unsupervised tasks such as code clustering, code clone detection, cross-language code search or reused under a transfer learning scheme to continue training the model weights for supervised tasks such as code classification and method name prediction. Compared to previous code learning techniques applied to the same downstream tasks, such as Code2Vec, Code2Seq, ASTNN, higher performance results are achieved using our pre-trained InferCode model with a significant margin for most tasks including those involving different programming languages.
翻訳日:2021-05-09 12:48:33 公開日:2020-12-15
# 高精度一段物体検出のための分離自己注意

Decoupled Self Attention for Accurate One Stage Object Detection ( http://arxiv.org/abs/2012.07630v2 )

ライセンス: Link先を確認
Kehe WU, Zuge Chen, Qi MA, Xiaoliang Zhang, Wei Li(参考訳) 物体検出データセットのスケールが画像認識データセットよりも小さいため、画像Netデータセット上で物体検出モデルのバックボーンネットワークを事前訓練し、分類および局所化サブタスクの特徴を抽出する、深層学習オブジェクト検出モデルの基本的な訓練方法となっている。 しかし,分類タスクは対象の健全領域の特徴に焦点をあて,位置タスクは対象のエッジ特徴に焦点を合わせ,事前学習したバックボーンネットワークによって抽出された特徴と局所化タスクに使用する特徴との間には一定のずれがある。 この問題を解決するために, 1段階の物体検出モデルに対して, 分離自己注意モジュール(DSA)を提案する。 dsaには分離された2つのセルフアテンションブランチが含まれているため、異なるタスクに適した機能を抽出することができる。 FPNとサブタスクのヘッドネットワークの間に位置するため、FPNの融合機能に基づいたグローバルな特徴を個別に抽出するために使用される。 DSAモジュールのネットワークは単純だが、オブジェクト検出の性能を効果的に向上させることができるが、多くの検出モデルに組み込むこともできる。 本実験は, 代表的な1段階検出モデルであるRetinaNetに基づく。 COCOデータセットでは、バックボーンネットワークとしてResNet50とResNet101を使用すると、検出性能がそれぞれ0.4%、APが0.5%向上する。 DSAモジュールとオブジェクト信頼タスクを共にRetinaNetに適用すると、ResNet50とResNet101に基づく検出性能をそれぞれ1.0%APと1.4%APで向上させることができる。 実験結果はDSAモジュールの有効性を示した。 https://github.com/chenzuge1/dsanet.git。

As the scale of object detection dataset is smaller than that of image recognition dataset ImageNet, transfer learning has become a basic training method for deep learning object detection models, which will pretrain the backbone network of object detection model on ImageNet dataset to extract features for classification and localization subtasks. However, the classification task focuses on the salient region features of object, while the location task focuses on the edge features of object, so there is certain deviation between the features extracted by pretrained backbone network and the features used for localization task. In order to solve this problem, a decoupled self attention(DSA) module is proposed for one stage object detection models in this paper. DSA includes two decoupled self-attention branches, so it can extract appropriate features for different tasks. It is located between FPN and head networks of subtasks, so it is used to extract global features based on FPN fused features for different tasks independently. Although the network of DSA module is simple, but it can effectively improve the performance of object detection, also it can be easily embedded in many detection models. Our experiments are based on the representative one-stage detection model RetinaNet. In COCO dataset, when ResNet50 and ResNet101 are used as backbone networks, the detection performances can be increased by 0.4% AP and 0.5% AP respectively. When DSA module and object confidence task are applied in RetinaNet together, the detection performances based on ResNet50 and ResNet101 can be increased by 1.0% AP and 1.4% AP respectively. The experiment results show the effectiveness of DSA module. Code is at: https://github.com/chenzuge1/DSANet.git.
翻訳日:2021-05-08 14:29:05 公開日:2020-12-15
# Lyapunov最適化の強化学習定式化:キュー安定性を持つエッジコンピューティングシステムへの適用

A Reinforcement Learning Formulation of the Lyapunov Optimization: Application to Edge Computing Systems with Queue Stability ( http://arxiv.org/abs/2012.07279v2 )

ライセンス: Link先を確認
Sohee Bae, Seungyul Han, and Youngchul Sung(参考訳) 本稿では,lyapunov最適化に対する深層強化学習(drl)に基づく手法を,待ち行列安定性を維持しながら平均時間ペナルティを最小化する。 状態空間と作用空間の適切な構成は、リャプノフ最適化のための適切なマルコフ決定過程(MDP)を形成するために提供される。 待ち行列安定性のための強化学習(RL)の報奨関数の条件を導出する。 Lyapunov 最適化に対する DRL に基づくアプローチでは,報酬割引を伴う実効的な RL のクラスが提案されている。 Lyapunov最適化に対するDRLに基づくアプローチは、各ステップで複雑な最適化を必要とせず、一般的な非凸かつ不連続なペナルティ関数で動作する。 したがって、ライプノフ最適化のための従来のドリフトプラスペナルティ(dpp)アルゴリズムに代わるものである。 提案手法は,キュー安定性を持つエッジコンピューティングシステムにおけるリソース割り当てに適用し,その動作を数値的に検証する。

In this paper, a deep reinforcement learning (DRL)-based approach to the Lyapunov optimization is considered to minimize the time-average penalty while maintaining queue stability. A proper construction of state and action spaces is provided to form a proper Markov decision process (MDP) for the Lyapunov optimization. A condition for the reward function of reinforcement learning (RL) for queue stability is derived. Based on the analysis and practical RL with reward discounting, a class of reward functions is proposed for the DRL-based approach to the Lyapunov optimization. The proposed DRL-based approach to the Lyapunov optimization does not required complicated optimization at each time step and operates with general non-convex and discontinuous penalty functions. Hence, it provides an alternative to the conventional drift-plus-penalty (DPP) algorithm for the Lyapunov optimization. The proposed DRL-based approach is applied to resource allocation in edge computing systems with queue stability and numerical results demonstrate its successful operation.
翻訳日:2021-05-08 14:21:54 公開日:2020-12-15
# wdnet: 透かし除去のための透かし除去ネットワーク

WDNet: Watermark-Decomposition Network for Visible Watermark Removal ( http://arxiv.org/abs/2012.07616v2 )

ライセンス: Link先を確認
Yang Liu, Zhen Zhu, and Xiang Bai(参考訳) 視覚的な透かしは、著作権の所有権を保護するために画像に広く使われている。 ウォーターマークの除去分析は、敵対的な方法で攻撃防止技術を強化するのに役立つ。 現在の除去法は通常、画像から画像への変換技術を利用する。 それでも、透かしのサイズ、形状、色、透明さの不確かさは、これらの方法の大きな障壁となった。 そこで本研究では, 従来の透かし画像分解を, 透かし分解ネットワーク (wdnet) と呼ばれる2段階生成器に組み合わせることにより, 第1段階は透かし画像全体からの粗い分解を予測し, 第2段階は透かし領域に集中して除去結果を洗練する。 分解の定式化により、WDNetは単に削除するのではなく、画像から透かしを分離することができる。 さらに,これらの分離透かしは,より大きなトレーニングデータセットを構築するための余分な栄養源となり,さらに除去性能が向上することを示す。 また,カラーウォーターマーク除去データセットの真空を満たすために,主にカラーウォーターマークを含むclwdという大規模データセットを構築した。 パブリックグレースケールデータセットLVWとCLWDの大規模な実験は、提案されたWDNetが精度と効率の両方で最先端のアプローチより優れていることを一貫して示している。 コードとCLWDデータセットはhttps://github.com/MRUIL/WDNetで公開されている。

Visible watermarks are widely-used in images to protect copyright ownership. Analyzing watermark removal helps to reinforce the anti-attack techniques in an adversarial way. Current removal methods normally leverage image-to-image translation techniques. Nevertheless, the uncertainty of the size, shape, color and transparency of the watermarks set a huge barrier for these methods. To combat this, we combine traditional watermarked image decomposition into a two-stage generator, called Watermark-Decomposition Network (WDNet), where the first stage predicts a rough decomposition from the whole watermarked image and the second stage specifically centers on the watermarked area to refine the removal results. The decomposition formulation enables WDNet to separate watermarks from the images rather than simply removing them. We further show that these separated watermarks can serve as extra nutrients for building a larger training dataset and further improving removal performance. Besides, we construct a large-scale dataset named CLWD, which mainly contains colored watermarks, to fill the vacuum of colored watermark removal dataset. Extensive experiments on the public gray-scale dataset LVW and CLWD consistently show that the proposed WDNet outperforms the state-of-the-art approaches both in accuracy and efficiency. The code and CLWD dataset are publicly available at https://github.com/MRUIL/WDNet.
翻訳日:2021-05-08 14:19:44 公開日:2020-12-15
# (参考訳) グラフ埋め込み手法の理解とその応用

Understanding graph embedding methods and their applications ( http://arxiv.org/abs/2012.08019v1 )

ライセンス: CC BY 4.0
Mengjia Xu(参考訳) グラフ分析は複雑なネットワークの定量的な理解と制御に繋がるが、従来の手法は計算コストが高く、産業規模ネットワークの高次元と異質な特性に関連する過大なメモリ要求に苦しむ。 グラフ埋め込み技術は、高次元スパースグラフを低次元、高密度、連続なベクトル空間に変換するのに有効であり、グラフ構造特性を最大に保存する。 別の種類の新興グラフ埋め込みは、重要な不確実性推定を伴うガウス分布に基づくグラフ埋め込みを用いる。 グラフ埋め込み法の主な目標は、全てのノードの特性をより小さな次元のベクトルにパックすることであり、したがって、元の複素不規則空間におけるノードの類似性は標準計量を用いて埋め込みベクトル空間内で容易に定量化できる。 潜在空間に生成された非線形で高情報的なグラフ埋め込みは、異なる下流のグラフ分析タスク(例えば、ノード分類、リンク予測、コミュニティ検出、可視化など)に対処するのに便利である。 本稿では,特にランダムウォークとニューラルネットワークに基づく手法に着目し,グラフ分析とグラフ埋め込み手法の基本的な概念について述べる。 また,深層学習に基づく動的グラフ埋め込み手法についても述べる。 我々は4つの異なるアプリケーションにおけるグラフ埋め込み手法の異なる利点を強調し、オープンソースソフトウェアの実装の詳細と参照、および利用可能なデータベースを付録で提示し、興味のある読者がグラフ分析について調査を開始する。

Graph analytics can lead to better quantitative understanding and control of complex networks, but traditional methods suffer from high computational cost and excessive memory requirements associated with the high-dimensionality and heterogeneous characteristics of industrial size networks. Graph embedding techniques can be effective in converting high-dimensional sparse graphs into low-dimensional, dense and continuous vector spaces, preserving maximally the graph structure properties. Another type of emerging graph embedding employs Gaussian distribution-based graph embedding with important uncertainty estimation. The main goal of graph embedding methods is to pack every node's properties into a vector with a smaller dimension, hence, node similarity in the original complex irregular spaces can be easily quantified in the embedded vector spaces using standard metrics. The generated nonlinear and highly informative graph embeddings in the latent space can be conveniently used to address different downstream graph analytics tasks (e.g., node classification, link prediction, community detection, visualization, etc.). In this Review, we present some fundamental concepts in graph analytics and graph embedding methods, focusing in particular on random walk-based and neural network-based methods. We also discuss the emerging deep learning-based dynamic graph embedding methods. We highlight the distinct advantages of graph embedding methods in four diverse applications, and present implementation details and references to open-source software as well as available databases in the Appendix for the interested readers to start their exploration into graph analytics.
翻訳日:2021-05-08 13:23:21 公開日:2020-12-15
# (参考訳) スマートフォン利用者の利用パターンに基づくエネルギー消費モデルの構築

Building Energy Consumption Models Based On Smartphone User's Usage Patterns ( http://arxiv.org/abs/2012.10246v1 )

ライセンス: CC BY 4.0
Antonio Sa Barreto Neto, Felipe Farias, Marco Aurelio Tomaz Mialaret, Bruno Cartaxo, Priscila Alves Lima, Paulo Maciel(参考訳) 日常業務におけるスマートフォンの利用の増加は,スマートフォンの有効性の向上とユーザ利用時間の向上を目的としたエネルギー消費特性に関する多くの研究の動機付けとなっている。 このシナリオでは、ユーザ利用パターンを特徴づけるメカニズムを研究することが不可欠であり、スマートフォンのコンポーネントは、省エネで最高のユーザエクスペリエンスを促進するために適応することができる。 本研究の目的は、アプリケーション開発者が使用する最も正確なモデルと自動最適化を提供することを目的とした、ユーザ利用パターンに基づくエネルギー消費モデルの構築である。 エネルギー消費モデルを開発するために,スマートフォンのエネルギー消費に最も影響を及ぼすコンポーネントを識別し,各デバイスの状態を特定する方法を確立した。 さらに,不正確なハードウェアを用いて構築したモデルのロバスト性を証明する手法と,構築したモデルの精度を評価する戦略を確立した。 使用状況に基づいてエネルギー消費をモデル化するための各戦略を訓練し, ネメニー試験を行った結果, スマートフォンの平均消費電力が 1970.1mw の場合, 平均絶対誤差が 158.57mw になることを実証した。 いくつかの研究は、主要なスマートフォンのワークロードがユーザであることを示している。 そこで本研究では,利用者の利用データを分析し,利用者の利用パターンに基づいてスマートフォンの消費エネルギーを推定できるスマートモデルを構築するための自動モデル構築手法を開発した。 自動モデル構築手法によって、バッテリを排出するコンポーネントの使用を最小限に抑える戦略を採用できます。

The increasing usage of smartphones in everyday tasks has been motivated many studies on energy consumption characterization aiming to improve smartphone devices' effectiveness and increase user usage time. In this scenario, it is essential to study mechanisms capable of characterizing user usage patterns, so smartphones' components can be adapted to promote the best user experience with lower energy consumption. The goal of this study is to build an energy consumption model based on user usage patterns aiming to provide the best accurate model to be used by application developers and automated optimization. To develop the energy consumption models, we established a method to identify the components with the most influence in the smartphone's energy consumption and identify the states of each influential device. Besides that, we established a method to prove the robustness of the models constructed using inaccurate hardware and a strategy to assess the accuracy of the model built. After training and testing each strategy to model the energy consumption based on the user's usage and perform the Nemenyi test, we demonstrated that it is possible to get a Mean Absolute Error of 158.57mW when the smartphone's average power is 1970.1mW. Some studies show that the leading smartphone's workload is the user. Based on this fact, we developed an automatic model building methodology that is capable of analyzing the user's usage data and build smart models that can estimate the smartphone's energy consumption based on the user's usage pattern. With the automatic model building methodology, we can adopt strategies to minimize the usage of components that drain the battery.
翻訳日:2021-05-08 13:22:18 公開日:2020-12-15
# (参考訳) 深層学習を用いた喫煙・呼気の分類

Classification of Smoking and Calling using Deep Learning ( http://arxiv.org/abs/2012.08026v1 )

ライセンス: CC BY 4.0
Miaowei Wang, Alexander William Mohacey, Hongyu Wang, James Apfel(参考訳) 2014年以降、非常に深い畳み込みニューラルネットワークが提案され、あらゆる種類の競争においてチャンピオンにとって必須の武器となっている。 本報告では,事前学習したインセプションv3を変更することにより,喫煙と呼び出しの分類を行うパイプラインを導入する。 深層学習に基づく明度向上は、この分類タスクの分類と、他の有用なトレーニングトリックを改善するために実施される。 品質と量の結果から, バイアスのあるサンプルの少ないパイプラインは実用的で, 高い精度で有用であることがわかった。

Since 2014, very deep convolutional neural networks have been proposed and become the must-have weapon for champions in all kinds of competition. In this report, a pipeline is introduced to perform the classification of smoking and calling by modifying the pretrained inception V3. Brightness enhancing based on deep learning is implemented to improve the classification of this classification task along with other useful training tricks. Based on the quality and quantity results, it can be concluded that this pipeline with small biased samples is practical and useful with high accuracy.
翻訳日:2021-05-08 13:21:14 公開日:2020-12-15
# (参考訳) NUTA:行動認識のための非一様時間集合

NUTA: Non-uniform Temporal Aggregation for Action Recognition ( http://arxiv.org/abs/2012.08041v1 )

ライセンス: CC BY 4.0
Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Hao Chen, Joseph Tighe(参考訳) 行動認識研究の世界では、入力ビデオの空間的-時間的ボリュームをモデル化するためのネットワークの構築と訓練に重点が置かれている。 これらの方法は通常、入力クリップのセグメントを(時間次元とともに)一様にサンプリングする。 しかし、ビデオのすべての部分がビデオ内のアクションを決定するのに等しく重要であるわけではない。 本研究は,映像の最も情報性の高い部分に集中するために,特徴抽出の場所を学習することに焦点を当てる。 本稿では,情報的時間セグメントのみから特徴を集約する非一様時間アグリゲーション(NUTA)手法を提案する。 また, 局所的特徴とクリップレベルの特徴を組み合わせるために, 従来の一様にサンプリングされたビデオ機能との時間的整合を可能にする同期手法も導入した。 提案モデルは,4つの大規模動作認識データセット(kinetics400,kinetics700,何かv2とcharades)において最先端のパフォーマンスを達成している。 さらに,提案手法がビデオクリップの最も関連性の高い部分のみをどのように選択するかを視覚化した。

In the world of action recognition research, one primary focus has been on how to construct and train networks to model the spatial-temporal volume of an input video. These methods typically uniformly sample a segment of an input clip (along the temporal dimension). However, not all parts of a video are equally important to determine the action in the clip. In this work, we focus instead on learning where to extract features, so as to focus on the most informative parts of the video. We propose a method called the non-uniform temporal aggregation (NUTA), which aggregates features only from informative temporal segments. We also introduce a synchronization method that allows our NUTA features to be temporally aligned with traditional uniformly sampled video features, so that both local and clip-level features can be combined. Our model has achieved state-of-the-art performance on four widely used large-scale action-recognition datasets (Kinetics400, Kinetics700, Something-something V2 and Charades). In addition, we have created a visualization to illustrate how the proposed NUTA method selects only the most relevant parts of a video clip.
翻訳日:2021-05-08 12:38:38 公開日:2020-12-15
# (参考訳) ディープベイズアクティブラーニング : 最近の進歩を振り返って

Deep Bayesian Active Learning, A Brief Survey on Recent Advances ( http://arxiv.org/abs/2012.08044v1 )

ライセンス: CC BY 4.0
Salman Mohamadi, Hamidreza Amindavar(参考訳) アクティブな学習フレームワークは、顕著な精度の劣化なしに効率的なデータアノテーションを提供する。 言い換えれば、アクティブラーニングは、ラベル付きデータの小さなサイズでモデルをトレーニングし、ラベル付きデータの空間を探索し、ラベル付けされる最も有用なサンプルを選択する。 一般に、この不確実性を表現することは、どんな活動的な学習フレームワークにおいても重要であるが、深層学習法はモデルの不確実性を表現または操作することができない。 一方、現実世界のアプリケーションの観点からすると、機械学習コミュニティでは不確実性表現がますます注目を集めています。 ディープベイズアクティブラーニングフレームワークおよび一般的にベイズアクティブラーニング設定は、モデルのより効率的なトレーニングのためにモデルの不確実性を表す一方で、小さなデータによるトレーニングを可能にするモデルの実践的考察を提供する。 本稿では,ベイジアンアクティブラーニングの最近の進歩,特にベイジアンアクティブラーニングの枠組みを概観する。

Active learning frameworks offer efficient data annotation without remarkable accuracy degradation. In other words, active learning starts training the model with a small size of labeled data while exploring the space of unlabeled data in order to select most informative samples to be labeled. Generally speaking, representing the uncertainty is crucial in any active learning framework, however, deep learning methods are not capable of either representing or manipulating model uncertainty. On the other hand, from the real world application perspective, uncertainty representation is getting more and more attention in the machine learning community. Deep Bayesian active learning frameworks and generally any Bayesian active learning settings, provide practical consideration in the model which allows training with small data while representing the model uncertainty for further efficient training. In this paper, we briefly survey recent advances in Bayesian active learning and in particular deep Bayesian active learning frameworks.
翻訳日:2021-05-08 12:25:05 公開日:2020-12-15
# (参考訳) 意味論とテクスチャのコヒーレンス優先によるイメージインペインティング

Image Inpainting Guided by Coherence Priors of Semantics and Textures ( http://arxiv.org/abs/2012.08054v1 )

ライセンス: CC BY 4.0
Liang Liao, Jing Xiao, Zheng Wang, Chia-Wen Lin, Shin'ichi Satoh(参考訳) 既存の塗装法は、特定のシーンの欠陥画像の復元に有望な性能を実現している。 しかしながら、複数の意味カテゴリーを含む穴を埋めることは、曖昧な意味的境界と異なる意味的テクスチャの混合のため、依然として困難である。 本稿では,テクスチャのセマンティクスとテクスチャのコヒーレンス先行について述べる。 具体的には,まずコヒーレンス前処理をモデル化し,それに従って画像インペインティングと意味セグメンテーションを粗い方法で相互に最適化するマルチスケール協調最適化フレームワークを採用する。 テクスチャのミックスアップを効果的に緩和する非局所的なセマンティクスコヒーレンスを探索することにより、スケール全体の完成されたテクスチャを洗練するために、swap(semantic-wise attention propagation)モジュールが考案された。 また,全体構造と詳細なテクスチャの観点から,セマンティクスと塗装画像の一貫性を制約する2つのコヒーレンス損失を提案する。 実験により,複素孔を有する難問に対する提案手法の優位性を示した。

Existing inpainting methods have achieved promising performance in recovering defected images of specific scenes. However, filling holes involving multiple semantic categories remains challenging due to the obscure semantic boundaries and the mixture of different semantic textures. In this paper, we introduce coherence priors between the semantics and textures which make it possible to concentrate on completing separate textures in a semantic-wise manner. Specifically, we adopt a multi-scale joint optimization framework to first model the coherence priors and then accordingly interleavingly optimize image inpainting and semantic segmentation in a coarse-to-fine manner. A Semantic-Wise Attention Propagation (SWAP) module is devised to refine completed image textures across scales by exploring non-local semantic coherence, which effectively mitigates mix-up of textures. We also propose two coherence losses to constrain the consistency between the semantics and the inpainted image in terms of the overall structure and detailed textures. Experimental results demonstrate the superiority of our proposed method for challenging cases with complex holes.
翻訳日:2021-05-08 12:18:57 公開日:2020-12-15
# (参考訳) バランスインデックス影響最大化のための学習パラメータ

Learning Parameters for Balanced Index Influence Maximization ( http://arxiv.org/abs/2012.08067v1 )

ライセンス: CC BY 4.0
Manqing Ma, Gyorgy Korniss, Boleslaw K. Szymanski(参考訳) 影響最大化(英語: Influence maximization)とは、ソーシャルネットワークでアクティベーションを行うノードの最小セットを見つけるタスクであり、ターゲットネットワークのカバレッジに達するアクティベーションカスケードをトリガーし、しきい値ルールが影響の結果を決定する。 この問題はNPハードであり、効率的なヒューリスティックの発見に関する最近の研究のかなりの数を生み出している。 本稿では,その性能を所定のネットワーク構造に合わせるために,3つのパラメータに依存するアルゴリズムに焦点をあてる。 このようなチューニングのために教師付き機械学習アプローチを提案する。 パラメータチューニングにおいて最も影響力のあるグラフ機能を選択する。 そして、ランダムウォークに基づくグラフサンプリングを用いて、与えられた合成および大規模現実世界ネットワークから小さなスナップショットを作成する。 徹底的な検索を用いて,biパラメータの高精度値を基礎的真理として使用するスナップショットを求める。 そして、スナップショット上で機械学習モデルをトレーニングし、このモデルを実単語ネットワークに適用して最適なbiパラメータを見つけます。 これらのパラメータを実世界のサンプルネットワークに適用し、この方法で得られた開始子の集合の質を測定する。 我々は、他のヒューリスティックに対するアプローチを検証するために、様々な現実世界のネットワークを使用します。

Influence maximization is the task of finding the smallest set of nodes whose activation in a social network can trigger an activation cascade that reaches the targeted network coverage, where threshold rules determine the outcome of influence. This problem is NP-hard and it has generated a significant amount of recent research on finding efficient heuristics. We focus on a {\it Balance Index} algorithm that relies on three parameters to tune its performance to the given network structure. We propose using a supervised machine-learning approach for such tuning. We select the most influential graph features for the parameter tuning. Then, using random-walk-based graph-sampling, we create small snapshots from the given synthetic and large-scale real-world networks. Using exhaustive search, we find for these snapshots the high accuracy values of BI parameters to use as a ground truth. Then, we train our machine-learning model on the snapshots and apply this model to the real-word network to find the best BI parameters. We apply these parameters to the sampled real-world network to measure the quality of the sets of initiators found this way. We use various real-world networks to validate our approach against other heuristic.
翻訳日:2021-05-08 12:04:39 公開日:2020-12-15
# (参考訳) 高速3d画像モーメント

Fast 3D Image Moments ( http://arxiv.org/abs/2012.08099v1 )

ライセンス: CC BY 4.0
William Diggin and Michael Diggin(参考訳) ボリューム画像のモーメントを効率的に計算するアルゴリズムを開示する。 このアプローチは、計算複雑性を著しく減らし、処理時間の短縮を示す。 具体的には、アルゴリズムは乗法複雑性を O(n^3) から O(n) に還元する。 3次元ボリュームの2次元投影画像が複数生成される。 アルゴリズムはこれらの2D画像から一連の2Dモーメントを計算する。 これらの2Dモーメントは、3Dボリュームモーメントを導出するために使用される。 mriやctでの使用例や関連する分析では、離散射影モーメントアルゴリズムの利点が示されている。 このアプローチは、そのオブジェクトの2Dトモグラフィー画像の小さなセットを使用して、3Dオブジェクトのモーメントを計算するのにも有用である。

An algorithm to efficiently compute the moments of volumetric images is disclosed. The approach demonstrates a reduction in processing time by reducing the computational complexity significantly. Specifically, the algorithm reduces multiplicative complexity from O(n^3) to O(n). Several 2D projection images of the 3D volume are generated. The algorithm computes a set of 2D moments from those 2D images. Those 2D moments are then used to derive the 3D volumetric moments. Examples of use in MRI or CT and related analysis demonstrates the benefit of the Discrete Projection Moment Algorithm. The approach is also useful in computing the moments of a 3D object using a small set of 2D tomographic images of that object.
翻訳日:2021-05-08 11:55:06 公開日:2020-12-15
# (参考訳) 自然言語発話からの複雑なデータベースクエリとapi呼び出しの生成

Generation of complex database queries and API calls from natural language utterances ( http://arxiv.org/abs/2012.08146v1 )

ライセンス: CC BY 4.0
Amol Kelkar, Nachiketa Rajpurohit, Utkarsh Mittal and Peter Relan(参考訳) 自然言語質問に対応するクエリの生成は、長年にわたる問題である。 従来の方法は言語の柔軟性を欠いているが、新しいシーケンスからシーケンスへのモデルは大量のデータを必要とする。 スキーマに依存しないシーケンスからシーケンスへのモデルは、小さなデータセットを使用して特定のスキーマ用に微調整することができるが、これらのモデルは相対的に精度が低い。 本稿では,クエリ生成問題を意図分類とスロット充填問題に変換する手法を提案する。 この方法は小さなデータセットを使って動作する。 トレーニングデータセットに類似した質問に対しては、高い精度で複雑なクエリを生成する。 その他の質問では、テンプレートベースのアプローチやクエリ要素を予測してクエリを構築することができ、シーケンス・ツー・シーケンスモデルよりも高い精度で実行することができる。 実世界のデータセットでは,スキーマの微調整による生成モデルがクエリ生成タスクに対して60倍の精度で一致し,提案手法は92倍の精度で一致した。

Generating queries corresponding to natural language questions is a long standing problem. Traditional methods lack language flexibility, while newer sequence-to-sequence models require large amount of data. Schema-agnostic sequence-to-sequence models can be fine-tuned for a specific schema using a small dataset but these models have relatively low accuracy. We present a method that transforms the query generation problem into an intent classification and slot filling problem. This method can work using small datasets. For questions similar to the ones in the training dataset, it produces complex queries with high accuracy. For other questions, it can use a template-based approach or predict query pieces to construct the queries, still at a higher accuracy than sequence-to-sequence models. On a real-world dataset, a schema fine-tuned state-of-the-art generative model had 60\% exact match accuracy for the query generation task, while our method resulted in 92\% exact match accuracy.
翻訳日:2021-05-08 11:17:59 公開日:2020-12-15
# (参考訳) 多段階変換器を用いた対話の応答検索手法

A Response Retrieval Approach for Dialogue Using a Multi-Attentive Transformer ( http://arxiv.org/abs/2012.08148v1 )

ライセンス: CC BY 4.0
Matteo A. Senese, Alberto Benincasa, Barbara Caputo, Giuseppe Rizzo(参考訳) 本稿では,対話システム技術チャレンジ(dstc9)第9版について紹介する。 提案手法は,トラック番号4のSimulated Interactive MultiModal Conversationsに対処する。 このタスクは、ユーザをリクエストで支援するショッピングアシスタントをシミュレートできるアルゴリズムを提供することによって構成される。 本稿では、応答候補のプールから最も適切なエージェント応答を検索するタスクである応答検索のタスクに対処する。 本手法では,ユーザによる要求とユーザが参照している製品に対するエージェントの応答を条件としたマルチタッチ構造を持つトランスフォーマティブに基づくニューラルアーキテクチャを用いる。 SIMMC Fashion Datasetの最終的な実験結果から,提案手法はオーガナイザが定義したすべての検索指標において,2番目のベストスコアを達成できることがわかった。 ソースコードはhttps://github.com/D2KLab/dstc9-SIMMCで入手できる。

This paper presents our work for the ninth edition of the Dialogue System Technology Challenge (DSTC9). Our solution addresses the track number four: Simulated Interactive MultiModal Conversations. The task consists in providing an algorithm able to simulate a shopping assistant that supports the user with his/her requests. We address the task of response retrieval, that is the task of retrieving the most appropriate agent response from a pool of response candidates. Our approach makes use of a neural architecture based on transformer with a multi-attentive structure that conditions the response of the agent on the request made by the user and on the product the user is referring to. Final experiments on the SIMMC Fashion Dataset show that our approach achieves the second best scores on all the retrieval metrics defined by the organizers. The source code is available at https://github.com/D2KLab/dstc9-SIMMC.
翻訳日:2021-05-08 11:14:24 公開日:2020-12-15
# (参考訳) マルチクラスオブジェクトカウントのためのDilated-Scale-Aware Attention ConvNet

Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting ( http://arxiv.org/abs/2012.08149v1 )

ライセンス: CC BY 4.0
Wei Xu, Dingkang Liang, Yixiao Zheng, Zhanyu Ma(参考訳) オブジェクトカウントは、画像内のオブジェクト数を推定することを目的としている。 主要なカウント手法は、単一のカテゴリカウントタスクに集中し、素晴らしいパフォーマンスを達成する。 実際のシーンには複数のカテゴリのオブジェクトがある。 多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。 マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。 しかし、バウンディングボックスにアノテートされたデータセットが必要である。 主流のオブジェクトカウント問題におけるポイントアノテーションと比較すると、座標ボックスレベルのアノテーションは入手が難しい。 本稿では,ポイントレベルのアノテーションに基づく簡易かつ効率的な計数ネットワークを提案する。 具体的には、まず従来の出力チャネルを1つから複数のカテゴリに変更し、マルチクラスカウントを実現する。 提案するフレームワークでは,オブジェクトのすべてのカテゴリが同じ特徴抽出器を使用するため,それらの特徴は共有特徴空間において相互に干渉する。 さらに,物体間の有害な相互作用を抑制するマルチマスク構造を設計する。 試行錯誤実験により,提案手法が最先端の計数性能を実現することを示す。

Object counting aims to estimate the number of objects in images. The leading counting approaches focus on the single category counting task and achieve impressive performance. Note that there are multiple categories of objects in real scenes. Multi-class object counting expands the scope of application of object counting task. The multi-target detection task can achieve multi-class object counting in some scenarios. However, it requires the dataset annotated with bounding boxes. Compared with the point annotations in mainstream object counting issues, the coordinate box-level annotations are more difficult to obtain. In this paper, we propose a simple yet efficient counting network based on point-level annotations. Specifically, we first change the traditional output channel from one to the number of categories to achieve multiclass counting. Since all categories of objects use the same feature extractor in our proposed framework, their features will interfere mutually in the shared feature space. We further design a multi-mask structure to suppress harmful interaction among objects. Extensive experiments on the challenging benchmarks illustrate that the proposed method achieves state-of-the-art counting performance.
翻訳日:2021-05-08 10:44:32 公開日:2020-12-15
# (参考訳) 契約不整合のチェックを学ぶ

Learning to Check Contract Inconsistencies ( http://arxiv.org/abs/2012.08150v1 )

ライセンス: CC BY 4.0
Shuo Zhang, Junzhou Zhao, Pinghui Wang, Nuo Xu, Yang Yang, Yiting Liu, Yi Huang, Junlan Feng(参考訳) 契約の整合性は、契約の法的妥当性を保証する上で重要である。 多くのシナリオにおいて、契約書は予めコンパイルされた形式で空白を埋めて書かれる。 不注意のため、同じ(または異なる)コンテンツで満たすべき2つの空白は、誤って異なる(または同じ)コンテンツで満たされる可能性がある。 これにより、契約の不一致が発生し、契約の法的妥当性を著しく損なう可能性がある。 この問題に対処する伝統的な方法は、主に労働集約的で費用がかかる手動の契約審査に依存している。 本研究では,新しい契約不整合チェック(CIC)問題を定式化し,Pair-wise Blank Resolution(PBR)と呼ばれるエンドツーエンドのフレームワークを設計し,CIC問題を高精度に解決する。 我々のPBRモデルは、意味のない空白をモデリングする難題に対処する新しいBlankCoderを含んでいる。 BlankCoderは、意味のない空白と関連する記述を適切に関連付けるための2段階のアテンションメカニズムを採用している。 実世界のデータセットで行った実験では,CIC問題では94.05%,F1スコア90.90%のバランスの取れた精度で,本手法の有望な性能を示した。

Contract consistency is important in ensuring the legal validity of the contract. In many scenarios, a contract is written by filling the blanks in a precompiled form. Due to carelessness, two blanks that should be filled with the same (or different)content may be incorrectly filled with different (or same) content. This will result in the issue of contract inconsistencies, which may severely impair the legal validity of the contract. Traditional methods to address this issue mainly rely on manual contract review, which is labor-intensive and costly. In this work, we formulate a novel Contract Inconsistency Checking (CIC) problem, and design an end-to-end framework, called Pair-wise Blank Resolution (PBR), to solve the CIC problem with high accuracy. Our PBR model contains a novel BlankCoder to address the challenge of modeling meaningless blanks. BlankCoder adopts a two-stage attention mechanism that adequately associates a meaningless blank with its relevant descriptions while avoiding the incorporation of irrelevant context words. Experiments conducted on real-world datasets show the promising performance of our method with a balanced accuracy of 94.05% and an F1 score of 90.90% in the CIC problem.
翻訳日:2021-05-08 10:30:59 公開日:2020-12-15
# (参考訳) 逆分布による高次元データの異種統計的パターンのモデル化:教師なし生成フレームワーク

Modeling Heterogeneous Statistical Patterns in High-dimensional Data by Adversarial Distributions: An Unsupervised Generative Framework ( http://arxiv.org/abs/2012.08153v1 )

ライセンス: CC BY 4.0
Han Zhang, Wenhao Zheng, Charley Chen, Kevin Gao, Yao Hu, Ling Huang, and Wei Xu(参考訳) ラベル収集は禁止され、時間を要するため、不正検出などのアプリケーションでは教師なしの方法が好ましい。 一方、このようなアプリケーションは、通常、異なるクラスタのパターンが異なる次元に現れる可能性があるため、異種統計パターンを表示する高次元データの内在的なクラスタをモデル化する必要がある。 既存の方法では、選択した次元でデータクラスタをモデル化するが、グローバルに任意の次元を省略することは、特定のクラスタのパターンを損なう可能性がある。 上記の問題に対処するため,不均一な統計パターンに適合・アンタングルする逆分布を利用した非教師なし生成フレームワークFIRDを提案する。 離散空間に適用する場合、FIRDは同期された詐欺師を通常のユーザと効果的に区別する。 さらに、FIRDはSOTA異常検出法(平均AUC改善率5%以上)と比較して、異常検出データセットの性能も優れている。 各種データセットにおける有意な実験結果から,提案手法が高次元データにおける不均一な統計パターンをモデル化し,下流アプリケーションに有効であることを示す。

Since the label collecting is prohibitive and time-consuming, unsupervised methods are preferred in applications such as fraud detection. Meanwhile, such applications usually require modeling the intrinsic clusters in high-dimensional data, which usually displays heterogeneous statistical patterns as the patterns of different clusters may appear in different dimensions. Existing methods propose to model the data clusters on selected dimensions, yet globally omitting any dimension may damage the pattern of certain clusters. To address the above issues, we propose a novel unsupervised generative framework called FIRD, which utilizes adversarial distributions to fit and disentangle the heterogeneous statistical patterns. When applying to discrete spaces, FIRD effectively distinguishes the synchronized fraudsters from normal users. Besides, FIRD also provides superior performance on anomaly detection datasets compared with SOTA anomaly detection methods (over 5% average AUC improvement). The significant experiment results on various datasets verify that the proposed method can better model the heterogeneous statistical patterns in high-dimensional data and benefit downstream applications.
翻訳日:2021-05-08 10:17:37 公開日:2020-12-15
# (参考訳) 非信頼プラットフォームにおける機密機械学習:調査

Confidential Machine Learning on Untrusted Platforms: A Survey ( http://arxiv.org/abs/2012.08156v1 )

ライセンス: CC BY 4.0
Sagar Sharma, Keke Chen(参考訳) 成長を続けるデータと強力な機械学習モデルの開発の必要性により、データ所有者はますます信頼できないプラットフォーム(パブリッククラウド、エッジ、マシンラーニングサービスプロバイダなど)に依存している。 しかし、機密データやモデルは不正アクセス、誤用、プライバシー侵害の影響を受けやすい。 近年,信頼できないプラットフォームで暗号化されたアウトソーシングデータの機械学習モデルをトレーニングする研究が進められている。 本調査では、この新興分野の研究を、主要な課題とアプローチを強調する統一的な枠組みで要約する。 ハードウェア支援型秘密コンピューティング環境における摂動に基づくアプローチやCMLといった他の方向性についても取り上げながら、機密機械学習(CML)の暗号的アプローチに焦点を当てる。 議論は、関連する脅威モデル、セキュリティ仮定、攻撃、設計哲学、およびデータユーティリティ、コスト、機密性の間の関連するトレードオフのリッチなコンテキストを検討するための包括的な方法を取る。

With ever-growing data and the need for developing powerful machine learning models, data owners increasingly depend on untrusted platforms (e.g., public clouds, edges, and machine learning service providers). However, sensitive data and models become susceptible to unauthorized access, misuse, and privacy compromises. Recently, a body of research has been developed to train machine learning models on encrypted outsourced data with untrusted platforms. In this survey, we summarize the studies in this emerging area with a unified framework to highlight the major challenges and approaches. We will focus on the cryptographic approaches for confidential machine learning (CML), while also covering other directions such as perturbation-based approaches and CML in the hardware-assisted confidential computing environment. The discussion will take a holistic way to consider a rich context of the related threat models, security assumptions, attacks, design philosophies, and associated trade-offs amongst data utility, cost, and confidentiality.
翻訳日:2021-05-08 09:56:23 公開日:2020-12-15
# (参考訳) AIOpsにおけるシステムマッピングの研究

A Systematic Mapping Study in AIOps ( http://arxiv.org/abs/2012.09108v1 )

ライセンス: CC BY 4.0
Paolo Notaro, Jorge Cardoso, and Michael Gerndt(参考訳) 今日のITシステムはますます複雑になり、人間の監督がより困難になっています。 AIとビッグデータのおかげで、現代的なIT管理の課題に取り組むために、AIOps(Artificial Intelligence for IT Operations)が提案されている。 しかし、過去のaiopsの貢献は散在し、組織化されておらず、共通の用語規約を欠いているため、発見と比較は現実的ではない。 本稿では,aiopsに対する多数の散在する貢献をユニークな参照インデックスで収集し整理するために,詳細なマッピング研究を行う。 AIOps分類を作成し、将来のコントリビューションのための基盤を構築し、同様の問題を扱うAIOps論文の効率的な比較を可能にします。 アルゴリズムやデータソース,ターゲットコンポーネントの選択に基づいて,aiopsコントリビューションの時間的傾向を調査し,分類する。 以上の結果から,aiopsに対する近年の関心が高まり,特に異常検出や根本原因分析などの障害関連タスク(62%)の処理に寄与していることが明らかとなった。

IT systems of today are becoming larger and more complex, rendering their human supervision more difficult. Artificial Intelligence for IT Operations (AIOps) has been proposed to tackle modern IT administration challenges thanks to AI and Big Data. However, past AIOps contributions are scattered, unorganized and missing a common terminology convention, which renders their discovery and comparison impractical. In this work, we conduct an in-depth mapping study to collect and organize the numerous scattered contributions to AIOps in a unique reference index. We create an AIOps taxonomy to build a foundation for future contributions and allow an efficient comparison of AIOps papers treating similar problems. We investigate temporal trends and classify AIOps contributions based on the choice of algorithms, data sources and the target components. Our results show a recent and growing interest towards AIOps, specifically to those contributions treating failure-related tasks (62%), such as anomaly detection and root cause analysis.
翻訳日:2021-05-08 09:36:47 公開日:2020-12-15
# (参考訳) アンサンブル学習におけるバッキング・アンド・インターバルアグリーメントアプローチ(iaa)に基づく新しい間隔ベースアグリゲーションアプローチ

A new interval-based aggregation approach based on bagging and Interval Agreement Approach (IAA) in ensemble learning ( http://arxiv.org/abs/2101.10267v1 )

ライセンス: CC BY 4.0
Mansoureh Maadia, Uwe Aickelin, Hadi Akbarzadeh Khorshidi(参考訳) アンサンブル学習の主な目的は、1つの分類器出力ではなく複数の個別分類器出力を使用してより正確な分類を行うことである。 アンサンブル分類器の生成は、基本分類器の選択、異なる個別分類器の生成のためのサンプリング戦略の適用、および出力の集約の3段階からなる。 本稿では, アンサンブル学習において, ガベージ・リサンプリング・アプローチとIAA(Interval Agreement Approach)を用いた, 間隔に基づく新たなアグリゲーション・モデルを提案する。 iaaは意思決定における興味深い実践的な集約アプローチであり、意思決定者が意見を一定間隔で提示する際の意見を結合するために導入された。 本稿では,アンサンブル学習における新たなアグリゲーションアプローチの実施に加えて,より不確実性を維持し,より正確な分類を実現するために,アンサンブル学習におけるインターバルモデリングの利用を促す実験を行った。 そこで本研究では,本手法を10項目の医学データセットにおいて最も一般的かつ成功した集計関数として多数票を得た結果と比較し,アンサンブル学習に関して,区間モデリングと区間ベース集計関数の性能向上を示す。 その結果,提案手法の有効性が確認された。

The main aim in ensemble learning is using multiple individual classifiers outputs rather than one classifier output to aggregate them for more accurate classification. Generating an ensemble classifier generally is composed of three steps: selecting the base classifier, applying a sampling strategy to generate different individual classifiers and aggregation the classifiers outputs. This paper focuses on the classifiers outputs aggregation step and presents a new interval-based aggregation modeling using bagging resampling approach and Interval Agreement Approach (IAA) in ensemble learning. IAA is an interesting and practical aggregation approach in decision making which was introduced to combine decision makers opinions when they present their opinions by intervals. In this paper, in addition to implementing a new aggregation approach in ensemble learning, we designed some experiments to encourage researchers to use interval modeling in ensemble learning because it preserves more uncertainty and this leads to more accurate classification. For this purpose, we compared the results of implementing the proposed method to the majority vote as the most common and successful aggregation function in the literature on 10 medical data sets to show the better performance of the interval modeling and the proposed interval-based aggregation function in binary classification when it comes to ensemble learning. The results confirm the good performance of our proposed approach.
翻訳日:2021-05-08 09:25:17 公開日:2020-12-15
# (参考訳) 深部核融合クラスタリングネットワーク

Deep Fusion Clustering Network ( http://arxiv.org/abs/2012.09600v1 )

ライセンス: CC BY 4.0
Wenxuan Tu, Sihang Zhou, Xinwang Liu, Xifeng Guo, Zhiping Cai, En zhu, Jieren Cheng(参考訳) ディープクラスタリングは、データ分析の基本的な課題ですが、難しい課題です。 近年,自動エンコーダとグラフニューラルネットワークを組み合わせることで,構造情報をクラスタリング性能向上に活用する傾向が強まっている。 しかし,1) 既存の文献では, コンセンサス表現学習のためのグラフ構造やノード属性の情報を選択的に統合・洗練するための動的融合機構が欠如している。 以上の課題に対処するため,Deep Fusion Clustering Network (DFCN)を提案する。 具体的には,相互依存学習に基づく構造化・属性情報融合(SAIF)モジュールを提案し,コンセンサス表現学習のためのオートエンコーダとグラフオートエンコーダで学習した表現を明示的にマージする。 また、ネットワークトレーニングのために、信頼性の高い目標分布生成手段と、モダリティ間の情報活用を容易にする三重化セルフスーパービジョン戦略を設計する。 6つのベンチマークデータセットに対する大規模な実験により、提案されたDFCNは最先端のディープクラスタリング手法よりも一貫して優れていることが示された。

Deep clustering is a fundamental yet challenging task for data analysis. Recently we witness a strong tendency of combining autoencoder and graph neural networks to exploit structure information for clustering performance enhancement. However, we observe that existing literature 1) lacks a dynamic fusion mechanism to selectively integrate and refine the information of graph structure and node attributes for consensus representation learning; 2) fails to extract information from both sides for robust target distribution (i.e., "groundtruth" soft labels) generation. To tackle the above issues, we propose a Deep Fusion Clustering Network (DFCN). Specifically, in our network, an interdependency learning-based Structure and Attribute Information Fusion (SAIF) module is proposed to explicitly merge the representations learned by an autoencoder and a graph autoencoder for consensus representation learning. Also, a reliable target distribution generation measure and a triplet self-supervision strategy, which facilitate cross-modality information exploitation, are designed for network training. Extensive experiments on six benchmark datasets have demonstrated that the proposed DFCN consistently outperforms the state-of-the-art deep clustering methods.
翻訳日:2021-05-08 09:06:22 公開日:2020-12-15
# (参考訳) 不均衡データと希少事象の再サンプリングにおける多様性の重要性について

On the Importance of Diversity in Re-Sampling for Imbalanced Data and Rare Events in Mortality Risk Models ( http://arxiv.org/abs/2012.09645v1 )

ライセンス: CC BY 4.0
Yuxuan (Diana) Yang, Hadi Akbarzadeh Khorshidi, Uwe Aickelin, Aditi Nevgi, Elif Ekinci(参考訳) 合併症のある患者では外科的リスクが著しく増加する。 この結果、外科医と患者の意思決定を支援するために関連する外科的リスクを定式化する目的で、多数のリスク階層化ツールが作られた。 外科的アウトカムリスクツール(英: Surgery Outcome Risk Tool、SORT)は、イギリスにおける主要な外科手術における周術期を通して死亡リスクを予測するために開発されたツールの1つである。 本研究では,データセット内のクラス不均衡に対処することにより,元のSORT予測モデル(UK SORT)を強化する。 提案手法は,マイノリティ(モータリティ)イベントの検出における分類器の能力を高めるために,共通再サンプリング手法を用いた多様性に基づく選択の適用を検討する。 トレーニングデータセット間の多様性は、マイノリティ/マイジョリティクラス領域の正確な描写を維持するために必要不可欠な要素であり、メインストリームサンプリングアプローチの一般化問題を解決する。 多様性を評価するために,Sollow-Polasky測度をドロップイン機能として利用し,最も類似性の高い部分集合を識別・破棄するgreedyアルゴリズムを追加した。 さらに、実証実験により、多様性に基づくデータセットよりも訓練された分類器の性能が10個の外部データセットよりも優れていることを示す。 多様性に基づく再サンプリング手法により,UK SORTアルゴリズムの性能は1.4ドル向上した。

Surgical risk increases significantly when patients present with comorbid conditions. This has resulted in the creation of numerous risk stratification tools with the objective of formulating associated surgical risk to assist both surgeons and patients in decision-making. The Surgical Outcome Risk Tool (SORT) is one of the tools developed to predict mortality risk throughout the entire perioperative period for major elective in-patient surgeries in the UK. In this study, we enhance the original SORT prediction model (UK SORT) by addressing the class imbalance within the dataset. Our proposed method investigates the application of diversity-based selection on top of common re-sampling techniques to enhance the classifier's capability in detecting minority (mortality) events. Diversity amongst training datasets is an essential factor in ensuring re-sampled data keeps an accurate depiction of the minority/majority class region, thereby solving the generalization problem of mainstream sampling approaches. We incorporate the use of the Solow-Polasky measure as a drop-in functionality to evaluate diversity, with the addition of greedy algorithms to identify and discard subsets that share the most similarity. Additionally, through empirical experiments, we prove that the performance of the classifier trained over diversity-based dataset outperforms the original classifier over ten external datasets. Our diversity-based re-sampling method elevates the performance of the UK SORT algorithm by 1.4$.
翻訳日:2021-05-08 08:51:20 公開日:2020-12-15
# (参考訳) マニファストおよび潜時相互作用を持つ一般化付加モデルによる説明可能な推薦システム

Explainable Recommendation Systems by Generalized Additive Models with Manifest and Latent Interactions ( http://arxiv.org/abs/2012.08196v1 )

ライセンス: CC BY 4.0
Yifeng Guo, Yu Su, Zebin Yang and Aijun Zhang(参考訳) 近年、レコメンデーションシステムの分野は、アイテムがユーザーに推奨される理由の説明を提供する予測モデルの開発に注目が集まっている。 これらの説明は、比較的複雑なモデルに適合させた後、あるいは本質的に解釈可能なモデルに埋め込まれた後診断によって得られる。 本稿では,GAMMLI(Explain and Latent Interaction)を用いた一般化付加モデルに基づく説明可能なレコメンデーションシステムを提案する。 このモデルアーキテクチャは本質的に解釈可能であり、ユーザーとアイテムの主な効果、観察された特徴に基づく明示的なユーザとテーマの相互作用、残差からの潜在的な相互作用効果からなる。 従来の協調フィルタリング法とは異なり、gammliではユーザとアイテムの集団効果が考慮される。 モデル解釈性を向上させるのに有用であり、コールドスタート推奨問題も促進できる。 新しいPythonパッケージGAMMLIは、効率的なモデルトレーニングと結果の可視化解釈のために開発された。 シミュレーションデータと実例に基づく数値実験により,提案手法は予測性能と説明可能な推薦の両方において有益であることが示された。

In recent years, the field of recommendation systems has attracted increasing attention to developing predictive models that provide explanations of why an item is recommended to a user. The explanations can be either obtained by post-hoc diagnostics after fitting a relatively complex model or embedded into an intrinsically interpretable model. In this paper, we propose the explainable recommendation systems based on a generalized additive model with manifest and latent interactions (GAMMLI). This model architecture is intrinsically interpretable, as it additively consists of the user and item main effects, the manifest user-item interactions based on observed features, and the latent interaction effects from residuals. Unlike conventional collaborative filtering methods, the group effect of users and items are considered in GAMMLI. It is beneficial for enhancing the model interpretability, and can also facilitate the cold-start recommendation problem. A new Python package GAMMLI is developed for efficient model training and visualized interpretation of the results. By numerical experiments based on simulation data and real-world cases, the proposed method is shown to have advantages in both predictive performance and explainable recommendation.
翻訳日:2021-05-08 07:30:36 公開日:2020-12-15
# (参考訳) 言語固有の概念階層によるスケーラブルな言語間文書類似性

Scalable Cross-lingual Document Similarity through Language-specific Concept Hierarchies ( http://arxiv.org/abs/2101.03026v1 )

ライセンス: CC BY 4.0
Carlos Badenes-Olmedo, Jose-Luis Redondo Garc\'ia, Oscar Corcho(参考訳) 幅広い言語におけるデジタル記事数の増加と異なる言語の利用の拡大に伴い、多言語コーパスの閲覧を可能にするアノテーションメソッドが求められている。 多言語確率的トピックモデルは、最近、複数の言語のテキストの集合に関するテーマ探索に使用できる半教師付き機械学習モデルのグループとして登場した。 しかし、これらのアプローチは言語に依存しない空間を作るためにテーマに沿ったトレーニングデータを必要とする。 この制約は、このテクニックがトレーニングのソリューションを提供するシナリオの量を制限し、トレーニングフェーズ中に大量の多言語文書の収集が必要な状況にスケールアップすることを困難にします。 本稿では,並列あるいは同等のコーパスや他の種類の翻訳リソースを必要としない教師なし文書類似性アルゴリズムを提案する。 このアルゴリズムは、言語横断ラベルを持つ単一の言語で文書から生成されたトピックをアノテートし、独立に訓練されたモデルから多言語の概念の階層によって文書を記述する。 jcr-acquis corporaの英語版、スペイン語版、フランス語版で行った実験は、同様の内容の文書の分類と分類に関する有望な結果を示している。

With the ongoing growth in number of digital articles in a wider set of languages and the expanding use of different languages, we need annotation methods that enable browsing multi-lingual corpora. Multilingual probabilistic topic models have recently emerged as a group of semi-supervised machine learning models that can be used to perform thematic explorations on collections of texts in multiple languages. However, these approaches require theme-aligned training data to create a language-independent space. This constraint limits the amount of scenarios that this technique can offer solutions to train and makes it difficult to scale up to situations where a huge collection of multi-lingual documents are required during the training phase. This paper presents an unsupervised document similarity algorithm that does not require parallel or comparable corpora, or any other type of translation resource. The algorithm annotates topics automatically created from documents in a single language with cross-lingual labels and describes documents by hierarchies of multi-lingual concepts from independently-trained models. Experiments performed on the English, Spanish and French editions of JCR-Acquis corpora reveal promising results on classifying and sorting documents by similar content.
翻訳日:2021-05-08 07:17:28 公開日:2020-12-15
# (参考訳) アンカーレス物体検出のための合成画像から実画像への教師なし領域適応

Unsupervised Domain Adaptation from Synthetic to Real Images for Anchorless Object Detection ( http://arxiv.org/abs/2012.08205v1 )

ライセンス: CC BY 4.0
Tobias Scheck, Ana Perez Grassi, Gangolf Hirtz(参考訳) 合成画像は、教師付き畳み込みニューラルネットワーク(CNN)をトレーニングするための注釈付きデータセットの生成に伴う高コストを回避する最も有望なソリューションの1つである。 しかし、ネットワークが合成画像から実画像への知識を一般化するためには、ドメイン適応法が必要である。 本稿では、アンカーレス物体検出器に非教師なし領域適応法(UDA)を実装する。 優れた性能のため、アンカーレス検出器は物体検出の分野でますます注目を集めている。 これらの結果は確立されたアンカーベースの手法に匹敵するが、アンカーレス検出器ははるかに高速である。 私たちの研究では、合成画像を含む領域適応問題に対して、最新のアンカーレスアーキテクチャの一つであるCenterNetを使用しました。 アンカーレス検出器のアーキテクチャを利用して,2つのUDA法,ビズ法,エントロピー最小化法,最大二乗損失法を物体検出に適応させることを提案する。 提案手法は, アンカーレス検出器の直接移動に対して, mAPを61 %から69 %まで増加させることができることを示す。 コードはhttps://github.com/scheckmedia/centernet-uda。

Synthetic images are one of the most promising solutions to avoid high costs associated with generating annotated datasets to train supervised convolutional neural networks (CNN). However, to allow networks to generalize knowledge from synthetic to real images, domain adaptation methods are necessary. This paper implements unsupervised domain adaptation (UDA) methods on an anchorless object detector. Given their good performance, anchorless detectors are increasingly attracting attention in the field of object detection. While their results are comparable to the well-established anchor-based methods, anchorless detectors are considerably faster. In our work, we use CenterNet, one of the most recent anchorless architectures, for a domain adaptation problem involving synthetic images. Taking advantage of the architecture of anchorless detectors, we propose to adjust two UDA methods, viz., entropy minimization and maximum squares loss, originally developed for segmentation, to object detection. Our results show that the proposed UDA methods can increase the mAPfrom61 %to69 %with respect to direct transfer on the considered anchorless detector. The code is available: https://github.com/scheckmedia/centernet-uda.
翻訳日:2021-05-08 06:46:57 公開日:2020-12-15
# (参考訳) トピック上の分布からの効率的なクラスタリング

Efficient Clustering from Distributions over Topics ( http://arxiv.org/abs/2012.08206v1 )

ライセンス: CC BY 4.0
Carlos Badenes-Olmedo, Jose-Luis Redondo Garc\'ia, Oscar Corcho(参考訳) テキストに類似した文書のペアを大きなコーパス(例)で見つけたい、というシナリオはたくさんあります。 文献レビューを行う研究者、またはプロジェクト提案を分析するR&Dプロジェクトマネージャ。 これらの接続をプログラム的に発見することは、専門家がこれらの目標を達成するのに役立つが、ドキュメントコーパスのサイズが大きすぎると、ブルートフォースのペアワイズ比較は計算に適さない。 文献のいくつかのアルゴリズムは、検索空間を潜在的に類似した文書を含む領域に分割し、後に比較したペアの数を減らすために他の部分から別々に処理する。 しかし、このような教師なしの手法は依然として時間的コストが高い。 本稿では、類似度関数を計算可能な文書のより小さなサブセットを識別する手段として、コレクション内の文書に対するトピックモデリングアルゴリズムの結果に依存する手法を提案する。 このアプローチは、科学出版分野における類似文書を特定する際に有望な結果が得られることが証明されている。 我々は,最先端のクラスタリング技術に対する我々のアプローチと,トピックモデリングアルゴリズムの異なる構成との比較を行った。 その結果,本手法は,他の解析手法よりも効率がよい(>0.5)ことが示唆された。

There are many scenarios where we may want to find pairs of textually similar documents in a large corpus (e.g. a researcher doing literature review, or an R&D project manager analyzing project proposals). To programmatically discover those connections can help experts to achieve those goals, but brute-force pairwise comparisons are not computationally adequate when the size of the document corpus is too large. Some algorithms in the literature divide the search space into regions containing potentially similar documents, which are later processed separately from the rest in order to reduce the number of pairs compared. However, this kind of unsupervised methods still incur in high temporal costs. In this paper, we present an approach that relies on the results of a topic modeling algorithm over the documents in a collection, as a means to identify smaller subsets of documents where the similarity function can then be computed. This approach has proved to obtain promising results when identifying similar documents in the domain of scientific publications. We have compared our approach against state of the art clustering techniques and with different configurations for the topic modeling algorithm. Results suggest that our approach outperforms (> 0.5) the other analyzed techniques in terms of efficiency.
翻訳日:2021-05-08 06:33:11 公開日:2020-12-15
# (参考訳) 光文字認識と自然言語後処理を用いたインドネシアのIDカードエクストラクタ

Indonesian ID Card Extractor Using Optical Character Recognition and Natural Language Post-Processing ( http://arxiv.org/abs/2101.05214v1 )

ライセンス: CC BY 4.0
Firhan Maulana Rusli, Kevin Akbar Adhiguna, Hendy Irawan(参考訳) 情報技術の発展は、印刷文書のデジタル化の必要性につながる情報交換の方法を変えつつある。 現代では、しばしば発生する詐欺が多い。 アカウント不正を避けるため、OCRとNLPを用いたIDカード抽出による検証が行われた。 光文字認識(OCR)は、画像からテキストを生成する技術である。 ocrを使えば、インドネシアのidカードやkartu tanda penduduk(ktp)もテキストに抽出できます。 これは、サービスオペレーターがデータ入力を簡単にするのに役立つ。 精度を向上させるため,自然言語処理(nlp)法を用いてテキストの修正を行った。 インドネシアのidカード画像50枚で0.78fスコア、idカード1枚あたり4510ミリ秒の抽出が必要。

The development of Information Technology has been increasingly changing the means of information exchange leading to the need of digitizing print documents. In the present era, there is a lot of fraud that often occur. To avoid account fraud there was verification using ID card extraction using OCR and NLP. Optical Character Recognition (OCR) is technology that used to generate text from image. With OCR we can extract Indonesian ID card or kartu tanda penduduk (KTP) into text too. This is using to make easier service operator to do data entry. To improve the accuracy we made text correction using Natural language Processing (NLP) method to fixing the text. With 50 Indonesian ID card image we got 0.78 F-score, and we need 4510 milliseconds to extract per ID card.
翻訳日:2021-05-08 06:21:57 公開日:2020-12-15
# (参考訳) ガウス/ユニフォーム混合モデルを用いたロバスト因子化法

Robust Factorization Methods Using a Gaussian/Uniform Mixture Model ( http://arxiv.org/abs/2012.08243v1 )

ライセンス: CC BY 4.0
Andrei Zaharescu and Radu Horaud(参考訳) 本稿では,アフィン(弱視点)モデルと遠近距離カメラモデルの両方を用いて,形状と運動パラメータを解消するロバストな分解アルゴリズムのクラスを構築する問題に対処する。 ガウス型/一様混合モデルとそのemアルゴリズムを提案する。 これにより、データクラスタリングアプローチでロバストなパラメータ推定に対処できます。 本稿では,任意のアフィン因子分解法に適合するロバストな手法を提案する。 さらに,このようなフレームワークを反復的視点因子化スキームに組み込む方法を示す。 我々は、アルゴリズムを検証し、既存のものと比較するために、多数の実験を行った。 また,M推定器を用いた因子分解法との比較を行った。

In this paper we address the problem of building a class of robust factorization algorithms that solve for the shape and motion parameters with both affine (weak perspective) and perspective camera models. We introduce a Gaussian/uniform mixture model and its associated EM algorithm. This allows us to address robust parameter estimation within a data clustering approach. We propose a robust technique that works with any affine factorization method and makes it robust to outliers. In addition, we show how such a framework can be further embedded into an iterative perspective factorization scheme. We carry out a large number of experiments to validate our algorithms and to compare them with existing ones. We also compare our approach with factorization methods that use M-estimators.
翻訳日:2021-05-08 05:49:52 公開日:2020-12-15
# (参考訳) 燃え尽きる外来治療のための移動型社会的・職業的統合アシスタントの設計

Designing a Mobile Social and Vocational Reintegration Assistant for Burn-out Outpatient Treatment ( http://arxiv.org/abs/2012.08254v1 )

ライセンス: CC BY-SA 4.0
Patrick Gebhard, Tanja Schneeberger, Michael Dietz, Elisabeth Andr\'e, Nida ul Habib Bajwa(参考訳) ソーシャルエージェントを医療助手やトレーナーとして使用することは、IVA研究の焦点となっている。 理学療法としての利用は確立されているが、精神療法の分野での雇用は大変な困難を伴う。 本稿では, 燃え尽き症候群治療のための職業的再統合アシスタントとして, 移動型ソーシャルエージェントであるemmaについて述べる。 専門家や患者を含む典型的な参加型設計アプローチに従い,双方の要求に対応する。 このような治療の成功は、患者の感情調節能力に関連しているため、エージェントの社会的行動に影響を及ぼす感情制御の計算シミュレーションや、言語治療戦略の状況選択と合わせて、リアルタイムの社会的シグナル解釈を行う。 総合的に、我々の学際的アプローチは、燃え尽き症候群患者のアシスタントとしてのソーシャルエージェントの新しい統合概念を可能にする。

Using Social Agents as health-care assistants or trainers is one focus area of IVA research. While their use as physical health-care agents is well established, their employment in the field of psychotherapeutic care comes with daunting challenges. This paper presents our mobile Social Agent EmmA in the role of a vocational reintegration assistant for burn-out outpatient treatment. We follow a typical participatory design approach including experts and patients in order to address requirements from both sides. Since the success of such treatments is related to a patients emotion regulation capabilities, we employ a real-time social signal interpretation together with a computational simulation of emotion regulation that influences the agent's social behavior as well as the situational selection of verbal treatment strategies. Overall, our interdisciplinary approach enables a novel integrative concept for Social Agents as assistants for burn-out patients.
翻訳日:2021-05-08 05:30:37 公開日:2020-12-15
# (参考訳) 機械学習による高スループットスクリーニング

High throughput screening with machine learning ( http://arxiv.org/abs/2012.08275v1 )

ライセンス: CC BY 4.0
Oleksandr Gurbych, Maksym Druchok, Dzvenymyra Yarish, Sofiya Garkot(参考訳) 本研究では,分子結合親和性の予測における機械学習アプローチの有効性を評価する。CatBoost, Graph Attention Neural Network, Bidirectional Encoder Representations from Transformers。 モデルでは、タンパク質と小さな有機分子の対に対する阻害定数$k_i$の観点で結合親和性を予測するように訓練された。 最初の2つのアプローチは、完全に選択された物理化学的特徴を用いるが、第3のアプローチは、テキストによる分子表現に基づいている。 また,Transformerアプローチの注目層を可視化して,相互作用に関与する分子部位を明らかにする。 すべてのアプローチは、既知の構造からのバイアスを回避し、未知の配座を持つ化合物を一般化することができる。 提案手法で得られた精度は,高スループットスクリーニングの可能性を示す。

This study assesses the efficiency of several popular machine learning approaches in the prediction of molecular binding affinity: CatBoost, Graph Attention Neural Network, and Bidirectional Encoder Representations from Transformers. The models were trained to predict binding affinities in terms of inhibition constants $K_i$ for pairs of proteins and small organic molecules. First two approaches use thoroughly selected physico-chemical features, while the third one is based on textual molecular representations - it is one of the first attempts to apply Transformer-based predictors for the binding affinity. We also discuss the visualization of attention layers within the Transformer approach in order to highlight the molecular sites responsible for interactions. All approaches are free from atomic spatial coordinates thus avoiding bias from known structures and being able to generalize for compounds with unknown conformations. The achieved accuracy for all suggested approaches prove their potential in high throughput screening.
翻訳日:2021-05-08 05:16:46 公開日:2020-12-15
# (参考訳) VSQL: 分類のための変分シャドウ量子学習

VSQL: Variational Shadow Quantum Learning for Classification ( http://arxiv.org/abs/2012.08288v1 )

ライセンス: CC BY 4.0
Guangxi Li, Zhixin Song, Xin Wang(参考訳) 量子データの分類は、量子機械学習と短期量子技術に不可欠である。 本稿では,変分影量子学習(VSQL)と呼ばれる,教師付き量子学習のための新しいハイブリッド量子古典的フレームワークを提案する。 特に,量子データの古典的シャドウを用いて,物理観測量に対する量子データの側面情報を表現する。 具体的には,まず変分影量子回路を用いて古典的特徴を畳み込み方法で抽出し,その後,完全連結ニューラルネットワークを用いて分類タスクを完了させる。 本手法は,パラメータ数を著しく削減し,量子回路トレーニングをより容易に行うことができることを示す。 同時に、そのようなシャドウ回路では量子ゲートが少なくなるため、ノイズが少なくなる。 さらに,量子機械学習における重要な勾配解消問題であるバレン高原問題は,VSQLでは回避可能であることを示した。 最後に,量子状態の分類と多段手書き文字の認識に関する数値実験を通して,vsqlの量子分類における効率を示す。 特に当社のvsqlアプローチは,手書き文字認識のバイナリケースにおけるテスト精度において,既存の変分量子分類器よりも優れており,パラメータが大幅に削減されている。

Classification of quantum data is essential for quantum machine learning and near-term quantum technologies. In this paper, we propose a new hybrid quantum-classical framework for supervised quantum learning, which we call Variational Shadow Quantum Learning (VSQL). Our method in particular utilizes the classical shadows of quantum data, which fundamentally represent the side information of quantum data with respect to certain physical observables. Specifically, we first use variational shadow quantum circuits to extract classical features in a convolution way and then utilize a fully-connected neural network to complete the classification task. We show that this method could sharply reduce the number of parameters and thus better facilitate quantum circuit training. Simultaneously, less noise will be introduced since fewer quantum gates are employed in such shadow circuits. Moreover, we show that the Barren Plateau issue, a significant gradient vanishing problem in quantum machine learning, could be avoided in VSQL. Finally, we demonstrate the efficiency of VSQL in quantum classification via numerical experiments on the classification of quantum states and the recognition of multi-labeled handwritten digits. In particular, our VSQL approach outperforms existing variational quantum classifiers in the test accuracy in the binary case of handwritten digit recognition and notably requires much fewer parameters.
翻訳日:2021-05-07 12:56:25 公開日:2020-12-15
# (参考訳) 外部ラベルとドメイン内プリトレインによるマルチモーダルトランスフォーマーの拡張:ヘイトフルミームチャレンジ勝利ソリューション

Enhance Multimodal Transformer With External Label And In-Domain Pretrain: Hateful Meme Challenge Winning Solution ( http://arxiv.org/abs/2012.08290v1 )

ライセンス: CC BY 4.0
Ron Zhu(参考訳) hateful meme detection(ヘイトフルミーム検出)は、ミームの視覚的、言語的理解と、タスクをうまく実行するための背景知識の両方を必要とする、最近発表された新しい研究領域である。 この技術レポートは、最先端の視覚言語トランスフォーマーを拡張してこの問題に取り組む、ヘイトフルミーム検出チャレンジ2020の1位ソリューションをまとめている。 レポートの最後には、現在の方法論を改善するための欠点と可能性についても指摘します。

Hateful meme detection is a new research area recently brought out that requires both visual, linguistic understanding of the meme and some background knowledge to performing well on the task. This technical report summarises the first place solution of the Hateful Meme Detection Challenge 2020, which extending state-of-the-art visual-linguistic transformers to tackle this problem. At the end of the report, we also point out the shortcomings and possible directions for improving the current methodology.
翻訳日:2021-05-07 11:58:26 公開日:2020-12-15
# (参考訳) quarc:ヘイトスピーチ分類のための4次マルチモーダル融合アーキテクチャ

QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech Classification ( http://arxiv.org/abs/2012.08312v1 )

ライセンス: CC BY 4.0
Deepak Kumar, Nalin Kumar and Subhankar Mishra(参考訳) ヘイトスピーチ(Hate speech)は、ソーシャルメディアの時代において非常に一般的であり、時には無害であることもあるが、誰かやコミュニティの暴動に精神的なトラウマを引き起こすこともある。 特定のコミュニティを悪用する男性の軽蔑的なコメントやビデオを持つ宗教的なシンボルの画像は、すべて、そのあらゆるモダリティ(テキスト、画像、オーディオなど)がそれへ寄与するヘイトスピーチとなる。 ソーシャルメディア上でのヘイトスピーチポストの特定のモダリティに基づくモデルは有用ではなく、ヘイトスピーチを分類しながら画像とテキストの両方を考慮したマルチモーダル融合モデルのようなモデルが必要である。 テキスト画像融合モデルは非常にパラメータ化されているため,2対のモダリティに対して融合成分を付加した四元系ニューラルネットワークモデルを提案する。 このモデルは、ヘイトスピーチ分類のためのMMHS150K twitterデータセットでテストされる。 このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。

Hate speech, quite common in the age of social media, at times harmless but can also cause mental trauma to someone or even riots in communities. Image of a religious symbol with derogatory comment or video of a man abusing a particular community, all become hate speech with its every modality (such as text, image, and audio) contributing towards it. Models based on a particular modality of hate speech post on social media are not useful, rather, we need models like multi-modal fusion models that consider both image and text while classifying hate speech. Text-image fusion models are heavily parameterized, hence we propose a quaternion neural network-based model having additional fusion components for each pair of modalities. The model is tested on the MMHS150K twitter dataset for hate speech classification. The model shows an almost 75% reduction in parameters and also benefits us in terms of storage space and training time while being at par in terms of performance as compared to its real counterpart.
翻訳日:2021-05-07 11:51:24 公開日:2020-12-15
# (参考訳) 不確実性推定のためのマスク組

Masksembles for Uncertainty Estimation ( http://arxiv.org/abs/2012.08334v1 )

ライセンス: CC BY 4.0
Nikita Durasov, Timur Bagautdinov, Pierre Baque, Pascal Fua(参考訳) ディープ・ニューラル・ネットワークは彼らの進歩を十分に実証しているが、予測の信頼性を推定するのは難しい。 深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。 mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。 我々の中心的な直観は、MC-DropoutとDeep Ensemblesが極端な例であるアンサンブルのようなモデルの連続スペクトルが存在するということである。 1つは事実上無限個の高相関モデルを使用し、2つは有限個の独立モデルに依存している。 両方の利点を組み合わせるために、Masksemblesを紹介します。 mc-dropoutのようにネットワークの一部をランダムにドロップする代わりに、 masksembleは固定数のバイナリマスクに依存しており、個々のモデル間の相関を変更できるようにパラメータ化されている。 すなわち、マスクと密度の重なりを制御することで、目の前のタスクの最適な構成を選択することができる。 これにより、Ensemblesと同等のパフォーマンスで、少しのコストで、シンプルで簡単に実装できるメソッドが実現できます。 CIFAR10とImageNetの2つの広く使われているデータセット上で,Masksemblesを実験的に検証した。

Deep neural networks have amply demonstrated their prowess but estimating the reliability of their predictions remains challenging. Deep Ensembles are widely considered as being one of the best methods for generating uncertainty estimates but are very expensive to train and evaluate. MC-Dropout is another popular alternative, which is less expensive, but also less reliable. Our central intuition is that there is a continuous spectrum of ensemble-like models of which MC-Dropout and Deep Ensembles are extreme examples. The first uses an effectively infinite number of highly correlated models while the second relies on a finite number of independent models. To combine the benefits of both, we introduce Masksembles. Instead of randomly dropping parts of the network as in MC-dropout, Masksemble relies on a fixed number of binary masks, which are parameterized in a way that allows to change correlations between individual models. Namely, by controlling the overlap between the masks and their density one can choose the optimal configuration for the task at hand. This leads to a simple and easy to implement method with performance on par with Ensembles at a fraction of the cost. We experimentally validate Masksembles on two widely used datasets, CIFAR10 and ImageNet.
翻訳日:2021-05-07 11:42:45 公開日:2020-12-15
# (参考訳) ロバストニューラルネットワーク翻訳のためのホモホンノイズのモデル化

Modeling Homophone Noise for Robust Neural Machine Translation ( http://arxiv.org/abs/2012.08396v1 )

ライセンス: CC BY 4.0
Wenjie Qin, Xiang Li, Yuhui Sun, Deyi Xiong, Jianwei Cui, Bin Wang(参考訳) 本稿では,頑健なニューラルネットワーク翻訳(NMT)フレームワークを提案する。 このフレームワークは、ホモフォーンノイズ検知器と、ホモフォーンエラーに対する音節認識NMTモデルで構成されている。 検出器は、テキスト文中の潜在的ホモフォン誤りを特定し、それらを音節に変換して混合シーケンスを形成し、音節認識NMTに入力する。 広範にわたる中国語訳実験により, 提案手法は, 音素雑音を伴う雑音テスト集合のベースラインを著しく上回るだけでなく, クリーンテキストの大幅な改善を実現した。

In this paper, we propose a robust neural machine translation (NMT) framework. The framework consists of a homophone noise detector and a syllable-aware NMT model to homophone errors. The detector identifies potential homophone errors in a textual sentence and converts them into syllables to form a mixed sequence that is then fed into the syllable-aware NMT. Extensive experiments on Chinese->English translation demonstrate that our proposed method not only significantly outperforms baselines on noisy test sets with homophone noise, but also achieves a substantial improvement on clean text.
翻訳日:2021-05-07 11:27:52 公開日:2020-12-15
# (参考訳) 知識グラフと自然言語処理

Knowledge Graphs and Natural-Language Processing ( http://arxiv.org/abs/2101.06111v1 )

ライセンス: CC BY 4.0
Andreas L Opdahl(参考訳) 緊急関連データは多種多様である。 ハイボリュームで高速で、反応時間は重要であり、データ分析と管理のための効率的で強力な技術を求めている。 知識グラフは、緊急管理のニーズによくマッチする、豊かで柔軟な、均一な方法でデータを表現します。 それらは既存の標準、リソース、技術、セマンティックデータとコンピューティングのためのツールの上に構築される。 この章では、最も重要なセマンティック技術と、それらが知識グラフをどのようにサポートするかを説明します。 我々は,それらの利点と課題を議論し,関連する意味的データソースと語彙の例を示す。 自然言語テキスト(特にTwitterのようなソーシャルメディアから集めたもの)は、特定の分析課題を引き起こすデータソースの一種である。 したがって、自然言語テキストの処理技術の概要を含める。

Emergency-relevant data comes in many varieties. It can be high volume and high velocity, and reaction times are critical, calling for efficient and powerful techniques for data analysis and management. Knowledge graphs represent data in a rich, flexible, and uniform way that is well matched with the needs of emergency management. They build on existing standards, resources, techniques, and tools for semantic data and computing. This chapter explains the most important semantic technologies and how they support knowledge graphs. We proceed to discuss their benefits and challenges and give examples of relevant semantic data sources and vocabularies. Natural-language texts -- in particular those collected from social media such as Twitter -- is a type of data source that poses particular analysis challenges. We therefore include an overview of techniques for processing natural-language texts.
翻訳日:2021-05-07 11:19:09 公開日:2020-12-15
# (参考訳) InfluxDBとPythonを用いた時系列データの異常検出

Detection of Anomalies in a Time Series Data using InfluxDB and Python ( http://arxiv.org/abs/2012.08439v1 )

ライセンス: CC BY 4.0
Tochukwu John Anih, Chika Amadi Bede, and Chima Festus Umeokpala(参考訳) 水と環境データの分析は多くのインテリジェントな水と環境システムの応用において重要な側面であり、そのような分析からの推論が意思決定において重要な役割を果たす。 センシティブなセンサーによって収集されるこれらのデータは、システムの故障やセンサー検出器の故障など、さまざまな理由により異常な場合がある。 根本原因にかかわらず、これらのデータはその後の分析結果に大きく影響する。 本稿では,時系列データのクリーニングと準備を行い,時系列データの異常点検出のための解としてコストに敏感な機械学習アルゴリズムを提案する。 ロジスティック回帰、ランダムフォレスト、サポートベクターマシンは、誤分類サンプルをペナルティ化するコスト感受性学習をサポートするために修正され、全体的な誤分類コストを最小化する。 その結果,ランダムフォレストは正のクラス(すなわち異常)を予測するのに他のモデルよりも優れていた。 データオーバーサンプリングのような予測モデルの改善技術を適用することは、ランダムフォレストモデルにはほとんど、あるいは全く改善しないようだ。 興味深いことに、再帰的特徴除去により、我々はより良いモデル性能を達成し、データの次元を減らした。 最後に、InfluxdbとKapacitorは、データを取り込み、ストリームし、新しいデータポイントを生成して、目に見えないデータでモデルパフォーマンスを更に評価する。これにより、飲料水の品質の望ましくない変化を早期に認識し、望ましくない変化が何であれ、水供給会社がタイムリーに修正できるようにする。

Analysis of water and environmental data is an important aspect of many intelligent water and environmental system applications where inference from such analysis plays a significant role in decision making. Quite often these data that are collected through sensible sensors can be anomalous due to different reasons such as systems breakdown, malfunctioning of sensor detectors, and more. Regardless of their root causes, such data severely affect the results of the subsequent analysis. This paper demonstrates data cleaning and preparation for time-series data and further proposes cost-sensitive machine learning algorithms as a solution to detect anomalous data points in time-series data. The following models: Logistic Regression, Random Forest, Support Vector Machines have been modified to support the cost-sensitive learning which penalizes misclassified samples thereby minimizing the total misclassification cost. Our results showed that Random Forest outperformed the rest of the models at predicting the positive class (i.e anomalies). Applying predictive model improvement techniques like data oversampling seems to provide little or no improvement to the Random Forest model. Interestingly, with recursive feature elimination, we achieved a better model performance thereby reducing the dimensions in the data. Finally, with Influxdb and Kapacitor the data was ingested and streamed to generate new data points to further evaluate the model performance on unseen data, this will allow for early recognition of undesirable changes in the drinking water quality and will enable the water supply companies to rectify on a timely basis whatever undesirable changes abound.
翻訳日:2021-05-07 11:05:06 公開日:2020-12-15
# (参考訳) 深層埋め込みベクトルの客観的階層クラスタリング

Objective-Based Hierarchical Clustering of Deep Embedding Vectors ( http://arxiv.org/abs/2012.08466v1 )

ライセンス: CC BY 4.0
Stanislav Naumov, Grigory Yaroslavtsev, Dmitrii Avdiukhin(参考訳) 我々は,コンピュータビジョンおよびnlpアプリケーションからの深い埋め込みベクトルからなる大規模データセット上での,客観的な階層クラスタリング手法に関する包括的実験を開始する。 これには、ImageNet、ImageNetV2、NaBirds)、ワード埋め込み(Twitter、Wikipedia)、およびいくつかの最近の人気モデルの文埋め込み(SST-2)ベクターが含まれる。 ResNet, ResNext, Inception V3, SBERT)。 私たちの研究には、最大450万ドルのエントリを持つデータセットが含まれており、埋め込み次元は2048ドルです。 このような大規模データセットへの階層的クラスタリングのスケールアップという課題に対処するため、我々は新しい実用的な階層的クラスタリングアルゴリズムb++&cを提案する。 人気の高いMoseley-Wang (MW) / Cohen-Addad et alでは、平均で5%/20%改善されている。 (CKMM)目的(正規化)は、様々な古典的手法や最近のヒューリスティックスと比較される。 また、CKMMの目的を多項式時間で0.74$-近似する理論アルゴリズムB2SAT&Cを導入する。 これは、ランダムなバイナリツリーによって達成された自明な2/3$-近似に対する最初の実質的な改善である。 この研究に先立ち、$\approx 2/3 + 0.0004$の最も優れたポリ時間近似はCharikarらによる。 (SODA'19)。

We initiate a comprehensive experimental study of objective-based hierarchical clustering methods on massive datasets consisting of deep embedding vectors from computer vision and NLP applications. This includes a large variety of image embedding (ImageNet, ImageNetV2, NaBirds), word embedding (Twitter, Wikipedia), and sentence embedding (SST-2) vectors from several popular recent models (e.g. ResNet, ResNext, Inception V3, SBERT). Our study includes datasets with up to $4.5$ million entries with embedding dimensions up to $2048$. In order to address the challenge of scaling up hierarchical clustering to such large datasets we propose a new practical hierarchical clustering algorithm B++&C. It gives a 5%/20% improvement on average for the popular Moseley-Wang (MW) / Cohen-Addad et al. (CKMM) objectives (normalized) compared to a wide range of classic methods and recent heuristics. We also introduce a theoretical algorithm B2SAT&C which achieves a $0.74$-approximation for the CKMM objective in polynomial time. This is the first substantial improvement over the trivial $2/3$-approximation achieved by a random binary tree. Prior to this work, the best poly-time approximation of $\approx 2/3 + 0.0004$ was due to Charikar et al. (SODA'19).
翻訳日:2021-05-07 09:55:12 公開日:2020-12-15
# (参考訳) 部分観測木CRFを用いたNested Named Entity Recognition

Nested Named Entity Recognition with Partially-Observed TreeCRFs ( http://arxiv.org/abs/2012.08478v1 )

ライセンス: CC BY 4.0
Yao Fu, Chuanqi Tan, Mosha Chen, Songfang Huang, Fei Huang(参考訳) 名前付きエンティティ認識(NER)は自然言語処理においてよく研究されているタスクである。 しかし、広く使われているシーケンスラベリングフレームワークは、ネスト構造を持つエンティティを検出するのが難しい。 本研究では,nested nerを,部分観測木を用いた構成構文解析として捉え,部分観測木crfを用いてモデル化する。 具体的には、全てのラベル付きエンティティスパンを指数木内の観測ノードとして、その他のスパンを潜在ノードとして見る。 TreeCRFを使用することで、観測されたノードと潜伏ノードを共同でモデル化する均一な方法を実現する。 部分木の部分的辺縁化の確率を計算するために,異なるノードに対する異なる推論操作(観測値の評価,潜伏値の辺縁化,観測値と互換性のないノードの拒絶)を効率よく並列化することで,トレーニングと推論を著しく高速化する,Insideアルゴリズムの変種である‘textsc{Masked Inside} アルゴリズムを提案する。 実験の結果,本手法はace2004,ace2005データセットの最先端(sota)f1スコアを達成し,geniaデータセットのsomaモデルと同等の性能を示す。 当社のアプローチは、次のような形で実装されています。

Named entity recognition (NER) is a well-studied task in natural language processing. However, the widely-used sequence labeling framework is difficult to detect entities with nested structures. In this work, we view nested NER as constituency parsing with partially-observed trees and model it with partially-observed TreeCRFs. Specifically, we view all labeled entity spans as observed nodes in a constituency tree, and other spans as latent nodes. With the TreeCRF we achieve a uniform way to jointly model the observed and the latent nodes. To compute the probability of partial trees with partial marginalization, we propose a variant of the Inside algorithm, the \textsc{Masked Inside} algorithm, that supports different inference operations for different nodes (evaluation for the observed, marginalization for the latent, and rejection for nodes incompatible with the observed) with efficient parallelized implementation, thus significantly speeding up training and inference. Experiments show that our approach achieves the state-of-the-art (SOTA) F1 scores on the ACE2004, ACE2005 dataset, and shows comparable performance to SOTA models on the GENIA dataset. Our approach is implemented at: \url{https://github.com/FranxYao/Partially-Observed-TreeCRFs}.
翻訳日:2021-05-07 09:54:06 公開日:2020-12-15
# (参考訳) データサイエンスのための分光法:統計的展望

Spectral Methods for Data Science: A Statistical Perspective ( http://arxiv.org/abs/2012.08496v1 )

ライセンス: CC BY 4.0
Yuxin Chen, Yuejie Chi, Jianqing Fan, Cong Ma(参考訳) スペクトル法は、巨大でノイズの多い不完全なデータから情報を抽出するための単純で驚くほど効果的な手法として登場した。 簡単に言えば、スペクトル法は固有値(resp)に基づいて構築されたアルゴリズムの集合を指す。 特異値)と固有ベクトル(resp。 データから構築されたいくつかの適切に設計された行列の特異ベクトル)。 様々な応用が機械学習、データサイエンス、信号処理で発見されている。 その単純さと有効性のため、スペクトル法は単独の推定器としてだけでなく、他の洗練されたアルゴリズムを初期化して性能を向上させるために頻繁に用いられる。 スペクトル法の研究は古典的行列摂動理論やモーメントの方法に遡ることができるが、過去10年間、非漸近的ランダム行列理論(英語版)の助けを借りて、統計モデリングのレンズを通してその効力を減弱する理論的な進歩を目撃してきた。 このモノグラフは、現代の統計的観点から、体系的で包括的でアクセスしやすいスペクトル法の導入を示し、様々な大規模アプリケーションにおけるアルゴリズムの影響を強調することを目的としている。 特に,統計的精度の目標レベルに達する際のスペクトル法のサンプル効率を特徴付ける方法や,無作為なノイズやデータ不足,反面的な汚職に対して,その安定性を評価する方法など,さまざまな応用分野にまたがるいくつかの中心的疑問を浮き彫りにした。 従来の $\ell_2$ 摂動解析に加えて、固有空間と特異部分空間に対する体系的な $\ell_{\infty}$ と $\ell_{2,\infty}$ 摂動理論を提示する。

Spectral methods have emerged as a simple yet surprisingly effective approach for extracting information from massive, noisy and incomplete data. In a nutshell, spectral methods refer to a collection of algorithms built upon the eigenvalues (resp. singular values) and eigenvectors (resp. singular vectors) of some properly designed matrices constructed from data. A diverse array of applications have been found in machine learning, data science, and signal processing. Due to their simplicity and effectiveness, spectral methods are not only used as a stand-alone estimator, but also frequently employed to initialize other more sophisticated algorithms to improve performance. While the studies of spectral methods can be traced back to classical matrix perturbation theory and methods of moments, the past decade has witnessed tremendous theoretical advances in demystifying their efficacy through the lens of statistical modeling, with the aid of non-asymptotic random matrix theory. This monograph aims to present a systematic, comprehensive, yet accessible introduction to spectral methods from a modern statistical perspective, highlighting their algorithmic implications in diverse large-scale applications. In particular, our exposition gravitates around several central questions that span various applications: how to characterize the sample efficiency of spectral methods in reaching a target level of statistical accuracy, and how to assess their stability in the face of random noise, missing data, and adversarial corruptions? In addition to conventional $\ell_2$ perturbation analysis, we present a systematic $\ell_{\infty}$ and $\ell_{2,\infty}$ perturbation theory for eigenspace and singular subspaces, which has only recently become available owing to a powerful "leave-one-out" analysis framework.
翻訳日:2021-05-07 09:33:58 公開日:2020-12-15
# (参考訳) エンドツーエンドの音声言語理解のためのトランスファー学習の探索

Exploring Transfer Learning For End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2012.08549v1 )

ライセンス: CC BY 4.0
Subendhu Rongali, Beiye Liu, Liwei Cai, Konstantine Arkoudas, Chengwei Su, and Wael Hamza(参考訳) Alexa、Siri、Google Assistantなどの音声アシスタントは通常、2段階の音声理解パイプラインを使用する。まず、顧客音声を処理してテキストの書き起こしを生成する自動音声認識(ASR)コンポーネント、続いて自然言語理解(NLU)コンポーネントを使用して、書き起こしを実行可能な仮説にマッピングする。 音声から仮説へ直接移動するエンドツーエンド(E2E)システムは、より魅力的な選択肢である。 これらのシステムはより小さく、より速く、より最適化された。 しかし、それらは大量のエンドツーエンドのトレーニングデータを必要とし、さらに、既に利用可能なASRとNLUのトレーニングデータを利用できない。 本研究では,音声合成やSLU (speech-hypothesis)やNLU (text-hypothesis)などのテキスト・テキスト・タスクを共同で学習するE2Eシステムを提案する。 我々はこれをAudio-Text All-Task (AT-AT) Modelと呼び、個々のタスク、特に限られたデータでトレーニングされたE2Eモデルのパフォーマンスを上回ります。 この結果は、内部音楽データセットと2つの公開データセット、fluentspeech と snips audioで示され、最先端の結果を得る。 我々のモデルは、音声とテキストの両方の入力シーケンスを処理し、ターゲットシーケンスを予測することができるので、新しいドメインからのテキストハイブリッドデータのみをトレーニングすることで、ゼロショットE2E SLUを実行できる。 我々はこのモデルをfacebook top dataset上で評価し、zeroshot e2eパフォーマンスの新しいベンチマークを設定した。 今後,TOPデータセットから収集した音声データについて検討する。

Voice Assistants such as Alexa, Siri, and Google Assistant typically use a two-stage Spoken Language Understanding pipeline; first, an Automatic Speech Recognition (ASR) component to process customer speech and generate text transcriptions, followed by a Natural Language Understanding (NLU) component to map transcriptions to an actionable hypothesis. An end-to-end (E2E) system that goes directly from speech to a hypothesis is a more attractive option. These systems were shown to be smaller, faster, and better optimized. However, they require massive amounts of end-to-end training data and in addition, don't take advantage of the already available ASR and NLU training data. In this work, we propose an E2E system that is designed to jointly train on multiple speech-to-text tasks, such as ASR (speech-transcription) and SLU (speech-hypothesis), and text-to-text tasks, such as NLU (text-hypothesis). We call this the Audio-Text All-Task (AT-AT) Model and we show that it beats the performance of E2E models trained on individual tasks, especially ones trained on limited data. We show this result on an internal music dataset and two public datasets, FluentSpeech and SNIPS Audio, where we achieve state-of-the-art results. Since our model can process both speech and text input sequences and learn to predict a target sequence, it also allows us to do zero-shot E2E SLU by training on only text-hypothesis data (without any speech) from a new domain. We evaluate this ability of our model on the Facebook TOP dataset and set a new benchmark for zeroshot E2E performance. We will soon release the audio data collected for the TOP dataset for future research.
翻訳日:2021-05-07 08:55:13 公開日:2020-12-15
# (参考訳) ディープラーニングを用いたニューラルネットワークを用いたコンピュータシステムの侵入検出

Intrusion detection in computer systems by using artificial neural networks with Deep Learning approaches ( http://arxiv.org/abs/2012.08559v1 )

ライセンス: CC BY 4.0
Sergio Hidalgo-Espinoza and Kevin Chamorro-Cupueran and Oscar Chang-Tortolero(参考訳) コンピュータネットワークへの侵入検知は、サイバーセキュリティにおける最も重要な問題の1つとなっている。 攻撃者は情報セキュリティシステムに侵入する新たな脆弱性を発見するため、調査とコーディングを続けます。 その結果、コンピュータシステムはハッカーを困らせるために最新の技術を使って毎日アップグレードされなければならない。 本稿では,ディープラーニングアーキテクチャに基づく侵入検知システムの設計と実装に焦点を当てる。 最初のステップとして、浅いネットワークは、Dataset CICIDS2017から取得した[コンピュータネットワークに]ラベル付きログインでトレーニングされる。 このネットワークの内部動作は、侵入予測精度の関数ピークに達するまでプロットと探索コードを用いて注意深く追跡・調整される。 第2のステップとして、大きな未ラベルデータで訓練されたオートエンコーダが、圧縮された情報と抽象表現を元の浅層ネットワークに供給する中間プロセッサとして使用される。 その結果、ディープアーキテクチャは浅いネットワークのどのバージョンよりも性能が良いことが証明された。 matlabで書かれた関数型コードスクリプトは、実データを使用して証明された再学習可能なシステムを表しており、精度と応答が良好である。

Intrusion detection into computer networks has become one of the most important issues in cybersecurity. Attackers keep on researching and coding to discover new vulnerabilities to penetrate information security system. In consequence computer systems must be daily upgraded using up-to-date techniques to keep hackers at bay. This paper focuses on the design and implementation of an intrusion detection system based on Deep Learning architectures. As a first step, a shallow network is trained with labelled log-in [into a computer network] data taken from the Dataset CICIDS2017. The internal behaviour of this network is carefully tracked and tuned by using plotting and exploring codes until it reaches a functional peak in intrusion prediction accuracy. As a second step, an autoencoder, trained with big unlabelled data, is used as a middle processor which feeds compressed information and abstract representation to the original shallow network. It is proven that the resultant deep architecture has a better performance than any version of the shallow network alone. The resultant functional code scripts, written in MATLAB, represent a re-trainable system which has been proved using real data, producing good precision and fast response.
翻訳日:2021-05-07 08:40:21 公開日:2020-12-15
# (参考訳) 雑音ラベル下のロバスト最適分類木

Robust Optimal Classification Trees under Noisy Labels ( http://arxiv.org/abs/2012.08560v1 )

ライセンス: CC BY 4.0
V\'ictor Blanco and Alberto Jap\'on and Justo Puerto(参考訳) 本稿では,学習サンプルにノイズラベルが存在することを考慮し,最適分類木を構築するための新しい手法を提案する。 本手法は,(1)SVMのパラダイムを適用したクラス間の分離マージンを最大化するために,分類木の分割ルールを設計し,(2)ラベルノイズを検知しようとする木の構築中に,トレーニングサンプルのラベルを変更することを許している。 どちらの特徴も考慮され統合され、結果の最適分類木を設計する。 本稿では,本問題に対する混合整数非線形計画式を提案する。 UCI Machine Learningレポジトリから取得した標準データセットのバッテリを解析してテストし、このアプローチの有効性を示す。

In this paper we propose a novel methodology to construct Optimal Classification Trees that takes into account that noisy labels may occur in the training sample. Our approach rests on two main elements: (1) the splitting rules for the classification trees are designed to maximize the separation margin between classes applying the paradigm of SVM; and (2) some of the labels of the training sample are allowed to be changed during the construction of the tree trying to detect the label noise. Both features are considered and integrated together to design the resulting Optimal Classification Tree. We present a Mixed Integer Non Linear Programming formulation for the problem, suitable to be solved using any of the available off-the-shelf solvers. The model is analyzed and tested on a battery of standard datasets taken from UCI Machine Learning repository, showing the effectiveness of our approach.
翻訳日:2021-05-07 08:31:47 公開日:2020-12-15
# (参考訳) 弱教師付きラベル平滑化

Weakly Supervised Label Smoothing ( http://arxiv.org/abs/2012.08575v1 )

ライセンス: CC BY 4.0
Gustavo Penha and Claudia Hauff(参考訳) ニューラルネットワークモデル(L2R)のランク付けにおいて,広く用いられている正規化手法であるラベル平滑化(LS)について検討した。 LSは、基底構造ラベルと均一な分布を組み合わせることで、予測に対する信頼性を低下させる。 本研究では,非関連文書のサンプリング方法とLSの有効性の関係を解析し,関連文書と非関連文書との「隠れ類似知識」をLSがどのように捉えているかについて議論する。 さらに、LSから始まるカリキュラム学習アプローチ、つまり、ゼロ・トゥルースラベルのみを用いて何回も繰り返していくことが有益かをテストすることで、LSをさらに分析する。 ニューラルl2rモデルの文脈におけるlsの研究に触発されて,本研究では,接地ラベルの修正過程において,負のサンプル文書の検索スコアを弱い監督信号として活用する,weakly supervised label smoothing (wsls) と呼ばれる新しい手法を提案する。 WSLSは実装が簡単で、ニューラルランサーアーキテクチャを変更する必要はない。 提案手法は,3つの検索タスク-パス検索,類似質問検索,会話応答ランキングの3つにまたがる実験により,ポイントワイドBERTによるランク付けにおけるWSLSが一貫した効率向上をもたらすことを示す。 ソースコードはhttps://anonymous.4open.science/r/dac85d48-6f71-4261-a7d8-040da6021c52/で入手できる。

We study Label Smoothing (LS), a widely used regularization technique, in the context of neural learning to rank (L2R) models. LS combines the ground-truth labels with a uniform distribution, encouraging the model to be less confident in its predictions. We analyze the relationship between the non-relevant documents-specifically how they are sampled-and the effectiveness of LS, discussing how LS can be capturing "hidden similarity knowledge" between the relevantand non-relevant document classes. We further analyze LS by testing if a curriculum-learning approach, i.e., starting with LS and after anumber of iterations using only ground-truth labels, is beneficial. Inspired by our investigation of LS in the context of neural L2R models, we propose a novel technique called Weakly Supervised Label Smoothing (WSLS) that takes advantage of the retrieval scores of the negative sampled documents as a weak supervision signal in the process of modifying the ground-truth labels. WSLS is simple to implement, requiring no modification to the neural ranker architecture. Our experiments across three retrieval tasks-passage retrieval, similar question retrieval and conversation response ranking-show that WSLS for pointwise BERT-based rankers leads to consistent effectiveness gains. The source code is available at https://anonymous.4open.science/r/dac85d48-6f71-4261-a7d8-040da6021c52/.
翻訳日:2021-05-07 08:15:21 公開日:2020-12-15
# (参考訳) 量子d分離と量子信念伝播

Quantum d-separation and quantum belief propagation ( http://arxiv.org/abs/2012.09635v1 )

ライセンス: CC BY 4.0
Robert R. Tucci(参考訳) 本論文の目的は、古典的d-分離と古典的信念伝播(BP)を量子領域に一般化することである。 古典的d分離はジュデア・パールの作品のほとんどの重要な要素である。 パールが3つのラングと呼ぶ3つのラングすべてにとって重要である。 したがって、d-分離とbpの量子バージョンを持つことは、パールのベイズネットワークのほとんどが、因果性の理論を含む働きを、直接的に量子空間に翻訳できることを意味する。

The goal of this paper is to generalize classical d-separation and classical Belief Propagation (BP) to the quantum realm. Classical d-separation is an essential ingredient of most of Judea Pearl's work. It is crucial to all 3 rungs of what Pearl calls the 3 rungs of Causation. So having a quantum version of d-separation and BP probably implies that most of Pearl's Bayesian networks work, including his theory of causality, can be translated in a straightforward manner to the quantum realm.
翻訳日:2021-05-07 08:05:42 公開日:2020-12-15
# (参考訳) 衛星画像と位置特徴を用いたハリケーン後被害評価

Post-Hurricane Damage Assessment Using Satellite Imagery and Geolocation Features ( http://arxiv.org/abs/2012.08624v1 )

ライセンス: CC BY 4.0
Quoc Dung Cao and Youngjun Choe(参考訳) 緊急管理者や第一対応者にとって、ハリケーンなどの危険イベント後のタイムリーで信頼性の高い状況認識を得ることが不可欠である。 その目標を達成する効果的な方法の1つは、損害評価である。 近年、災害研究者は、衛星やドローンで捉えた画像を利用して、浸水・損傷した建物の数を定量化している。 本稿では,被災地の衛星画像と位置情報を利用して,ハリケーン後の被害建物を識別する混合データ手法を提案する。 この手法は、2017年のヒューストン大都市圏におけるハリケーン・ハーベイのケーススタディに基づいて、画像のみを用いて同様の作業を行うことで大幅に改善した。 この結果は、畳み込みニューラルネットワークや従来の損傷評価手法(例えば、洪水深度や裸地トポロジー)のようなコンピュータビジョンアルゴリズムの進歩を統一する幅広い可能性への扉を開く。 本研究では,画像特徴に付加的な情報を提供するために位置情報機能の創造的な選択を行ったが,ドメイン知識や災害の種類に応じて,イベントの物理的挙動をモデル化するための他の機能を含めることはユーザ次第である。 この研究でキュレートされたデータセットは、オープンに利用可能である(doi: 10.17603/ds2-3cca-f398)。

Gaining timely and reliable situation awareness after hazard events such as a hurricane is crucial to emergency managers and first responders. One effective way to achieve that goal is through damage assessment. Recently, disaster researchers have been utilizing imagery captured through satellites or drones to quantify the number of flooded/damaged buildings. In this paper, we propose a mixed data approach, which leverages publicly available satellite imagery and geolocation features of the affected area to identify damaged buildings after a hurricane. The method demonstrated significant improvement from performing a similar task using only imagery features, based on a case study of Hurricane Harvey affecting Greater Houston area in 2017. This result opens door to a wide range of possibilities to unify the advancement in computer vision algorithms such as convolutional neural networks and traditional methods in damage assessment, for example, using flood depth or bare-earth topology. In this work, a creative choice of the geolocation features was made to provide extra information to the imagery features, but it is up to the users to decide which other features can be included to model the physical behavior of the events, depending on their domain knowledge and the type of disaster. The dataset curated in this work is made openly available (DOI: 10.17603/ds2-3cca-f398).
翻訳日:2021-05-07 07:57:10 公開日:2020-12-15
# (参考訳) モデル性能のための学習予測間隔

Learning Prediction Intervals for Model Performance ( http://arxiv.org/abs/2012.08625v1 )

ライセンス: CC BY 4.0
Benjamin Elder, Matthew Arnold, Anupama Murthi, Jiri Navratil(参考訳) ラベルのないデータ上でのモデルパフォーマンスを理解することは、AIシステムの開発、デプロイ、保守の根本的な課題である。 モデルパフォーマンスは通常、テストセットまたは定期的な手動品質評価を使用して評価される。 自動パフォーマンス予測技術は、この負担を軽減することを目的としているが、潜在的な不正確さと予測に対する信頼の欠如は、その普及を妨げている。 本稿では,モデル性能の予測区間を計算する手法を用いて,性能予測の不確実性の根本問題に対処する。 本手法では,伝達学習を用いて不確実性モデルを訓練し,モデル性能予測の不確かさを推定する。 我々は,広範囲のドリフト条件に対するアプローチを評価し,競争ベースラインよりも大幅に改善した。 この結果により,実世界の利用において,予測間隔や性能予測がはるかに現実的になると考えられる。

Understanding model performance on unlabeled data is a fundamental challenge of developing, deploying, and maintaining AI systems. Model performance is typically evaluated using test sets or periodic manual quality assessments, both of which require laborious manual data labeling. Automated performance prediction techniques aim to mitigate this burden, but potential inaccuracy and a lack of trust in their predictions has prevented their widespread adoption. We address this core problem of performance prediction uncertainty with a method to compute prediction intervals for model performance. Our methodology uses transfer learning to train an uncertainty model to estimate the uncertainty of model performance predictions. We evaluate our approach across a wide range of drift conditions and show substantial improvement over competitive baselines. We believe this result makes prediction intervals, and performance prediction in general, significantly more practical for real-world use.
翻訳日:2021-05-07 07:45:49 公開日:2020-12-15
# 時空間推論のためのオブジェクトベース注意:柔軟な分散アーキテクチャを用いたニューロシンボリックモデルの性能向上

Object-based attention for spatio-temporal reasoning: Outperforming neuro-symbolic models with flexible distributed architectures ( http://arxiv.org/abs/2012.08508v1 )

ライセンス: Link先を確認
David Ding, Felix Hill, Adam Santoro, Matt Botvinick(参考訳) ニューラルネットワークは様々な知覚的タスクで成功を収めてきたが、高レベルの推論を必要とするタスクを解くことはできないとしばしば述べられている。 CLEVRERとCATERという2つの新しいタスクドメインが最近開発され、物体間の時空間相互作用の文脈において、知覚とは対照的に推論に焦点を当てている。 これらの領域での最初の実験では、論理エンジンと言語パーサとニューラルネットワーク知覚フロントエンドを結合したニューロシンボリックアプローチが、完全に学習された分散ネットワークを実質的に上回っていることが判明した。 そこで,本研究では,正しい帰納的バイアスを持つ完全学習型ニューラルネットワークが,これら2つの課題,特に知覚よりも推論を最も重視する問題において,従来のすべてのニューラルシンボリックモデルよりも有意に優れた性能を発揮することを示す。 我々のモデルは,自己注意と学習対象中心の表現,およびBERTスタイルの半教師付き予測損失の両方を批判的に活用する。 これらの柔軟なバイアスにより、私たちのモデルは、利用可能なラベル付きデータの60%未満を使用して、過去のニューロシンボリックな最先端技術を上回ることができる。 これらの結果は、これらのデータセットを含む以前の研究で述べられたニューロシンボリック・テーゼに反するものであり、ニューラルネットワークが物理的事象の因果的、動的構造について効果的に推論できるという証拠を提供する。

Neural networks have achieved success in a wide array of perceptual tasks, but it is often stated that they are incapable of solving tasks that require higher-level reasoning. Two new task domains, CLEVRER and CATER, have recently been developed to focus on reasoning, as opposed to perception, in the context of spatio-temporal interactions between objects. Initial experiments on these domains found that neuro-symbolic approaches, which couple a logic engine and language parser with a neural perceptual front-end, substantially outperform fully-learned distributed networks, a finding that was taken to support the above thesis. Here, we show on the contrary that a fully-learned neural network with the right inductive biases can perform substantially better than all previous neural-symbolic models on both of these tasks, particularly on questions that most emphasize reasoning over perception. Our model makes critical use of both self-attention and learned "soft" object-centric representations, as well as BERT-style semi-supervised predictive losses. These flexible biases allow our model to surpass the previous neuro-symbolic state-of-the-art using less than 60% of available labelled data. Together, these results refute the neuro-symbolic thesis laid out by previous work involving these datasets, and they provide evidence that neural networks can indeed learn to reason effectively about the causal, dynamic structure of physical events.
翻訳日:2021-05-07 05:42:02 公開日:2020-12-15
# オンライン学習における政策最適化

Policy Optimization as Online Learning with Mediator Feedback ( http://arxiv.org/abs/2012.08225v1 )

ライセンス: Link先を確認
Alberto Maria Metelli, Matteo Papini, Pierluca D'Oro, and Marcello Restelli(参考訳) ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。 本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。 標準のバンディットフィードバックと比較して、追加可能な情報は、あるポリシーが生成したサンプルを再利用することで、他のポリシーのパフォーマンスを見積もることができる。 そこで本研究では,既存の楽観的手法とは異なるランダム化探索戦略を用いたpoにおける後悔の最小化を目的とした,複数重要サンプリングによるランダム化探索(randomist)によるランダム化探索政策最適化手法を提案する。 方針空間が有限であれば、ある状況下では、常に対数的後悔を享受しながら、一定の後悔を達成できることを示す。 我々はまた、問題依存の後悔の限界を導出する。 そして、RANDOMISTをコンパクトなポリシー空間に拡張する。 最後に,po とbandit のベースラインと比較して,有限およびコンパクトなポリシー空間の数値シミュレーションを行う。

Policy Optimization (PO) is a widely used approach to address continuous control tasks. In this paper, we introduce the notion of mediator feedback that frames PO as an online learning problem over the policy space. The additional available information, compared to the standard bandit feedback, allows reusing samples generated by one policy to estimate the performance of other policies. Based on this observation, we propose an algorithm, RANDomized-exploration policy Optimization via Multiple Importance Sampling with Truncation (RANDOMIST), for regret minimization in PO, that employs a randomized exploration strategy, differently from the existing optimistic approaches. When the policy space is finite, we show that under certain circumstances, it is possible to achieve constant regret, while always enjoying logarithmic regret. We also derive problem-dependent regret lower bounds. Then, we extend RANDOMIST to compact policy spaces. Finally, we provide numerical simulations on finite and compact policy spaces, in comparison with PO and bandit baselines.
翻訳日:2021-05-07 05:40:54 公開日:2020-12-15
# BeBold: 探索地域の境界を越えた探索

BeBold: Exploration Beyond the Boundary of Explored Regions ( http://arxiv.org/abs/2012.08621v1 )

ライセンス: Link先を確認
Tianjun Zhang, Huazhe Xu, Xiaolong Wang, Yi Wu, Kurt Keutzer, Joseph E. Gonzalez, Yuandong Tian(参考訳) スパース報酬の下での効率的な探索は、深層強化学習の重要な課題である。 探索のガイドとして,従来の研究は本質的な報酬(IR)を広く活用していた。 IRには訪問数、好奇心、国家差など多くのヒューリスティックがある。 本稿では,各手法の長所と短所を解析し,逆訪問回数の規制的差をIRの簡易かつ効果的な基準として提案する。 この基準は、調査対象の領域の境界を越えて探索し、近視力や分断のようなカウントベースの方法における共通の問題を緩和するのに役立つ。 その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。 一方、以前のSoTAはタスクの50%しか解決していない。 BeBoldはまた、より難しい手続き的に生成された環境を含む人気のあるローグのようなゲームNetHackの複数のタスクでSoTAを達成している。

Efficient exploration under sparse rewards remains a key challenge in deep reinforcement learning. To guide exploration, previous work makes extensive use of intrinsic reward (IR). There are many heuristics for IR, including visitation counts, curiosity, and state-difference. In this paper, we analyze the pros and cons of each method and propose the regulated difference of inverse visitation counts as a simple but effective criterion for IR. The criterion helps the agent explore Beyond the Boundary of explored regions and mitigates common issues in count-based methods, such as short-sightedness and detachment. The resulting method, BeBold, solves the 12 most challenging procedurally-generated tasks in MiniGrid with just 120M environment steps, without any curriculum learning. In comparison, the previous SoTA only solves 50% of the tasks. BeBold also achieves SoTA on multiple tasks in NetHack, a popular rogue-like game that contains more challenging procedurally-generated environments.
翻訳日:2021-05-07 05:40:39 公開日:2020-12-15
# Max-min Fairnessにおけるオンライン学習需要

Online Learning Demands in Max-min Fairness ( http://arxiv.org/abs/2012.08648v1 )

ライセンス: Link先を確認
Kirthevasan Kandasamy, Gur-Eyal Sela, Joseph E Gonzalez, Michael I Jordan, Ion Stoica(参考訳) 本稿では,複数のユーザ間のリソース割り当ての仕組みを,リソース要件を知らない場合であっても,効率的で公平で戦略に準拠した方法で記述する。 このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される。 各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。 このような状況は、組織内の多くのユーザの間で計算クラスタの共有使用において一般的であり、すべてのチームが自分のジョブを実行するために必要なリソースの量を正確に把握できない場合がある。 要件を過小評価することで、ユーザは必要よりも少なく、その結果、目標を達成できなくなります。 過度に集計することで、組織内の他の人々に役立つ貴重なリソースを取り除くことができる。 我々は、オンライン学習のこの課題を、この設定に適用可能な効率性、公平性、戦略防御性の概念を通して公正な区分で定式化し、この問題を3種類のフィードバックで研究する: ユーザの観察が決定論的であるとき、確率的かつパラメトリックなモデルに従うとき、そして、それらが確率的かつ非パラメトリックであるとき。 我々はこれらの要求を満たす古典的な最大値公正手順にインスパイアされたメカニズムを導出し、それらが漸近速度によって達成される範囲を定量化する。 我々はこれらの知見を合成問題とweb保存タスクに関する実験的評価で裏付ける。

We describe mechanisms for the allocation of a scarce resource among multiple users in a way that is efficient, fair, and strategy-proof, but when users do not know their resource requirements. The mechanism is repeated for multiple rounds and a user's requirements can change on each round. At the end of each round, users provide feedback about the allocation they received, enabling the mechanism to learn user preferences over time. Such situations are common in the shared usage of a compute cluster among many users in an organisation, where all teams may not precisely know the amount of resources needed to execute their jobs. By understating their requirements, users will receive less than they need and consequently not achieve their goals. By overstating them, they may siphon away precious resources that could be useful to others in the organisation. We formalise this task of online learning in fair division via notions of efficiency, fairness, and strategy-proofness applicable to this setting, and study this problem under three types of feedback: when the users' observations are deterministic, when they are stochastic and follow a parametric model, and when they are stochastic and nonparametric. We derive mechanisms inspired by the classical max-min fairness procedure that achieve these requisites, and quantify the extent to which they are achieved via asymptotic rates. We corroborate these insights with an experimental evaluation on synthetic problems and a web-serving task.
翻訳日:2021-05-07 05:40:25 公開日:2020-12-15
# Amazon SageMaker自動モデルチューニング:スケーラブルなブラックボックス最適化

Amazon SageMaker Automatic Model Tuning: Scalable Black-box Optimization ( http://arxiv.org/abs/2012.08489v1 )

ライセンス: Link先を確認
Valerio Perrone, Huibin Shen, Aida Zolic, Iaroslav Shcherbatyi, Amr Ahmed, Tanya Bansal, Michele Donini, Fela Winkelmolen, Rodolphe Jenatton, Jean Baptiste Faddoul, Barbara Pogorzelska, Miroslav Miladinovic, Krishnaram Kenthapadi, Matthias Seeger, C\'edric Archambeau(参考訳) 複雑な機械学習システムのチューニングは難しい。 機械学習モデルは、通常、正規化、アーキテクチャ、最適化パラメータといった一連のハイパーパラメータを公開する。 このようなシステムへのアクセスを民主化するには、このチューニングプロセスを自動化する必要がある。 本稿では,大規模なブラックボックス最適化システムであるAmazon SageMaker Automatic Model Tuning (AMT)を提案する。 AMTは、異なるハイパーパラメータ構成で繰り返しトレーニングすることで、機械学習モデルの最良のバージョンを見つける。 ランダム検索またはベイズ最適化のいずれかを利用して、ユーザが選択したメトリックによって測定されるように、最高のパフォーマンスモデルをもたらすハイパーパラメータ値を選択する。 amtは、組み込みアルゴリズム、カスタムアルゴリズム、および機械学習フレームワーク用のamazon sagemakerプリビルドコンテナで使用することができる。 コア機能、システムアーキテクチャ、設計原則について論じます。 また,amtの提供するより高度な機能として,早期停止の自動化やウォームスタート,実験でのメリットの実証なども紹介する。

Tuning complex machine learning systems is challenging. Machine learning models typically expose a set of hyperparameters, be it regularization, architecture, or optimization parameters, whose careful tuning is critical to achieve good performance. To democratize access to such systems, it is essential to automate this tuning process. This paper presents Amazon SageMaker Automatic Model Tuning (AMT), a fully managed system for black-box optimization at scale. AMT finds the best version of a machine learning model by repeatedly training it with different hyperparameter configurations. It leverages either random search or Bayesian optimization to choose the hyperparameter values resulting in the best-performing model, as measured by the metric chosen by the user. AMT can be used with built-in algorithms, custom algorithms, and Amazon SageMaker pre-built containers for machine learning frameworks. We discuss the core functionality, system architecture and our design principles. We also describe some more advanced features provided by AMT, such as automated early stopping and warm-starting, demonstrating their benefits in experiments.
翻訳日:2021-05-07 05:39:58 公開日:2020-12-15
# エンティティアライメントのための関係認識近傍マッチングモデル

Relation-Aware Neighborhood Matching Model for Entity Alignment ( http://arxiv.org/abs/2012.08128v1 )

ライセンス: Link先を確認
Yao Zhu, Hongzhi Liu, Zhonghai Wu, Yingpeng Du(参考訳) 異なる知識グラフ(kgs)からエンティティを同じ意味に結びつけることを目的としたエンティティアライメントは、知識融合の重要なステップである。 既存の研究は、エンティティアライメントにkgの構造情報を活用することで、エンティティの埋め込みを学習することに焦点を当てている。 これらの手法は隣接ノードからの情報を集約するが、隣接ノードからのノイズを発生させることもある。 最近では、いくつかの研究者が隣接するノードをペアで比較してエンティティアライメントを強化しようとした。 しかし、近隣のマッチングにおいても重要なエンティティ間の関係を無視した。 さらに、既存の手法では、エンティティアライメントと関係アライメントの間のポジティブな相互作用にはあまり注意を払わなかった。 これらの問題に対処するため,エンティティアライメントのためのRNMという新しい関係認識近傍マッチングモデルを提案する。 具体的には、近傍マッチングを利用してエンティティアライメントを強化することを提案する。 隣り合うノードを比較することに加えて、接続された関係から有用な情報を探究する。 さらに、反復的フレームワークは、エンティティアライメントと関係アライメントの間の正の相互作用を半教師付き方法で活用するように設計されている。 3つの実世界のデータセットによる実験結果から,提案モデルRNMは最先端の手法よりも優れた性能を示した。

Entity alignment which aims at linking entities with the same meaning from different knowledge graphs (KGs) is a vital step for knowledge fusion. Existing research focused on learning embeddings of entities by utilizing structural information of KGs for entity alignment. These methods can aggregate information from neighboring nodes but may also bring noise from neighbors. Most recently, several researchers attempted to compare neighboring nodes in pairs to enhance the entity alignment. However, they ignored the relations between entities which are also important for neighborhood matching. In addition, existing methods paid less attention to the positive interactions between the entity alignment and the relation alignment. To deal with these issues, we propose a novel Relation-aware Neighborhood Matching model named RNM for entity alignment. Specifically, we propose to utilize the neighborhood matching to enhance the entity alignment. Besides comparing neighbor nodes when matching neighborhood, we also try to explore useful information from the connected relations. Moreover, an iterative framework is designed to leverage the positive interactions between the entity alignment and the relation alignment in a semi-supervised manner. Experimental results on three real-world datasets demonstrate that the proposed model RNM performs better than state-of-the-art methods.
翻訳日:2021-05-07 05:39:43 公開日:2020-12-15
# 説明可能な抽象列車データセット

Explainable Abstract Trains Dataset ( http://arxiv.org/abs/2012.12115v1 )

ライセンス: Link先を確認
Manuel de Sousa Ribeiro, Ludwig Krippahl, Joao Leite(参考訳) 説明可能な抽象列車データセットは、列車の簡易表現を含むイメージデータセットである。 正当化と説明抽出のためのアルゴリズムの応用と研究のためのプラットフォームを提供することを目的としている。 データセットには、その視覚特性に基づいて表現された列車を概念化し分類するオントロジーが付属しており、各列車のラベル付け方法を正確に理解することができる。 データセットの各画像は、列車の特徴を記述した複数の属性と、列車要素のバウンディングボックスでアノテートされる。

The Explainable Abstract Trains Dataset is an image dataset containing simplified representations of trains. It aims to provide a platform for the application and research of algorithms for justification and explanation extraction. The dataset is accompanied by an ontology that conceptualizes and classifies the depicted trains based on their visual characteristics, allowing for a precise understanding of how each train was labeled. Each image in the dataset is annotated with multiple attributes describing the trains' features and with bounding boxes for the train elements.
翻訳日:2021-05-07 05:38:43 公開日:2020-12-15
# 限定ラベルデータを用いた病理所見からの腫瘍属性分類のための富化アノテーション

Enriched Annotations for Tumor Attribute Classification from Pathology Reports with Limited Labeled Data ( http://arxiv.org/abs/2012.08113v1 )

ライセンス: Link先を確認
Nick Altieri, Briton Park, Mara Olson, John DeNero, Anobel Odisho, Bin Yu(参考訳) 精密医療は医療に革命をもたらす可能性があるが、患者のデータの多くは構造化されていない自由テキストに閉じ込められ、効果的なパーソナライズされた治療の研究と提供を制限する。 臨床ノートから情報を取り出すために大量の注釈付きデータセットを生成することは、高品質なアノテーションに必要な高度な専門知識のため、しばしば困難で費用がかかる。 小データセットサイズでの自然言語処理を実現するため,我々は,新しい階層型アノテーションスキームとアルゴリズムである Supervised Line Attention (SLA) を開発し,このアルゴリズムを適用して,カリフォルニア大学サンフランシスコ校 (UCSF) の腎および大腸癌の病理報告から分類的腫瘍特性を予測する。 以前の作業では、文書レベルのラベルに注釈を付けるだけだったが、アノテーションを付けている人たちには、最終ラベルの関連する行や潜在的な行を強調するように依頼することで、従来のラベルの強化を依頼し、ドキュメントごとに20%のアノテーション時間の増加がもたらされた。 このアノテーションにより、文書中の関連行をまず予測し、次に腫瘍属性を予測する、シンプルで解釈可能な機械学習アルゴリズムを開発する。 以上の結果から,癌1例につき32,64,128,および186のラベル付き文書の小さなデータセットサイズにおいて,SLAは同等あるいは優れたマイクロf1およびマクロf1スコアを達成するための最先端手法としてラベル付き文書の半数しか必要としないことがわかった。 アノテーション時間の増加を考慮すると、このことは、美術品の状態よりも総アノテーション時間の40%削減につながる。

Precision medicine has the potential to revolutionize healthcare, but much of the data for patients is locked away in unstructured free-text, limiting research and delivery of effective personalized treatments. Generating large annotated datasets for information extraction from clinical notes is often challenging and expensive due to the high level of expertise needed for high quality annotations. To enable natural language processing for small dataset sizes, we develop a novel enriched hierarchical annotation scheme and algorithm, Supervised Line Attention (SLA), and apply this algorithm to predicting categorical tumor attributes from kidney and colon cancer pathology reports from the University of California San Francisco (UCSF). Whereas previous work only annotated document level labels, we in addition ask the annotators to enrich the traditional label by asking them to also highlight the relevant line or potentially lines for the final label, which leads to a 20% increase of annotation time required per document. With the enriched annotations, we develop a simple and interpretable machine learning algorithm that first predicts the relevant lines in the document and then predicts the tumor attribute. Our results show across the small dataset sizes of 32, 64, 128, and 186 labeled documents per cancer, SLA only requires half the number of labeled documents as state-of-the-art methods to achieve similar or better micro-f1 and macro-f1 scores for the vast majority of comparisons that we made. Accounting for the increased annotation time, this leads to a 40% reduction in total annotation time over the state of the art.
翻訳日:2021-05-07 05:38:35 公開日:2020-12-15
# *-CFQ: 構成タスクにおける機械学習のスケーラビリティの分析

*-CFQ: Analyzing the Scalability of Machine Learning on a Compositional Task ( http://arxiv.org/abs/2012.08266v1 )

ライセンス: Link先を確認
Dmitry Tsarkov, Tibor Tihon, Nathan Scales, Nikola Momchev, Danila Sinopalnikov, Nathanael Sch\"arli(参考訳) 本稿では,現実的な構成タスク設定における機械学習システムのスケーラビリティの原理的調査を目的とした,CFQセマンティック解析ベンチマークに基づく,さまざまな範囲の大規模データセットスイートである*-CFQ(star-CFQ)を提案する。 このスイートを用いて,一定計算コストの条件下でのトレーニングサイズの増加によるトランスフォーマーの能力について,一連の実験を行った。 構成的一般化は,すべてのトレーニングサイズにおいて依然として課題であり,自然言語の範囲の増大は,トレーニングデータの増加によって部分的にオフセットされるだけで,常に高いエラー率をもたらすことを示す。 さらに、関連ドメインからの追加のトレーニングデータにより、データ探索時の精度が向上する一方で、この改善は制限され、関連するドメインから対象ドメインへの距離が増加するにつれて減少することを示す。

We present *-CFQ ("star-CFQ"): a suite of large-scale datasets of varying scope based on the CFQ semantic parsing benchmark, designed for principled investigation of the scalability of machine learning systems in a realistic compositional task setting. Using this suite, we conduct a series of experiments investigating the ability of Transformers to benefit from increased training size under conditions of fixed computational cost. We show that compositional generalization remains a challenge at all training sizes, and we show that increasing the scope of natural language leads to consistently higher error rates, which are only partially offset by increased training data. We further show that while additional training data from a related domain improves the accuracy in data-starved situations, this improvement is limited and diminishes as the distance from the related domain to the target domain increases.
翻訳日:2021-05-07 05:37:59 公開日:2020-12-15
# 潜在感性属性を用いた多視点感性分析

Multi-Aspect Sentiment Analysis with Latent Sentiment-Aspect Attribution ( http://arxiv.org/abs/2012.08407v1 )

ライセンス: Link先を確認
Yifan Zhang, Fan Yang, Marjan Hosseinia, Arjun Mukherjee(参考訳) 本稿では,感傷的帰属モジュール (SAAM) と呼ばれる新しいフレームワークを紹介する。 SAAMは従来のニューラルネットワーク上で動作し、マルチアスペクトの感情分類と感情回帰の問題を解決するように設計されている。 このフレームワークは文レベルの埋め込み特徴と文書レベルのアスペクトレーティングスコアのバリエーションの相関を利用して動作する。 我々は、CNNおよびRNNベースのモデル上に、我々のフレームワークのバリエーションをいくつか示す。 ホテルレビューデータセットとビールレビューデータセットの実験により、SAAMは対応するベースモデルよりも感情分析性能を向上させることが示された。 さらに、文レベルのスコアを文書レベルのスコアに直感的に組み合わせることにより、データに対する深い洞察(例えば、半教師付き文のアスペクトラベリング)を提供することができる。 そこで,本論文では,感情スニペット抽出など他のアプリケーションに対するモデルの可能性を示す詳細な分析を行った。

In this paper, we introduce a new framework called the sentiment-aspect attribution module (SAAM). SAAM works on top of traditional neural networks and is designed to address the problem of multi-aspect sentiment classification and sentiment regression. The framework works by exploiting the correlations between sentence-level embedding features and variations of document-level aspect rating scores. We demonstrate several variations of our framework on top of CNN and RNN based models. Experiments on a hotel review dataset and a beer review dataset have shown SAAM can improve sentiment analysis performance over corresponding base models. Moreover, because of the way our framework intuitively combines sentence-level scores into document-level scores, it is able to provide a deeper insight into data (e.g., semi-supervised sentence aspect labeling). Hence, we end the paper with a detailed analysis that shows the potential of our models for other applications such as sentiment snippet extraction.
翻訳日:2021-05-07 05:37:44 公開日:2020-12-15
# EmpLite:短いテキストの強調選択のための軽量シーケンスラベルモデル

EmpLite: A Lightweight Sequence Labeling Model for Emphasis Selection of Short Texts ( http://arxiv.org/abs/2101.03025v1 )

ライセンス: Link先を確認
Vibhav Agarwal, Sourav Ghosh, Kranti Chalamalasetti, Bharath Challa, Sonal Kumari, Harshavardhana, Barath Raj Kandur Raja(参考訳) テキストコンテンツにおける単語強調は、サイズ、色、書体、スタイル(ボールド、イタリックなど)を変えることで、望ましい意図を伝えることを目的としている。 ほか、タイポグラフィー機能もある。 強調された単語は、著者が強調したい特定の情報に読者の注意を引くのに非常に役立つ。 しかし、ソーシャルメディアのインタラクションにソフトキーボードを使うことは時間を要するため、関連する学習曲線を持つ。 本稿では,短い文章に対する単語検出の重み付けを自動化する新しい手法を提案する。 我々の知る限り、この研究は、強調選択のスマートフォン展開のための、初めての軽量なディープラーニングアプローチを示す。 実験の結果,既存のモデルよりもずっと小さいモデルサイズで比較精度が得られることがわかった。 我々の最も軽量なモデルはメモリフットプリントが2.82MBで、SemEval-2020公開ベンチマークデータセットのスコアは0.716である。

Word emphasis in textual content aims at conveying the desired intention by changing the size, color, typeface, style (bold, italic, etc.), and other typographical features. The emphasized words are extremely helpful in drawing the readers' attention to specific information that the authors wish to emphasize. However, performing such emphasis using a soft keyboard for social media interactions is time-consuming and has an associated learning curve. In this paper, we propose a novel approach to automate the emphasis word detection on short written texts. To the best of our knowledge, this work presents the first lightweight deep learning approach for smartphone deployment of emphasis selection. Experimental results show that our approach achieves comparable accuracy at a much lower model size than existing models. Our best lightweight model has a memory footprint of 2.82 MB with a matching score of 0.716 on SemEval-2020 public benchmark dataset.
翻訳日:2021-05-07 05:37:08 公開日:2020-12-15
# 量子化ニューラルネットワークのスケーラブルな検証(技術報告)

Scalable Verification of Quantized Neural Networks (Technical Report) ( http://arxiv.org/abs/2012.08185v1 )

ライセンス: Link先を確認
Thomas A. Henzinger, Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c(参考訳) ニューラルネットワークの形式的検証は研究の活発なトピックであり、最近の進歩により、検証ツールが扱えるネットワークのサイズが大幅に増加した。 しかし,ほとんどの手法は実数演算上で動作し,ラウンドリング不正確さを無視する実ネットワークの理想的なモデルを検証するために設計されている。 この理想化は、数値の精度を計算効率と交換する手法であるネットワーク量子化とは対照的であり、したがって実際にはしばしば適用される。 このような低ビット量子化ニューラルネットワークの丸め誤差を無視すると、ネットワークの正しさに関する誤った結論が導かれる。 したがって、量子化されたニューラルネットワークを検証するための望ましいアプローチは、これらの丸め誤差を考慮するものである。 本稿では,ビットベクトル仕様のみを満足できる理想化された実数値ネットワークを検証したとしても,ビットベクトル仕様による量子化ニューラルネットワークの実装がPSPACEハードであることを示す。 さらに,理想化とビット実行検証の複雑性ギャップを埋めるための実用的ヒューリスティックスについて検討する。 特に,SMTに基づく量子化ニューラルネットワークの検証をよりスケーラブルにするための3つの手法を提案する。 実験の結果,提案手法では既存手法に比べて最大3桁の高速化が可能となった。

Formal verification of neural networks is an active topic of research, and recent advances have significantly increased the size of the networks that verification tools can handle. However, most methods are designed for verification of an idealized model of the actual network which works over real arithmetic and ignores rounding imprecisions. This idealization is in stark contrast to network quantization, which is a technique that trades numerical precision for computational efficiency and is, therefore, often applied in practice. Neglecting rounding errors of such low-bit quantized neural networks has been shown to lead to wrong conclusions about the network's correctness. Thus, the desired approach for verifying quantized neural networks would be one that takes these rounding errors into account. In this paper, we show that verifying the bit-exact implementation of quantized neural networks with bit-vector specifications is PSPACE-hard, even though verifying idealized real-valued networks and satisfiability of bit-vector specifications alone are each in NP. Furthermore, we explore several practical heuristics toward closing the complexity gap between idealized and bit-exact verification. In particular, we propose three techniques for making SMT-based verification of quantized neural networks more scalable. Our experiments demonstrate that our proposed methods allow a speedup of up to three orders of magnitude over existing approaches.
翻訳日:2021-05-07 05:36:53 公開日:2020-12-15
# モデル検証のための畳み込み規則付き二元ニューラルネットワークからの規則抽出

Rule Extraction from Binary Neural Networks with Convolutional Rules for Model Validation ( http://arxiv.org/abs/2012.08459v1 )

ライセンス: Link先を確認
Sophie Burkhardt, Jannis Brugger, Nicolas Wagner, Zahra Ahmadi, Kristian Kersting and Stefan Kramer(参考訳) ほとんどのディープニューラルネットワークはブラックボックスであると考えられており、その出力は解釈が難しい。 対照的に、論理表現は、分散表現の代わりに自然言語に意味的に近い記号を使用するため、より理解しやすいと考えられている。 しかし、画像などの高次元入力データに対して、個々のシンボル、すなわち、 ピクセルは簡単には解釈できない。 本稿では,畳み込みニューラルネットワーク(cnn)を用いて抽出可能な論理規則であり,その複雑さは畳み込みフィルタのサイズに依存するが,入力の次元性には依存しない一階畳み込みルールの概念を導入する。 本手法は,確率的局所探索を用いたバイナリニューラルネットワークからの規則抽出に基づいている。 我々は、必ずしも短いものではなく、入力の特徴であり、可視化が容易なルールの抽出方法を示す。 実験の結果,提案手法はニューラルネットワークの機能をモデル化できると同時に,解釈可能な論理ルールを生成できることがわかった。

Most deep neural networks are considered to be black boxes, meaning their output is hard to interpret. In contrast, logical expressions are considered to be more comprehensible since they use symbols that are semantically close to natural language instead of distributed representations. However, for high-dimensional input data such as images, the individual symbols, i.e. pixels, are not easily interpretable. We introduce the concept of first-order convolutional rules, which are logical rules that can be extracted using a convolutional neural network (CNN), and whose complexity depends on the size of the convolutional filter and not on the dimensionality of the input. Our approach is based on rule extraction from binary neural networks with stochastic local search. We show how to extract rules that are not necessarily short, but characteristic of the input, and easy to visualize. Our experiments show that the proposed approach is able to model the functionality of the neural network while at the same time producing interpretable logical rules.
翻訳日:2021-05-07 05:35:56 公開日:2020-12-15
# 層幅量子化解析によるニューラルネットワーク量子化の探索

Exploring Neural Networks Quantization via Layer-Wise Quantization Analysis ( http://arxiv.org/abs/2012.08420v1 )

ライセンス: Link先を確認
Shachar Gluska and Mark Grobman(参考訳) 量子化は、ディープラーニングモデルの効率的なデプロイにおける重要なステップであり、ますます人気のある研究トピックである。 現在の文献では触れられていない重要な実践的側面は、量子化の使用が過度に劣化するケースを分析し、修正する方法である。 本稿では,レイヤごとのコントリビューション全体の劣化を分解する,シンプルな分析フレームワークを提案する。 多くの共通ネットワークを分析し,各レイヤの寄与度を,各レイヤの重みとアクティベーションの分布である内在的(局所)因子と,他のレイヤとの相互作用と関係のある外在的(グローバル)因子の両方によって決定する。 既存の量子化スキームの層別分析は、全体的なパフォーマンスを検査する際に反映されない既存の技術の局所的なフェールケースを明らかにする。 一例として,SoTAポストトレーニング量子化手法が不十分なResNext26を考える。 ほとんどすべての劣化は1つの層に由来することを示す。 同じ解析によって局所的な修正も可能になった – この層のみに共通のウェイトクリッピングヒューリスティックを適用することで,グローバルに同じヒューリスティックを適用した場合,劣化は最小限に抑えられる。 より一般に、層別分析は、量子化がネットワークにどのように影響するかをより微妙な検証を可能にし、より良い実行スキームの設計を可能にする。

Quantization is an essential step in the efficient deployment of deep learning models and as such is an increasingly popular research topic. An important practical aspect that is not addressed in the current literature is how to analyze and fix fail cases where the use of quantization results in excessive degradation. In this paper, we present a simple analytic framework that breaks down overall degradation to its per layer contributions. We analyze many common networks and observe that a layer's contribution is determined by both intrinsic (local) factors - the distribution of the layer's weights and activations - and extrinsic (global) factors having to do with the the interaction with the rest of the layers. Layer-wise analysis of existing quantization schemes reveals local fail-cases of existing techniques which are not reflected when inspecting their overall performance. As an example, we consider ResNext26 on which SoTA post-training quantization methods perform poorly. We show that almost all of the degradation stems from a single layer. The same analysis also allows for local fixes - applying a common weight clipping heuristic only to this layer reduces degradation to a minimum while applying the same heuristic globally results in high degradation. More generally, layer-wise analysis allows for a more nuanced examination of how quantization affects the network, enabling the design of better performing schemes.
翻訳日:2021-05-07 05:34:14 公開日:2020-12-15
# 仮説差分正規化相互情報の最大化

Hypothesis Disparity Regularized Mutual Information Maximization ( http://arxiv.org/abs/2012.08072v1 )

ライセンス: Link先を確認
Qicheng Lao, Xiang Jiang, Mohammad Havaei(参考訳) 本研究では、仮説伝達学習(HTL)と教師なしドメイン適応(UDA)を統一する取り組みとして、教師なしの仮説伝達に取り組むための仮説不一致規則化相互情報最大化〜(HDMI)アプローチを提案する。 単一の仮説を用いる一般的な htl と uda のアプローチとは対照的に、hdmi はソースとターゲット仮説の基盤となる分布を活用するために複数の仮説を用いる。 相互情報最大化を通じてラベルのない対象領域に適応しながら、異なる仮説間の重要な関係を独立して利用するために、hdmiは、目標仮説を協調してよりよい目標表現を学習し、より正確な予測の不確実性を持つより転送可能なソース知識を保ちながら、より優れた目標表現を学習する仮説不等式規則化を取り入れている。 HDMIは、HTLの文脈でUDAのベンチマークデータセットに対して、適応中にソースデータにアクセスすることなく、最先端の適応性能を達成する。

We propose a hypothesis disparity regularized mutual information maximization~(HDMI) approach to tackle unsupervised hypothesis transfer -- as an effort towards unifying hypothesis transfer learning (HTL) and unsupervised domain adaptation (UDA) -- where the knowledge from a source domain is transferred solely through hypotheses and adapted to the target domain in an unsupervised manner. In contrast to the prevalent HTL and UDA approaches that typically use a single hypothesis, HDMI employs multiple hypotheses to leverage the underlying distributions of the source and target hypotheses. To better utilize the crucial relationship among different hypotheses -- as opposed to unconstrained optimization of each hypothesis independently -- while adapting to the unlabeled target domain through mutual information maximization, HDMI incorporates a hypothesis disparity regularization that coordinates the target hypotheses jointly learn better target representations while preserving more transferable source knowledge with better-calibrated prediction uncertainty. HDMI achieves state-of-the-art adaptation performance on benchmark datasets for UDA in the context of HTL, without the need to access the source data during the adaptation.
翻訳日:2021-05-07 05:33:52 公開日:2020-12-15
# 条件付き可逆ニューラルネットワークによる登録問題におけるあいまいさの表現

Representing Ambiguity in Registration Problems with Conditional Invertible Neural Networks ( http://arxiv.org/abs/2012.08195v1 )

ライセンス: Link先を確認
Darya Trofimova, Tim Adler, Lisa Kausch, Lynton Ardizzone, Klaus Maier-Hein, Ulrich K\"othe, Carsten Rother and Lena Maier-Hein(参考訳) 画像登録は、医用画像計算とコンピュータ支援介入の分野における多くの応用の基礎である。 一例として,術前3次元CT画像を用いた2次元X線画像の術中誘導システムへの登録がある。 医療応用における高い安全性要件のため、このようなシナリオでは、登録の不確実性の推定が重要である。 しかしながら、従来の反復登録法や深層学習に基づく手法を含む従来の手法には共通する特徴が一つある: 登録問題が本質的に曖昧であるという事実を表現する能力が欠如しており、つまり複数の(従属的に異なる)妥当な解が存在する。 この制限に取り組むために,インバータブルニューラルネットワーク(inn)を登録方法論のコアコンポーネントとして利用することを検討する。 提案フレームワークでは,複数のモードで異なる可算解を符号化する確率分布を用いて,登録問題の解を表現し,ネットワーク出力として点推定を超えることができる。 まず, 脊椎CT量をX線画像に登録することにより, 2次元3次元レジストレーション設定へのアプローチを検証した。 本研究では,複数方向のc-armで撮影されたx線画像をデジタル再構成ラジオグラフ(drr)の原理を用いてシミュレートする。 ヒトの脊椎の対称性のため、c-armの実質的に異なるポーズが複数あり、同様の投射に繋がる可能性がある。 本研究の仮説は,このようなあいまいな登録問題において,提案手法が複数の解を識別できることである。

Image registration is the basis for many applications in the fields of medical image computing and computer assisted interventions. One example is the registration of 2D X-ray images with preoperative three-dimensional computed tomography (CT) images in intraoperative surgical guidance systems. Due to the high safety requirements in medical applications, estimating registration uncertainty is of a crucial importance in such a scenario. However, previously proposed methods, including classical iterative registration methods and deep learning-based methods have one characteristic in common: They lack the capacity to represent the fact that a registration problem may be inherently ambiguous, meaning that multiple (substantially different) plausible solutions exist. To tackle this limitation, we explore the application of invertible neural networks (INN) as core component of a registration methodology. In the proposed framework, INNs enable going beyond point estimates as network output by representing the possible solutions to a registration problem by a probability distribution that encodes different plausible solutions via multiple modes. In a first feasibility study, we test the approach for a 2D 3D registration setting by registering spinal CT volumes to X-ray images. To this end, we simulate the X-ray images taken by a C-Arm with multiple orientations using the principle of digitially reconstructed radiographs (DRRs). Due to the symmetry of human spine, there are potentially multiple substantially different poses of the C-Arm that can lead to similar projections. The hypothesis of this work is that the proposed approach is able to identify multiple solutions in such ambiguous registration problems.
翻訳日:2021-05-07 05:33:31 公開日:2020-12-15
# CosSGD:コミュニケーション効率向上のための非線形量子化

CosSGD: Nonlinear Quantization for Communication-efficient Federated Learning ( http://arxiv.org/abs/2012.08241v1 )

ライセンス: Link先を確認
Yang He and Maximilian Zenk and Mario Fritz(参考訳) フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。 連合学習法の成功にもかかわらず、限られた通信条件下でモデルを更新するために最も重要な情報を伝達するw.r.tは改善され、この学習スキームを幅広いアプリケーションシナリオに活用することができる。 本研究では,連体学習において容易に利用できる圧縮確率勾配降下のための非線形量子化を提案する。 提案した量子化法により,学習過程の収束と精度を極端に維持しつつ,通信コストを最大3桁まで削減する。 MNIST, CIFAR-10, BraTSデータセットを用いた画像分類と脳腫瘍のセマンティックセマンティックセグメンテーションに関する大規模な実験を行った。

Federated learning facilitates learning across clients without transferring local data on these clients to a central server. Despite the success of the federated learning method, it remains to improve further w.r.t communicating the most critical information to update a model under limited communication conditions, which can benefit this learning scheme into a wide range of application scenarios. In this work, we propose a nonlinear quantization for compressed stochastic gradient descent, which can be easily utilized in federated learning. Based on the proposed quantization, our system significantly reduces the communication cost by up to three orders of magnitude, while maintaining convergence and accuracy of the training process to a large extent. Extensive experiments are conducted on image classification and brain tumor semantic segmentation using the MNIST, CIFAR-10 and BraTS datasets where we show state-of-the-art effectiveness and impressive communication efficiency.
翻訳日:2021-05-07 05:33:07 公開日:2020-12-15
# 軽量分布検出のためのビクタナルリスク最小化の検討

Exploring Vicinal Risk Minimization for Lightweight Out-of-Distribution Detection ( http://arxiv.org/abs/2012.08398v1 )

ライセンス: Link先を確認
Deepak Ravikumar, Sangamesh Kodge, Isha Garg, Kaushik Roy(参考訳) ディープニューラルネットワークは、画像認識から自然言語処理まで、複雑なタスクの解決に広く採用されている。 しかし、これらのネットワークはトレーニング分布に属さないデータ、すなわちトレーニング分布に属さないデータを提示した場合、確実な誤予測を行う。 out-of-distribution (OoD) サンプル。 本稿では,異なるクラス境界間をスムーズに補間するためのビクタナルリスク最小化(vrm)の特性が,より優れたood検出器の訓練に有用かどうかを検討する。 既存のOoD検出技術にVRMを適用し,その性能向上を示す。 既存のOoD検出器はメモリと計算オーバーヘッドがかなり大きいので、VRMを利用して最小限の過度に耳を傾けるOoD検出器を開発する。 検出方法は,OoDサンプルを分類する補助クラスを導入する。 mixupを2つの方法で活用し,リスク最小化を実現している。 第1に,同一クラス内でミックスアップを行い,第2に補助クラスを訓練する際にガウス雑音とのミックスアップを行う。 本手法は,既存のood検出手法と比較して計算量とメモリオーバーヘッドを大幅に削減し,ほぼ競合性能を実現している。 これにより、エッジデバイスへのOoD検出の展開が容易になり、OoD検出器のトレーニングに使用するためのバイシナルリスク最小化の理解が拡大する。

Deep neural networks have found widespread adoption in solving complex tasks ranging from image recognition to natural language processing. However, these networks make confident mispredictions when presented with data that does not belong to the training distribution, i.e. out-of-distribution (OoD) samples. In this paper we explore whether the property of Vicinal Risk Minimization (VRM) to smoothly interpolate between different class boundaries helps to train better OoD detectors. We apply VRM to existing OoD detection techniques and show their improved performance. We observe that existing OoD detectors have significant memory and compute overhead, hence we leverage VRM to develop an OoD detector with minimal overheard. Our detection method introduces an auxiliary class for classifying OoD samples. We utilize mixup in two ways to implement Vicinal Risk Minimization. First, we perform mixup within the same class and second, we perform mixup with Gaussian noise when training the auxiliary class. Our method achieves near competitive performance with significantly less compute and memory overhead when compared to existing OoD detection techniques. This facilitates the deployment of OoD detection on edge devices and expands our understanding of Vicinal Risk Minimization for use in training OoD detectors.
翻訳日:2021-05-07 05:32:51 公開日:2020-12-15
# 画像マーカーによる畳み込みニューラルネットワーク

Convolutional Neural Networks from Image Markers ( http://arxiv.org/abs/2012.12108v1 )

ライセンス: Link先を確認
Barbara C. Benato and Italos E. de Souza and Felipe L. Galv\~ao and Alexandre X. Falc\~ao(参考訳) FLIM (Feature Learning from Image Markers) と呼ばれる手法が最近提案され、コンボリューションを伴わない畳み込みフィルタを1クラスあたり1-3のごくわずかな画像(例:1-3)でユーザが描画したストロークから推定し、ココナッツツリーの画像分類のために実証した。 本稿では,完全連結層に対してflimを拡張し,異なる画像分類問題に対してそれを示す。 この研究は、複数のユーザーからのマーカーの選択と、完全に接続されたレイヤーを追加する影響を評価する。 その結果、FLIMベースの畳み込みニューラルネットワークは、バックプロパゲーションによってゼロからトレーニングされた同じアーキテクチャより優れていることが示された。

A technique named Feature Learning from Image Markers (FLIM) was recently proposed to estimate convolutional filters, with no backpropagation, from strokes drawn by a user on very few images (e.g., 1-3) per class, and demonstrated for coconut-tree image classification. This paper extends FLIM for fully connected layers and demonstrates it on different image classification problems. The work evaluates marker selection from multiple users and the impact of adding a fully connected layer. The results show that FLIM-based convolutional neural networks can outperform the same architecture trained from scratch by backpropagation.
翻訳日:2021-05-07 05:32:34 公開日:2020-12-15
# 遠隔監視型Eコマースクエリのスロットフィリング

Distant-Supervised Slot-Filling for E-Commerce Queries ( http://arxiv.org/abs/2012.08134v1 )

ライセンス: Link先を確認
Saurav Manchanda and Mohit Sharma and George Karypis(参考訳) スロットフィリング(slot-filling)とは、対象とする製品特性(製品の種類、ブランド、性別、サイズ、色など)をクエリ内で個々の用語にアノテートするタスクである。 これらの特性は、検索エンジンがクエリの製品意図に合致する結果を返すために使用できる。 従来のスロットフィリングの方法は、地上の真実のスロットアノテーション情報を含むトレーニングデータの入手が必要である。 しかし、特に電子商取引におけるラベル付きデータの生成は、新製品の追加に伴ってスロットの数が増えるため、高価で時間を要する。 本稿では,手動アノテーションを必要としない遠隔教師付き確率的生成モデルを提案する。 提案手法は,これらのクエリが引き起こした履歴クエリログと購入情報を活用するとともに,スロット間の共起情報を利用して意図した製品特性を識別する。 提案手法は,検索性能やスロットの分類にどのように影響するかを考慮し,評価を行った。 検索の面では,okapi bm25よりもランク付け性能(最大156%)が向上した。 さらに,共起情報を活用する手法は,検索とスロット分類のタスクを併用しない手法よりも優れた性能をもたらす。

Slot-filling refers to the task of annotating individual terms in a query with the corresponding intended product characteristics (product type, brand, gender, size, color, etc.). These characteristics can then be used by a search engine to return results that better match the query's product intent. Traditional methods for slot-filling require the availability of training data with ground truth slot-annotation information. However, generating such labeled data, especially in e-commerce is expensive and time-consuming because the number of slots increases as new products are added. In this paper, we present distant-supervised probabilistic generative models, that require no manual annotation. The proposed approaches leverage the readily available historical query logs and the purchases that these queries led to, and also exploit co-occurrence information among the slots in order to identify intended product characteristics. We evaluate our approaches by considering how they affect retrieval performance, as well as how well they classify the slots. In terms of retrieval, our approaches achieve better ranking performance (up to 156%) over Okapi BM25. Moreover, our approach that leverages co-occurrence information leads to better performance than the one that does not on both the retrieval and slot classification tasks.
翻訳日:2021-05-07 05:32:21 公開日:2020-12-15
# マルチモーダルasyndgan: 個人情報を共有せずに、分散医療画像データから学ぶ

Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without Sharing Private Information ( http://arxiv.org/abs/2012.08604v1 )

ライセンス: Link先を確認
Qi Chang, Zhennan Yan, Lohendran Baskaran, Hui Qu, Yikai Zhang, Tong Zhang, Shaoting Zhang, and Dimitris N. Metaxas(参考訳) ディープラーニング技術が進むにつれて、さまざまなタスクに対して汎用的で堅牢なモデルを生成するために、ますます多くのデータが必要になる。 しかし医療分野では,プライバシやデータのセキュリティ上の懸念から,大規模かつマルチパートのデータトレーニングや分析は不可能である。 本稿では,効率的なコミュニケーションによる協調学習を実現しつつ,プライバシとセキュリティを保ちつつ,拡張可能な弾性学習フレームワークを提案する。 提案するフレームワークは分散Asynchronized Discriminator Generative Adversarial Networks (AsynDGAN) と名付けられ,集中型ジェネレータと複数の分散ディスクリミネータで構成される。 The advantages of our proposed framework are five-fold: 1) the central generator could learn the real data distribution from multiple datasets implicitly without sharing the image data; 2) the framework is applicable for single-modality or multi-modality data; 3) the learned generator can be used to synthesize samples for down-stream learning tasks to achieve close-to-real performance as using actual samples collected from multiple data centers; 4) the synthetic samples can also be used to augment data or complete missing modalities for one single data center; 5) the learning process is more efficient and requires lower bandwidth than other distributed deep learning methods.

As deep learning technologies advance, increasingly more data is necessary to generate general and robust models for various tasks. In the medical domain, however, large-scale and multi-parties data training and analyses are infeasible due to the privacy and data security concerns. In this paper, we propose an extendable and elastic learning framework to preserve privacy and security while enabling collaborative learning with efficient communication. The proposed framework is named distributed Asynchronized Discriminator Generative Adversarial Networks (AsynDGAN), which consists of a centralized generator and multiple distributed discriminators. The advantages of our proposed framework are five-fold: 1) the central generator could learn the real data distribution from multiple datasets implicitly without sharing the image data; 2) the framework is applicable for single-modality or multi-modality data; 3) the learned generator can be used to synthesize samples for down-stream learning tasks to achieve close-to-real performance as using actual samples collected from multiple data centers; 4) the synthetic samples can also be used to augment data or complete missing modalities for one single data center; 5) the learning process is more efficient and requires lower bandwidth than other distributed deep learning methods.
翻訳日:2021-05-07 05:32:01 公開日:2020-12-15
# 非構造・不確実な環境に対するマルチモーダル異常検出

Multi-Modal Anomaly Detection for Unstructured and Uncertain Environments ( http://arxiv.org/abs/2012.08637v1 )

ライセンス: Link先を確認
Tianchen Ji, Sri Theja Vuppala, Girish Chowdhary, Katherine Driggs-Campbell(参考訳) 高度な自律性を実現するために、現代のロボットは、最小限の人間の監督で異常や障害を検出して回復する能力を必要としている。 マルチモーダルセンサ信号はそのような異常検出タスクにより多くの情報を提供することができるが、高次元および不均一なセンサモーダルの融合は依然として困難な問題である。 本稿では,非構造的かつ不確実な環境での障害識別のための教師付き変分オートエンコーダ(SVAE)を提案する。 我々のモデルはVAEの表現力を利用して、教師付き学習タスクのための高次元入力から堅牢な特徴を抽出する。 学習目的は生成モデルと識別モデルを統合することにより,学習を1段階の手順とする。 実地ロボットデータを用いた実験は,ベースライン法よりも優れた故障識別性能を示し,解釈可能な表現を学習する。 結果のビデオは、弊社のwebサイト(https://sites.google.com/illinois.edu/supervised-vae.com)から入手できます。

To achieve high-levels of autonomy, modern robots require the ability to detect and recover from anomalies and failures with minimal human supervision. Multi-modal sensor signals could provide more information for such anomaly detection tasks; however, the fusion of high-dimensional and heterogeneous sensor modalities remains a challenging problem. We propose a deep learning neural network: supervised variational autoencoder (SVAE), for failure identification in unstructured and uncertain environments. Our model leverages the representational power of VAE to extract robust features from high-dimensional inputs for supervised learning tasks. The training objective unifies the generative model and the discriminative model, thus making the learning a one-stage procedure. Our experiments on real field robot data demonstrate superior failure identification performance than baseline methods, and that our model learns interpretable representations. Videos of our results are available on our website: https://sites.google.com/illinois.edu/supervised-vae .
翻訳日:2021-05-07 05:31:41 公開日:2020-12-15
# ニューラルネットワークを用いた多変量準ランダムサンプリングの応用

Applications of multivariate quasi-random sampling with neural networks ( http://arxiv.org/abs/2012.08036v1 )

ライセンス: Link先を確認
Marius Hofert, Avinash Prasad, Mu Zhu(参考訳) 確率過程間の断面積依存性をモデル化するために生成モーメントマッチングネットワーク(GMMN)を提案する。 確率過程は幾何学的ブラウン運動とアルマ・ガルクモデルである。 幾何学的ブラウン運動は、依存下でのアメリカのバスケットコールオプションの価格設定につながり、ARMA-GARCHモデルは予測分布をシミュレートする応用に繋がる。 どちらのタイプのアプリケーションにおいても、パラメトリック依存モデルと比較してGMMNを使うことの利点が強調され、GMMNが追加の労力なしで依存準ランダムサンプルを生成できるという事実が分散還元を得るために利用される。

Generative moment matching networks (GMMNs) are suggested for modeling the cross-sectional dependence between stochastic processes. The stochastic processes considered are geometric Brownian motions and ARMA-GARCH models. Geometric Brownian motions lead to an application of pricing American basket call options under dependence and ARMA-GARCH models lead to an application of simulating predictive distributions. In both types of applications the benefit of using GMMNs in comparison to parametric dependence models is highlighted and the fact that GMMNs can produce dependent quasi-random samples with no additional effort is exploited to obtain variance reduction.
翻訳日:2021-05-07 05:31:25 公開日:2020-12-15
# TACTO:高解像度ビジョンベース触覚センサのための高速で柔軟なオープンソースのシミュレータ

TACTO: A Fast, Flexible and Open-source Simulator for High-Resolution Vision-based Tactile Sensors ( http://arxiv.org/abs/2012.08456v1 )

ライセンス: Link先を確認
Shaoxiong Wang, Mike Lambeta, Po-Wei Chou, Roberto Calandra(参考訳) シミュレータは、プロトタイピング、デバッギング、そしてロボット工学の新たな進歩と制御の学習において重要な役割を果たす。 多くの物理エンジンが存在するが、現実世界のいくつかの側面はシミュレーションが難しい。 これまで正確なシミュレーションを行ってきた側面の1つは、タッチセンシングである。 このギャップに対処するために,視覚ベースの触覚センサのための高速でフレキシブルでオープンソースなシミュレータであるtactoを提案する。 このシミュレータは、数百フレーム/秒でリアルな高解像度のタッチ読み取りをレンダリングでき、ゲルビジョン、デジット、omnitactなど、さまざまな視覚ベースの触覚センサーをシミュレートできる。 本稿では,TACTOの実装を推進した原則と,それらがアーキテクチャにどのように反映されているかを詳述する。 我々は,100万把持と大理石操作制御タスクから,タッチによる把持安定性の予測を学習し,知覚課題のtactoを示す。 TACTOは、ロボットアプリケーションにおけるタッチセンシングの普及に向けての一歩であり、マルチモーダル学習と制御に関心を持つ機械学習実践者の実現を目的としています。 tactoはhttps://github.com/facebookresearch/tactoでオープンソースである。

Simulators perform an important role in prototyping, debugging and benchmarking new advances in robotics and learning for control. Although many physics engines exist, some aspects of the real-world are harder than others to simulate. One of the aspects that have so far eluded accurate simulation is touch sensing. To address this gap, we present TACTO -- a fast, flexible and open-source simulator for vision-based tactile sensors. This simulator allows to render realistic high-resolution touch readings at hundreds of frames per second, and can be easily configured to simulate different vision-based tactile sensors, including GelSight, DIGIT and OmniTact. In this paper, we detail the principles that drove the implementation of TACTO and how they are reflected in its architecture. We demonstrate TACTO on a perceptual task, by learning to predict grasp stability using touch from 1 million grasps, and on a marble manipulation control task. We believe that TACTO is a step towards the widespread adoption of touch sensing in robotic applications, and to enable machine learning practitioners interested in multi-modal learning and control. TACTO is open-source at https://github.com/facebookresearch/tacto.
翻訳日:2021-05-07 05:31:03 公開日:2020-12-15
# FAWA:光学式文字認識(OCR)システムにおける高速逆透かし攻撃

FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems ( http://arxiv.org/abs/2012.08096v1 )

ライセンス: Link先を確認
Lu Chen, Jiao Sun, Wei Xu(参考訳) ディープニューラルネットワーク(DNN)は光学文字認識(OCR)の精度を大幅に向上させ、多くの重要な応用に影響を与えた。 残念ながら、OCRは敵の例の下でDNNの脆弱性を継承している。 カラフルなバニラ画像とは異なり、テキスト画像は通常明確な背景を持つ。 既存のほとんどの敵攻撃によって生成された敵の例は不自然であり、背景を厳しく汚染する。 この問題に対処するために,シーケンスベースのOCRモデルに対して,White-box方式でFAWA(Fast Adversarial Watermark Attack)を提案する。 摂動を透かしとすることで、人間の目に自然に敵のイメージを見せることができ、完璧な攻撃成功率を達成することができる。 FAWAは勾配ベースまたは最適化ベースの摂動生成で動作する。 文字レベルの攻撃と単語レベルの攻撃の両方において、fawaは自然外観に加えて、摂動が60%少なく、イテレーションが平均78%少ない100%攻撃成功率を達成しています。 さらにfawaを拡張して,フルカラーのウォーターマーク,他の言語,さらにはocr精度向上機構もサポートする。

Deep neural networks (DNNs) significantly improved the accuracy of optical character recognition (OCR) and inspired many important applications. Unfortunately, OCRs also inherit the vulnerabilities of DNNs under adversarial examples. Different from colorful vanilla images, text images usually have clear backgrounds. Adversarial examples generated by most existing adversarial attacks are unnatural and pollute the background severely. To address this issue, we propose the Fast Adversarial Watermark Attack (FAWA) against sequence-based OCR models in the white-box manner. By disguising the perturbations as watermarks, we can make the resulting adversarial images appear natural to human eyes and achieve a perfect attack success rate. FAWA works with either gradient-based or optimization-based perturbation generation. In both letter-level and word-level attacks, our experiments show that in addition to natural appearance, FAWA achieves a 100% attack success rate with 60% less perturbations and 78% fewer iterations on average. In addition, we further extend FAWA to support full-color watermarks, other languages, and even the OCR accuracy-enhancing mechanism.
翻訳日:2021-05-07 05:29:43 公開日:2020-12-15
# Frozen-to-Paraffin: Paraffin セクションと生成側ネットワークによる組織凍結部の分類

Frozen-to-Paraffin: Categorization of Histological Frozen Sections by the Aid of Paraffin Sections and Generative Adversarial Networks ( http://arxiv.org/abs/2012.08158v1 )

ライセンス: Link先を確認
Michael Gadermayr, Maximilian Tschuchnig, Lea Maria Stangassinger, Christina Kreutzer, Sebastien Couillard-Despres, Gertie Janneke Oostingh, Anton Hittmair(参考訳) パラフィンセクションとは対照的に、凍結セクションは外科的介入によって迅速に生成される。 この術式では, 術中の組織学的所見を待ち, 組織学的結果に基づいて術中決定を下すことができる。 しかし、パラフィン部に比べ、凍結部の品質は一般的に低いため、ミス分類の比率は高い。 本研究は,甲状腺癌分類における自動判定支援アプローチに対するセクションタイプの影響について検討した。 これは、個々の患者のためのセクションのペアからなるデータセットによって実現されました。 さらに,凍結パラフィン翻訳が分類スコアの最適化に役立つかどうかを検討した。 最後に,少量のトレーニングデータに対処し,さらに分類精度を高めるための具体的なデータ拡張戦略を提案する。

In contrast to paraffin sections, frozen sections can be quickly generated during surgical interventions. This procedure allows surgeons to wait for histological findings during the intervention to base intra-operative decisions on the outcome of the histology. However, compared to paraffin sections, the quality of frozen sections is typically lower, leading to a higher ratio of miss-classification. In this work, we investigated the effect of the section type on automated decision support approaches for classification of thyroid cancer. This was enabled by a data set consisting of pairs of sections for individual patients. Moreover, we investigated, whether a frozen-to-paraffin translation could help to optimize classification scores. Finally, we propose a specific data augmentation strategy to deal with a small amount of training data and to increase classification accuracy even further.
翻訳日:2021-05-07 05:29:24 公開日:2020-12-15
# foggysight: 顔のルックアッププライバシーのためのスキーム

FoggySight: A Scheme for Facial Lookup Privacy ( http://arxiv.org/abs/2012.08588v1 )

ライセンス: Link先を確認
Ivan Evtimov, Pascal Sturmfels, Tadayoshi Kohno(参考訳) ディープラーニングアルゴリズムの進歩は、顔認識タスクにおける人間よりも優れたパフォーマンスを可能にした。 同時に、プライベート企業は、写真とIDを結びつけるソーシャルメディアやその他の公開ウェブサイトを廃止し、ラベル付き顔画像の大規模なデータベースを構築している。 これらのデータベースの検索は現在、法執行機関などのサービスとして提供されており、ソーシャルメディアユーザーには数多くのプライバシーリスクが伴っている。 本研究では、このような顔認識システムからプライバシーを提供する問題に取り組む。 foggysightは、敵の事例文献から学んだ教訓をソーシャルメディアにアップロードする前に、プライバシー保護的な方法で顔写真を変更するためのソリューションだ。 FoggySightの中核的な機能はコミュニティ保護戦略である。ユーザは、敵対的な機械学習アルゴリズムによって生成されたデコイ写真をアップロードする。 このスキームのさまざまな設定を調査し、未知の内部を持つ顔認識サービスを含む、顔のプライバシ保護を可能にすることを発見した。

Advances in deep learning algorithms have enabled better-than-human performance on face recognition tasks. In parallel, private companies have been scraping social media and other public websites that tie photos to identities and have built up large databases of labeled face images. Searches in these databases are now being offered as a service to law enforcement and others and carry a multitude of privacy risks for social media users. In this work, we tackle the problem of providing privacy from such face recognition systems. We propose and evaluate FoggySight, a solution that applies lessons learned from the adversarial examples literature to modify facial photos in a privacy-preserving manner before they are uploaded to social media. FoggySight's core feature is a community protection strategy where users acting as protectors of privacy for others upload decoy photos generated by adversarial machine learning algorithms. We explore different settings for this scheme and find that it does enable protection of facial privacy -- including against a facial recognition service with unknown internals.
翻訳日:2021-05-07 05:29:13 公開日:2020-12-15
# CUDA-Optimized Real-time rendering of a Foveated Visual System

CUDA-Optimized real-time rendering of a Foveated Visual System ( http://arxiv.org/abs/2012.08655v1 )

ライセンス: Link先を確認
Elian Malkin, Arturo Deza, Tomaso Poggio(参考訳) 人間の視覚システムの空間的に変化する分野は、仮想現実(vr)とニューラルネットワークの開発によって、最近再び関心を集めている。 vrに希望する高解像度レンダリングの計算要求は、周囲を節約することで相殺できるが、foveated inputで訓練されたニューラルネットワークは、i.i.dとo.o.dの一般化において知覚的な向上を示している。 本稿では、cuda gpuアーキテクチャを利用して、従来のガウス系フォベーションアルゴリズムよりも多くのプーリング領域を持つ高精細(1920x1080px)で、高精細(1920x1080px)で効率的にガウス系フォベート画像を165hzで生成し、さらにブレンドや縫い合わせを必要とせず、任意のコントラスト感度関数に適合する滑らかなフォベート画像を生成する手法を提案する。 提案手法は,ガウス的ぼかしから偏心性に依存した画像処理に適応することができ,我々のアルゴリズムは,生物や人工エージェント間で空間的に変化する処理の役割を評価するために,実験に必要な要求を満たすことができる。 全体として,cudaブロックワイズアーキテクチャを持つgpuが,より複雑なポストプロセッシングによってメタメリックなフォベーションスキームを保証し,ラジアルな可変レンダリングに利用できることを示す。 コードが提供される。

The spatially-varying field of the human visual system has recently received a resurgence of interest with the development of virtual reality (VR) and neural networks. The computational demands of high resolution rendering desired for VR can be offset by savings in the periphery, while neural networks trained with foveated input have shown perceptual gains in i.i.d and o.o.d generalization. In this paper, we present a technique that exploits the CUDA GPU architecture to efficiently generate Gaussian-based foveated images at high definition (1920x1080 px) in real-time (165 Hz), with a larger number of pooling regions than previous Gaussian-based foveation algorithms by several orders of magnitude, producing a smoothly foveated image that requires no further blending or stitching, and that can be well fit for any contrast sensitivity function. The approach described can be adapted from Gaussian blurring to any eccentricity-dependent image processing and our algorithm can meet demand for experimentation to evaluate the role of spatially-varying processing across biological and artificial agents, so that foveation can be added easily on top of existing systems rather than forcing their redesign (emulated foveated renderer). Altogether, this paper demonstrates how a GPU, with a CUDA block-wise architecture, can be employed for radially-variant rendering, with opportunities for more complex post-processing to ensure a metameric foveation scheme. Code is provided.
翻訳日:2021-05-07 05:28:58 公開日:2020-12-15
# パーソナルメンタルヘルスナビゲータ: 心理的幸福を促進するために、データ、パーソナルモデル、健康サイバーネティクスの力を活用する

Personal Mental Health Navigator: Harnessing the Power of Data, Personal Models, and Health Cybernetics to Promote Psychological Well-being ( http://arxiv.org/abs/2012.09131v1 )

ライセンス: Link先を確認
Amir M. Rahmani, Jocelyn Lai, Salar Jafarlou, Asal Yunusova, Alex. P. Rivera, Sina Labbaf, Sirui Hu, Arman Anzanpour, Nikil Dutt, Ramesh Jain, Jessica L. Borelli(参考訳) 伝統的に、メンタルヘルスの体制は、患者が複数の提供者訪問を通じて発達した所定の治療計画を通じて提供者からケアを求めるエピソディック精神療法モデルに従っている。 近年のウェアラブルとモバイル技術の発展により、個人が心身の健康症状に対処できるデジタルメンタルヘルスへの関心が高まっている。 しかしながら、これらの取り組みは一般的に反応性と症状に焦点を当てており、時間とともに広がる個人の総体的メンタルヘルスモデルを捉える包括的で包括的でカスタマイズされた治療を提供しない。 個別の個人が独特であることを認識し、パーソナライズドメンタルヘルスナビゲーション (mhn) という概念を提示する。これは、個人のメンタルヘルス状態を健全なゾーンに向けて操るために、測定、推定、ガイダンスの連続的な循環を展開するセラピスト・イン・ザ・ループ、サイバーネティックな目標ベースのシステムである。 感情・生物学的パターン・社会学・行動・認知といった複数の知識層からなる高次元のカバーで表される個人の精神的健康状態の発達を前提としたmhnの主要な構成要素について概説する。 大学生の総合的ストレス管理のための12ヶ月のパイロットケーススタディを通じて, パーソナライズされたMHNアプローチの有効性を実証し, 持続的期間にわたる中等度のうつ病のモニタリング, 推定, 積極的対処にMHNを使用したセラピスト・イン・ザ・ループ介入の事例を強調した。 私たちは、MHNがメンタルヘルスを、現在の受動的でエピソジックでリアクティブなプロセス(個人がすでに現れている症状に対処する手助けをする)から、個人のパーソナライズされたモデルを活用する継続的かつナビゲーションのパラダイムに転換する道を開いたと信じています。

Traditionally, the regime of mental healthcare has followed an episodic psychotherapy model wherein patients seek care from a provider through a prescribed treatment plan developed over multiple provider visits. Recent advances in wearable and mobile technology have generated increased interest in digital mental healthcare that enables individuals to address episodic mental health symptoms. However, these efforts are typically reactive and symptom-focused and do not provide comprehensive, wrap-around, customized treatments that capture an individual's holistic mental health model as it unfolds over time. Recognizing that each individual is unique, we present the notion of Personalized Mental Health Navigation (MHN): a therapist-in-the-loop, cybernetic goal-based system that deploys a continuous cyclic loop of measurement, estimation, guidance, to steer the individual's mental health state towards a healthy zone. We outline the major components of MHN that is premised on the development of an individual's personal mental health state, holistically represented by a high-dimensional cover of multiple knowledge layers such as emotion, biological patterns, sociology, behavior, and cognition. We demonstrate the feasibility of the personalized MHN approach via a 12-month pilot case study for holistic stress management in college students and highlight an instance of a therapist-in-the-loop intervention using MHN for monitoring, estimating, and proactively addressing moderately severe depression over a sustained period of time. We believe MHN paves the way to transform mental healthcare from the current passive, episodic, reactive process (where individuals seek help to address symptoms that have already manifested) to a continuous and navigational paradigm that leverages a personalized model of the individual, promising to deliver timely interventions to individuals in a holistic manner.
翻訳日:2021-05-07 05:28:30 公開日:2020-12-15
# Simileでポーランド語を書く:タスク,データセット,ニューラルアプローチ

Writing Polishment with Simile: Task, Dataset and A Neural Approach ( http://arxiv.org/abs/2012.08117v1 )

ライセンス: Link先を確認
Jiayi Zhang, Zhi Cui, Xiaoqiang Xia, Yalong Guo, Yanran Li, Chen Wei, Jianwei Cui(参考訳) シミリ(simile)は、直接比較を行い、例えば2つの異なるもの間の類似性を示す音声の図形である。 「紙を読むのは、草が生えるのを見るように、時々鈍くなる。」 人間の作家はしばしば、適切なシミュラをプレーンテキストの適切な場所へ解釈して、彼らの著作を活気づける。 しかし、既存の研究では、探索と生成の両方を含むニューラルシミール補間を探求していない。 本稿では,機械が人間のようにシミールでテキストを磨くことができるかどうかを調べるため,simile (wps) を用いた研磨作業を提案する。 そこで我々は,トランスフォーマーアーキテクチャに基づく2段配置・生成モデルの設計を行った。 我々のモデルはまず、シミリ補間が行われるべき場所を特定し、次に位置特異的シミリを生成する。 また、コンテキスト付きで500万シミリを含む大規模な中国シマイル(cs)データセットもリリースしています。 実験結果は,WPSタスクの実現可能性を示し,将来的な研究の方向性を明らかにするものである。

A simile is a figure of speech that directly makes a comparison, showing similarities between two different things, e.g. "Reading papers can be dull sometimes,like watching grass grow". Human writers often interpolate appropriate similes into proper locations of the plain text to vivify their writings. However, none of existing work has explored neural simile interpolation, including both locating and generation. In this paper, we propose a new task of Writing Polishment with Simile (WPS) to investigate whether machines are able to polish texts with similes as we human do. Accordingly, we design a two-staged Locate&Gen model based on transformer architecture. Our model firstly locates where the simile interpolation should happen, and then generates a location-specific simile. We also release a large-scale Chinese Simile (CS) dataset containing 5 million similes with context. The experimental results demonstrate the feasibility of WPS task and shed light on the future research directions towards better automatic text polishment.
翻訳日:2021-05-07 05:27:52 公開日:2020-12-15
# エネルギーベースクローズモデルとしてのプレトレーニングトランス

Pre-Training Transformers as Energy-Based Cloze Models ( http://arxiv.org/abs/2012.08561v1 )

ライセンス: Link先を確認
Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning(参考訳) テキストによる表現学習のためのエネルギーベースクローゼモデルであるElectricを導入する。 BERTと同様に、コンテキストが与えられたトークンの条件付き生成モデルである。 しかし、electricはマスキングを使用しず、コンテキスト内で発生したトークンに対する完全な分散を出力しない。 代わりに、各入力トークンにスカラーエネルギースコアを割り当て、そのコンテキストがどの程度の確率で与えられるかを示す。 我々は、ノイズコントラスト推定に基づくアルゴリズムを用いてElectricを訓練し、この学習目的が最近提案されたELECTRA事前学習手法とどのように密接に関連しているかを明らかにする。 electricは下流のタスクに転送されるとうまく動作し、テキストの確率スコアを作成するのに特に効果的である: 音声認識n-bestリストを言語モデルよりも良くランク付けし、マスクされた言語モデルよりもずっと高速である。 さらに、事前トレーニング中にelectraが学んだことを明確にし、より原則的に見ることもできる。

We introduce Electric, an energy-based cloze model for representation learning over text. Like BERT, it is a conditional generative model of tokens given their contexts. However, Electric does not use masking or output a full distribution over tokens that could occur in a context. Instead, it assigns a scalar energy score to each input token indicating how likely it is given its context. We train Electric using an algorithm based on noise-contrastive estimation and elucidate how this learning objective is closely related to the recently proposed ELECTRA pre-training method. Electric performs well when transferred to downstream tasks and is particularly effective at producing likelihood scores for text: it re-ranks speech recognition n-best lists better than language models and much faster than masked language models. Furthermore, it offers a clearer and more principled view of what ELECTRA learns during pre-training.
翻訳日:2021-05-07 05:27:38 公開日:2020-12-15
# MeisterMorxrc at SemEval-2020 Task 9: Fine-Tune Bert and Multitask Learning for Sentiment Analysis of Code-Mixed Tweets (英語)

MeisterMorxrc at SemEval-2020 Task 9: Fine-Tune Bert and Multitask Learning for Sentiment Analysis of Code-Mixed Tweets ( http://arxiv.org/abs/2101.03028v1 )

ライセンス: Link先を確認
Qi Wu, Peng Wang, Chenghao Huang(参考訳) 自然言語処理(NLP)はテキスト分類や感情分析など様々な分野に適用されている。 SemEval-2020コンペティション~\cite{patwa2020sentimix} の一部であるコードミックスツイートの感情分析の共有タスクでは、絵文字の置き換えや非共通文字の削除などによってデータセットを前処理し、変換器(BERT)から双方向エンコーダ表現を微調整してベストを尽くします。 トップ3の応募を終えると、チームmeistermorxrcは平均的なf1スコア0.730を達成し、codalabのユーザーネームはmeistermorxrcです。

Natural language processing (NLP) has been applied to various fields including text classification and sentiment analysis. In the shared task of sentiment analysis of code-mixed tweets, which is a part of the SemEval-2020 competition~\cite{patwa2020sentimix}, we preprocess datasets by replacing emoji and deleting uncommon characters and so on, and then fine-tune the Bidirectional Encoder Representation from Transformers(BERT) to perform the best. After exhausting top3 submissions, Our team MeisterMorxrc achieves an averaged F1 score of 0.730 in this task, and and our codalab username is MeisterMorxrc.
翻訳日:2021-05-07 05:27:26 公開日:2020-12-15
# スマートモビリティオントロジーの現状と今後の方向性

Smart Mobility Ontology: Current Trends and Future Directions ( http://arxiv.org/abs/2012.08622v1 )

ライセンス: Link先を確認
Ali Yazdizadeh and Bilal Farooq(参考訳) オントロジーはドメイン内の概念とそれらの間の関係の明示的かつ形式的な表現である。 交通科学は、土地、航空、海上輸送など、様々な複雑で相互接続された輸送システムに対する移動性を扱う広い領域であり、オントロジーの発展からかなりの利点を享受することができる。 近年の文献にはいくつかの研究があるが、総合的なスマートモビリティオントロジーを改良し発展させる大きな可能性がある。 本章は、オントロジー開発方法、言語、ツール、ソフトウェアなど、オントロジー開発全般のさまざまな側面を提示することを目的としている。 その後、輸送、スマートシティ、商品モビリティ、センサーなど、さまざまなドメインで現在利用可能なモビリティ関連のオントロジーを紹介する。 現在利用可能なオントロジーのギャップが特定されており、今後の自動運転・コネクテッドカー、モビリティ・アズ・ア・サービス(maas)、その他の破壊的な輸送技術やサービスを取り入れたオントロジー開発に関する今後の方向性が提案されている。

Ontology is the explicit and formal representation of the concepts in a domain and relations among them. Transportation science is a wide domain dealing with mobility over various complex and interconnected transportation systems, such as land, aviation, and maritime transport, and can take considerable advantage from ontology development. While several studies can be found in the recent literature, there exists a large potential to improve and develop a comprehensive smart mobility ontology. The current chapter aims to present different aspects of ontology development in general, such as ontology development methods, languages, tools, and software. Subsequently, it presents the currently available mobility-related ontologies developed across different domains, such as transportation, smart cities, goods mobility, sensors. Current gaps in the available ontologies are identified, and future directions regarding ontology development are proposed that can incorporate the forthcoming autonomous and connected vehicles, mobility as a service (MaaS), and other disruptive transportation technologies and services.
翻訳日:2021-05-07 05:26:39 公開日:2020-12-15
# 自己教師付き単眼訓練深度推定のための意味誘導表現強調

Semantic-Guided Representation Enhancement for Self-supervised Monocular Trained Depth Estimation ( http://arxiv.org/abs/2012.08048v1 )

ライセンス: Link先を確認
Rui Li, Qing Mao, Pei Wang, Xiantuo He, Yu Zhu, Jinqiu Sun, Yanning Zhang(参考訳) 自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。 しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。 本稿では,局所的特徴表現と大域的深さ特徴表現の両方を,リッチな文脈情報を用いて促進する意味的ガイド付き奥行き表現拡張手法を提案する。 従来のパラダイムで用いられる1つの深度ネットワークの代わりに、深度推定のための余分な文脈的特徴を提供するセグメンテーションブランチを提案する。 本稿では,この枠組みに基づき,意味的辺にある点に基づく特徴を個別の意味的誘導エッジ拡張モジュール (seem) にサンプリング・供給することにより,局所的特徴表現を向上させる。 そして,マルチレベル深度復号方式における画素単位の相関を探索することにより,意味的・深度的特徴を高める意味誘導型多レベルアテンション機構を提案することにより,グローバルな特徴表現を改善する。 広範囲な実験により,意味圏境界や細い物体などの難解な画像領域の精度の高い深度を捉える上で,本手法の顕著な優位性を検証した。 KITTIにおける定量的および定性的実験は,本手法が最先端の手法より優れていることを示す。

Self-supervised depth estimation has shown its great effectiveness in producing high quality depth maps given only image sequences as input. However, its performance usually drops when estimating on border areas or objects with thin structures due to the limited depth representation ability. In this paper, we address this problem by proposing a semantic-guided depth representation enhancement method, which promotes both local and global depth feature representations by leveraging rich contextual information. In stead of a single depth network as used in conventional paradigms, we propose an extra semantic segmentation branch to offer extra contextual features for depth estimation. Based on this framework, we enhance the local feature representation by sampling and feeding the point-based features that locate on the semantic edges to an individual Semantic-guided Edge Enhancement module (SEEM), which is specifically designed for promoting depth estimation on the challenging semantic borders. Then, we improve the global feature representation by proposing a semantic-guided multi-level attention mechanism, which enhances the semantic and depth features by exploring pixel-wise correlations in the multi-level depth decoding scheme. Extensive experiments validate the distinct superiority of our method in capturing highly accurate depth on the challenging image areas such as semantic category borders and thin objects. Both quantitative and qualitative experiments on KITTI show that our method outperforms the state-of-the-art methods.
翻訳日:2021-05-07 05:26:22 公開日:2020-12-15
# 混ざった監督で分断するように教える:信頼の学生がマスターになる

Teach me to segment with mixed supervision: Confident students become masters ( http://arxiv.org/abs/2012.08051v1 )

ライセンス: Link先を確認
Jose Dolz, Christian Desrosiers, Ismail Ben Ayed(参考訳) ディープセグメンテーションニューラルネットワークは、ピクセル単位のセグメンテーションを持つ大規模なトレーニングデータセットを必要とする。 混合監督は、ピクセル単位のアノテーションを含むデータのごく一部でこの困難を軽減し、残りは、例えば、わずかなピクセルだけがラベル付けされるなど、監督されていない。 本研究では,上枝(教師)が強いアノテーションを受け取り,下枝(学生)が限られた監督によって駆動され,上枝が指導する二重ブランチアーキテクチャを提案する。 In conjunction with a standard cross-entropy over the labeled pixels, our novel formulation integrates two important terms: (i) a Shannon entropy loss defined over the less-supervised images, which encourages confident student predictions at the bottom branch; and (ii) a Kullback-Leibler (KL) divergence, which transfers the knowledge from the predictions generated by the strongly supervised branch to the less-supervised branch, and guides the entropy (student-confidence) term to avoid trivial solutions. 興味深いことに、エントロピーとklの発散の相乗効果はパフォーマンスの大幅な改善をもたらす。 さらに、シャノンエントロピー最小化と標準擬似マスク生成の興味深い関係を考察し、ラベルなし画素からの情報を活用するために前者が後者よりも好まれるべきであると主張する。 定量的および定性的な一連の実験を通して,MRI画像の左室心内膜分画における定式化の有効性を示す。 本手法は,混合スーパービジョンフレームワークにおけるセマンティクスセグメンテーションに取り組むための他の戦略を著しく上回っていることを示す。 より興味深いことに、最近の分類の観察と相まって、監督の少ない訓練を受けた分科が教師を圧倒的に上回っていることが示されている。

Deep segmentation neural networks require large training datasets with pixel-wise segmentations, which are expensive to obtain in practice. Mixed supervision could mitigate this difficulty, with a small fraction of the data containing complete pixel-wise annotations, while the rest being less supervised, e.g., only a handful of pixels are labeled. In this work, we propose a dual-branch architecture, where the upper branch (teacher) receives strong annotations, while the bottom one (student) is driven by limited supervision and guided by the upper branch. In conjunction with a standard cross-entropy over the labeled pixels, our novel formulation integrates two important terms: (i) a Shannon entropy loss defined over the less-supervised images, which encourages confident student predictions at the bottom branch; and (ii) a Kullback-Leibler (KL) divergence, which transfers the knowledge from the predictions generated by the strongly supervised branch to the less-supervised branch, and guides the entropy (student-confidence) term to avoid trivial solutions. Very interestingly, we show that the synergy between the entropy and KL divergence yields substantial improvements in performances. Furthermore, we discuss an interesting link between Shannon-entropy minimization and standard pseudo-mask generation and argue that the former should be preferred over the latter for leveraging information from unlabeled pixels. Through a series of quantitative and qualitative experiments, we show the effectiveness of the proposed formulation in segmenting the left-ventricle endocardium in MRI images. We demonstrate that our method significantly outperforms other strategies to tackle semantic segmentation within a mixed-supervision framework. More interestingly, and in line with recent observations in classification, we show that the branch trained with reduced supervision largely outperforms the teacher.
翻訳日:2021-05-07 05:25:56 公開日:2020-12-15
# ビデオにおける時空間行動認識の改善に向けて

Towards Improving Spatiotemporal Action Recognition in Videos ( http://arxiv.org/abs/2012.08097v1 )

ライセンス: Link先を確認
Shentong Mo, Xiaoqing Tan, Jingfei Xia, Pinxu Ren(参考訳) 時空間的行動認識はビデオ内の行動の特定と分類を扱う。 最新の最先端のリアルタイム物体検出装置であるYou Only Watch Once (YOWO)に触発された我々は、その構造を変更して行動検出精度を高め、計算時間を短縮することを目指している。 具体的には,yowoの改良と,ロス関数の修正によるビデオの不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。 カーネギーメロン大学に本拠を置くスタートアップAgot.AIが提供したレストランビデオのプライベートデータセットであるJ-HMDB-21(Joint-annotated Human Motion Data Base)を応用するための2つの中規模データセットを検討する。 後者は、小さなオブジェクトで素早く動くアクションと不均衡なデータクラスを含み、アクションローカライゼーションのタスクをより難しくする。 提案したメソッドはGitHubリポジトリ https://github.com/stoneMo/YOWOv2で実装しています。

Spatiotemporal action recognition deals with locating and classifying actions in videos. Motivated by the latest state-of-the-art real-time object detector You Only Watch Once (YOWO), we aim to modify its structure to increase action detection precision and reduce computational time. Specifically, we propose four novel approaches in attempts to improve YOWO and address the imbalanced class issue in videos by modifying the loss function. We consider two moderate-sized datasets to apply our modification of YOWO - the popular Joint-annotated Human Motion Data Base (J-HMDB-21) and a private dataset of restaurant video footage provided by a Carnegie Mellon University-based startup, Agot.AI. The latter involves fast-moving actions with small objects as well as unbalanced data classes, making the task of action localization more challenging. We implement our proposed methods in the GitHub repository https://github.com/stoneMo/YOWOv2.
翻訳日:2021-05-07 05:25:01 公開日:2020-12-15
# マルチドメイン学習によるカスタムサイズの家具の深いレイアウト

Deep Layout of Custom-size Furniture through Multiple-domain Learning ( http://arxiv.org/abs/2012.08131v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu, Danfeng Yang, Hong Zhu, Changyu Sun, YinDong Liu(参考訳) 本稿では,インテリアシーンでカスタムサイズの家具レイアウトを作成するための多領域モデルを提案する。 このモデルは、プロのインテリアデザイナーがカスタムサイズの家具でインテリアデコレーションソリューションをより迅速に作成できるようにすることを目的としている。 提案モデルは、エンドエンドトレーニングにおいて、ディープレイアウトモジュール、ドメインアテンションモジュール、次元ドメイン転送モジュール、カスタムサイズモジュールを組み合わせる。 シーン合成に関する先行研究と比較して,提案モデルは室内のカスタムサイズ家具の自動レイアウト機能を向上させる。 私たちは、プロのデザイナーによる7万10700ドルのデザインを含む、現実世界の内部レイアウトデータセットで実験を行います。 提案モデルは,最先端の家具と比較して,より高品質な家具のレイアウトが得られることを示す。

In this paper, we propose a multiple-domain model for producing a custom-size furniture layout in the interior scene. This model is aimed to support professional interior designers to produce interior decoration solutions with custom-size furniture more quickly. The proposed model combines a deep layout module, a domain attention module, a dimensional domain transfer module, and a custom-size module in the end-end training. Compared with the prior work on scene synthesis, our proposed model enhances the ability of auto-layout of custom-size furniture in the interior room. We conduct our experiments on a real-world interior layout dataset that contains $710,700$ designs from professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts of custom-size furniture in comparison with the state-of-art model.
翻訳日:2021-05-07 05:24:20 公開日:2020-12-15
# 財務チケット画像における全コンテンツテキスト認識手法に関する研究

Research on All-content Text Recognition Method for Financial Ticket Image ( http://arxiv.org/abs/2012.08168v1 )

ライセンス: Link先を確認
Fukang Tian, Haiyu Wu, Bo Xu(参考訳) 経済の発展に伴い、金融チケットの数は急速に増加した。 従来の手形による請求書の払い戻しと財務会計システムは、財務会計士にますます負担をもたらしている。 そこで本研究では,多数のファイナンシャルチケットデータの研究と分析に基づいて,ディープラーニングに基づく全コンテンツテキストの検出・認識手法を高精度かつ効率的に設計した。 この方法は、認識精度とリコール率が高く、財務会計業務の実際の要件を満たすことができる。 また,ファイナンシャル・チケット・キャラクタ認識フレームワーク (FTCRF) を提案する。 漢字認識の特徴から,この枠組みには2段階情報抽出手法が組み込まれており,漢字認識の高速化が図られている。 実験の結果,本手法の平均認識精度は,文字列の91.75\%,チケット全体の87\%であった。 本手法の有効性と有効性は,金融会計システムの効率を大幅に向上させる商用アプリケーションシステムによって検証される。

With the development of the economy, the number of financial tickets increases rapidly. The traditional manual invoice reimbursement and financial accounting system bring more and more burden to financial accountants. Therefore, based on the research and analysis of a large number of real financial ticket data, we designed an accurate and efficient all contents text detection and recognition method based on deep learning. This method has higher recognition accuracy and recall rate and can meet the actual requirements of financial accounting work. In addition, we propose a Financial Ticket Character Recognition Framework (FTCRF). According to the characteristics of Chinese character recognition, this framework contains a two-step information extraction method, which can improve the speed of Chinese character recognition. The experimental results show that the average recognition accuracy of this method is 91.75\% for character sequence and 87\% for the whole ticket. The availability and effectiveness of this method are verified by a commercial application system, which significantly improves the efficiency of the financial accounting system.
翻訳日:2021-05-07 05:24:09 公開日:2020-12-15
# docextractor: 既製の歴史的文書要素の抽出

docExtractor: An off-the-shelf historical document element extraction ( http://arxiv.org/abs/2012.08191v1 )

ライセンス: Link先を確認
Tom Monnier, Mathieu Aubry(参考訳) 実データアノテーションを必要とせずに,テキスト行やイラストなどの視覚的要素を史料から抽出する汎用的手法である docExtractor を提案する。 さまざまなデータセットにまたがるオフ・ザ・シェルフシステムとして高品質なパフォーマンスを提供し、微調整された場合の最先端技術と同等の結果をもたらすことを実証する。 特定のデータセットを微調整せずに得られる性能は、特にデジタル人間性においてアプリケーションにとって重要であり、私たちが扱う行レベルのページセグメンテーションは汎用の要素抽出エンジンにとって最も重要である。 私たちは、リッチな合成文書の高速生成と完全な畳み込みネットワークの設計に依存しています。 さらに,文献におけるイラストのセグメンテーションの詳細な評価を目的とした,IlluHisDocと呼ばれる新しい公開データセットを導入する。

We present docExtractor, a generic approach for extracting visual elements such as text lines or illustrations from historical documents without requiring any real data annotation. We demonstrate it provides high-quality performances as an off-the-shelf system across a wide variety of datasets and leads to results on par with state-of-the-art when fine-tuned. We argue that the performance obtained without fine-tuning on a specific dataset is critical for applications, in particular in digital humanities, and that the line-level page segmentation we address is the most relevant for a general purpose element extraction engine. We rely on a fast generator of rich synthetic documents and design a fully convolutional network, which we show to generalize better than a detection-based approach. Furthermore, we introduce a new public dataset dubbed IlluHisDoc dedicated to the fine evaluation of illustration segmentation in historical documents.
翻訳日:2021-05-07 05:23:56 公開日:2020-12-15
# FMODetect:高速移動物体のロバスト検出と軌道推定

FMODetect: Robust Detection and Trajectory Estimation of Fast Moving Objects ( http://arxiv.org/abs/2012.08216v1 )

ライセンス: Link先を確認
Denys Rozumnyi, Jiri Matas, Filip Sroubek, Marc Pollefeys, Martin R. Oswald(参考訳) 高速移動物体の検出と軌道推定のための最初の学習ベースアプローチを提案する。 このようなオブジェクトは非常にぼやけており、1つのビデオフレーム内で大きな距離を移動します。 高速動くオブジェクトは、デブラッティング(deblatting)とも呼ばれるデブラリングやマットングの問題と関連している。 複雑なデブラッティング問題を共同で解決する代わりに、問題をマットングとデブラリングに分割し、それらを別々に解決します。 提案手法は, トラジェクタへの切り離された距離関数として, 高速移動物体をまず検出する。 その後、検出された各対象に対するマッチング・フィッティング・ネットワークは、対象の軌跡とその背景のないぼやけた外観を推定する。 シャープな外観推定のために,エネルギー最小化に基づくデブロワーリングを提案する。 最先端の手法は、軌道推定と鋭い外観再構成の点で上回っている。 宣言などの他の手法と比較して、推論は桁違いに高速であり、大規模なビデオコレクションにおけるリアルタイムの高速移動物体の検出や検索などのアプリケーションを可能にする。

We propose the first learning-based approach for detection and trajectory estimation of fast moving objects. Such objects are highly blurred and move over large distances within one video frame. Fast moving objects are associated with a deblurring and matting problem, also called deblatting. Instead of solving the complex deblatting problem jointly, we split the problem into matting and deblurring and solve them separately. The proposed method first detects all fast moving objects as a truncated distance function to the trajectory. Subsequently, a matting and fitting network for each detected object estimates the object trajectory and its blurred appearance without background. For the sharp appearance estimation, we propose an energy minimization based deblurring. The state-of-the-art methods are outperformed in terms of trajectory estimation and sharp appearance reconstruction. Compared to other methods, such as deblatting, the inference is of several orders of magnitude faster and allows applications such as real-time fast moving object detection and retrieval in large video collections.
翻訳日:2021-05-07 05:23:21 公開日:2020-12-15
# point-level temporal action localization: bridging full-supervised proposals to weakly-supervised loss

Point-Level Temporal Action Localization: Bridging Fully-supervised Proposals to Weakly-supervised Losses ( http://arxiv.org/abs/2012.08236v1 )

ライセンス: Link先を確認
Chen Ju, Peisen Zhao, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) ポイントレベル時間的アクションローカライゼーション(PTAL)は、アクションインスタンスごとに1つのタイムスタンプアノテーションで、未トリミングビデオ中のアクションをローカライズすることを目的としている。 既存の方法はフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。 しかし、そのようなフレームワークは必然的に大きなソリューション空間に苦しむ。 本稿では,より制約のある解空間と隣り合うフレーム間の一貫した予測の利点を生かした,ポイントレベルのアノテーションの提案に基づく予測パラダイムの検討を試みる。 ポイントレベルのアノテーションは、まずキーポイントディテクターをトレーニングするためのキーポイント監視として使用される。 位置予測の段階では、トレーニングエラーのバックプロパゲーションを可能にするシンプルで効果的なマッパーモジュールを導入し、完全な教師付きフレームワークを弱い監督で橋渡しする。 私たちの知る限りでは、ポイントレベルの設定に完全に教師されたパラダイムを活用するのはこれが初めてです。 THUMOS14,BEOID,GTEAの実験により,提案手法の有効性を定量的かつ定性的に検証し,本手法が最先端手法よりも優れていることを示す。

Point-Level temporal action localization (PTAL) aims to localize actions in untrimmed videos with only one timestamp annotation for each action instance. Existing methods adopt the frame-level prediction paradigm to learn from the sparse single-frame labels. However, such a framework inevitably suffers from a large solution space. This paper attempts to explore the proposal-based prediction paradigm for point-level annotations, which has the advantage of more constrained solution space and consistent predictions among neighboring frames. The point-level annotations are first used as the keypoint supervision to train a keypoint detector. At the location prediction stage, a simple but effective mapper module, which enables back-propagation of training errors, is then introduced to bridge the fully-supervised framework with weak supervision. To our best of knowledge, this is the first work to leverage the fully-supervised paradigm for the point-level setting. Experiments on THUMOS14, BEOID, and GTEA verify the effectiveness of our proposed method both quantitatively and qualitatively, and demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2021-05-07 05:23:08 公開日:2020-12-15
# ビジュアルコンテンツからの幾何学的拡張 - 地平を越えて

Geometry Enhancements from Visual Content: Going Beyond Ground Truth ( http://arxiv.org/abs/2012.08248v1 )

ライセンス: Link先を確認
Liran Azaria and Dan Raviv(参考訳) この研究は、画像から高周波パターンを抽出し、幾何学的特徴として再挿入する新しい循環アーキテクチャを提案する。 この方法では, 低コスト深度センサの分解能を向上し, 片方の手の細部を捉えるとともに, 他方の被検地真実に忠実である。 深度超解像タスクの最先端結果と、視覚的に魅力的で拡張された3Dモデルについて述べる。

This work presents a new cyclic architecture that extracts high-frequency patterns from images and re-insert them as geometric features. This procedure allows us to enhance the resolution of low-cost depth sensors capturing fine details on the one hand and being loyal to the scanned ground truth on the other. We present state-of-the-art results for depth super-resolution tasks and as well as visually attractive, enhanced generated 3D models.
翻訳日:2021-05-07 05:22:47 公開日:2020-12-15
# FCFR-Net:単眼深度補完のための特徴フュージョンに基づく粗/偽残差学習

FCFR-Net: Feature Fusion based Coarse-to-Fine Residual Learning for Monocular Depth Completion ( http://arxiv.org/abs/2012.08270v1 )

ライセンス: Link先を確認
Lina Liu, Xibin Song, Xiaoyang Lyu, Junwei Diao, Mengmeng Wang, Yong Liu, Liangjun Zhang(参考訳) 奥行き完了は、対応する色イメージを入力としてスパース深度マップから濃密深度マップを復元することを目的としている。 近年のアプローチでは, 深度マップを直接出力する一段階のエンドツーエンド学習タスクとして, 深度補完を定式化している。 しかし、一段階フレームワークの機能抽出と監視は不十分であり、これらのアプローチのパフォーマンスを制限している。 この問題に対処するために,2段階の学習課題,すなわちスパース・ツー・粗い段階と粗い・粗い段階として深度完了を定式化する,新しいエンドツーエンド残差学習フレームワークを提案する。 まず、単純なCNNフレームワークによって粗密深度マップを得る。 そして、粗い深度マップとカラー画像とを入力として、粗い粒度ステージにおける残差学習戦略を用いて洗練された深度マップを得る。 特に、細粒度ステージにおいて、カラー画像と粗度マップからより代表的な特徴を抽出するためにチャンネルシャッフル抽出操作が用いられ、チャンネルシャッフル操作によって得られた特徴を効果的に融合するためにエネルギーベースの融合操作が活用され、より正確で洗練された深度マップが作成される。 我々は,RMSE on KITTIベンチマークでSoTA性能を実現する。 他のデータセットに関する大規模な実験は、現在の最先端の深度補完アプローチよりも、我々のアプローチが優れていることを示す。

Depth completion aims to recover a dense depth map from a sparse depth map with the corresponding color image as input. Recent approaches mainly formulate the depth completion as a one-stage end-to-end learning task, which outputs dense depth maps directly. However, the feature extraction and supervision in one-stage frameworks are insufficient, limiting the performance of these approaches. To address this problem, we propose a novel end-to-end residual learning framework, which formulates the depth completion as a two-stage learning task, i.e., a sparse-to-coarse stage and a coarse-to-fine stage. First, a coarse dense depth map is obtained by a simple CNN framework. Then, a refined depth map is further obtained using a residual learning strategy in the coarse-to-fine stage with coarse depth map and color image as input. Specially, in the coarse-to-fine stage, a channel shuffle extraction operation is utilized to extract more representative features from color image and coarse depth map, and an energy based fusion operation is exploited to effectively fuse these features obtained by channel shuffle operation, thus leading to more accurate and refined depth maps. We achieve SoTA performance in RMSE on KITTI benchmark. Extensive experiments on other datasets future demonstrate the superiority of our approach over current state-of-the-art depth completion approaches.
翻訳日:2021-05-07 05:22:25 公開日:2020-12-15
# 都市データセット拡張のための人工ダミー

Artificial Dummies for Urban Dataset Augmentation ( http://arxiv.org/abs/2012.08274v1 )

ライセンス: Link先を確認
Anton\'in Vobeck\'y, David Hurych, Michal U\v{r}i\v{c}\'a\v{r}, Patrick P\'erez, and Josef \v{S}ivic(参考訳) 画像中の歩行者検知器を訓練するための既存のデータセットは、外観やポーズの変動が限られている。 最も困難なシナリオは、安全上の理由から捕獲が難しい、あるいは起こりそうにないため、めったに含まれない。 アシストや自動運転のアプリケーションにおける厳格な安全性要件は、これらのまれな状況においても、さらに高い検出精度を要求する。 任意のポーズで人物画像を生成でき、任意の外観で、異なる背景に様々な照明や天候条件で埋め込まれる能力は、そのようなアプリケーションの開発とテストにとって重要な要素である。 この論文の貢献は3つある。 まず,人間を含む都市景観の制御的合成のための拡張手法について述べる。 これは、ポーズ、外観、ターゲットの背景シーンを不連続に制御したデータジェネレータ(dummynetと呼ばれる)によって達成される。 第2に,提案するジェネレータは,前景人物のセグメンテーションとその構成を背景シーンに考慮した,新たなネットワークアーキテクチャと関連する損失に依存する。 最後に,dummynetが生成するデータは,限られたトレーニングデータしか利用できない夜間条件などの困難な状況において,さまざまなデータセットにまたがる既存の人物検出器の性能を向上させることを実証する。 日時データのみを利用可能なセットアップでは、日時データのみを用いてトレーニングされた検出器よりも、夜間検出器を17\%$ログ平均ミスレートで改善する。

Existing datasets for training pedestrian detectors in images suffer from limited appearance and pose variation. The most challenging scenarios are rarely included because they are too difficult to capture due to safety reasons, or they are very unlikely to happen. The strict safety requirements in assisted and autonomous driving applications call for an extra high detection accuracy also in these rare situations. Having the ability to generate people images in arbitrary poses, with arbitrary appearances and embedded in different background scenes with varying illumination and weather conditions, is a crucial component for the development and testing of such applications. The contributions of this paper are three-fold. First, we describe an augmentation method for controlled synthesis of urban scenes containing people, thus producing rare or never-seen situations. This is achieved with a data generator (called DummyNet) with disentangled control of the pose, the appearance, and the target background scene. Second, the proposed generator relies on novel network architecture and associated loss that takes into account the segmentation of the foreground person and its composition into the background scene. Finally, we demonstrate that the data generated by our DummyNet improve performance of several existing person detectors across various datasets as well as in challenging situations, such as night-time conditions, where only a limited amount of training data is available. In the setup with only day-time data available, we improve the night-time detector by $17\%$ log-average miss rate over the detector trained with the day-time data only.
翻訳日:2021-05-07 05:22:01 公開日:2020-12-15
# cluster, split, fuse, and update: meta-learning for open compound domain adaptive semantic segmentation

Cluster, Split, Fuse, and Update: Meta-Learning for Open Compound Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2012.08278v1 )

ライセンス: Link先を確認
Rui Gong, Yuhua Chen, Danda Pani Paudel, Yawei Li, Ajad Chhatkuli, Wen Li, Dengxin Dai, Luc Van Gool(参考訳) オープン・コンプレックス・ドメイン適応(OCDA)は、対象ドメインを複数の未知の同質領域の化合物としてモデル化し、未確認領域に一般化の改善の利点をもたらすドメイン適応セットである。 本研究では,OCDAのセマンティックセマンティックセグメンテーション(MOCDA)に対するメタラーニングに基づく手法を提案する。 我々のアプローチは4つの重要なステップからなる。 まず、対象ドメインを画像スタイルによって複数のサブターゲットドメインにクラスタリングし、教師なしの方法で抽出する。 次に、異なるサブターゲットドメインを独立ブランチに分割し、バッチ正規化パラメータを学習してそれらを独立に扱う。 その後、メタリーナーが配置され、スタイルコードに基づいて条件付けられたサブターゲットのドメイン固有の予測を融合する。 一方,モデル非依存型メタラーニング(maml)アルゴリズムによるオンライン更新を学習し,一般化をさらに改善する。 提案手法の利点は,複合領域とオープン領域の両方で最先端の性能を実現するための,合成-実知識伝達ベンチマークデータセットの広範な実験により検証する。

Open compound domain adaptation (OCDA) is a domain adaptation setting, where target domain is modeled as a compound of multiple unknown homogeneous domains, which brings the advantage of improved generalization to unseen domains. In this work, we propose a principled meta-learning based approach to OCDA for semantic segmentation, MOCDA, by modeling the unlabeled target domain continuously. Our approach consists of four key steps. First, we cluster target domain into multiple sub-target domains by image styles, extracted in an unsupervised manner. Then, different sub-target domains are split into independent branches, for which batch normalization parameters are learnt to treat them independently. A meta-learner is thereafter deployed to learn to fuse sub-target domain-specific predictions, conditioned upon the style code. Meanwhile, we learn to online update the model by model-agnostic meta-learning (MAML) algorithm, thus to further improve generalization. We validate the benefits of our approach by extensive experiments on synthetic-to-real knowledge transfer benchmark datasets, where we achieve the state-of-the-art performance in both compound and open domains.
翻訳日:2021-05-07 05:21:37 公開日:2020-12-15
# mDALU: 部分データセットによるマルチソースドメイン適応とラベル統一

mDALU: Multi-Source Domain Adaptation and Label Unification with Partial Datasets ( http://arxiv.org/abs/2012.08385v1 )

ライセンス: Link先を確認
Rui Gong, Dengxin Dai, Yuhua Chen, Wen Li, Luc Van Gool(参考訳) 物体認識は近年急速に進歩している。 課題のひとつは、既存のメソッドを新しいドメイン、より多くのクラス、または新しいデータモダリティに一般化することです。 これらの新しいケース毎に1つのデータセットに注釈を付けるのを避けるために、異なるドメインに属し、部分的なアノテーションを持ち、あるいは異なるデータモダリティを持つ可能性のある既存のデータセットを組み合わせて再利用する必要がある。 本稿では,この課題をマルチソースドメイン適応・ラベル統一(mDALU)問題として扱い,新しい手法を提案する。 本手法は,部分教師あり適応段階と完全教師あり適応段階からなる。 前者では、部分的な知識が複数のソースドメインからターゲットドメインに転送され、融合される。 非整合ラベル空間間の負の移動は、ドメイン注意、不確実性最大化、注意誘導逆アライメントの3つの新しいモジュールによって緩和される。 後者では、知識は擬似ラベルを持つラベル完了プロセスの後、統一ラベル空間に転送される。 本手法は,画像分類,2次元意味画像分割,ジョイント2d-3d意味セグメンテーションの3つのタスクで検証する。 広範な実験により,本手法がすべての競合手法を大幅に上回ることが示された。

Object recognition advances very rapidly these days. One challenge is to generalize existing methods to new domains, to more classes and/or to new data modalities. In order to avoid annotating one dataset for each of these new cases, one needs to combine and reuse existing datasets that may belong to different domains, have partial annotations, and/or have different data modalities. This paper treats this task as a multi-source domain adaptation and label unification (mDALU) problem and proposes a novel method for it. Our method consists of a partially-supervised adaptation stage and a fully-supervised adaptation stage. In the former, partial knowledge is transferred from multiple source domains to the target domain and fused therein. Negative transfer between unmatched label space is mitigated via three new modules: domain attention, uncertainty maximization and attention-guided adversarial alignment. In the latter, knowledge is transferred in the unified label space after a label completion process with pseudo-labels. We verify the method on three different tasks, image classification, 2D semantic image segmentation, and joint 2D-3D semantic segmentation. Extensive experiments show that our method outperforms all competing methods significantly.
翻訳日:2021-05-07 05:20:58 公開日:2020-12-15
# FINED:エッジ検出のための高速推論ネットワーク

FINED: Fast Inference Network for Edge Detection ( http://arxiv.org/abs/2012.08392v1 )

ライセンス: Link先を確認
Jan Kristanto Wibisono and Hsueh-Ming Hang(参考訳) 本稿では,軽量深層学習に基づくエッジ検出の設計について述べる。 ディープラーニング技術は、エッジ検出精度を大幅に向上させる。 しかし、典型的なニューラルネットワークの設計はモデルの複雑さが非常に高く、実用的利用を妨げている。 これとは対照的に,エッジ検出専用の軽量ニューラルネットワークであるfined(fast inference network for edge detection)を提案する。 エッジ検出目的の適切なコンポーネントを慎重に選択することにより、エッジ検出における最先端の精度を実現し、その複雑さを著しく低減することができる。 参照速度を上げるもう1つの重要な貢献は、トレーニングヘルパーの概念の導入である。 追加のサブネット(トレーニングヘルパー)は訓練に使用されるが、推論には使用されない。 モデルの複雑さをさらに削減し、同じレベルの精度を維持することができる。 私たちの実験では、我々のシステムは現在のエッジ検出器をほぼ同じモデル(パラメータ)サイズで上回っています。

In this paper, we address the design of lightweight deep learning-based edge detection. The deep learning technology offers a significant improvement on the edge detection accuracy. However, typical neural network designs have very high model complexity, which prevents it from practical usage. In contrast, we propose a Fast Inference Network for Edge Detection (FINED), which is a lightweight neural net dedicated to edge detection. By carefully choosing proper components for edge detection purpose, we can achieve the state-of-the-art accuracy in edge detection while significantly reducing its complexity. Another key contribution in increasing the inferencing speed is introducing the training helper concept. The extra subnetworks (training helper) are employed in training but not used in inferencing. It can further reduce the model complexity and yet maintain the same level of accuracy. Our experiments show that our systems outperform all the current edge detectors at about the same model (parameter) size.
翻訳日:2021-05-07 05:20:40 公開日:2020-12-15
# 新しいサンプリングバッチ正規化埋め込みニューラルネットワーク法によるspoc学習者の最終次数予測

SPOC learner's final grade prediction based on a novel sampling batch normalization embedded neural network method ( http://arxiv.org/abs/2012.08408v1 )

ライセンス: Link先を確認
Zhuonan Liang, Ziheng Liu, Huaze Shi, Yunlong Chen, Yanbin Cai, Yating Liang, Yafan Feng, Yuqing Yang, Jing Zhang, Peng Fu(参考訳) 近年では、学習者の成績を要約し予測するために機械学習技術が研究され、主に最終学年に集中する、可変的な教育要求に高度にカスタマイズし、パーソナライズすることができるs small private online courses (spoc)が急速に成長している。 しかし,SPOCにおける学習者の最終段階は,予測モデルの訓練を手作業で行う場合,概して深刻な不均衡である。 そこで本研究では,サンプリングバッチ正規化組み込みディープニューラルネットワーク(SBNEDNN)法を開発した。 まず、データ分布を測定するために結合指標を定義し、その後、サンプリングプロセスを導くためのルールが確立される。 次に、バッチ正規化(bn)修飾層を完全連結ニューラルネットワークに組み込み、データ不均衡問題を解決する。 他の3つのディープラーニング手法による実験結果は,提案手法の優位性を示している。

Recent years have witnessed the rapid growth of Small Private Online Courses (SPOC) which is able to highly customized and personalized to adapt variable educational requests, in which machine learning techniques are explored to summarize and predict the learner's performance, mostly focus on the final grade. However, the problem is that the final grade of learners on SPOC is generally seriously imbalance which handicaps the training of prediction model. To solve this problem, a sampling batch normalization embedded deep neural network (SBNEDNN) method is developed in this paper. First, a combined indicator is defined to measure the distribution of the data, then a rule is established to guide the sampling process. Second, the batch normalization (BN) modified layers are embedded into full connected neural network to solve the data imbalanced problem. Experimental results with other three deep learning methods demonstrates the superiority of the proposed method.
翻訳日:2021-05-07 05:20:29 公開日:2020-12-15
# 見えない人を検出する

Detecting Invisible People ( http://arxiv.org/abs/2012.08419v1 )

ライセンス: Link先を確認
Tarasha Khurana, Achal Dave, Deva Ramanan(参考訳) モノクロ物体の検出と追跡は近年大幅に改善されているが、重要な前提は、物体がカメラから見えるというものである。 多くのオフライントラッキングアプローチは、オブジェクトが再出現した後にトラックレットをリンクして再識別する(ReID)ことで、隠されたオブジェクトをポストホックで推論する。 しかし、身体化されたロボットエージェント(自動運転車など)のオンライントラッキングには、基本的にオブジェクトの永続性が必要である。 本研究は,被験者の視覚的ケースに焦点をあて,目に見える物体を検出するタスクのためのトラッキングベンチマークと,新しいメトリクスを提案する。 この課題に対して,現在の検出・追跡システムが劇的に悪化していることを示す。 このパフォーマンス低下を回復するために、2つの重要なイノベーションを紹介します。 我々は, 時間系列におけるオクルード物体検出を短期予測課題として扱い, 動的シーケンス予測から有意なツールをもたらす。 第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。 私たちの知る限りでは,オクルード物体を追跡・検出するタスクにおいて,単眼深度推定の有効性を示す最初の研究である。 我々のアプローチは、基準値よりも11.4%、F1スコアより5.0%向上した。

Monocular object detection and tracking have improved drastically in recent years, but rely on a key assumption: that objects are visible to the camera. Many offline tracking approaches reason about occluded objects post-hoc, by linking together tracklets after the object re-appears, making use of reidentification (ReID). However, online tracking in embodied robotic agents (such as a self-driving vehicle) fundamentally requires object permanence, which is the ability to reason about occluded objects before they re-appear. In this work, we re-purpose tracking benchmarks and propose new metrics for the task of detecting invisible objects, focusing on the illustrative case of people. We demonstrate that current detection and tracking systems perform dramatically worse on this task. We introduce two key innovations to recover much of this performance drop. We treat occluded object detection in temporal sequences as a short-term forecasting challenge, bringing to bear tools from dynamic sequence prediction. Second, we build dynamic models that explicitly reason in 3D, making use of observations produced by state-of-the-art monocular depth estimation networks. To our knowledge, ours is the first work to demonstrate the effectiveness of monocular depth estimation for the task of tracking and detecting occluded objects. Our approach strongly improves by 11.4% over the baseline in ablations and by 5.0% over the state-of-the-art in F1 score.
翻訳日:2021-05-07 05:20:11 公開日:2020-12-15
# napa:ニューラルネットワークによる人間のポーズアンプ

NAPA: Neural Art Human Pose Amplifier ( http://arxiv.org/abs/2012.08501v1 )

ライセンス: Link先を確認
Qingfu Wan, Oliver Lu(参考訳) これはCSCI-GA.2271-001のプロジェクトレポートである。 芸術画像における人間のポーズ推定を対象とする。 この目的のために,ポーズ回帰にニューラルスタイル転送を用いるエンドツーエンドシステムの設計を行う。 任意のスタイル転送のための277スタイルのセットを収集し,芸術的281画像テストセットを構築した。 テストセットで直接ポーズ回帰を実行し、有望な結果を示します。 ポーズ回帰のために,ポーズが持ち上げられる2次元骨マップを提案する。 このようなリフティングを支援するために,本論文では,完全な内蔵MPIIデータセットの擬似3dラベルを注釈付けする。 さらに、2dを改善するために、別のスタイル転送を自己監督として追加する。 紹介した特徴を分析するために広範なアブレーション研究を行う。 また、エンドツーエンドとスタイル毎のトレーニングを比較し、スタイル転送とポーズ回帰のトレードオフについて説明する。 最後に、我々のモデルを現実世界の人間のデータセットに一般化し、その可能性を一般的なポーズモデルとして示す。 我々はAppendixの理論的基礎を説明します。 https://github.com/strawberryfg/NAPA-NST-HPE、データ、ビデオでコードをリリースします。

This is the project report for CSCI-GA.2271-001. We target human pose estimation in artistic images. For this goal, we design an end-to-end system that uses neural style transfer for pose regression. We collect a 277-style set for arbitrary style transfer and build an artistic 281-image test set. We directly run pose regression on the test set and show promising results. For pose regression, we propose a 2d-induced bone map from which pose is lifted. To help such a lifting, we additionally annotate the pseudo 3d labels of the full in-the-wild MPII dataset. Further, we append another style transfer as self supervision to improve 2d. We perform extensive ablation studies to analyze the introduced features. We also compare end-to-end with per-style training and allude to the tradeoff between style transfer and pose regression. Lastly, we generalize our model to the real-world human dataset and show its potentiality as a generic pose model. We explain the theoretical foundation in Appendix. We release code at https://github.com/strawberryfg/NAPA-NST-HPE, data, and video.
翻訳日:2021-05-07 05:19:49 公開日:2020-12-15
# 属性と関係グラフを用いたエンドツーエンド生成フロアプランとレイアウト

End-to-end Generative Floor-plan and Layout with Attributes and Relation Graph ( http://arxiv.org/abs/2012.08514v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu, Danfeng Yang, Hong Zhu, Changyu Sun, YinDong Liu(参考訳) 本稿では,ランダムなベクトルから室内シーンを合成するための家具レイアウトを生成するエンドエンドモデルを提案する。 このモデルは、プロのインテリアデザイナーがインテリアデコレーションソリューションをより迅速に作成できるよう支援することを目的としている。 提案モデルでは,室内の条件付きフロアプランモジュール,室内の条件付きグラフィカルフロアプランモジュール,および条件付きレイアウトモジュールを組み合わせる。 シーン合成に関する先行研究と比較して,提案する3つのモジュールは,部屋の次元的カテゴリから自動レイアウト生成能力を向上させる。 我々は,プロのデザイナーによる191208ドルのデザインを含む,現実世界のレイアウトデータセットについて実験を行った。 その結果,提案モデルでは,最先端モデルと比較して高品質なレイアウトが得られた。 データセットとコードは、href{https://github.com/CODE-SUBMIT/dataset3}{Dataset,Code} でリリースされる。

In this paper, we propose an end-end model for producing furniture layout for interior scene synthesis from the random vector. This proposed model is aimed to support professional interior designers to produce the interior decoration solutions more quickly. The proposed model combines a conditional floor-plan module of the room, a conditional graphical floor-plan module of the room and a conditional layout module. As compared with the prior work on scene synthesis, our proposed three modules enhance the ability of auto-layout generation given the dimensional category of the room. We conduct our experiments on the proposed real-world interior layout dataset that contains $191208$ designs from the professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts in comparison with the state-of-the-art model. The dataset and code are released \href{https://github.com/CODE-SUBMIT/dataset3}{Dataset,Code}
翻訳日:2021-05-07 05:18:51 公開日:2020-12-15
# 赤外小ターゲット検出のための注意的局所コントラストネットワーク

Attentional Local Contrast Networks for Infrared Small Target Detection ( http://arxiv.org/abs/2012.08573v1 )

ライセンス: Link先を確認
Yimian Dai and Yiquan Wu and Fei Zhou and Kobus Barnard(参考訳) 本稿では,純粋データ駆動方式における最小固有特性の問題を軽減するため,赤外小目標検出のための新しいモデル駆動型深層ネットワークを提案し,識別ネットワークと従来のモデル駆動手法を組み合わせて,ラベル付きデータとドメイン知識の両方を利用する。 特徴マップの循環シフトスキームを設計することにより,従来の局所コントラスト法をエンド・ツー・エンドネットワークのパラメータレス非線形特徴改善層としてモジュール化する。 低レベルの機能の小さな詳細をより深い層の高レベルな機能に統合したボトムアップの注意変調も活用します。 ネットワークアーキテクチャの各コンポーネントの設計の有効性と効率を実証的に検証するために,ネットワーク奥行きの異なる詳細なアブレーション研究を行う。 また、オープンなSIRSTデータセット上の他のモデル駆動手法やディープネットワークと比較した。 その結果,我々のネットワークは,競合相手よりもパフォーマンスが向上することが示唆された。 私たちのコード、トレーニングされたモデル、結果はオンラインで利用可能です。

To mitigate the issue of minimal intrinsic features for pure data-driven methods, in this paper, we propose a novel model-driven deep network for infrared small target detection, which combines discriminative networks and conventional model-driven methods to make use of both labeled data and the domain knowledge. By designing a feature map cyclic shift scheme, we modularize a conventional local contrast measure method as a depth-wise parameterless nonlinear feature refinement layer in an end-to-end network, which encodes relatively long-range contextual interactions with clear physical interpretability. To highlight and preserve the small target features, we also exploit a bottom-up attentional modulation integrating the smaller scale subtle details of low-level features into high-level features of deeper layers. We conduct detailed ablation studies with varying network depths to empirically verify the effectiveness and efficiency of the design of each component in our network architecture. We also compare the performance of our network against other model-driven methods and deep networks on the open SIRST dataset as well. The results suggest that our network yields a performance boost over its competitors. Our code, trained models, and results are available online.
翻訳日:2021-05-07 05:18:37 公開日:2020-12-15
# 熱合成開口可視化における焦点強調のためのポーズ誤差低減

Pose Error Reduction for Focus Enhancement in Thermal Synthetic Aperture Visualization ( http://arxiv.org/abs/2012.08606v1 )

ライセンス: Link先を確認
Indrajit Kurmi, David C. Schedl, and Oliver Bimber(参考訳) 森林に汚染された人工物を明らかにするための航空合成開口イメージング技術であるairborne optical sectioningは、ドローンのポーズを正確に測定する必要がある。 本稿では,従来のパースペクティブ・n・ポイント・ソリューションの可能性を超越したポーズ推定誤差を低減するための新しい手法を提案する。 本稿では,パラメータ探索空間を削減し,現実的な処理時間を実現するとともに,合成積分画像の品質を向上させる効率的な画像統合手法を提案する。

Airborne optical sectioning, an effective aerial synthetic aperture imaging technique for revealing artifacts occluded by forests, requires precise measurements of drone poses. In this article we present a new approach for reducing pose estimation errors beyond the possibilities of conventional Perspective-n-Point solutions by considering the underlying optimization as a focusing problem. We present an efficient image integration technique, which also reduces the parameter search space to achieve realistic processing times, and improves the quality of resulting synthetic integral images.
翻訳日:2021-05-07 05:18:17 公開日:2020-12-15
# 交通需要予測のための結合層グラフ畳み込み

Coupled Layer-wise Graph Convolution for Transportation Demand Prediction ( http://arxiv.org/abs/2012.08080v1 )

ライセンス: Link先を確認
Junchen Ye, Leilei Sun, Bowen Du, Yanjie Fu, Hui Xiong(参考訳) グラフ畳み込みネットワーク(GCN)は,駅や地域交通需要の非ユークリッド空間依存性を捉える能力に優れており,交通需要予測に広く応用されている。 しかし,既存の研究のほとんどにおいて,グラフ畳み込みは,駅の実際の空間関係を正確に反映したり,要求の多段階空間依存性を適応的に捉えたりすることができない,ヒューリスティックに生成された隣接行列上に実装された。 上記の問題に対処するため,輸送需要予測のための新しいグラフ畳み込みネットワークを提案する。 まず,新しいグラフ畳み込み構造を提案し,異なる層に異なる隣接行列を配置し,学習中にすべての隣接行列を自己学習する。 第2に、上層の隣接行列と下層の行列とを関連付ける層ワイドカップリング機構を設ける。 また、モデルにおけるパラメータのスケールも削減します。 最後に、隠れた空間状態とゲートリカレント単位を統合して最終予測結果を与えるユニタリネットワークを構築し、マルチレベル空間依存と時間ダイナミクスを同時に捉えることができる。 実世界の2つのデータセット(nyc citi bikeとnyc taxi)で実験が行われ、最新モデルよりも優れたモデルが実証された。

Graph Convolutional Network (GCN) has been widely applied in transportation demand prediction due to its excellent ability to capture non-Euclidean spatial dependence among station-level or regional transportation demands. However, in most of the existing research, the graph convolution was implemented on a heuristically generated adjacency matrix, which could neither reflect the real spatial relationships of stations accurately, nor capture the multi-level spatial dependence of demands adaptively. To cope with the above problems, this paper provides a novel graph convolutional network for transportation demand prediction. Firstly, a novel graph convolution architecture is proposed, which has different adjacency matrices in different layers and all the adjacency matrices are self-learned during the training process. Secondly, a layer-wise coupling mechanism is provided, which associates the upper-level adjacency matrix with the lower-level one. It also reduces the scale of parameters in our model. Lastly, a unitary network is constructed to give the final prediction result by integrating the hidden spatial states with gated recurrent unit, which could capture the multi-level spatial dependence and temporal dynamics simultaneously. Experiments have been conducted on two real-world datasets, NYC Citi Bike and NYC Taxi, and the results demonstrate the superiority of our model over the state-of-the-art ones.
翻訳日:2021-05-07 05:17:48 公開日:2020-12-15
# Double Kernelized ScoringとMatrix Kernelsによる異常検出と位置推定

Anomaly Detection and Localization based on Double Kernelized Scoring and Matrix Kernels ( http://arxiv.org/abs/2012.08100v1 )

ライセンス: Link先を確認
Shunsuke Hirose, Tomotake Kozu, and Yingzi Jin(参考訳) 異常検出は、複数のデバイス、ネットワーク、および/または植物からなる大規模システムの適切な安全運用のために必要である。 これらのシステムは、しばしば多変量データセットのペアによって特徴づけられる。 このようなシステムにおける異常を検出し、異常に関連する要素を局所化するには、システム全体とその要素の異常を定量化するスコアを推定する必要がある。 しかし、それらの要素間の関係の変化を考慮し、それらのスコアを推定することは自明ではない。 さらに、異常に関連する要素を局所化するためのスコア間の関係を識別するために、システム全体のスコアとその要素を単一のフレームワークから推定する必要がある。 そこで我々は,システム全体とその要素の異常性を同時に定量化する手法を開発した。 本論文の目的は3倍である。 1つ目は、新しい異常検出方法であるDouble Kernelized Scoring (DKS)を提案することである。 DKSはシステム全体の異常スコアと要素単位の異常スコアの統一フレームワークである。 したがって、DKSは、1)システム全体の異常検出を同時に行うことができ、2)システム異常の原因となる欠陥要素を特定できる。 2つ目の目的は、新しいカーネル関数であるMatrix Kernelを提案することである。 マトリックスカーネル(Matrix Kernel)は、次元の異なる一般的な行列の間で定義されており、時間とともに要素の数が変化するシステム上で異常検出を行うことができる。 第3の目的は,提案手法の有効性を実験的に実証することである。 提案手法を合成および実時間時系列データを用いて評価した。 その結果、DKSは異常を検出し、それに関連する要素をうまくローカライズできることが示された。

Anomaly detection is necessary for proper and safe operation of large-scale systems consisting of multiple devices, networks, and/or plants. Those systems are often characterized by a pair of multivariate datasets. To detect anomaly in such a system and localize element(s) associated with anomaly, one would need to estimate scores that quantify anomalousness of the entire system as well as its elements. However, it is not trivial to estimate such scores by considering changes of relationships between the elements, which strongly correlate with each other. Moreover, it is necessary to estimate the scores for the entire system and its elements from a single framework, in order to identify relationships among the scores for localizing elements associated with anomaly. Here, we developed a new method to quantify anomalousness of an entire system and its elements simultaneously. The purpose of this paper is threefold. The first one is to propose a new anomaly detection method: Double Kernelized Scoring (DKS). DKS is a unified framework for entire-system anomaly scoring and element-wise anomaly scoring. Therefore, DKS allows for conducting simultaneously 1) anomaly detection for the entire system and 2) localization for identifying faulty elements responsible for the system anomaly. The second purpose is to propose a new kernel function: Matrix Kernel. The Matrix Kernel is defined between general matrices, which might have different dimensions, allowing for conducting anomaly detection on systems where the number of elements change over time. The third purpose is to demonstrate the effectiveness of the proposed method experimentally. We evaluated the proposed method with synthetic and real time series data. The results demonstrate that DKS is able to detect anomaly and localize the elements associated with it successfully.
翻訳日:2021-05-07 05:17:26 公開日:2020-12-15
# 集合関数の学習

Learning Aggregation Functions ( http://arxiv.org/abs/2012.08482v1 )

ライセンス: Link先を確認
Giovanni Pellegrini and Alessandro Tibo and Paolo Frasconi and Andrea Passerini and Manfred Jaeger(参考訳) セットでの学習は、広く適用可能なため、機械学習コミュニティでますます注目を集めている。 通常、集合上の表現は和や最大といった固定集約関数を用いて計算される。 しかし、最近の結果は、和(または最大)分解による普遍関数表現は、高度に不連続な(したがって学習しにくい)写像を必要とするか、あるいは集合内の要素の最大数に等しい潜在次元を必要とすることを示した。 この問題を軽減するために,任意の濃度の集合に対する学習可能なアグリゲータであるLAF(Learning Aggregation Function)を導入する。 LAFは、より複雑な関数(例えば、平均、和、最大値など)だけでなく、広く用いられるアグリゲータを近似することができる。 ばらつきと歪み)。 本稿では,LAFがDeepSetsやPrincipal Neighborhood Aggregationのようなライブラリベースのアーキテクチャなど,最先端の和(max-)分解アーキテクチャより優れていることを示す半合成および実データに関する実験を報告する。

Learning on sets is increasingly gaining attention in the machine learning community, due to its widespread applicability. Typically, representations over sets are computed by using fixed aggregation functions such as sum or maximum. However, recent results showed that universal function representation by sum- (or max-) decomposition requires either highly discontinuous (and thus poorly learnable) mappings, or a latent dimension equal to the maximum number of elements in the set. To mitigate this problem, we introduce LAF (Learning Aggregation Functions), a learnable aggregator for sets of arbitrary cardinality. LAF can approximate several extensively used aggregators (such as average, sum, maximum) as well as more complex functions (e.g. variance and skewness). We report experiments on semi-synthetic and real data showing that LAF outperforms state-of-the-art sum- (max-) decomposition architectures such as DeepSets and library-based architectures like Principal Neighborhood Aggregation.
翻訳日:2021-05-07 05:16:47 公開日:2020-12-15
# 差分アーキテクチャ探索のためのシングルレベル最適化

Single-level Optimization For Differential Architecture Search ( http://arxiv.org/abs/2012.11337v1 )

ライセンス: Link先を確認
Pengfei Hou, Ying Jin(参考訳) 本稿では,差分アーキテクチャ探索(darts)により,アーキテクチャパラメータの勾配がネットワーク重みに偏り,アーキテクチャパラメータが異なるデータセットで更新され,代わりにbiレベル最適化フレームワークで更新されることを示す。 このバイアスは、学習不可能な操作のアーキテクチャパラメータが学習可能な操作のパラメータを超える原因となる。 さらに、softmaxをアーキテクチャパラメータのアクティベーション関数と不適切な学習率として使用すると、バイアスが悪化する。 その結果, 探索段階において非学習操作が支配的であることがしばしば観察される。 バイアスを軽減するために,二レベル最適化とsigmoidのような非競合的アクティベーション関数の置き換えにシングルレベルを用いることを提案する。 その結果,高性能アーキテクチャを着実に探索することができた。 NAS Benchmark 201の実験は、我々の仮説を検証し、ほぼ最適なアーキテクチャを安定して見つける。 DARTS空間上では、ImageNet-1K上で77.0%の最先端アーキテクチャ(PDARTSと追加モジュールを含まないトレーニング設定)を検索し、現在報告されている最高の結果に匹敵する76.5%の最先端アーキテクチャ(検索されたアーキテクチャからベストを選ばない)を着実に検索する。

In this paper, we point out that differential architecture search (DARTS) makes gradient of architecture parameters biased for network weights and architecture parameters are updated in different datasets alternatively in the bi-level optimization framework. The bias causes the architecture parameters of non-learnable operations to surpass that of learnable operations. Moreover, using softmax as architecture parameters' activation function and inappropriate learning rate would exacerbate the bias. As a result, it's frequently observed that non-learnable operations are dominated in the search phase. To reduce the bias, we propose to use single-level to replace bi-level optimization and non-competitive activation function like sigmoid to replace softmax. As a result, we could search high-performance architectures steadily. Experiments on NAS Benchmark 201 validate our hypothesis and stably find out nearly the optimal architecture. On DARTS space, we search the state-of-the-art architecture with 77.0% top1 accuracy (training setting follows PDARTS and without any additional module) on ImageNet-1K and steadily search architectures up-to 76.5% top1 accuracy (but not select the best from the searched architectures) which is comparable with current reported best result.
翻訳日:2021-05-07 05:15:43 公開日:2020-12-15
# 半構造化データのスキーマ抽出

Schema Extraction on Semi-structured Data ( http://arxiv.org/abs/2012.08105v1 )

ライセンス: Link先を確認
Panpan Li, Yikun Gong, Chen Wang(参考訳) nosqlデータベースの継続的な開発により、開発とデータ管理に半構造化データを使用することがますます多くなり、nosqlデータベースに格納された半構造化データのスキーマ管理の要求が高まっている。 スキーマ抽出は、スキーマの理解、クエリの最適化、データの一貫性の検証において重要な役割を果たす。 そこで本研究では,木とグラフに基づく構造的手法と,分散アーキテクチャに基づく統計的手法とスキーマ抽出のための機械学習について検討する。 構造的手法により得られたスキーマはより解釈可能であり、統計的手法は適用性と一般化能力が向上する。 さらに,スキーマ抽出のためのツールやシステムについても検討する。 スキーマ抽出ツールは、主にスパークやNoSQLデータベースに使われ、小さなデータセットや単純なアプリケーション環境に適している。 システムは主に、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。 さらに,これらの手法を比較して,データマネージャの選択を促進する。

With the continuous development of NoSQL databases, more and more developers choose to use semi-structured data for development and data management, which puts forward requirements for schema management of semi-structured data stored in NoSQL databases. Schema extraction plays an important role in understanding schemas, optimizing queries, and validating data consistency. Therefore, in this survey we investigate structural methods based on tree and graph and statistical methods based on distributed architecture and machine learning to extract schemas. The schemas obtained by the structural methods are more interpretable, and the statistical methods have better applicability and generalization ability. Moreover, we also investigate tools and systems for schemas extraction. Schema extraction tools are mainly used for spark or NoSQL databases, and are suitable for small datasets or simple application environments. The system mainly focuses on the extraction and management of schemas in large data sets and complex application scenarios. Furthermore, we also compare these techniques to facilitate data managers' choice.
翻訳日:2021-05-07 05:15:21 公開日:2020-12-15
# 大規模8パズルの解法による変調複雑性の新しい視点

A new perspective of paramodulation complexity by solving massive 8 puzzles ( http://arxiv.org/abs/2012.08231v1 )

ライセンス: Link先を確認
Ruo Ando, Yoshiyasu Takefuji(参考訳) スライディングパズル(Slide puzzle)とは、プレイヤーがボード上の特定のルートに沿って部品をスライドさせて特定のエンド設定に達するような組み合わせパズルである。 本稿では,自動推論手法であるパラモディフィケーションを用いた大規模スライディングパズルの複雑性の新たな測定法を提案する。 その結果、パラモジュレーションによって得られる節の数を数えることで、各パズルの難易度を評価できることがわかった。 実験では,100×8のパズルを生成し,逆解析による可解性チェックに合格した。 これにより、パラモーテーションによって生成される8つのパズルの複雑さを区別することができる。 例えば、ボード[2,3,6,1,7,8,5,4,ホール]はスコア3008が最も簡単で、ボード[6,5,8,7,4,3,2,1,ホール]はスコア48653で最も難しい。 さらに,100のパズルにおいて,数階層の複雑さ(生成節数)を克服することに成功している。 提案手法は,スライディングブロックパズルに関するパラモーダル複雑性の新しい視点を提供することができる。

A sliding puzzle is a combination puzzle where a player slide pieces along certain routes on a board to reach a certain end-configuration. In this paper, we propose a novel measurement of complexity of massive sliding puzzles with paramodulation which is an inference method of automated reasoning. It turned out that by counting the number of clauses yielded with paramodulation, we can evaluate the difficulty of each puzzle. In experiment, we have generated 100 * 8 puzzles which passed the solvability checking by countering inversions. By doing this, we can distinguish the complexity of 8 puzzles with the number of generated with paramodulation. For example, board [2,3,6,1,7,8,5,4, hole] is the easiest with score 3008 and board [6,5,8,7,4,3,2,1, hole] is the most difficult with score 48653. Besides, we have succeeded to obverse several layers of complexity (the number of clauses generated) in 100 puzzles. We can conclude that proposal method can provide a new perspective of paramodulation complexity concerning sliding block puzzles.
翻訳日:2021-05-07 05:15:09 公開日:2020-12-15
# Gegelati: 汎用的で進化可能なプログラムグラフによる軽量人工知能

Gegelati: Lightweight Artificial Intelligence through Generic and Evolvable Tangled Program Graphs ( http://arxiv.org/abs/2012.08296v1 )

ライセンス: Link先を確認
Karol Desnos (UNIV-RENNES, INSA Rennes, IETR), Nicolas Sourbier (INSA Rennes, UNIV-RENNES, IETR), Pierre-Yves Raumer (INSA Rennes, IETR), Olivier Gesny, Maxime Pelcat (UNIV-RENNES, INSA Rennes, IETR)(参考訳) Tangled Program Graph (TPG) は遺伝的プログラミングの概念に基づく強化学習技術である。 最先端の学習環境において、TPGはDeep Neural Networks(DNN)に匹敵する能力を提供し、計算とストレージのコストのごく一部を提供する。 TPGのこの軽量さは、トレーニングと推論の両方において、限られた計算と記憶資源を持つ組み込みシステムに人工知能(AI)を実装する興味深いモデルとなっている。 本稿では TPG 用 Gegelati ライブラリについて紹介する。 図書館の一般的な概念や特徴を紹介するのに加えて、本論文では2つの主要な貢献について詳述している。 1/ 異種マルチプロセッサシステム・オン・チップ(MPSoC)をサポートするためのTPGの決定論的トレーニングプロセスの並列化。 2/ TPGモデルの遺伝的に進化したプログラム内で、カスタマイズ可能な命令セットとデータタイプのサポート。 並列トレーニングプロセスのスケーラビリティは、ハイエンドの24コアプロセッサから低消費電力の異種MPSoCまで、アーキテクチャの実験を通じて実証される。 トレーニングプロセスの結果に対するカスタマイズ可能な指示の影響を,最先端の強化学習環境に示す。 ccs の概念: $\bullet$ computer systems organization $\rightarrow$ embedded systems; $\bullet$ computing methodology $\rightarrow$ machine learning。

Tangled Program Graph (TPG) is a reinforcement learning technique based on genetic programming concepts. On state-of-the-art learning environments, TPGs have been shown to offer comparable competence with Deep Neural Networks (DNNs), for a fraction of their computational and storage cost. This lightness of TPGs, both for training and inference, makes them an interesting model to implement Artificial Intelligences (AIs) on embedded systems with limited computational and storage resources. In this paper, we introduce the Gegelati library for TPGs. Besides introducing the general concepts and features of the library, two main contributions are detailed in the paper: 1/ The parallelization of the deterministic training process of TPGs, for supporting heterogeneous Multiprocessor Systems-on-Chips (MPSoCs). 2/ The support for customizable instruction sets and data types within the genetically evolved programs of the TPG model. The scalability of the parallel training process is demonstrated through experiments on architectures ranging from a high-end 24-core processor to a low-power heterogeneous MPSoC. The impact of customizable instructions on the outcome of a training process is demonstrated on a state-of-the-art reinforcement learning environment. CCS Concepts: $\bullet$ Computer systems organization $\rightarrow$ Embedded systems; $\bullet$ Computing methodologies $\rightarrow$ Machine learning.
翻訳日:2021-05-07 05:14:54 公開日:2020-12-15
# 語彙データに対する意味アノテーション

Semantic Annotation for Tabular Data ( http://arxiv.org/abs/2012.08594v1 )

ライセンス: Link先を確認
Udayan Khurana and Sainyam Galhotra(参考訳) 表データにおける列の意味概念の検出は、データ統合、クリーニング、検索、特徴工学、機械学習におけるモデル構築など、多くのアプリケーションにとって特に興味深い。 近年,セマンティック型アノテーションに対する教師付き学習に基づく,あるいはヒューリスティックなパターンに基づくアプローチが提案されている。 どちらも、多くの概念や例を一般化するのを防ぐ欠点がある。 多くのニューラルネットワークベースの手法もスケーラビリティの問題を提示している。 さらに、既知の手法は数値データに対してうまく機能しない。 我々は,アンサンブルによる最大確率推定手法に基づく,概念マッパーのためのコラムである$c^2$を提案する。 2つの一般的なナレッジグラフに加えて、幾分騒がしいオープンなテーブルコーパスを効果的に活用し、構造化データに対して効果的かつ効率的な概念予測を行うことができる。 我々は9つのデータセット上で$c^2$が使用可能なテクニックの有効性を実証する。

Detecting semantic concept of columns in tabular data is of particular interest to many applications ranging from data integration, cleaning, search to feature engineering and model building in machine learning. Recently, several works have proposed supervised learning-based or heuristic pattern-based approaches to semantic type annotation. Both have shortcomings that prevent them from generalizing over a large number of concepts or examples. Many neural network based methods also present scalability issues. Additionally, none of the known methods works well for numerical data. We propose $C^2$, a column to concept mapper that is based on a maximum likelihood estimation approach through ensembles. It is able to effectively utilize vast amounts of, albeit somewhat noisy, openly available table corpora in addition to two popular knowledge graphs to perform effective and efficient concept prediction for structured data. We demonstrate the effectiveness of $C^2$ over available techniques on 9 datasets, the most comprehensive comparison on this topic so far.
翻訳日:2021-05-07 05:14:08 公開日:2020-12-15
# 協調型AIにおけるオープン問題

Open Problems in Cooperative AI ( http://arxiv.org/abs/2012.08630v1 )

ライセンス: Link先を確認
Allan Dafoe and Edward Hughes and Yoram Bachrach and Tantum Collins and Kevin R. McKee and Joel Z. Leibo and Kate Larson and Thore Graepel(参考訳) エージェントが共同で福祉を改善する方法を模索する協力の問題は、ユビキタスで重要なものである。 ハイウェイの運転や会議のスケジュール、協力的な作業など、私たちの毎日のルーチンから、平和や商業、パンデミックの準備といったグローバルな課題まで、さまざまなスケールで見られます。 人類の成功は、我々の協力力に根ざしているに違いない。 人工知能によって駆動される機械は、私たちの生活においてずっと大きな役割を担っているので、協力と協力の促進に必要な能力を持たせることが重要です。 私たちは、人工知能の分野が、協調aiと呼ばれるこのタイプの問題に明示的に注力する機会を見出している。 この研究の目的は、協力の課題の多くの側面を研究し、これらの問題の解決に貢献するためにAIを革新することである。 中心となる目標には、協力に必要な能力を備えた機械エージェントの構築、(機械および/または人間)エージェントの集団における協力を促進するツールの構築、その他協力問題に関連する洞察を得るためにai研究を実施することが含まれる。 本研究は,マルチエージェントシステム,ゲーム理論と社会的選択,ヒューマンマシンインタラクションとアライメント,自然言語処理,ソーシャルツールとプラットフォームの構築など,現在進行中の作業を統合する。 しかし、協調AIは、これらの既存の領域の結合ではなく、これらの領域を含む特定の種類の会話の生産性に対する独立した賭けである。 我々は、より明確に協力の問題に焦点を当て、統一理論と語彙を構築し、自然科学、社会科学、行動科学を含む協力に取り組む近隣のコミュニティと橋を建設する機会を見出している。

Problems of cooperation--in which agents seek ways to jointly improve their welfare--are ubiquitous and important. They can be found at scales ranging from our daily routines--such as driving on highways, scheduling meetings, and working collaboratively--to our global challenges--such as peace, commerce, and pandemic preparedness. Arguably, the success of the human species is rooted in our ability to cooperate. Since machines powered by artificial intelligence are playing an ever greater role in our lives, it will be important to equip them with the capabilities necessary to cooperate and to foster cooperation. We see an opportunity for the field of artificial intelligence to explicitly focus effort on this class of problems, which we term Cooperative AI. The objective of this research would be to study the many aspects of the problems of cooperation and to innovate in AI to contribute to solving these problems. Central goals include building machine agents with the capabilities needed for cooperation, building tools to foster cooperation in populations of (machine and/or human) agents, and otherwise conducting AI research for insight relevant to problems of cooperation. This research integrates ongoing work on multi-agent systems, game theory and social choice, human-machine interaction and alignment, natural-language processing, and the construction of social tools and platforms. However, Cooperative AI is not the union of these existing areas, but rather an independent bet about the productivity of specific kinds of conversations that involve these and other areas. We see opportunity to more explicitly focus on the problem of cooperation, to construct unified theory and vocabulary, and to build bridges with adjacent communities working on cooperation, including in the natural, social, and behavioural sciences.
翻訳日:2021-05-07 05:13:52 公開日:2020-12-15
# AsyncTaichi: Megakernelスパース計算と微分プログラミングのための全プログラム最適化

AsyncTaichi: Whole-Program Optimizations for Megakernel Sparse Computation and Differentiable Programming ( http://arxiv.org/abs/2012.08141v1 )

ライセンス: Link先を確認
Yuanming Hu, Mingkuan Xu, Ye Kuang, Fr\'edo Durand(参考訳) 我々は,taichiプログラミング言語のための全プログラム最適化フレームワークを提案する。 スパースで微分可能な計算に適した命令型言語として、Taichiのユニークな計算パターンは、他のコンパイラやランタイムシステムには存在しない魅力的な最適化機会をもたらす。 例えば、スパースなvoxelグリッド上のイテレーションをサポートするために、過剰なリスト生成タスクがしばしば挿入される。 スパース計算プログラムを高いレベルで解析することにより、オプティマイザは不要なリスト生成タスクの大部分を取り除くことができる。 プログラミングの柔軟性を最大化するために,太一カーネルからなる計算グラフ全体のオンザフライ最適化を行う。 最適化されたtaichiカーネルはジャストインタイムで並列にコンパイルされ、マルチスレッドcpuや超並列gpuなどの並列デバイスにディスパッチされる。 taichiプログラムのコード修正がなければ、新しいシステムは3.07~3.90\times$のカーネル起動を少なくし、1.73~2.76\times$のスピードアップを実現します。

We present a whole-program optimization framework for the Taichi programming language. As an imperative language tailored for sparse and differentiable computation, Taichi's unique computational patterns lead to attractive optimization opportunities that do not present in other compiler or runtime systems. For example, to support iteration over sparse voxel grids, excessive list generation tasks are often inserted. By analyzing sparse computation programs at a higher level, our optimizer is able to remove the majority of unnecessary list generation tasks. To provide maximum programming flexibility, our optimization system conducts on-the-fly optimization of the whole computational graph consisting of Taichi kernels. The optimized Taichi kernels are then just-in-time compiled in parallel, and dispatched to parallel devices such as multithreaded CPU and massively parallel GPUs. Without any code modification on Taichi programs, our new system leads to $3.07 - 3.90\times$ fewer kernel launches and $1.73 - 2.76\times$ speed up on our benchmarks including sparse-grid physical simulation and differentiable programming.
翻訳日:2021-05-07 05:13:24 公開日:2020-12-15
# 認知コンピューティングが次の体系的レビューをどう計画するか

On how Cognitive Computing will plan your next Systematic Review ( http://arxiv.org/abs/2012.08178v1 )

ライセンス: Link先を確認
Maisie Badami, Marcos Baez, Shayan Zamanirad, Wei Kang(参考訳) 体系的文献レビュー(SLRs)は証拠に基づく研究の中心であり、将来の研究と実践の基礎となっている。 しかし、良い品質のタイムリーなコントリビューションを生み出すことは難しく、非常に認知的な取り組みであり、近年SLRプロセスにおける自動化とサポートの探求の動機となっている。 本稿では,このプロセスにおいてしばしば見過ごされがちな段階,すなわち文献レビューの計画について論じ,その最善の課題を克服するための認知過程強化のレンズの下で検討する。 そこで本研究では,24人のSLR著者の計画実践,課題,認知コンピューティングの最近の進歩に触発された支援戦略に対するフィードバックについて報告する。 本研究の成果は,認知能力向上フレームワークに基づくもので,技術的実現可能性の向上に焦点をあてたプロトタイプの実装と評価について報告する。

Systematic literature reviews (SLRs) are at the heart of evidence-based research, setting the foundation for future research and practice. However, producing good quality timely contributions is a challenging and highly cognitive endeavor, which has lately motivated the exploration of automation and support in the SLR process. In this paper we address an often overlooked phase in this process, that of planning literature reviews, and explore under the lenses of cognitive process augmentation how to overcome its most salient challenges. In doing so, we report on the insights from 24 SLR authors on planning practices, its challenges as well as feedback on support strategies inspired by recent advances in cognitive computing. We frame our findings under the cognitive augmentation framework, and report on a prototype implementation and evaluation focusing on further informing the technical feasibility.
翻訳日:2021-05-07 05:13:04 公開日:2020-12-15
# 加速・スケーラブル・再現可能な重力波検出のための人工知能と高性能計算の併用

Confluence of Artificial Intelligence and High Performance Computing for Accelerated, Scalable and Reproducible Gravitational Wave Detection ( http://arxiv.org/abs/2012.08545v1 )

ライセンス: Link先を確認
E. A. Huerta, Asad Khan, Xiaobo Huang, Minyang Tian, Maksim Levental, Ryan Chard, Wei Wei, Maeve Heflin, Daniel S. Katz, Volodymyr Kindratenko, Dawei Mu, Ben Blaiszik and Ian Foster(参考訳) 人工知能(AI)を使用して重力波データの解析を加速し、開発モデルを確実にすることは、MMA(Multi-messenger Astrophysics)における新たな機会を解放し、コミュニティによるより広範な使用、厳密な検証、共有を可能にするために、容易に再利用可能なものである。 本研究では、最近デプロイされたDOEとNSFが支援するサイバーインフラストラクチャーの接続によって、モデルを公開する新たな方法が実現され、その後、ラップトップから高性能コンピューティングクラスタまでのコンピューティングプラットフォームを使用して、これらのモデルをアプリケーションにデプロイする方法を実証する。 我々は、機械学習モデルを公開するためのリポジトリであるData and Learning Hub for Science(DLHub)と、funcXを汎用分散コンピューティングサービスとして使用するHardware Accelerated Learning(HAL)ディープラーニングコンピューティングクラスタを接続するワークフローを開発する。 次に、このワークフローを用いて、オープンソースの先進LIGOデータにおいて、二元ブラックホール重力波信号を探索する。 このワークフローを使用することで、2017年8月の全月の高度なligoデータの処理と、このデータセットで以前に特定された4つのバイナリブラックホールのマージをすべて識別し、誤分類を報告せずに、公開可能な4つのディープラーニングモデルのアンサンブルがhal上で実行可能であることが分かりました。 ai、分散コンピューティング、科学データインフラの進歩を組み合わせたこのアプローチは、再現性があり、加速され、データ駆動の重力波検出を行うための新しい経路を開く。

Finding new ways to use artificial intelligence (AI) to accelerate the analysis of gravitational wave data, and ensuring the developed models are easily reusable promises to unlock new opportunities in multi-messenger astrophysics (MMA), and to enable wider use, rigorous validation, and sharing of developed models by the community. In this work, we demonstrate how connecting recently deployed DOE and NSF-sponsored cyberinfrastructure allows for new ways to publish models, and to subsequently deploy these models into applications using computing platforms ranging from laptops to high performance computing clusters. We develop a workflow that connects the Data and Learning Hub for Science (DLHub), a repository for publishing machine learning models, with the Hardware Accelerated Learning (HAL) deep learning computing cluster, using funcX as a universal distributed computing service. We then use this workflow to search for binary black hole gravitational wave signals in open source advanced LIGO data. We find that using this workflow, an ensemble of four openly available deep learning models can be run on HAL and process the entire month of August 2017 of advanced LIGO data in just seven minutes, identifying all four binary black hole mergers previously identified in this dataset, and reporting no misclassifications. This approach, which combines advances in AI, distributed computing, and scientific data infrastructure opens new pathways to conduct reproducible, accelerated, data-driven gravitational wave detection.
翻訳日:2021-05-07 05:12:50 公開日:2020-12-15
# NeuralQAAD: 高解像度ポイントクラウド圧縮のための効率的な微分可能なフレームワーク

NeuralQAAD: An Efficient Differentiable Framework for High Resolution Point Cloud Compression ( http://arxiv.org/abs/2012.08143v1 )

ライセンス: Link先を確認
Nicolas Wagner, Ulrich Schwanecke(参考訳) 本稿では,高速で,サンプリングに頑健で,高解像度に適用可能な,微分可能なポイントクラウド圧縮フレームワークneuralqaadを提案する。 複雑で非滑らかなトポロジを扱うことができるこれまでの作業は、ほんの数千ポイント以上まで拡張可能であることはほとんどない。 我々は、ウェイトシェアリングとオートデコーディングを特徴とする新しいニューラルネットワークアーキテクチャでタスクに取り組む。 私たちのアーキテクチャは、以前の作業よりもずっと効率的にパラメータを使用します。 さらに、現在、ポイントクラウド圧縮のための唯一の訓練基準である、Chamfer距離、高解像度では性能が劣っていることを示す。 この問題を克服するために,我々は2つの近似アルゴリズムを提示する二次代入問題 (qap) に基づく新しい訓練手順とアーキテクチャを組み合わせる。 我々は勾配降下と並行してqapを解く。 この手順は代理損失として機能し、より表現力のある地球移動距離 (EMD) を10^6$以上の点群であっても暗黙的に最小化することができる。 高分解能点雲上でのemdの評価は難解なため、emdのスケール可能かつ高速かつ信頼性の高い上限として、k-d木に基づく分割・分割手法を提案する。 ニューラルQAADはCOMA、D-FAUST、Skullsで示され、現状の最先端とEM-kDで大きく上回っている。 Skullsは頭蓋骨CTスキャンの新しいデータセットであり、NeuralQAADの実装とともに公開します。

In this paper, we propose NeuralQAAD, a differentiable point cloud compression framework that is fast, robust to sampling, and applicable to high resolutions. Previous work that is able to handle complex and non-smooth topologies is hardly scaleable to more than just a few thousand points. We tackle the task with a novel neural network architecture characterized by weight sharing and autodecoding. Our architecture uses parameters much more efficiently than previous work, allowing us to be deeper and scalable. Futhermore, we show that the currently only tractable training criterion for point cloud compression, the Chamfer distance, performances poorly for high resolutions. To overcome this issue, we pair our architecture with a new training procedure based upon a quadratic assignment problem (QAP) for which we state two approximation algorithms. We solve the QAP in parallel to gradient descent. This procedure acts as a surrogate loss and allows to implicitly minimize the more expressive Earth Movers Distance (EMD) even for point clouds with way more than $10^6$ points. As evaluating the EMD on high resolution point clouds is intractable, we propose a divide-and-conquer approach based on k-d trees, the EM-kD, as a scaleable and fast but still reliable upper bound for the EMD. NeuralQAAD is demonstrated on COMA, D-FAUST, and Skulls to significantly outperform the current state-of-the-art visually and in terms of the EM-kD. Skulls is a novel dataset of skull CT-scans which we will make publicly available together with our implementation of NeuralQAAD.
翻訳日:2021-05-07 05:12:21 公開日:2020-12-15
# 弱教師付きマスクデータ蒸留による人間中心環境における文脈情報理解ロボット

Robots Understanding Contextual Information in Human-Centered Environments using Weakly Supervised Mask Data Distillation ( http://arxiv.org/abs/2012.08282v1 )

ライセンス: Link先を確認
Daniel Dworakowski, and Goldie Nejat(参考訳) サイン、シンボル、オブジェクトなどの人間の環境におけるコンテキスト情報は、ロボットが探索やナビゲーションに使用する重要な情報を提供する。 これらの環境で得られた複雑な画像からコンテキスト情報を識別および分割するために、畳み込みニューラルネットワーク(CNN)のようなデータ駆動方式を用いる。 しかし,これらの手法には,低速かつ時間を要する大量のラベル付きデータが必要である。 弱教師付き手法は擬似セグメンテーションラベル(PSL)を生成することでこの制限に対処する。 本稿では、コンテキストセグメンテーションのタスクに特化して訓練されていないCNN、すなわちオブジェクト分類や画像キャプションなどを用いて、PSLを自律的に生成するWeakly Supervised Mask Data Distillation(WeSuperMaDD)アーキテクチャを提案する。 WeSuperMaDDは、人中心環境(モール、食料品店)におけるロボットナビゲーションタスクに共通する、スパースと限られた多様性データから学習画像特徴を用いて、PSLを独自に生成する。 提案アーキテクチャでは,コスト制約を満たす最小のフォアグラウンド画素でPSLを自動的に検索するマスクリファインメントシステムを採用している。 これにより、手作りのヒューリスティックルールが不要になる。 大規模な実験により、複数の屋内/屋外環境における様々なスケール、フォント、視点のテキストによるデータセットのPSLを生成するWeSuperMaDDの性能が検証された。 ナイーブ法、グラブカット法、ピラミッド法との比較により、ラベルとセグメンテーションの品質が著しく向上した。 さらに,WeSuperMaDDアーキテクチャを用いてトレーニングしたコンテキストセグメンテーションCNNは,Naive PSLを用いてトレーニングしたコンテキストセグメンテーションに比べて精度が向上した。 また,既存のテキスト検出や実データセットのセグメンテーション手法と同等の性能を有しており,トレーニングにはセグメンテーションラベルを必要としなかった。

Contextual information in human environments, such as signs, symbols, and objects provide important information for robots to use for exploration and navigation. To identify and segment contextual information from complex images obtained in these environments, data-driven methods such as Convolutional Neural Networks (CNNs) are used. However, these methods require large amounts of human labeled data which are slow and time-consuming to obtain. Weakly supervised methods address this limitation by generating pseudo segmentation labels (PSLs). In this paper, we present the novel Weakly Supervised Mask Data Distillation (WeSuperMaDD) architecture for autonomously generating PSLs using CNNs not specifically trained for the task of context segmentation; i.e., CNNs trained for object classification, image captioning, etc. WeSuperMaDD uniquely generates PSLs using learned image features from sparse and limited diversity data; common in robot navigation tasks in human-centred environments (malls, grocery stores). Our proposed architecture uses a new mask refinement system which automatically searches for the PSL with the fewest foreground pixels that satisfies cost constraints. This removes the need for handcrafted heuristic rules. Extensive experiments successfully validated the performance of WeSuperMaDD in generating PSLs for datasets with text of various scales, fonts, and perspectives in multiple indoor/outdoor environments. A comparison with Naive, GrabCut, and Pyramid methods found a significant improvement in label and segmentation quality. Moreover, a context segmentation CNN trained using the WeSuperMaDD architecture achieved measurable improvements in accuracy compared to one trained with Naive PSLs. Our method also had comparable performance to existing state-of-the-art text detection and segmentation methods on real datasets without requiring segmentation labels for training.
翻訳日:2021-05-07 05:11:34 公開日:2020-12-15
# クラウドソーシング型ダッシュカメラによる空間シーンの自動校正

Practical Auto-Calibration for Spatial Scene-Understanding from Crowdsourced Dashcamera Videos ( http://arxiv.org/abs/2012.08375v1 )

ライセンス: Link先を確認
Hemang Chawla, Matti Jukola, Shabbir Marzban, Elahe Arani and Bahram Zonooz(参考訳) 深度深度やエゴモーション推定を含む空間的シーンの理解は、自動運転車や先進運転支援システムのコンピュータビジョンにおいて重要な問題である。 したがって、任意の車載カメラやダッシュボードカメラから収集したクラウドソースビデオを利用することのできる知覚モジュールの設計に有益である。 しかし、これらのカメラに対応する固有のパラメータは、しばしば未知または時間とともに変化する。 典型的な手動校正アプローチでは、チェス盤や追加のシーン固有の情報を必要とする。 一方、自動カメラのキャリブレーションにはそのような要件はない。 しかし, ダッシュボードカメラの自動キャリブレーションは前方と平面ナビゲーションにより, 復元のあいまいさを伴う重要な動作シーケンスが生じるため困難である。 数万の画像を含むような完全な視覚系列の構造再構成も、計算的に不可能である。 本稿では,クラウドソースビデオから単眼搭載カメラの自動キャリブレーションを行うシステムを提案する。 提案システムの有効性を,KITTIの生データ,Oxford RobotCar,クラウドソーシングによるD$^2$-Cityデータセットに示す。 最後に,本手法の高精度な単眼密集深度とエゴモーション推定への応用を実証する。

Spatial scene-understanding, including dense depth and ego-motion estimation, is an important problem in computer vision for autonomous vehicles and advanced driver assistance systems. Thus, it is beneficial to design perception modules that can utilize crowdsourced videos collected from arbitrary vehicular onboard or dashboard cameras. However, the intrinsic parameters corresponding to such cameras are often unknown or change over time. Typical manual calibration approaches require objects such as a chessboard or additional scene-specific information. On the other hand, automatic camera calibration does not have such requirements. Yet, the automatic calibration of dashboard cameras is challenging as forward and planar navigation results in critical motion sequences with reconstruction ambiguities. Structure reconstruction of complete visual-sequences that may contain tens of thousands of images is also computationally untenable. Here, we propose a system for practical monocular onboard camera auto-calibration from crowdsourced videos. We show the effectiveness of our proposed system on the KITTI raw, Oxford RobotCar, and the crowdsourced D$^2$-City datasets in varying conditions. Finally, we demonstrate its application for accurate monocular dense depth and ego-motion estimation on uncalibrated videos.
翻訳日:2021-05-07 05:11:06 公開日:2020-12-15
# 画像認識強調のための幾何表面画像予測

Geometric Surface Image Prediction for Image Recognition Enhancement ( http://arxiv.org/abs/2012.08451v1 )

ライセンス: Link先を確認
Tanasai Sucontphunt(参考訳) 本研究では,画像から幾何学的表面像を推定し,画像認識を支援する手法を提案する。 オブジェクトを認識するには、モデルのトレーニングや事前訓練されたモデルの微調整に、異なる条件からの複数のイメージが必要である。 本研究では、照明条件を克服するために、色画像よりも優れた表現として幾何学的表面像を導入する。 カラー画像から表面画像を予測する。 そのため、幾何学的表面画像とそのカラー写真は、まずGAN(Generative Adversarial Networks)モデルを用いて訓練される。 次に、入力された色画像から幾何学的表面像を予測するために訓練された生成モデルを用いる。 amulet 認識のケーススタディの評価は、予測された幾何面画像は、異なる照明条件下でのカラー画像よりも曖昧度が少なく、画像認識タスクの補助に効果的に使用できることを示す。

This work presents a method to predict a geometric surface image from a photograph to assist in image recognition. To recognize objects, several images from different conditions are required for training a model or fine-tuning a pre-trained model. In this work, a geometric surface image is introduced as a better representation than its color image counterpart to overcome lighting conditions. The surface image is predicted from a color image. To do so, the geometric surface image together with its color photographs are firstly trained with Generative Adversarial Networks (GAN) model. The trained generator model is then used to predict the geometric surface image from the input color image. The evaluation on a case study of an amulet recognition shows that the predicted geometric surface images contain less ambiguity than their color images counterpart under different lighting conditions and can be used effectively for assisting in image recognition task.
翻訳日:2021-05-07 05:10:50 公開日:2020-12-15
# 物体中心型ニューラルシーンレンダリング

Object-Centric Neural Scene Rendering ( http://arxiv.org/abs/2012.08503v1 )

ライセンス: Link先を確認
Michelle Guo, Alireza Fathi, Jiajun Wu, Thomas Funkhouser(参考訳) 本稿では,物体の撮影画像から写実的シーンを構成する手法を提案する。 我々の研究は、シーンの体積密度と方向の放射を暗黙的にモデル化するニューラル放射場(NeRF)の上に構築されている。 NeRFはリアルな画像を合成するが、静的なシーンのみをモデル化し、特定の撮像条件と密接に結びついている。 この特性により、新しい照明や新しいオブジェクトの配置など、NeRFを新しいシナリオに一般化するのが困難になる。 我々は、NeRFのようにシーンラディアンス場を学習する代わりに、照明とビューに依存したニューラルネットワークを用いて、オブジェクトごとの光輸送を暗黙的にモデル化するオブジェクト中心型ニューラル散乱関数(OSF)を学習することを提案する。 これにより、オブジェクトやライトが再トレーニングすることなく、シーンをレンダリングできる。 本手法は,ボリュームパス追跡手法と組み合わせて,オクルージョン,特異性,影,間接照明などの物体内および物体間光伝達効果をレンダリングする。 本研究では,シーン構成に対するアプローチを評価し,新しい照明条件に一般化し,多目的シーンのフォトリアリスティックで物理的に正確なレンダリングを実現することを示す。

We present a method for composing photorealistic scenes from captured images of objects. Our work builds upon neural radiance fields (NeRFs), which implicitly model the volumetric density and directionally-emitted radiance of a scene. While NeRFs synthesize realistic pictures, they only model static scenes and are closely tied to specific imaging conditions. This property makes NeRFs hard to generalize to new scenarios, including new lighting or new arrangements of objects. Instead of learning a scene radiance field as a NeRF does, we propose to learn object-centric neural scattering functions (OSFs), a representation that models per-object light transport implicitly using a lighting- and view-dependent neural network. This enables rendering scenes even when objects or lights move, without retraining. Combined with a volumetric path tracing procedure, our framework is capable of rendering both intra- and inter-object light transport effects including occlusions, specularities, shadows, and indirect illumination. We evaluate our approach on scene composition and show that it generalizes to novel illumination conditions, producing photorealistic, physically accurate renderings of multi-object scenes.
翻訳日:2021-05-07 05:10:35 公開日:2020-12-15
# 深いガウス過程サロゲートのためのアクティブラーニング

Active Learning for Deep Gaussian Process Surrogates ( http://arxiv.org/abs/2012.08015v1 )

ライセンス: Link先を確認
Annie Sauer, Robert B. Gramacy, David Higdon(参考訳) ディープラーニングプロセス(Deep Gaussian Process, DGP)は、非定常的な柔軟性と、トレーニングデータの急激な状態変化に対応する能力のために、機械学習(ML)の予測モデルとして人気が高まっている。 そこで我々はDGPを,応答面が類似した特性を示す計算機シミュレーション実験のサロゲートとして検討する。 特に、入力空間と完全な不確実性定量化(uq)を、新しい楕円スライスサンプリング(ess)ベイズ後方推論スキームを通じて、入力空間で非均一に実行されるアクティブラーニング(al)戦略 -- 通常の(定常)gpではできなかったこと -- へ輸送する。 この方法で設計を逐次構築することで、シミュレータコードの高価な評価とDGP推論の立方体コストの軽減の両方を制限し、より小さなトレーニングセットを可能にする。 トレーニングデータのサイズを慎重に取得することで小さく保ち、遅延層の類似したレイアウトで、このフレームワークは効果的かつ計算的に抽出できる。 本手法は, シミュレーションデータと, 入力次元の異なる2つの実コンピュータ実験で示される。 我々はCRANの"deepgp"パッケージにオープンソース実装を提供しています。

Deep Gaussian processes (DGPs) are increasingly popular as predictive models in machine learning (ML) for their non-stationary flexibility and ability to cope with abrupt regime changes in training data. Here we explore DGPs as surrogates for computer simulation experiments whose response surfaces exhibit similar characteristics. In particular, we transport a DGP's automatic warping of the input space and full uncertainty quantification (UQ), via a novel elliptical slice sampling (ESS) Bayesian posterior inferential scheme, through to active learning (AL) strategies that distribute runs non-uniformly in the input space -- something an ordinary (stationary) GP could not do. Building up the design sequentially in this way allows smaller training sets, limiting both expensive evaluation of the simulator code and mitigating cubic costs of DGP inference. When training data sizes are kept small through careful acquisition, and with parsimonious layout of latent layers, the framework can be both effective and computationally tractable. Our methods are illustrated on simulation data and two real computer experiments of varying input dimensionality. We provide an open source implementation in the "deepgp" package on CRAN.
翻訳日:2021-05-07 05:10:18 公開日:2020-12-15
# 疎度とランク制約を考慮した多領域データからの製品グラフ学習

Product Graph Learning from Multi-domain Data with Sparsity and Rank Constraints ( http://arxiv.org/abs/2012.08090v1 )

ライセンス: Link先を確認
Sai Kiran Kadambari, Sundeep Prabhakar Chepuri(参考訳) 本稿では,マルチドメインデータから製品グラフを学習することに焦点を当てる。 積グラフは、グラフ因子と呼ばれる2つのより小さなグラフのカルテアン積によって形成されると仮定する。 本稿では,製品グラフ学習問題を,グラフ因子ラプラシアン行列の推定問題とする。 データ内の局所的な相互作用を捉えるために、スパースグラフ因子を求め、データの滑らかさモデルを仮定する。 データからスパース製品グラフを学習するための効率的な反復解法を提案する。 次に、この解法を拡張して多成分グラフ因子を推論し、グラフラプラシア行列に階数制約を課すことにより製品グラフクラスタリングに適用する。 より小さなグラフ因子を扱うことは計算的に魅力的であるが、全てのグラフが正確なデカルト積分解を容易に認めるわけではない。 この目的のために,より小さい2つのグラフの直交積によってグラフを近似する効率的なアルゴリズムを提案する。 提案手法の有効性を,合成データと実データに関する数値実験を用いて実証した。

In this paper, we focus on learning product graphs from multi-domain data. We assume that the product graph is formed by the Cartesian product of two smaller graphs, which we refer to as graph factors. We pose the product graph learning problem as the problem of estimating the graph factor Laplacian matrices. To capture local interactions in data, we seek sparse graph factors and assume a smoothness model for data. We propose an efficient iterative solver for learning sparse product graphs from data. We then extend this solver to infer multi-component graph factors with applications to product graph clustering by imposing rank constraints on the graph Laplacian matrices. Although working with smaller graph factors is computationally more attractive, not all graphs may readily admit an exact Cartesian product factorization. To this end, we propose efficient algorithms to approximate a graph by a nearest Cartesian product of two smaller graphs. The efficacy of the developed framework is demonstrated using several numerical experiments on synthetic data and real data.
翻訳日:2021-05-07 05:09:57 公開日:2020-12-15
# 音声自動検証スポーフィング検出

Automatic Speech Verification Spoofing Detection ( http://arxiv.org/abs/2012.08095v1 )

ライセンス: Link先を確認
Shentong Mo, Haofan Wang, Pinxu Ren, Ta-Chung Chi(参考訳) 自動音声認識(automatic speech verification, asv)は、音声に基づいて個人のアイデンティティを決定する技術である。 身元確認には便利ですが、価値あるデジタル資産の保護を前提として、システムセキュリティの最高基準を目指しています。 これを念頭に置いて、我々はASVSpoof 2019のコンペティションに続き、堅牢で効率的な潜在的な対策を開発する。 EERとt-DCFという2つのメトリクスがシステム評価に使用される。

Automatic speech verification (ASV) is the technology to determine the identity of a person based on their voice. While being convenient for identity verification, we should aim for the highest system security standard given that it is the safeguard of valuable digital assets. Bearing this in mind, we follow the setup in ASVSpoof 2019 competition to develop potential countermeasures that are robust and efficient. Two metrics, EER and t-DCF, will be used for system evaluation.
翻訳日:2021-05-07 05:09:42 公開日:2020-12-15
# 小型組込みシステムにおけるセンサデータ分類のためのニューラルネットワーク

Artificial Neural Networks for Sensor Data Classification on Small Embedded Systems ( http://arxiv.org/abs/2012.08403v1 )

ライセンス: Link先を確認
Marcus Venzke, Daniel Klisch, Philipp Kubik, Asad Ali, Jesper Dell Missier and Volker Turau(参考訳) 本稿では,センサモジュールの計測値の解釈における機械学習の利用について検討する。 特に、数キロバイトのメモリを持つ低コストマイクロコントローラ上でのニューラルネットワーク(anns)の可能性を分析し、センサが捉えたデータを意味的に豊かにする。 焦点は、信頼性の高い時系列データ系列を分類することである。 ANNの設計と実装は、フィードフォワードニューラルネットワーク(FFNN)とリカレントニューラルネットワーク(RNN)を考慮して分析される。 8ビットマイクロコントローラを用いた光手ジェスチャー認識のケーススタディにおいて,開発したANNを検証した。 2層1493のパラメータと36ミリ秒の実行時間を必要とするFFNNでは,最も信頼性が高いことが判明した。

In this paper we investigate the usage of machine learning for interpreting measured sensor values in sensor modules. In particular we analyze the potential of artificial neural networks (ANNs) on low-cost micro-controllers with a few kilobytes of memory to semantically enrich data captured by sensors. The focus is on classifying temporal data series with a high level of reliability. Design and implementation of ANNs are analyzed considering Feed Forward Neural Networks (FFNNs) and Recurrent Neural Networks (RNNs). We validate the developed ANNs in a case study of optical hand gesture recognition on an 8-bit micro-controller. The best reliability was found for an FFNN with two layers and 1493 parameters requiring an execution time of 36 ms. We propose a workflow to develop ANNs for embedded devices.
翻訳日:2021-05-07 05:09:35 公開日:2020-12-15
# モデルベースディープラーニング

Model-Based Deep Learning ( http://arxiv.org/abs/2012.08405v1 )

ライセンス: Link先を確認
Nir Shlezinger, Jay Whang, Yonina C. Eldar, and Alexandros G. Dimakis(参考訳) 信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。 このようなモデルに基づく手法は、基礎となる物理学、事前情報、および追加のドメイン知識を表す数学的定式化を利用する。 単純な古典モデルは有用だが不正確さに敏感であり、実際のシステムが複雑または動的振る舞いを示す場合、性能が低下する可能性がある。 一方で、データセットが豊富になり、現代のディープラーニングパイプラインのパワーが増すにつれて、モデルに依存しない純粋なデータ駆動アプローチが普及しています。 ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、特に教師付き問題に対して優れたパフォーマンスを示す。 しかし、DNNは通常大量のデータと膨大な計算資源を必要とし、いくつかの信号処理シナリオに適用性を制限する。 私たちは、原則化された数学モデルとデータ駆動システムを組み合わせて、両方のアプローチの利点を享受するハイブリッド技術に興味を持っています。 このようなモデルに基づくディープラーニング手法は、特定の問題のために設計された数学的構造や限られたデータからの学習を通じて、部分的なドメイン知識の両方を利用する。 本稿では、モデルベースディープラーニングシステムの研究と設計のための主要なアプローチについて調査する。 ハイブリッドモデルベース/データ駆動システムはその推論メカニズムに基づいてカテゴリに分類する。 本稿では,モデルに基づくアルゴリズムとディープラーニングを体系的に組み合わせる主要なアプローチについて,具体的なガイドラインや最近の文献からの詳細な信号処理指向の例とともに概説する。 本研究の目的は,両領域の利点を取り入れた信号処理と機械学習の交差する未来のシステムの設計と研究を促進することである。

Signal processing, communications, and control have traditionally relied on classical statistical modeling techniques. Such model-based methods utilize mathematical formulations that represent the underlying physics, prior information and additional domain knowledge. Simple classical models are useful but sensitive to inaccuracies and may lead to poor performance when real systems display complex or dynamic behavior. On the other hand, purely data-driven approaches that are model-agnostic are becoming increasingly popular as datasets become abundant and the power of modern deep learning pipelines increases. Deep neural networks (DNNs) use generic architectures which learn to operate from data, and demonstrate excellent performance, especially for supervised problems. However, DNNs typically require massive amounts of data and immense computational resources, limiting their applicability for some signal processing scenarios. We are interested in hybrid techniques that combine principled mathematical models with data-driven systems to benefit from the advantages of both approaches. Such model-based deep learning methods exploit both partial domain knowledge, via mathematical structures designed for specific problems, as well as learning from limited data. In this article we survey the leading approaches for studying and designing model-based deep learning systems. We divide hybrid model-based/data-driven systems into categories based on their inference mechanism. We provide a comprehensive review of the leading approaches for combining model-based algorithms with deep learning in a systematic manner, along with concrete guidelines and detailed signal processing oriented examples from recent literature. Our aim is to facilitate the design and study of future systems on the intersection of signal processing and machine learning that incorporate the advantages of both domains.
翻訳日:2021-05-07 05:09:24 公開日:2020-12-15
# 自動運転のための歩行者行動予測:要件,メトリクス,関連する特徴

Pedestrian Behavior Prediction for Automated Driving: Requirements, Metrics, and Relevant Features ( http://arxiv.org/abs/2012.08418v1 )

ライセンス: Link先を確認
Michael Herman, J\"org Wagner, Vishnu Prabhakaran, Nicolas M\"oser, Hanna Ziesche, Waleed Ahmed, Lutz B\"urkle, Ernst Kloppenburg, Claudius Gl\"aser(参考訳) 自動走行車は安全で快適な運転を確保するために交通状況の包括的な理解を必要とする。 この文脈では、歩行者の行動が複数の要因に影響されるため、歩行者の予測は特に困難である。 本稿では,システムレベルアプローチによる自動走行における歩行者行動予測の要件を網羅的に分析する。 人間の運転行動に基づいて、自動走行車の適切な反応パターンを導き出す。 最後に、歩行者の予測の要件を決定する。 これはまた、システムレベルの観点から予測性能を測定するために調整された新しいメトリクスを含んでいる。 さらに,条件付き変分自動エンコーダ(CVAE)に基づく歩行者予測モデルを提案する。 CVAEはベースライン予測モデルよりも優れた性能を示し、数千の現実世界の歩行者と車両の相互作用からなる大規模データセット上で予測性能を評価した。 最後に, 歩行者属性の知覚に関する今後の研究を導くアブレーション研究を通じて, 異なる文脈的手がかりが予測性能に与える影響について検討する。

Automated vehicles require a comprehensive understanding of traffic situations to ensure safe and comfortable driving. In this context, the prediction of pedestrians is particularly challenging as pedestrian behavior can be influenced by multiple factors. In this paper, we thoroughly analyze the requirements on pedestrian behavior prediction for automated driving via a system-level approach: to this end we investigate real-world pedestrian-vehicle interactions with human drivers. Based on human driving behavior we then derive appropriate reaction patterns of an automated vehicle. Finally, requirements for the prediction of pedestrians are determined. This also includes a novel metric tailored to measure prediction performance from a system-level perspective. Furthermore, we present a pedestrian prediction model based on a Conditional Variational Auto-Encoder (CVAE) which incorporates multiple contextual cues to achieve accurate long-term prediction. The CVAE shows superior performance over a baseline prediction model, where prediction performance was evaluated on a large-scale data set comprising thousands of real-world pedestrian-vehicle-interactions. Finally, we investigate the impact of different contextual cues on prediction performance via an ablation study whose results can guide future research on the perception of relevant pedestrian attributes.
翻訳日:2021-05-07 05:09:02 公開日:2020-12-15
# PANTHER:高次特徴学習のための経路拡張非負のテンソル因子化

PANTHER: Pathway Augmented Nonnegative Tensor factorization for HighER-order feature learning ( http://arxiv.org/abs/2012.08580v1 )

ライセンス: Link先を確認
Yuan Luo, Chengsheng Mao(参考訳) 遺伝経路は通常、標的の介入を知らせる分子機構をコードする。 既存の機械学習アプローチでは、遺伝的経路(高次の特徴)と変異(原子的特徴)を共同でモデル化し、臨床医が解釈可能なモデルを示すことはしばしば困難である。 遺伝医学のためのより正確で理解しやすい機械学習モデルを構築するために,高次特徴学習のためのパスウェイ拡張非負のテンソル分解法(PANTHER)を提案する。 PANTHERは、分子機構を直接コードする情報伝達経路を選択する。 分子機構の相互作用を反映した遺伝子組み換え型テンソル因子化をグループパスに適用する。 次に,特定経路群を用いてソフトマックス分類器を訓練する。 我々はpantherを,複数の制約付きテンソル/行列因子化モデル,グループ誘導型およびベイズ型階層モデルに対して評価した。 PANTHERはすべての最先端比較モデルを大幅に上回る(p<0.05)。 大規模Next Generation Sequencing (NGS) と全ゲノムジェノタイピングデータセットについても,PANTHERの広範囲な適用性を示した。 本研究は,病型予測における特徴分析を行い,特定経路群の知見とメリットを示唆した。

Genetic pathways usually encode molecular mechanisms that can inform targeted interventions. It is often challenging for existing machine learning approaches to jointly model genetic pathways (higher-order features) and variants (atomic features), and present to clinicians interpretable models. In order to build more accurate and better interpretable machine learning models for genetic medicine, we introduce Pathway Augmented Nonnegative Tensor factorization for HighER-order feature learning (PANTHER). PANTHER selects informative genetic pathways that directly encode molecular mechanisms. We apply genetically motivated constrained tensor factorization to group pathways in a way that reflects molecular mechanism interactions. We then train a softmax classifier for disease types using the identified pathway groups. We evaluated PANTHER against multiple state-of-the-art constrained tensor/matrix factorization models, as well as group guided and Bayesian hierarchical models. PANTHER outperforms all state-of-the-art comparison models significantly (p<0.05). Our experiments on large scale Next Generation Sequencing (NGS) and whole-genome genotyping datasets also demonstrated wide applicability of PANTHER. We performed feature analysis in predicting disease types, which suggested insights and benefits of the identified pathway groups.
翻訳日:2021-05-07 05:08:46 公開日:2020-12-15
# 多様性に基づく神経進化改善のための政策マニフォールド探索

Policy Manifold Search for Improving Diversity-based Neuroevolution ( http://arxiv.org/abs/2012.08676v1 )

ライセンス: Link先を確認
Nemanja Rakicevic, Antoine Cully and Petar Kormushev(参考訳) 多様性に基づくアプローチは最近、パフォーマンスベースのポリシー検索の代替パラダイムとして人気を集めています。 この家族のポピュラーなアプローチであるQD(Quality-Diversity)は、ポリシーのロールアウト行動に基づいて定義された多様性測定領域で分離されたハイパフォーマンスなポリシーの集合を維持している。 ポリシーがニューラルネットワークとしてパラメータ化される場合、すなわち 神経進化、QDはパラメータ空間次元とうまくスケールしない傾向がある。 我々の仮説は、ポリシーパラメータ空間に埋め込まれた低次元多様体が存在し、多様で実現可能なポリシーの密度が高いことである。 本稿では,局所的なデータ構造を捉えたポリシーパラメータの学習された潜在表現を活用するニューロ進化による多様性に基づくポリシー探索手法を提案する。 当社のアプローチは、qdフレームワークに従ってポリシーを反復的に収集し、(i)多様なポリシーの集合を構築し、(ii)ポリシーパラメータの潜在表現を学習するためにそれを使用し、(iii)学習された潜在空間でポリシー検索を実行する。 我々は、逆変換(すなわち再構成関数)のヤコビアンを用いて、潜在空間の探索を導く。 これにより、生成されたサンプルが復元後の元の空間の高密度領域に残ることが保証される。 シミュレーション環境における3つの連続制御タスクに対する貢献を評価し,多様性ベースのベースラインと比較した。 その結果,我々のアプローチはより効率的で堅牢な政策探索プロセスをもたらすことが示唆された。

Diversity-based approaches have recently gained popularity as an alternative paradigm to performance-based policy search. A popular approach from this family, Quality-Diversity (QD), maintains a collection of high-performing policies separated in the diversity-metric space, defined based on policies' rollout behaviours. When policies are parameterised as neural networks, i.e. Neuroevolution, QD tends to not scale well with parameter space dimensionality. Our hypothesis is that there exists a low-dimensional manifold embedded in the policy parameter space, containing a high density of diverse and feasible policies. We propose a novel approach to diversity-based policy search via Neuroevolution, that leverages learned latent representations of the policy parameters which capture the local structure of the data. Our approach iteratively collects policies according to the QD framework, in order to (i) build a collection of diverse policies, (ii) use it to learn a latent representation of the policy parameters, (iii) perform policy search in the learned latent space. We use the Jacobian of the inverse transformation (i.e.reconstruction function) to guide the search in the latent space. This ensures that the generated samples remain in the high-density regions of the original space, after reconstruction. We evaluate our contributions on three continuous control tasks in simulated environments, and compare to diversity-based baselines. The findings suggest that our approach yields a more efficient and robust policy search process.
翻訳日:2021-05-07 05:08:29 公開日:2020-12-15
# 降雨流出モデルにおける深層学習による不確かさ推定

Uncertainty Estimation with Deep Learning for Rainfall-Runoff Modelling ( http://arxiv.org/abs/2012.14295v1 )

ライセンス: Link先を確認
Daniel Klotz, Frederik Kratzert, Martin Gauch, Alden Keefe Sampson, G\"unter Klambauer, Sepp Hochreiter, Grey Nearing(参考訳) 深層学習は、幅広い空間的および時間的スケールにわたって正確な水文予測を行うための、ますます重要な方法になりつつある。 不確実性推定は実行可能な水文予測には不可欠であり、標準化されたコミュニティベンチマークは水文モデルの開発と研究においてますます重要になっているが、不確実性推定をベンチマークするための同様のツールが不足している。 我々は,不確実性推定ベンチマーク手法を確立し,その内3つは混合密度ネットワーク,1つはモンテカルロのドロップアウトに基づくディープラーニングベースラインを提示する。 さらに,結果モデルの定性的理解を進めるために,ポストホックモデル解析も提供する。 しかし最も重要なことは、Deep Learningによって正確で正確で確実な不確実性推定が達成できることである。

Deep Learning is becoming an increasingly important way to produce accurate hydrological predictions across a wide range of spatial and temporal scales. Uncertainty estimations are critical for actionable hydrological forecasting, and while standardized community benchmarks are becoming an increasingly important part of hydrological model development and research, similar tools for benchmarking uncertainty estimation are lacking. We establish an uncertainty estimation benchmarking procedure and present four Deep Learning baselines, out of which three are based on Mixture Density Networks and one is based on Monte Carlo dropout. Additionally, we provide a post-hoc model analysis to put forward some qualitative understanding of the resulting models. Most importantly however, we show that accurate, precise, and reliable uncertainty estimation can be achieved with Deep Learning.
翻訳日:2021-05-07 05:08:06 公開日:2020-12-15
# 乗法報酬を一般化したマルコフ決定過程における厳密解

An exact solution in Markov decision process with multiplicative rewards as a general framework ( http://arxiv.org/abs/2012.08074v1 )

ライセンス: Link先を確認
Yuan Yao and Xiaolin Sun(参考訳) 我々は、有限な地平線と連続状態と作用空間を持つマルコフ決定過程の完全可解な枠組みを開発する。 まず,線形遷移とガウス雑音を伴う従来の線形二次制御の厳密な解を考察し,その最適方針はガウス雑音に依存しないが,重要な雑音が存在する場合には望ましくない特徴である。 ノイズに依存する正確な解を調査する動機となる。 そのため、報酬の蓄積を一般的な二元可換および連想演算として一般化する。 新しい乗法累積法により、ガウス雑音を伴う線形遷移を仮定した最適化の厳密な解を求め、その最適方針は加法累積とは対照的にノイズに依存する。 さらに、乗法的スキームは、モデルに依存しない原理である任意の精度で加法的スキームをカバーする一般的な枠組みであることを示す。

We develop an exactly solvable framework of Markov decision process with a finite horizon, and continuous state and action spaces. We first review the exact solution of conventional linear quadratic regulation with a linear transition and a Gaussian noise, whose optimal policy does not depend on the Gaussian noise, which is an undesired feature in the presence of significant noises. It motivates us to investigate exact solutions which depend on noise. To do so, we generalize the reward accumulation to be a general binary commutative and associative operation. By a new multiplicative accumulation, we obtain an exact solution of optimization assuming linear transitions with a Gaussian noise and the optimal policy is noise dependent in contrast to the additive accumulation. Furthermore, we also show that the multiplicative scheme is a general framework that covers the additive one with an arbitrary precision, which is a model-independent principle.
翻訳日:2021-05-07 05:07:31 公開日:2020-12-15
# 閉ループ同定のためのDual-Youlaアプローチの単純化について

On simplification of Dual-Youla approach for closed-loop identification ( http://arxiv.org/abs/2012.08165v1 )

ライセンス: Link先を確認
Toshiharu Sugie and Ichiro Maruta(参考訳) 閉ループ同定のための双対 youla 法には、実用上重要な点がいくつかあることが知られている。 すなわち、ノイズモデルに関係なく正確な植物モデルを提供し、コリメ分解を用いて不安定な植物を扱うために本質的に適合する。 さらに,この手法は制御者の知識の不確実性に対して実証的に堅牢である。 しかし、コプライム分解の使用は工業用途に対する大きな障壁となる可能性がある。 そこで本論文では,2つのYoula手法のメリットを享受しながら,相乗分解を伴わず植物自体を同定する手法の簡易版を導出する方法について述べる。 この単純化版は、著者らが最近提案した安定化予測誤差法と同一であることが判明した。 上記の利点を示すために、詳細なシミュレーション結果が示される。

The dual Youla method for closed loop identification is known to have several practically important merits. Namely, it provides an accurate plant model irrespective of noise models, and fits inherently to handle unstable plants by using coprime factorization. In addition, the method is empirically robust against the uncertainty of the controller knowledge. However, use of coprime factorization may cause a big barrier against industrial applications. This paper shows how to derive a simplified version of the method which identifies the plant itself without coprime factorization, while enjoying all the merits of the dual Youla method. This simplified version turns out to be identical to the stabilized prediction error method which was proposed by the authors recently. Detailed simulation results are given to demonstrate the above merits.
翻訳日:2021-05-07 05:07:16 公開日:2020-12-15
# 新しい小種の自動識別のための機械学習

Machine Learning for automatic identification of new minor species ( http://arxiv.org/abs/2012.08175v1 )

ライセンス: Link先を確認
Frederic Schmidt, Guillaume Cruz Mermy, Justin Erwin, Severine Robert, Lori Neary, Ian R. Thomas, Frank Daerden, Bojan Ristic, Manish R. Patel, Giancarlo Bellucci, Jose-Juan Lopez-Moreno, Ann-Carine Vandaele(参考訳) 現代の分光データを分析するのが難しいのは、大量のデータがあるためである。 例えば、大気透過分光法では、ESA ExoMars2016衛星(TGO)に搭載されたNOMADの太陽観測チャネル(SO)が、2018年4月のミッション開始から2020年1月15日までの20000の取得シーケンスで1000万米ドルのスペクトルを生成していた。 他のデータセットはさらに大きく、Mars Express搭載のOMEGAやMars Reconnaissance Orbiter搭載のCRISMには$$\sim$billionsのスペクトルがある。 通常、新しい線は、モデルフィッティングと手動残留分析の長い反復過程を経て発見される。 本稿では、教師なし機械学習に基づく新しい手法を提案し、新しいマイナーな種を自動的に検出する。 正確な定量化はスコープ外であるが、このツールは、少数のエンドメンバー(ソース)とその存在量を与えることによって、データセットをすばやく要約するためにも使用できる。 データセットの非線形性は、豊富なスペクトルとソーススペクトル(終端スペクトル)の線形混合により近似する。 非教師付きソース分離を非負行列分解法を用いて推定した。 合成およびシミュレーションデータに対していくつかの方法が試験された。 我々のアプローチは、それらを正確に定量化するのではなく、小さな種のスペクトルを検出することである。 合成例では、この手法はノイズレベルの1.5倍の10^4$から100の隠されたスペクトルの形で存在する化合物を検出できる。 CH$_{4}$をターゲットとしたNOMAD-SOのシミュレーションスペクトルの結果,検出限界は100-500pptの範囲で良好な条件で進行することが示された。 NOMAD-SO の実際の火星データは、予想通り CO$_{2}$ と H$_{2}$O が存在することを示しているが、CH$_{4}$ は存在しない。 それでも我々はacsインスツルメンツチームによるデータベース内の予期せぬ新しい線の集合を co$_{2}$ の磁気双極子で確認する。

One of the main difficulties to analyze modern spectroscopic datasets is due to the large amount of data. For example, in atmospheric transmittance spectroscopy, the solar occultation channel (SO) of the NOMAD instrument onboard the ESA ExoMars2016 satellite called Trace Gas Orbiter (TGO) had produced $\sim$10 millions of spectra in 20000 acquisition sequences since the beginning of the mission in April 2018 until 15 January 2020. Other datasets are even larger with $\sim$billions of spectra for OMEGA onboard Mars Express or CRISM onboard Mars Reconnaissance Orbiter. Usually, new lines are discovered after a long iterative process of model fitting and manual residual analysis. Here we propose a new method based on unsupervised machine learning, to automatically detect new minor species. Although precise quantification is out of scope, this tool can also be used to quickly summarize the dataset, by giving few endmembers ("source") and their abundances. We approximate the dataset non-linearity by a linear mixture of abundance and source spectra (endmembers). We used unsupervised source separation in form of non-negative matrix factorization to estimate those quantities. Several methods are tested on synthetic and simulation data. Our approach is dedicated to detect minor species spectra rather than precisely quantifying them. On synthetic example, this approach is able to detect chemical compounds present in form of 100 hidden spectra out of $10^4$, at 1.5 times the noise level. Results on simulated spectra of NOMAD-SO targeting CH$_{4}$ show that detection limits goes in the range of 100-500 ppt in favorable conditions. Results on real martian data from NOMAD-SO show that CO$_{2}$ and H$_{2}$O are present, as expected, but CH$_{4}$ is absent. Nevertheless, we confirm a set of new unexpected lines in the database, attributed by ACS instrument Team to the CO$_{2}$ magnetic dipole.
翻訳日:2021-05-07 05:07:05 公開日:2020-12-15
# OFDMシステムにおけるMU-MIMO受信処理のための機械学習

Machine Learning for MU-MIMO Receive Processing in OFDM Systems ( http://arxiv.org/abs/2012.08177v1 )

ライセンス: Link先を確認
Mathieu Goutay, Fay\c{c}al Ait Aoudia, Jakob Hoydis, and Jean-Marie Gorce(参考訳) 機械学習(ML)は、マルチユーザマルチインプットマルチアウトプット(MU-MIMO)受信機の性能を高めるために広く使われるようになった。 しかし,そのような手法が現実的なシナリオや現実的な制約の下で従来の手法と真に競合するかどうかは不明である。 MU-MIMO受信アルゴリズムは、現実的なチャネルモデル上で正確な信号再構成を可能にするだけでなく、リトレーニングを必要とせずに、様々なユーザへの適応を容易にしなければなりません。 既存の作業とは対照的に,従来の線形最小平均二乗誤差(LMMSE)アーキテクチャ上に構築されたML強化MU-MIMO受信機を提案する。 LMMSE受信機の解釈可能性とスケーラビリティを維持しつつ、その精度を2つの方法で改善する。 まず、畳み込みニューラルネットワーク(CNN)を用いて、正確な等化に必要なチャネル推定誤差の2次統計量の近似を計算する。 第2に、cnnベースのデマッパーは、多数の直交周波数分割多重化(ofdm)シンボルとサブキャリアを共同で処理し、チャネルエイジングを補償することにより、より優れたログ度比(llr)を算出する。 結果として得られたアーキテクチャは、アップリンクとダウンリンクで使用することができ、エンドツーエンドでトレーニングされ、トレーニングフェーズ中に完全チャネル状態情報(csi)を取得する必要がなくなる。 シミュレーションの結果,高モビリティシナリオにおいて特に顕著なベースラインに対する一貫した性能向上を示す。

Machine learning (ML) starts to be widely used to enhance the performance of multi-user multiple-input multiple-output (MU-MIMO) receivers. However, it is still unclear if such methods are truly competitive with respect to conventional methods in realistic scenarios and under practical constraints. In addition to enabling accurate signal reconstruction on realistic channel models, MU-MIMO receive algorithms must allow for easy adaptation to a varying number of users without the need for retraining. In contrast to existing work, we propose an ML-enhanced MU-MIMO receiver that builds on top of a conventional linear minimum mean squared error (LMMSE) architecture. It preserves the interpretability and scalability of the LMMSE receiver, while improving its accuracy in two ways. First, convolutional neural networks (CNNs) are used to compute an approximation of the second-order statistics of the channel estimation error which are required for accurate equalization. Second, a CNN-based demapper jointly processes a large number of orthogonal frequency-division multiplexing (OFDM) symbols and subcarriers, which allows it to compute better log likelihood ratios (LLRs) by compensating for channel aging. The resulting architecture can be used in the up- and downlink and is trained in an end-to-end manner, removing the need for hard-to-get perfect channel state information (CSI) during the training phase. Simulation results demonstrate consistent performance improvements over the baseline which are especially pronounced in high mobility scenarios.
翻訳日:2021-05-07 05:06:33 公開日:2020-12-15
# PDFFlow:Parton密度アクセスを加速するハードウェア

PDFFlow: hardware accelerating parton density access ( http://arxiv.org/abs/2012.08221v1 )

ライセンス: Link先を確認
Marco Rossi, Stefano Carrazza, Juan M. Cruz-Martinez(参考訳) ハードウェアアクセラレータを持つプラットフォーム向けに設計されたパートン分布関数(PDF)を高速に評価するための新しいソフトウェアであるPDFFlowを提案する。 pdfはモンテカルロシミュレーション技術による素粒子物理学観測の計算に不可欠である。 クォークとグルーオンの与えられた運動量分数とエネルギースケールでの一般的なPDFセットの評価は、初めてLHAPDFプロジェクトによって導入された補間アルゴリズムの実装を必要とする。 pdfflowは、googleのtensorflowライブラリを使用して、これらの補間アルゴリズムを拡張し実装し、マルチスレッディングcpuとgpuのセットアップを十分に活用したpdf評価を可能にする。 このライブラリの性能を粒子物理学コミュニティに関連する複数のシナリオでベンチマークする。

We present PDFFlow, a new software for fast evaluation of parton distribution functions (PDFs) designed for platforms with hardware accelerators. PDFs are essential for the calculation of particle physics observables through Monte Carlo simulation techniques. The evaluation of a generic set of PDFs for quarks and gluons at a given momentum fraction and energy scale requires the implementation of interpolation algorithms as introduced for the first time by the LHAPDF project. PDFFlow extends and implements these interpolation algorithms using Google's TensorFlow library providing the possibility to perform PDF evaluations taking fully advantage of multi-threading CPU and GPU setups. We benchmark the performance of this library on multiple scenarios relevant for the particle physics community.
翻訳日:2021-05-07 05:06:10 公開日:2020-12-15
# BiSNN:ベイズ学習による2重み付きスパイクニューラルネットワークのトレーニング

BiSNN: Training Spiking Neural Networks with Binary Weights via Bayesian Learning ( http://arxiv.org/abs/2012.08300v1 )

ライセンス: Link先を確認
Hyeryung Jang and Nicolas Skatchkovsky and Osvaldo Simeone(参考訳) 人工ニューラルネットワーク(ann)ベースのバッテリ駆動デバイスの推論は、シナプス重みをバイナリに制限することで、よりエネルギー効率が向上し、乗算を実行する必要がなくなる。 新たなアプローチとして、バイオインスパイアされた動的イベント駆動モデルであるスパイキングニューラルネットワーク(SNN)の使用が、バイナリ、スパース、アクティベーションの使用によるエネルギー効率の向上に頼っている。 本稿では、時間的にスパースなバイナリアクティベーションと二分重の利点を組み合わせたSNNモデルを提案する。 2つの学習規則が導出され、第1はストレートスルーとサロゲート勾配法の組み合わせ、第2はベイズパラダイムに基づく。 実験は、完全な精度実装に関する性能損失を検証し、正確性とキャリブレーションの観点からベイズパラダイムの利点を実証する。

Artificial Neural Network (ANN)-based inference on battery-powered devices can be made more energy-efficient by restricting the synaptic weights to be binary, hence eliminating the need to perform multiplications. An alternative, emerging, approach relies on the use of Spiking Neural Networks (SNNs), biologically inspired, dynamic, event-driven models that enhance energy efficiency via the use of binary, sparse, activations. In this paper, an SNN model is introduced that combines the benefits of temporally sparse binary activations and of binary weights. Two learning rules are derived, the first based on the combination of straight-through and surrogate gradient techniques, and the second based on a Bayesian paradigm. Experiments validate the performance loss with respect to full-precision implementations, and demonstrate the advantage of the Bayesian paradigm in terms of accuracy and calibration.
翻訳日:2021-05-07 05:06:00 公開日:2020-12-15
# コスト効率のよい連合学習設計

Cost-Effective Federated Learning Design ( http://arxiv.org/abs/2012.08336v1 )

ライセンス: Link先を確認
Bing Luo, Xiang Li, Shiqiang Wang, Jianwei Huang, Leandros Tassiulas(参考訳) フェデレーション学習(federated learning, fl)は、多数のデバイスが生のデータを共有することなく、協調的にモデルを学習できる分散学習パラダイムである。 実効性と有効性にもかかわらず、反復型オンデバイス学習プロセスは、選択したクライアントの数と各トレーニングラウンドにおけるローカルイテレーションの数に大きく依存する、学習時間とエネルギー消費の観点からかなりのコストを発生させる。 本稿では,これらの基本制御変数を最適に選択し,収束を確保しつつ,総コストを最小化する適応FLの設計方法を分析する。 理論的には、総コストと制御変数の収束上限との関係を解析的に確立する。 コスト最小化の問題を効率的に解くため,低コストなサンプリングベースアルゴリズムを開発し,収束に関連する未知のパラメータを学習する。 異なる計量選好のための設計原理を効果的に識別する重要な解特性を導出する。 本研究は,シミュレーション環境とハードウェアプロトタイプの両方で理論的結果を評価する。 実験的なエビデンスから得られた特性を検証し,提案手法が様々なデータセット,異なる機械学習モデル,異種システム設定に対してほぼ最適性能を実現することを示す。

Federated learning (FL) is a distributed learning paradigm that enables a large number of devices to collaboratively learn a model without sharing their raw data. Despite its practical efficiency and effectiveness, the iterative on-device learning process incurs a considerable cost in terms of learning time and energy consumption, which depends crucially on the number of selected clients and the number of local iterations in each training round. In this paper, we analyze how to design adaptive FL that optimally chooses these essential control variables to minimize the total cost while ensuring convergence. Theoretically, we analytically establish the relationship between the total cost and the control variables with the convergence upper bound. To efficiently solve the cost minimization problem, we develop a low-cost sampling-based algorithm to learn the convergence related unknown parameters. We derive important solution properties that effectively identify the design principles for different metric preferences. Practically, we evaluate our theoretical results both in a simulated environment and on a hardware prototype. Experimental evidence verifies our derived properties and demonstrates that our proposed solution achieves near-optimal performance for various datasets, different machine learning models, and heterogeneous system settings.
翻訳日:2021-05-07 05:05:43 公開日:2020-12-15
# 進化ゲーム理論--内在的に進化するゼロサムゲームにおけるエージェントの進化

Evolutionary Game Theory Squared: Evolving Agents in Endogenously Evolving Zero-Sum Games ( http://arxiv.org/abs/2012.08382v1 )

ライセンス: Link先を確認
Stratis Skoulakis, Tanner Fiez, Ryann Sim, Georgios Piliouras, Lillian Ratliff(参考訳) 進化的ゲーム理論とより一般的にオンライン学習における主要なパラダイムは、固定された静的なゲームと相互作用する動的エージェントの集団間の明確な区別に基づいている。 本稿では,動的エージェントと静的ゲームとの人工的な分断から離れて,エージェントとゲームの両方が時間とともに戦略的に進化する,大規模な競争的設定を紹介し分析する。 我々は、おそらく最も典型的なゲーム理論的な設定であるゼロサムゲーム(およびネットワークの一般化)と最も研究されている進化的学習ダイナミックなレプリケータに焦点を当てています。 エージェントの集団は、現在の人口混合に逆らって進化するゼロサム競争で互いに競合する。 驚くべきことに、エージェントとゲームのカオス的な共進化にもかかわらず、システムは多くの正規性を示すことを証明している。 まず、システムはすべてのエージェントとゲームの振る舞いを結合する情報理論的なフレーバーの保存則を有する。 第二に、システムはpoincar\'{e}リカレントであり、エージェントとゲームの全ての初期化は、無限に頻繁に初期状態に近いリカレント軌道上にある。 第3に、時間平均エージェントの挙動とユーティリティは、時間平均ゲームのナッシュ平衡値に収束する。 最後に,このようなネットワークゲームに対して,この時間平均動作を効率的に予測する多項式時間アルゴリズムを提案する。

The predominant paradigm in evolutionary game theory and more generally online learning in games is based on a clear distinction between a population of dynamic agents that interact given a fixed, static game. In this paper, we move away from the artificial divide between dynamic agents and static games, to introduce and analyze a large class of competitive settings where both the agents and the games they play evolve strategically over time. We focus on arguably the most archetypal game-theoretic setting -- zero-sum games (as well as network generalizations) -- and the most studied evolutionary learning dynamic -- replicator, the continuous-time analogue of multiplicative weights. Populations of agents compete against each other in a zero-sum competition that itself evolves adversarially to the current population mixture. Remarkably, despite the chaotic coevolution of agents and games, we prove that the system exhibits a number of regularities. First, the system has conservation laws of an information-theoretic flavor that couple the behavior of all agents and games. Secondly, the system is Poincar\'{e} recurrent, with effectively all possible initializations of agents and games lying on recurrent orbits that come arbitrarily close to their initial conditions infinitely often. Thirdly, the time-average agent behavior and utility converge to the Nash equilibrium values of the time-average game. Finally, we provide a polynomial time algorithm to efficiently predict this time-average behavior for any such coevolving network game.
翻訳日:2021-05-07 05:05:23 公開日:2020-12-15
# ランダム初期化によるニューラルネットワークのトレーニングのための強大な総合的誤差解析

Strong overall error analysis for the training of artificial neural networks via random initializations ( http://arxiv.org/abs/2012.08443v1 )

ライセンス: Link先を確認
Arnulf Jentzen and Adrian Riekert(参考訳) ディープラーニングに基づく近似アルゴリズムは、多くの問題に非常にうまく適用されてきたが、現時点ではその性能の理由は数学的観点から完全には理解されていない。 近年,深い教師付き学習の状況において,総誤差の収束率を推定する手法が提案されているが,収束率は非常に遅い。 ここでは、これらの見積もりを部分的に改善する。 より具体的には、同じ近似率を得るためには、ニューラルネットワークの深さがはるかに遅いだけであることを示す。 結果は任意の確率最適化アルゴリズムの場合、すなわちランダム初期化を伴う。

Although deep learning based approximation algorithms have been applied very successfully to numerous problems, at the moment the reasons for their performance are not entirely understood from a mathematical point of view. Recently, estimates for the convergence of the overall error have been obtained in the situation of deep supervised learning, but with an extremely slow rate of convergence. In this note we partially improve on these estimates. More specifically, we show that the depth of the neural network only needs to increase much slower in order to obtain the same rate of approximation. The results hold in the case of an arbitrary stochastic optimization algorithm with i.i.d.\ random initializations.
翻訳日:2021-05-07 05:04:21 公開日:2020-12-15