このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210105となっている論文です。

PDF登録状況(公開日: 20210105)

TitleAuthorsAbstract論文公表日・翻訳日
# 高エネルギー物理学における量子機械学習による事象分類

Event Classification with Quantum Machine Learning in High-Energy Physics ( http://arxiv.org/abs/2002.09935v2 )

ライセンス: Link先を確認
Koji Terashi, Michiru Kaneda, Tomoe Kishimoto, Masahiko Saito, Ryu Sawada, Junichi Tanaka(参考訳) 本稿では,高エネルギー物理学において最も代表的な機械学習応用の1つである,背景イベントから興味のある事象を分類するために機械学習を利用した量子アルゴリズムの研究を行う。 本稿では,入力データの性質を学習するための変分量子アプローチに着目し,シミュレータと量子コンピューティングデバイスを用いたイベント分類の性能評価を行う。 ブースト決定木に基づく標準多変量分類手法と古典的なコンピュータを用いたディープニューラルネットワークとの比較により、量子アルゴリズムは、入力変数の数とトレーニングサンプルのサイズの考慮範囲において、標準技術と同等の性能を持つことが示された。 変分量子アルゴリズムは量子コンピュータでテストされ、背景からの興味深い事象の識別が可能であることを示す。 拡張ゲート構造を有する量子回路を用いた学習過程中に観測される特性挙動と、高エネルギー物理学実験における電流性能の応用への影響について考察した。

We present studies of quantum algorithms exploiting machine learning to classify events of interest from background events, one of the most representative machine learning applications in high-energy physics. We focus on variational quantum approach to learn the properties of input data and evaluate the performance of the event classification using both simulators and quantum computing devices. Comparison of the performance with standard multi-variate classification techniques based on a boosted-decision tree and a deep neural network using classical computers shows that the quantum algorithm has comparable performance with the standard techniques at the considered ranges of the number of input variables and the size of training samples. The variational quantum algorithm is tested with quantum computers, demonstrating that the discrimination of interesting events from background is feasible. Characteristic behaviors observed during a learning process using quantum circuits with extended gate structures are discussed, as well as the implications of the current performance to the application in high-energy physics experiments.
翻訳日:2023-06-02 07:14:24 公開日:2021-01-05
# シンボリックリソース推定を用いた高精度量子コンパイラの実現

Enabling Accuracy-Aware Quantum Compilers using Symbolic Resource Estimation ( http://arxiv.org/abs/2003.08408v2 )

ライセンス: Link先を確認
Giulia Meuli, Mathias Soeken, Martin Roetteler and Thomas H\"aner(参考訳) 量子プログラムを低レベルゲート集合にコンパイルする場合、近似誤差を考慮する必要がある。 このようなエラーを自動的に追跡し、精度パラメータを最適化して、量子ゲートの観点から実装コストを最小限に抑えることを目的とした手法を提案する。 提案手法の中核となる考え方は、量子プログラムの高レベル記述から直接最適化問題を特定する関数を抽出することである。 次に、カスタムコンパイラはこれらの関数を最適化し、(1)総誤差と(2)実装コスト(例えば、全量子ゲート数)の(ほぼ)シンボリック表現に変換する。 量子プログラムの未特定パラメータはすべて、精度パラメータを含むこれらの式内の変数として現れる。 対応する最適化問題を解いた後、検出した解から回路をインスタンス化することができる。 我々はclang/llvmに基づくc++とq#コンパイラインフラストラクチャを使用した2つのプロトタイプ実装を開発した。 我々は、量子フーリエ変換、量子位相推定、ショアのアルゴリズムなど、典型的な量子コンピューティングプログラムのプロトタイプをベンチマークする。

Approximation errors must be taken into account when compiling quantum programs into a low-level gate set. We present a methodology that tracks such errors automatically and then optimizes accuracy parameters to guarantee a specified overall accuracy while aiming to minimize the implementation cost in terms of quantum gates. The core idea of our approach is to extract functions that specify the optimization problem directly from the high-level description of the quantum program. Then, custom compiler passes optimize these functions, turning them into (near-)symbolic expressions for (1) the total error and (2) the implementation cost (e.g., total quantum gate count). All unspecified parameters of the quantum program will show up as variables in these expressions, including accuracy parameters. After solving the corresponding optimization problem, a circuit can be instantiated from the found solution. We develop two prototype implementations, one in C++ based on Clang/LLVM, and another using the Q# compiler infrastructure. We benchmark our prototypes on typical quantum computing programs, including the quantum Fourier transform, quantum phase estimation, and Shor's algorithm.
翻訳日:2023-05-28 20:04:49 公開日:2021-01-05
# 自由フェルミオンの離散量子断熱過程と虚時進化との比較

Discretized quantum adiabatic process for free fermions and comparison with the imaginary-time evolution ( http://arxiv.org/abs/2008.07168v2 )

ライセンス: Link先を確認
Tomonori Shirakawa, Kazuhiro Seki, Seiji Yunoki(参考訳) 近年の量子技術の進歩により,変分波動関数によって記述された1次元自由フェルミオン系,すなわちパラメタライズド量子回路の離散化量子断熱過程が研究されている。 波動関数は、2つの時間進化作用素の基本的な集合のM$層で構成され、それぞれの集合は可換局所作用素に分解される。 各時間発展作用素の進化時間は、エネルギーの期待値を最小限にするために変分パラメータとして扱われる。 時間発展演算子の層をシステムサイズの4分の1まで適用することで、正確な基底状態が達成されることを示す。 これは、速度の限界、すなわち、局所時間変化演算子を介して量子の絡み合いを伝播するリーブ・ロビンソン境界によって設定された層の最小数である。 m < m_b$ で最適化された変動波関数のエネルギー $e$ や絡み合いエントロピー $s$ は、システムサイズ $l$ とは独立であるが、いくつかの普遍関数は $m$ である。 これらのアンザッツの絡み合いの発達は、変動波動関数における単一粒子軌道の進行伝播においてさらに顕著である。 また、最適化された変分パラメータは、量子断熱過程において最適なスケジューリング関数を提供する体系構造を示す。 また、この変分波動関数の虚時発展についても検討し、虚時発展作用素の非ユニタリ性のために因果関係が欠如しているため、波動関数のノルムはもはや保存されない。 系が臨界点にあるにもかかわらず、正確な基底状態への収束は指数関数的に速いことが分かり、量子回路における非一意的想像時間進化の実装は、回路深度をさらに浅めることを強く約束している。

Motivated by recent progress of quantum technologies, we study a discretized quantum adiabatic process for a one-dimensional free fermion system described by a variational wave function, i.e., a parametrized quantum circuit. The wave function is composed of $M$ layers of two elementary sets of time-evolution operators, each set being decomposed into commutable local operators. The evolution time of each time-evolution operator is treated as a variational parameter so as to minimize the expectation value of the energy. We show that the exact ground state is reached by applying the layers of time-evolution operators as many as a quarter of the system size. This is the minimum number $M_B$ of layers set by the limit of speed, i.e., the Lieb-Robinson bound, for propagating quantum entanglement via the local time-evolution operators. Quantities such as the energy $E$ and the entanglement entropy $S$ of the optimized variational wave function with $M < M_B$ are independent of the system size $L$ but fall into some universal functions of $M$. The development of the entanglement in these ansatz is further manifested in the progressive propagation of single-particle orbitals in the variational wave function. We also find that the optimized variational parameters show a systematic structure that provides the optimum scheduling function in the quantum adiabatic process. We also investigate the imaginary-time evolution of this variational wave function, where the causality relation is absent due to the non-unitarity of the imaginary-time evolution operators, thus the norm of the wave function being no longer conserved. We find that the convergence to the exact ground state is exponentially fast, despite that the system is at the critical point, suggesting that implementation of the non-unitary imaginary-time evolution in a quantum circuit is highly promising to further shallow the circuit depth.
翻訳日:2023-05-06 01:07:24 公開日:2021-01-05
# 冷間原子干渉計による重力試験:結果と展望

Testing gravity with cold atom interferometry: Results and prospects ( http://arxiv.org/abs/2009.01484v3 )

ライセンス: Link先を確認
Guglielmo M. Tino(参考訳) 原子干渉計は、重力を調べるための新しい強力なツールとして過去30年間開発されてきた。 They were used for measuring the gravity acceleration, the gravity gradient, and the gravity-field curvature, for the determination of the gravitational constant, for the investigation of gravity at microscopic distances, to test the equivalence principle of general relativity and the theories of modified gravity, to probe the interplay between gravitational and quantum physics and to test quantum gravity models, to search for dark matter and dark energy, and they were proposed as new detectors for the observation of gravitational waves. ここでは、この分野の主な展望と新しい物理学を探究する可能性について、過去および現在進行中の実験について概観する。

Atom interferometers have been developed in the last three decades as new powerful tools to investigate gravity. They were used for measuring the gravity acceleration, the gravity gradient, and the gravity-field curvature, for the determination of the gravitational constant, for the investigation of gravity at microscopic distances, to test the equivalence principle of general relativity and the theories of modified gravity, to probe the interplay between gravitational and quantum physics and to test quantum gravity models, to search for dark matter and dark energy, and they were proposed as new detectors for the observation of gravitational waves. Here I describe past and ongoing experiments with an outlook on what I think are the main prospects in this field and the potential to search for new physics.
翻訳日:2023-05-03 23:03:21 公開日:2021-01-05
# 高性能コンピュータ上でのプリバイオティック分子の基底状態エネルギーシミュレーションによる変量量子固有解器のベンチマーク

Benchmarking the Variational Quantum Eigensolver through Simulation of the Ground State Energy of Prebiotic Molecules on High-Performance Computers ( http://arxiv.org/abs/2010.13578v2 )

ライセンス: Link先を確認
P. Lolur, M. Rahm, M. Skogh, L. Garc\'ia-\'Alvarez, and G. Wendin(参考訳) 本研究では, 水, H$_2$O, シアン化水素から得られる小分子の基底状態エネルギーを計算するために, Qiskit ソフトウェアパッケージで実装された変分量子固有解法 (VQE) を用いる。 この研究の目的は、先生化学に関連のある分子の電子構造とエネルギー表面を、水とシアン化水素から計算し、利用可能なシミュレーションおよび物理量子ハードウェア上で実行するアルゴリズムをベンチマークすることである。 小さな量子プロセッサのアルゴリズムの数値計算は、実際のハードウェアで実行するより効率的なプロトコルを設計できると同時に、その性能を分析することができます。 アクセス可能な量子処理プロトタイプの将来の実装は、量子コンピュータをベンチマークし、ヒューリスティックな量子アルゴリズムによる量子優位性のテストを提供する。

We use the Variational Quantum Eigensolver (VQE) as implemented in the Qiskit software package to compute the ground state energy of small molecules derived from water, H$_2$O, and hydrogen cyanide, HCN. The work aims to benchmark algorithms for calculating the electronic structure and energy surfaces of molecules of relevance to prebiotic chemistry, beginning with water and hydrogen cyanide, and to run them on the available simulated and physical quantum hardware. The numerical calculations of the algorithms for small quantum processors allow us to design more efficient protocols to be run in real hardware, as well as to analyze their performance. Future implementations on accessible quantum processing prototypes will benchmark quantum computers and provide tests of quantum advantage with heuristic quantum algorithms.
翻訳日:2023-04-27 11:30:31 公開日:2021-01-05
# 宇宙における超低温原子インターフェロメトリー

Ultracold atom interferometry in space ( http://arxiv.org/abs/2101.00972v2 )

ライセンス: Link先を確認
Maike D. Lachmann, Holger Ahlers, Dennis Becker, Aline N. Dinkelaker, Jens Grosse, Ortwin Hellmig, Hauke M\"untinga, Vladimir Schkolnik, Stephan T. Seidel, Thijs Wendrich, Andr\'e Wenzlawski, Benjamin Weps, Naceur Gaaloul, Daniel L\"udtke, Claus Braxmaier, Wolfgang Ertmer, Markus Krutzik, Claus L\"ammerzahl, Achim Peters, Wolfgang P. Schleich, Klaus Sengstock, Andreas Wicht, Patrick Windpassinger, Ernst M. Rasel(参考訳) 自由落下におけるボース・アインシュタイン凝縮(BEC)は、宇宙からの物質-波干渉の有望な源である。 実際、BECは徐々に拡大する波動関数を楽しみ、大きな空間コヒーレンスを表示し、光学技術によって設計および探査することができる。 観測ロケットでは,光パルスを用いた自由落下時に放出されるBECの複数のスピノル成分の物質-波束を探索し,ブラッグ過程を駆動し,位相インプリントを誘導する。 これらの干渉の観測において, 卓越した微小重力は, 凝縮体の空間的コヒーレンスを明らかにするだけでなく, 差分力の測定にも重要な役割を果たした。 我々の研究は、物質波干渉法を宇宙で確立し、基礎物理学、航法、地球観測に将来の応用を行う。

Bose-Einstein condensates (BECs) in free fall constitute a promising source for space-borne matter-wave interferometry. Indeed, BECs enjoy a slowly expanding wave function, display a large spatial coherence and can be engineered and probed by optical techniques. On a sounding rocket, we explore matter-wave fringes of multiple spinor components of a BEC released in free fall employing light-pulses to drive Bragg processes and induce phase imprinting. The prevailing microgravity played a crucial role in the observation of these interferences which not only reveal the spatial coherence of the condensates but also allow us to measure differential forces. Our work establishes matter-wave interferometry in space with future applications in fundamental physics, navigation and Earth observation.
翻訳日:2023-04-17 22:15:45 公開日:2021-01-05
# 原子間フェルミハバード量子シミュレーションのための量子断熱ドーピング

Quantum Adiabatic Doping for Atomic Fermi-Hubbard Quantum Simulations ( http://arxiv.org/abs/2101.01475v1 )

ライセンス: Link先を確認
Jue Nan, Jian Lin, Yuchen Luo, Bo Zhao, and Xiaopeng Li(参考訳) 光学格子を積んだ超低温原子を用いたフェルミ・ハバードモデルの量子シミュレーションに多大な研究がなされている。 このような実験では、反強磁性秩序量子状態が近年半分の充填で達成されている。 半充填から離れた原子格子はd波超伝導をホストすることが期待されているが、低温相は到達していない。 本研究では,非コンベンサート格子の量子断熱進化を用いた非コンベンサート量子断熱ドーピングの手法を提案し,単位充填バンド絶縁体から開始したドープフェルミ・ハバード模型の高相関多体基底状態の作成を行った。 その実現性は、ある非共分散粒子ドーピング分画に対する断熱的準備の数値シミュレーションで実証され、そこで回避すべき主要な問題は非共分散格子の原子局在である。 ここでは, 粒子ドーピングからホールドーピングまでの幅広いドーピング分数について, コンベンサートと非コンメンサートの両方を含む量子断熱ドーピングの系統的研究を行う。 また, 埋没時の局所化様の緩やかな低下問題があり, ホールドープ方式では害が少ないことが判明した。 相互作用において、断熱製剤は、その相互作用効果が局在を不安定にするより効率的であることが分かる。 自由ケースと相互作用ケースの両方において、断熱ドーピングは粒子ドーピング方式よりもホールドープ方式の方が優れた性能を有する。 また, 半充填mott絶縁体から開始した断熱ドーピングについても検討した。

There have been considerable research efforts devoted to quantum simulations of Fermi-Hubbard model with ultracold atoms loaded in optical lattices. In such experiments, the antiferromagnetically ordered quantum state has been achieved at half filling in recent years. The atomic lattice away from half filling is expected to host d-wave superconductivity, but its low temperature phases have not been reached. In a recent work, we proposed an approach of incommensurate quantum adiabatic doping, using quantum adiabatic evolution of an incommensurate lattice for preparation of the highly correlated many-body ground state of the doped Fermi-Hubbard model starting from a unit-filling band insulator. Its feasibility has been demonstrated with numerical simulations of the adiabatic preparation for certain incommensurate particle-doping fractions, where the major problem to circumvent is the atomic localization in the incommensurate lattice. Here we carry out a systematic study of the quantum adiabatic doping for a wide range of doping fractions from particle-doping to hole-doping, including both commensurate and incommensurate cases. We find that there is still a localization-like slowing-down problem at commensurate fillings, and that it becomes less harmful in the hole-doped regime. With interactions, the adiabatic preparation is found to be more efficient for that interaction effect destabilizes localization. For both free and interacting cases, we find the adiabatic doping has better performance in the hole-doped regime than the particle-doped regime. We also study adiabatic doping starting from the half-filling Mott insulator, which is found to be more efficient for certain filling fractions.
翻訳日:2023-04-17 20:10:17 公開日:2021-01-05
# 分離状態による量子ネットワークにおける多粒子絡みとステアリングの決定論的分布

Deterministic distribution of multipartite entanglement and steering in a quantum network by separable states ( http://arxiv.org/abs/2101.01422v1 )

ライセンス: Link先を確認
Meihong Wang, Yu Xiang, Haijun Kang, Dongmei Han, Yang Liu, Qiongyi He, Qihuang Gong, Xiaolong Su, and Kunchi Peng(参考訳) 2つの価値のある量子資源として、アインシュタイン-ポドルスキー-ローゼンの絡み合いとステアリングは量子エンハンス通信プロトコルにおいて重要な役割を果たす。 このような量子リソースをネットワーク内の複数のリモートユーザ間で分散することは、さまざまな量子タスクの基礎となる重要な前提条件である。 量子サーバと複数のユーザからなるネットワーク上で分離可能な状態を送信することにより,2モードと3モードのガウスの絡み合いとステアリングの決定論的分布を実験的に示す。 実験では、エンタングル状態は量子サーバのみによって準備されるのではなく、配布プロセス中に独立したユーザ間で作成される。 より具体的には、量子サーバは分離可能な圧縮状態を準備し、拡散する前に古典的な変位を適用し、ユーザーは分離可能な状態を受けた後に局所ビームスプリッター演算とホモダインの計測を行う。 分布ガウスの絡み合いとステアビリティはチャネル損失に対して頑健であることを示す。 さらに、一方向ガウスステアリングをユーザ間で実現し、より方向性的または高度に非対称な量子情報処理に有用である。

As two valuable quantum resources, Einstein-Podolsky-Rosen entanglement and steering play important roles in quantum-enhanced communication protocols. Distributing such quantum resources among multiple remote users in a network is a crucial precondition underlying various quantum tasks. We experimentally demonstrate the deterministic distribution of two- and three-mode Gaussian entanglement and steering by transmitting separable states in a network consisting of a quantum server and multiple users. In our experiment, entangled states are not prepared solely by the quantum server, but are created among independent users during the distribution process. More specifically, the quantum server prepares separable squeezed states and applies classical displacements on them before spreading out, and users simply perform local beam-splitter operations and homodyne measurements after they receive separable states. We show that the distributed Gaussian entanglement and steerability are robust against channel loss. Furthermore, one-way Gaussian steering is achieved among users that is useful for further directional or highly asymmetric quantum information processing.
翻訳日:2023-04-17 20:09:25 公開日:2021-01-05
# 競合する位相順序を区別する新しい方法

Novel method distinguishing between competing topological orders ( http://arxiv.org/abs/2101.01419v1 )

ライセンス: Link先を確認
Bivas Dutta, Wenmin Yang, Ron Aharon Melcer, Hemanta Kumar Kundu, Moty Heiblum, Vladimir Umansky, Yuval Oreg, Ady Stern and David Mross(参考訳) 量子ホール状態(位相絶縁体族の前身)は、エキゾチックな量子相の豊富な源である。 これらの状態の性質はギャップレスエッジモードに反映され、これは電子を持ち、分数電荷を持ち、中性電荷を持ち、ゼロネット電荷を持つ励起を持つが、よく定義された熱の量を持つ整数型(整数型)に分類される。 後者の 2 はアーベルあるいは非アーベルの統計に従えばよい。 最も研究されている非可換状態はスピン偏極充填係数 {\nu}=5/2であり、電荷e/4準粒子は中性モードを伴っている。 しかし、この充填は、アーベル的あるいは非可換であるような異なる可能な位相的順序を許容する。 数値計算では非可換反パフィアン (a-pf) 秩序が最も低いエネルギーを持つのに対し、最近の熱伝導率測定では粒子ホールパフィアン (ph-pf) 秩序が実験的に実現されていることが示唆された。 A-Pfオーダーの異なるエッジモード間の熱平衡の欠如は、この相違を考慮できると示唆されている。 位相秩序の同定は、ブレイディング(干渉)操作の解釈、熱平衡過程のより深い理解、数値研究の信頼性に不可欠である。 我々は, {\nu}=5/2状態の位相次数を同定する新しい手法を開発した。 2つの2次元半平面の間にインタフェースを作り、一方が {\nu}=5/2状態、もう一方が整数 {\nu}=3状態をホストすることで、このインタフェースは1/2量子コンダクタンスと中性マヨラナモードをサポートする。 雑音の測定により観測されたマヨラナモードの存在は電荷モードとは逆方向に伝播し、a-pfオーダーではなくph-pfオーダーの存在を主張した。

Quantum Hall states - the progenitors of the growing family of topological insulators -- are rich source of exotic quantum phases. The nature of these states is reflected in the gapless edge modes, which in turn can be classified as integer - carrying electrons, fractional - carrying fractional charges; and neutral - carrying excitations with zero net charge but a well-defined amount of heat. The latter two may obey anyonic statistics, which can be abelian or non-abelian. The most-studied putative non-abelian state is the spin-polarized filling factor {\nu}=5/2, whose charge e/4 quasiparticles are accompanied by neutral modes. This filling, however, permits different possible topological orders, which can be abelian or non-abelian. While numerical calculations favor the non-abelian anti-Pfaffian (A-Pf) order to have the lowest energy, recent thermal conductance measurements suggested the experimentally realized order to be the particle-hole Pfaffian (PH-Pf) order. It has been suggested that lack of thermal equilibration among the different edge modes of the A-Pf order can account for this discrepancy. The identification of the topological order is crucial for the interpretation of braiding (interference) operations, better understanding of the thermal equilibration process, and the reliability of the numerical studies. We developed a new method that helps identifying the topological order of the {\nu}=5/2 state. By creating an interface between the two 2D half-planes, one hosting the {\nu}=5/2 state and the other an integer {\nu}=3 state, the interface supported a fractional {\nu}=1/2 charge mode with 1/2 quantum conductance and a neutral Majorana mode. The presence of the Majorana mode, probed by measuring noise, propagating in the opposite direction to the charge mode, asserted the presence of the PH-Pf order but not that of the A-Pf order.
翻訳日:2023-04-17 20:09:05 公開日:2021-01-05
# ARIMAを用いたフィリピンの健康動向のモデル化

Modeling National Trends on Health in the Philippines Using ARIMA ( http://arxiv.org/abs/2101.01392v1 )

ライセンス: Link先を確認
Florence Jean B. Talirongan, Hidear Talirongan, Markdy Y. Orong(参考訳) 健康は幸福と幸福にとって非常に重要な前提条件である。 いくつかの研究は、デングやマラリアの患者数を予測するなど、特定の疾患の発生を予測することに焦点を当てた。 本稿では, アリマモデルを用いたトレンド分析とデータ予測のための時系列データを用いて, 特にフィリピンにおける死亡原因, 死亡原因, 死亡原因, 死亡原因について, 健康データの動向を可視化した。 各病気の傾向の数字は、grtlソフトウェアを使用して個別に示されます。 死因予測の結果から, 心臓疾患, 血管系疾患, 事故, 慢性呼吸器疾患, 慢性結核(全形態)は予測データのわずかな変化を示し, 悪性腫瘍は予測データの不安定な行動を示し, 肺炎, 糖尿病, 腎炎, 腎症, 腎症, 周産期由来の病態は予測データに基づいて減少傾向を示した。

Health is a very important prerequisite in peoples well-being and happiness. Several studies were more focused on presenting the occurrence on specific disease like forecasting the number of dengue and malaria cases. This paper utilized the time series data for trend analysis and data forecasting using ARIMA model to visualize the trends of health data on the ten leading causes of deaths, leading cause of morbidity and leading cause of infants deaths particularly in the Philippines presented in a tabular data. Figures for each disease trend are presented individually with the use of the GRETL software. Forecasting results of the leading causes of death showed that Diseases of the heart, vascular system, accidents, Chronic lower respiratory diseases and Chronic Tuberculosis (all forms) showed a slight changed of the forecasted data, Malignant neoplasms showed unstable behavior of the forecasted data, and Pneumonia, diabetes mellitus, Nephritis, nephrotic syndrome and nephrosis and certain conditions originating in perinatal showed a decreasing patterns based on the forecasted data.
翻訳日:2023-04-17 20:08:29 公開日:2021-01-05
# 麻疹の可能性のあるアウトブレイクの緩和可能性:データトレンド分析と可能性事例の予測

Alleviating Vulnerabilities of the Possible Outbreaks of Measles: A Data Trend Analysis and Prediction of Possible Cases ( http://arxiv.org/abs/2101.01387v1 )

ライセンス: Link先を確認
Hidear Talirongan, Markdy Y. Orong, Florence Jean B. Talirongan(参考訳) 麻疹は、世界中で深刻な合併症を引き起こす非常に伝染性の疾患と考えられている。 そこで本研究では,フィリピンにおける麻疹の傾向と5年間の予測データについて検討した。 本研究は, 時系列データをトレンド分析とarimaモデルを用いたデータ予測に活用し, 麻疹症例を可視化した。 GRETLソフトウェアを用いて時系列と予測結果の数値を個別に提示する。 その結果、2016年から2019年にかけて、この病気のパターンが増加していた。 しかし,5年間の予測では,今後5年間でその発生パターンが低下する傾向にあった。 但し,本研究の結果から,予測データの規模が約1万5000人以上であることは明らかであり,将来は減少傾向にあるものの,当局の介入計画の改善はいまだに必要である。

Measles is considered as a highly contagious disease that leads to serious complications around the world. Thus, the paper determined the trend and the five-year forecasted data of the Measles in the Philippines. This study utilized the time series data for trend analysis and data forecasting using the ARIMA model to visualize the measles cases. Figures for the time-series and forecasted results are individually presented with the use of GRETL software. Results showed that there was an increasing pattern of the disease from 2016 to 2019. However, there was a decreasing pattern of its occurrence in the next five years based on the five-year forecast. Nevertheless, with the results of the study, there is still a need to improve the different intervention plans of the authority in alleviating the occurrence of the disease though it yielded a decreasing pattern in the future since it is evident that the figure of the forecasted data is still approximately 15,000 and above.
翻訳日:2023-04-17 20:08:07 公開日:2021-01-05
# 2レベル系における部分熱分解による作業変動

Work fluctuations due to partial thermalizations in two-level systems ( http://arxiv.org/abs/2101.01330v1 )

ライセンス: Link先を確認
Maria Quadeer, Kamil Korzekwa, Marco Tomamichel(参考訳) 2段階系における連続時間マルコフ過程として,環境浴との有限時間相互作用を媒介とする作業抽出過程について検討した。 このような確率過程は、抽出可能な作業量の変動を生じさせ、入浴時の熱化率に加えて、システムパラメータが駆動される速度によって特徴付けられる。 2レベルシステムのエネルギーギャップが一定速度で駆動される場合の作業の分布を分析する。 平均作業に対する解析式と、そのような過程が一般にゆらぎのないものではないことを示す作業の分散に対する下限式を導出する。 また,仕事の分散のモンテカルロ推定の上限は,最初に平衡状態にあるシステムに対してjarzynskiのゆらぎ-散逸関係を用いて得られることを観測した。 最後に, カルノーサイクルを改良し, 部分熱分解を含むプロセスを取り込んで作業抽出サイクルを分析し, 異なる制約条件下での有限時間作業抽出サイクルの最大電力効率を得る。

We study work extraction processes mediated by finite-time interactions with an ambient bath -- \emph{partial thermalizations} -- as continuous time Markov processes for two-level systems. Such a stochastic process results in fluctuations in the amount of work that can be extracted and is characterized by the rate at which the system parameters are driven in addition to the rate of thermalization with the bath. We analyze the distribution of work for the case where the energy gap of a two-level system is driven at a constant rate. We derive analytic expressions for average work and lower bound for the variance of work showing that such processes cannot be fluctuation-free in general. We also observe that an upper bound for the Monte Carlo estimate of the variance of work can be obtained using Jarzynski's fluctuation-dissipation relation for systems initially in equilibrium. Finally, we analyse work extraction cycles by modifying the Carnot cycle, incorporating processes involving partial thermalizations and obtain efficiency at maximum power for such finite-time work extraction cycles under different sets of constraints.
翻訳日:2023-04-17 20:07:54 公開日:2021-01-05
# 散逸性貯留層における準安定デコヒーレンスフリー部分空間の相関転移とアパレーション

Correlations transference and apparition of a metastable decoherence-free subspace in dissipative reservoirs ( http://arxiv.org/abs/2101.01320v1 )

ライセンス: Link先を確認
F. Lastra and C.E. L\'opez(参考訳) 環境に結合した2モードの量子場からなる系における相関のダイナミクスについて検討した。 量子場は、2つの絡み合ったコヒーレント状態に対応する。 脱コヒーレンスの開始下では、量子場の相関は失われず、環境に伝達されることが示される。 また,デコヒーレンス状態の急激な遷移は,コヒーレンス状態の振幅に依存するダイナミックスとともに現れることがわかった。 絡み合ったコヒーレンス状態の振幅が増加すると、フィールドサブシステム内の準安定デコヒーレンス自由部分空間(DFS)が出現し、古典的相関の移動が凍結する。 この部分空間は、平均光子の数に依存する時間間隔の間だけ存在する。 興味深いことに、貯水池のサブシステムはDFSの出現も経験している。 DFSが存在する間、量子相関のみが転送される。

The dynamic of correlations in a system composed of a two-mode quantum field coupled with the environment is studied. The quantum field corresponds to two entangled coherent states whose amplitude we vary up to the mesoscopic regime. We show that under the onset of decoherence, correlations in the quantum field are not lost but transferred to the environment. We also found that sudden transitions in the decoherence regimes appear along with the dynamics depending on the coherent states' amplitude. Increasing the amplitude of the entangled coherence state results in the apparition of a metastable decoherence-free subspace (DFS) in the field subsystem, and the transference of classical correlations freezes. This subspace only exists during a time interval that depends on the average number of photons. Interestingly, the reservoir subsystem also experiences the apparition of a DFS. Only quantum correlations are transferred while the DFS exists.
翻訳日:2023-04-17 20:07:37 公開日:2021-01-05
# インテリジェントインフラストラクチャのためのナショナルリサーチアジェンダ:2021年のアップデート

A National Research Agenda for Intelligent Infrastructure: 2021 Update ( http://arxiv.org/abs/2101.01671v1 )

ライセンス: Link先を確認
Daniel Lopresti and Shashi Shekhar(参考訳) 知的インフラに対する戦略的かつ持続的な連邦政府の投資は、安全性と回復力を高め、効率と市民サービスを改善し、雇用機会と雇用の成長を全国に広げる。 インテリジェントなインフラを構成する技術は、将来のパンデミックや自然災害に立ち向かうこと、持続可能性とエネルギー効率の目標を達成すること、社会正義の推進など、今日の最も厄介な課題を解決する鍵となる。 これらの技術を効果的に実現するためには、関連するコンピューティング研究への投資も必要となる。 2017年、コンピューティング・コミュニティ・コンソーシアム(CCC)は一連のインテリジェントなインフラホワイトペーパーを作成し、2020年、CCCは関連するトピックに関する一連のホワイトペーパーを発行した。 ここでは、これらの初期の作品について簡単な調査を行い、さらに、新型コロナウイルスのパンデミックや社会正義運動の経験をきっかけに、インテリジェントなインフラが実現可能な役割を担えるという、国家の優位性の高まりという4つのテーマを強調します。 我々は、必要な研究投資の勧告で締めくくる。

Strategic, sustained Federal investments in intelligent infrastructure will increase safety and resilience, improve efficiencies and civic services, and broaden employment opportunities and job growth nationwide. The technologies that comprise intelligent infrastructure can also provide keys to solving some of the most vexing challenges we face today, including confronting future pandemics and natural disasters, achieving sustainability and energy efficiency goals, and advancing social justice. Enabling those technologies effectively will require investment in the associated computing research as well, beyond and in concert with the basic building projects. In 2017, the Computing Community Consortium (CCC) produced a series of intelligent infrastructure whitepapers, and in 2020 CCC issued a set of companion whitepapers on closely related topics. Here we briefly survey those earlier works, and then highlight four themes of rising national prominence where intelligent infrastructure can also play an enabling role, driven by experiences with the COVID-19 pandemic and the social justice movement. We conclude with recommendations for the necessary research investments.
翻訳日:2023-04-17 20:00:04 公開日:2021-01-05
# 半軸上の共変完全正測度で定義される動的半群の摂動について

On perturbations of dynamical semigroups defined by covariant completely positive measures on the semi-axis ( http://arxiv.org/abs/2101.01656v1 )

ライセンス: Link先を確認
G.G. Amosov(参考訳) ヒルベルト空間におけるすべての有界作用素の代数上の動的半群の摂動は、半軸上の共変完全正測度によって生成される。 この構成は、核作用素の空間上の事前随伴半群の生成子の非有界線型摂動に基づいている。 応用として、シフトの流れをもたらす正準反可換関係の代数上の非単体 *-自己同型半群の摂動を構成する。

We consider perturbations of dynamical semigroups on the algebra of all bounded operators in a Hilbert space generated by covariant completely positive measures on the semi-axis. The construction is based upon unbounded linear perturbations of generators of the preadjoint semigroups on the space of nuclear operators. As an application we construct a perturbation of the semigroup of non-unital *-endomorphisms on the algebra of canonical anticommutation relations resulting in the flow of shifts.
翻訳日:2023-04-17 19:59:42 公開日:2021-01-05
# VRにおける対人距離 : 高齢者の仮想エージェント存在に対する反応

Interpersonal distance in VR: reactions of older adults to the presence of a virtual agent ( http://arxiv.org/abs/2101.01652v1 )

ライセンス: Link先を確認
Grzegorz Pochwatko, Barbara Karpowicz, Anna Chrzanowska, Wies{\l}aw Kope\'c(参考訳) 仮想現実技術の急速な開発は、その可用性を高め、その結果、可能なアプリケーション数を増やした。 新しいメディアへの関心は、エンタテインメント業界(ゲーム、vr体験、映画)によって高まっている。 無償で利用できるトレーニングや治療の用途も増えている。 世論とは対照的に、新しい技術は高齢者にも採用されている。 高齢者のニーズや能力に合わせた仮想環境の構築には、典型的には仮想環境の一般的な要素に対する、最も一般的な状況における参加者の行動について、激しい研究が必要である。 仮想環境における快適な浸漬は、存在感を達成するための鍵となる。 臨場感は、適切な訓練、説得力、治療効果を得るために必要である。 仮想エージェント(アルゴリズムまたは人工知能のヒューマノイド表現)は、しばしば仮想環境インタフェースの要素である。 エージェントとの適切な距離を維持することは、VR体験の創造者にとって重要なパラメータである。 65歳以上の被験者は、若年者(25〜35歳)よりもエージェント(若い白人男性)に距離を保ちます。 覚醒レベルの違いによって引き起こされることもあるが、文化的な規範でもある。 結果として、vr開発者は、ユーザの年齢に応じて、エージェントを適切な距離に保つアルゴリズムの使用を推奨される。

The rapid development of virtual reality technology has increased its availability and, consequently, increased the number of its possible applications. The interest in the new medium has grown due to the entertainment industry (games, VR experiences and movies). The number of freely available training and therapeutic applications is also increasing. Contrary to popular opinion, new technologies are also adopted by older adults. Creating virtual environments tailored to the needs and capabilities of older adults requires intense research on the behaviour of these participants in the most common situations, towards commonly used elements of the virtual environment, in typical sceneries. Comfortable immersion in a virtual environment is key to achieving the impression of presence. Presence is, in turn, necessary to obtain appropriate training, persuasive and therapeutic effects. A virtual agent (a humanoid representation of an algorithm or artificial intelligence) is often an element of the virtual environment interface. Maintaining an appropriate distance to the agent is, therefore, a key parameter for the creator of the VR experience. Older (65+) participants maintain greater distance towards an agent (a young white male) than younger ones (25-35). It may be caused by differences in the level of arousal, but also cultural norms. As a consequence, VR developers are advised to use algorithms that maintain the agent at the appropriate distance, depending on the user's age.
翻訳日:2023-04-17 19:59:10 公開日:2021-01-05
# 量子臨界性を持つ量子ラビモデルの動的感度

Dynamic sensitivity of quantum Rabi model with quantum criticality ( http://arxiv.org/abs/2101.01504v1 )

ライセンス: Link先を確認
Ying Hu, Jian Huang, Jin-Feng Huang, Qiong-Tao Xie, Jie-Qiao Liao(参考訳) 有限成分系の場合において量子臨界性を示す量子ラビモデルの動的感度について検討する。 この動的感度は、量子ラビ模型のキャビティ場に遠方共振結合した補助2レベル原子を導入することで検出できる。 量子ラビモデルが臨界点を通過すると、補助原子は突然のデコヒーレンスを経験し、これはロシミドエコーの急激な崩壊によって特徴づけられる。 超強結合量子系における量子相転移を観測するための信頼性の高い方法を提供する。

We study the dynamic sensitivity of the quantum Rabi model, which exhibits quantum criticality in the finite-component-system case. This dynamic sensitivity can be detected by introducing an auxiliary two-level atom far-off-resonantly coupled to the cavity field of the quantum Rabi model. We find that when the quantum Rabi model goes through the critical point, the auxiliary atom experiences a sudden decoherence, which can be characterised by a sharp decay of the Loschmidt echo. Our scheme will provide a reliable way to observe quantum phase transition in ultrastrongly coupled quantum systems.
翻訳日:2023-04-17 19:58:18 公開日:2021-01-05
# 水素原子:電子自己場を考える

The hydrogen atom: consideration of the electron self-field ( http://arxiv.org/abs/2101.02202v1 )

ライセンス: Link先を確認
Leon V. Biguaa, Vladimir V. Kassandrov(参考訳) 我々は相対論的量子力学における水素の正準問題における電子の固有電磁界の考慮の必要性を仮定する。 数学的観点からは、目標はディラック方程式とマクスウェル方程式(外部クーロンポテンシャル)の自己整合系に対する至るところでの正則解のスペクトルの決定と等価である。 s- および p-状態の「非線形」類似物である解の特定のクラスのみが、超構造定数パラメータ $\alpha$ に関して、級数内の解の分解によって得られることを実証する。 ゼロ近似の $\alpha \rightarrow 0$ において、Schr\"odinger-Poisson 方程式の自己整合非相対論系への還元が行われる。後者の場合、数値的および変動的手法の両方を用いて、基底と励起状態の集合に対応する解を得る。 このため、イオン化エネルギー $w$ は観測値の約2倍小さい普遍的であることが証明される。 次数$\alpha^2$の結合エネルギーに対する正規化手順の可能性と相対論的補正問題を考える。

We substantiate the need for account of the proper electromagnetic field of the electron in the canonical problem of hydrogen in relativistic quantum mechanics. From mathematical viewpoint, the goal is equivalent to determination of the spectrum of everywhere regular solutions to the self-consistent system of Dirac and Maxwell equations (with external Coulomb potential). We demonstrate that only particular classes of solutions, "nonlinear" analogues of s- and p-states, can be obtained through decomposition of a solution in a series, with respect to the fine structure constant parameter $\alpha$. In the zero approximation at $\alpha \rightarrow 0$ the reduction to the self-consistent non-relativistic system of Schr\"odinger-Poisson equations takes place. For the latter, using both numerical and variational methods, we obtain the solutions corresponding to the ground and set of excited states. Spectrum of the binding energies with remarkable precision reproduces the "Bohrian" dependence $W_n = W/ n^2$. For this, the ionization energy $W$ proves to be universal yet about two times smaller than its observed value. Possibility of the renormalization procedure and the problem of account for relativistic corrections to the binding energies of order $\alpha^2$ are considered
翻訳日:2023-04-17 19:50:39 公開日:2021-01-05
# mistiqs: 量子コンピュータ上で量子力学シミュレーションを行うためのオープンソースソフトウェア

MISTIQS: An open-source software for performing quantum dynamics simulations on quantum computers ( http://arxiv.org/abs/2101.01817v1 )

ライセンス: Link先を確認
Connor Powers, Lindsay Bassman, Thomas Linker, Ken-ichi Nomura, Sahil Gulania, Rajiv K. Kalia, Aiichiro Nakano, Priya Vashishta(参考訳) MISTIQSは時間依存量子シミュレーションのためのマルチプラットフォームソフトウェアである。 MISTIQSは、複数の量子コンピューティングプラットフォームにまたがる時間依存ハイゼンベルク・ハミルトン家が支配するシステムの量子多体力学をシミュレーションするためのエンドツーエンド機能を提供する。 様々な業界標準表現に変換できる量子回路の中間表現を生成するための高レベルのプログラミング機能を提供する。 さらに、回路のコンパイルと最適化方法の選択を提供し、現在利用可能なクラウドベースの量子コンピューティングバックエンド上で量子回路の実行を容易にする。 MISTIQSはアクセス可能で柔軟な研究・教育プラットフォームとして機能し、科学者や学生の幅広いコミュニティが現在の量子コンピュータ上で量子多体力学シミュレーションを行うことができる。

We present MISTIQS, a Multiplatform Software for Time-dependent Quantum Simulations. MISTIQS delivers end-to-end functionality for simulating the quantum many-body dynamics of systems governed by time-dependent Heisenberg Hamiltonians across multiple quantum computing platforms. It provides high-level programming functionality for generating intermediate representations of quantum circuits which can be translated into a variety of industry-standard representations. Furthermore, it offers a selection of circuit compilation and optimization methods and facilitates execution of the quantum circuits on currently available cloud-based quantum computing backends. MISTIQS serves as an accessible and highly flexible research and education platform, allowing a broader community of scientists and students to perform quantum many-body dynamics simulations on current quantum computers.
翻訳日:2023-04-17 19:49:57 公開日:2021-01-05
# 合成ホール系のキラルエッジダイナミクスの探索とバルクトポロジー

Probing chiral edge dynamics and bulk topology of a synthetic Hall system ( http://arxiv.org/abs/2001.01664v2 )

ライセンス: Link先を確認
Thomas Chalopin, Tanish Satoor, Alexandre Evrard, Vasiliy Makhalov, Jean Dalibard, Raphael Lopes, Sylvain Nascimbene(参考訳) 量子ホール系は、基礎となる量子状態の位相構造に根ざしたバルク特性であるホール伝導の量子化によって特徴づけられる。 凝縮物質装置では、材料欠陥は単純なトポロジカルモデルとの直接的な接続を妨げる。 フォトニックプラットフォームやコールドアトミックガスなどの人工システムは、トポロジーの特定のプローブや、合成次元を用いたフレキシブルな操作を可能にすることによって、新しい可能性を開く。 しかし、トポロジカルな性質の関連性はバルクの概念を必要とするが、これは以前の研究では限られた大きさの合成次元を使用していなかった。 ここでは、超低温ジスプロシウム原子を用いた量子ホール系を、原子スピン$J=8$で符号化された1つの空間次元と1つの合成次元からなる2次元幾何学で実現する。 多数の磁気サブレベルが異なるバルクとエッジの挙動をもたらすことを実証する。 さらに, ホールのドリフトを計測し, 観測不可能な局所チャーンマーカーを復元した。 合成次元の中心、すなわち17の内11の状態では、チャーンマーカーはトポロジカルシステムで期待される量子化値の98(5)\%に達する。 本研究はトポロジカル多体相の実現に向けての道を開くものである。

Quantum Hall systems are characterized by the quantization of the Hall conductance -- a bulk property rooted in the topological structure of the underlying quantum states. In condensed matter devices, material imperfections hinder a direct connection to simple topological models. Artificial systems, such as photonic platforms or cold atomic gases, open novel possibilities by enabling specific probes of topology or flexible manipulation e.g. using synthetic dimensions. However, the relevance of topological properties requires the notion of a bulk, which was missing in previous works using synthetic dimensions of limited sizes. Here, we realize a quantum Hall system using ultracold dysprosium atoms, in a two-dimensional geometry formed by one spatial dimension and one synthetic dimension encoded in the atomic spin $J=8$. We demonstrate that the large number of magnetic sublevels leads to distinct bulk and edge behaviors. Furthermore, we measure the Hall drift and reconstruct the local Chern marker, an observable that has remained, so far, experimentally inaccessible. In the center of the synthetic dimension -- a bulk of 11 states out of 17 -- the Chern marker reaches 98(5)\% of the quantized value expected for a topological system. Our findings pave the way towards the realization of topological many-body phases.
翻訳日:2023-01-14 03:02:47 公開日:2021-01-05
# DiffNet++: ソーシャルレコメンデーションのための神経的影響と関心拡散ネットワーク

DiffNet++: A Neural Influence and Interest Diffusion Network for Social Recommendation ( http://arxiv.org/abs/2002.00844v4 )

ライセンス: Link先を確認
Le Wu, Junwei Li, Peijie Sun, Richang Hong, Yong Ge, Meng Wang(参考訳) ソーシャルリコメンデーション(social recommendation)は、ユーザの未知の好みを予測するために、ユーザ間のソーシャルなつながりを活用するために登場し、協調フィルタリングベースのレコメンデーションにおけるデータのスパーシティの問題を軽減する可能性がある。 初期のアプローチでは、各ユーザのファーストオーダーのソーシャル隣人の興味をより良いユーザーモデリングに活用することに頼り、グローバルなソーシャルネットワーク構造からの社会的影響拡散プロセスのモデル化に失敗した。 近年,ソーシャルレコメンデーション(Diffnet)のための神経影響拡散ネットワーク(DiffNet)の予備研究が提案されている。 しかし,ユーザがユーザ・ユーザ・関心ネットワークとユーザ・関心ネットワークの両方において中心的な役割を担っているため,ソーシャルネットワークにおける影響拡散過程をモデル化するだけでは,ユーザ・関心ネットワークにおけるユーザの潜在的協力的関心を無視する,と論じる。 本稿では,統一フレームワークにおける神経影響の拡散と興味の拡散をモデル化するdiffnetのアルゴリズムであるdiffnet++を提案する。 ソーシャルレコメンデーションをソーシャルネットワークと関心ネットワークを入力としてヘテロジニアスグラフとして再構成することで、diffnet++はこれら2つのネットワーク情報をユーザ埋め込み学習に同時に注入することでdiffnetを前進させる。 これは、ユーザの以前の埋め込み、ソーシャルネットワークからのソーシャル隣人の影響力集約、ユーザ関心ネットワークからのアイテム隣人の関心集約の3つの側面から、ユーザの埋め込みを反復的に集約することで達成される。 さらに,これら3つの側面からユーザの埋め込みを注意深く集約する方法を学ぶマルチレベルアテンションネットワークを設計する。 最後に、2つの実世界のデータセットに対する広範な実験結果から,提案モデルの有効性が明らかとなった。

Social recommendation has emerged to leverage social connections among users for predicting users' unknown preferences, which could alleviate the data sparsity issue in collaborative filtering based recommendation. Early approaches relied on utilizing each user's first-order social neighbors' interests for better user modeling and failed to model the social influence diffusion process from the global social network structure. Recently, we propose a preliminary work of a neural influence diffusion network (i.e., DiffNet) for social recommendation (Diffnet), which models the recursive social diffusion process to capture the higher-order relationships for each user. However, we argue that, as users play a central role in both user-user social network and user-item interest network, only modeling the influence diffusion process in the social network would neglect the users' latent collaborative interests in the user-item interest network. In this paper, we propose DiffNet++, an improved algorithm of DiffNet that models the neural influence diffusion and interest diffusion in a unified framework. By reformulating the social recommendation as a heterogeneous graph with social network and interest network as input, DiffNet++ advances DiffNet by injecting these two network information for user embedding learning at the same time. This is achieved by iteratively aggregating each user's embedding from three aspects: the user's previous embedding, the influence aggregation of social neighbors from the social network, and the interest aggregation of item neighbors from the user-item interest network. Furthermore, we design a multi-level attention network that learns how to attentively aggregate user embeddings from these three aspects. Finally, extensive experimental results on two real-world datasets clearly show the effectiveness of our proposed model.
翻訳日:2023-01-11 06:13:32 公開日:2021-01-05
# エネルギーシステムにおける微分プライベート最適化のためのバイレベル最適化

Bilevel Optimization for Differentially Private Optimization in Energy Systems ( http://arxiv.org/abs/2001.09508v2 )

ライセンス: Link先を確認
Terrence W.K. Mak, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) 本稿では,入力に敏感な制約付き最適化問題に対して,差分プライバシーを適用する方法について検討する。 この課題は、入力データのランダムな摂動が、制約付き最適化問題を実現不可能にしたり、その最適解の性質を著しく変化させたりするため、重大な課題を提起する。 この課題に対処するため,本論文では,後処理として使用可能な2レベル最適化モデルを提案する。 本論文は,この2レベルモデルが,顧客データに敏感な実生活の大規模非線形非凸最適化問題に対して効率的に解くことができることを示す。 実験結果は,プライバシ保存機構の精度を実証し,標準手法と比較して有意な利点を示す。

This paper studies how to apply differential privacy to constrained optimization problems whose inputs are sensitive. This task raises significant challenges since random perturbations of the input data often render the constrained optimization problem infeasible or change significantly the nature of its optimal solutions. To address this difficulty, this paper proposes a bilevel optimization model that can be used as a post-processing step: It redistributes the noise introduced by a differentially private mechanism optimally while restoring feasibility and near-optimality. The paper shows that, under a natural assumption, this bilevel model can be solved efficiently for real-life large-scale nonlinear nonconvex optimization problems with sensitive customer data. The experimental results demonstrate the accuracy of the privacy-preserving mechanism and showcases significant benefits compared to standard approaches.
翻訳日:2023-01-06 19:43:12 公開日:2021-01-05
# Cyclic Boosting -- 説明可能な教師付き機械学習アルゴリズム

Cyclic Boosting -- an explainable supervised machine learning algorithm ( http://arxiv.org/abs/2002.03425v3 )

ライセンス: Link先を確認
Felix Wick and Ulrich Kerzel and Michael Feindt(参考訳) 教師付き機械学習アルゴリズムは目覚ましい進歩を遂げ、さまざまな特定のアプリケーションで人間レベルのパフォーマンスを上回っている。 しかし、複雑なアンサンブルやディープラーニングアルゴリズムを用いることで、個々の予測につながる経路を詳細に追従できないブラックボックスモデルが得られるのが一般的である。 この問題に対処するため,我々は,各個人の予測方法の詳細な理解を可能としながら,精度の高い回帰・分類タスクを効率的に行うことのできる,新しい機械学習アルゴリズム"Cyclic Boosting"を提案する。

Supervised machine learning algorithms have seen spectacular advances and surpassed human level performance in a wide range of specific applications. However, using complex ensemble or deep learning algorithms typically results in black box models, where the path leading to individual predictions cannot be followed in detail. In order to address this issue, we propose the novel "Cyclic Boosting" machine learning algorithm, which allows to efficiently perform accurate regression and classification tasks while at the same time allowing a detailed understanding of how each individual prediction was made.
翻訳日:2023-01-02 14:15:45 公開日:2021-01-05
# 没入型仮想現実と解釈可能なディープラーニングを用いた歩行者と自動車両の相互作用の復号

Decoding pedestrian and automated vehicle interactions using immersive virtual reality and interpretable deep learning ( http://arxiv.org/abs/2002.07325v2 )

ライセンス: Link先を確認
Arash Kalatian and Bilal Farooq(参考訳) 自動走行車の時代に歩行者に優しい通りを確保するためには、現在の政策、プラクティス、デザイン、ルール、規制の再評価が重要である。 本研究では,自動走行車の存在の影響が期待される都市動態の重要な要素として,歩行者の横断行動について検討する。 この目的のために,自動走行車が存在する中ブロック横断歩道を横断する前に,歩行者の待ち時間に影響を与える要因を解釈可能な機械学習フレームワークを提案する。 多様な行動データを収集するために,トロント大都市圏(GTA)の4か所の異種集団から180人が参加し,ダイナミックで没入的なバーチャルリアリティー実験を行った。 歩行者の待ち時間行動はデータ駆動型cox比例ハザード(cph)モデルを用いて解析され、コ変数の線形結合を柔軟な非線形ディープニューラルネットワークに置き換える。 提案モデルは適合性が5%向上したが,さらに重要なこととして,より豊富な共変量の組を組み込むことができた。 ゲーム理論に基づく解釈方法は、歩行者が横断する前に待つ時間に対する異なる共変量の寄与を理解するために用いられる。 その結果,道路上の自動走行車の存在,広い車線幅,道路上の高密度化,観光距離の制限,歩行習慣の欠如が待ち時間の主な要因であることが示唆された。 本研究は, 歩行者に優しい都市部への移動, 子どものための全国レベルの教育プログラム, 高齢者の安全対策の強化, 積極的交通手段の推進, 交通規則や規制の改正について考察する。

To ensure pedestrian friendly streets in the era of automated vehicles, reassessment of current policies, practices, design, rules and regulations of urban areas is of importance. This study investigates pedestrian crossing behaviour, as an important element of urban dynamics that is expected to be affected by the presence of automated vehicles. For this purpose, an interpretable machine learning framework is proposed to explore factors affecting pedestrians' wait time before crossing mid-block crosswalks in the presence of automated vehicles. To collect rich behavioural data, we developed a dynamic and immersive virtual reality experiment, with 180 participants from a heterogeneous population in 4 different locations in the Greater Toronto Area (GTA). Pedestrian wait time behaviour is then analyzed using a data-driven Cox Proportional Hazards (CPH) model, in which the linear combination of the covariates is replaced by a flexible non-linear deep neural network. The proposed model achieved a 5% improvement in goodness of fit, but more importantly, enabled us to incorporate a richer set of covariates. A game theoretic based interpretability method is used to understand the contribution of different covariates to the time pedestrians wait before crossing. Results show that the presence of automated vehicles on roads, wider lane widths, high density on roads, limited sight distance, and lack of walking habits are the main contributing factors to longer wait times. Our study suggested that, to move towards pedestrian-friendly urban areas, national level educational programs for children, enhanced safety measures for seniors, promotion of active modes of transportation, and revised traffic rules and regulations should be considered.
翻訳日:2022-12-30 20:34:55 公開日:2021-01-05
# 平滑化によるカリキュラム

Curriculum By Smoothing ( http://arxiv.org/abs/2003.01367v5 )

ライセンス: Link先を確認
Samarth Sinha, Animesh Garg, Hugo Larochelle(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。 さらに,GAN(Generative Adversarial Networks)における最近の研究は,学習課題の難易度を徐々に高めることにより,学習の重要性を強調している[26]。 ネットワークをスクラッチから学習する場合、トレーニングの初期段階にネットワーク内で伝播した情報は、トレーニングに有害なノイズによる歪みアーチファクトを含むことができる。 本稿では、アンチエイリアスやローパスフィルタを用いてCNNの機能埋め込みを円滑に行うエレガントなカリキュラムベースのスキームを提案する。 本稿では,各レイヤのCNN特徴マップをガウスカーネルで出力することにより,CNN内で伝播する高周波情報をトレーニングの進行に応じて制御することにより,CNNのトレインリングを強化することを提案する。 ガウス核の分散を小さくすることで、推論のためにネットワーク内で利用可能な高周波情報の量を徐々に増加させる。 トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより良い表現を徐々に学習することができる。 提案手法は,学習パラメータの追加や補助正規化の目的を伴わずに,様々な視覚タスクにおけるCNNの性能を大幅に向上させる。 提案手法の汎用性は, CNNアーキテクチャにおいて, 伝達学習, クロスタスク変換学習, 生成モデルという4つの異なるタスクにまたがる経験的性能向上によって実証される。

Convolutional Neural Networks (CNNs) have shown impressive performance in computer vision tasks such as image classification, detection, and segmentation. Moreover, recent work in Generative Adversarial Networks (GANs) has highlighted the importance of learning by progressively increasing the difficulty of a learning task [26]. When learning a network from scratch, the information propagated within the network during the earlier stages of training can contain distortion artifacts due to noise which can be detrimental to training. In this paper, we propose an elegant curriculum based scheme that smoothes the feature embedding of a CNN using anti-aliasing or low-pass filters. We propose to augment the train-ing of CNNs by controlling the amount of high frequency information propagated within the CNNs as training progresses, by convolving the output of a CNN feature map of each layer with a Gaussian kernel. By decreasing the variance of the Gaussian kernel, we gradually increase the amount of high-frequency information available within the network for inference. As the amount of information in the feature maps increases during training, the network is able to progressively learn better representations of the data. Our proposed augmented training scheme significantly improves the performance of CNNs on various vision tasks without either adding additional trainable parameters or an auxiliary regularization objective. The generality of our method is demonstrated through empirical performance gains in CNN architectures across four different tasks: transfer learning, cross-task transfer learning, and generative models.
翻訳日:2022-12-26 21:52:21 公開日:2021-01-05
# ベイズ最適化によるデータ効率のよい領域ランダム化

Data-efficient Domain Randomization with Bayesian Optimization ( http://arxiv.org/abs/2003.02471v4 )

ライセンス: Link先を確認
Fabio Muratore and Christian Eilers and Michael Gienger and Jan Peters(参考訳) ロボット制御のための学習方針では、必要な現実世界のデータを取得するのに通常コストがかかるため、シミュレーションによる学習は一般的な戦略である。 残念なことに、こうした警察は「現実ギャップ」と呼ばれるシミュレーションと現実のミスマッチのため、現実の世界に移動できないことが多い。 領域ランダム化法は、現実のギャップを克服できるより堅牢なポリシーを得るために、領域パラメータの分布に応じて、トレーニング中に物理シミュレータ(ソースドメイン)をランダム化することでこの問題に対処する。 ほとんどのドメインランダム化は固定分布からドメインパラメータをサンプリングする。 このソリューションは、実システム(ターゲットドメイン)の報酬を明示的に最適化せずにトレーニングされたポリシーを生成するため、sim-to-real転送可能性の文脈では最適ではない。 さらに、固定分布は、ドメインパラメータに対する不確実性に関する事前の知識があると仮定する。 本稿では,実世界の対象領域から与えられたスパースデータを学習する際に,領域パラメータ分布を適応させることにより,タスクを効率的に解決するブラックボックス・シム・トゥ・リアルアルゴリズムBayRnを提案する。 bayrnはベイズ最適化を使用して、ソースドメインの分散パラメータの空間を探索し、リアルワードの目的を最大化するポリシーにつながり、ポリシー最適化中に適応分布を可能にする。 2つのロボット作業における3つのベースライン手法と比較して,sim-to-simおよびsim-to-real実験において提案手法を実験的に検証した。 以上の結果から,bayrnは事前知識を著しく削減しつつ,sim-to-real転送が可能であることが示された。

When learning policies for robot control, the required real-world data is typically prohibitively expensive to acquire, so learning in simulation is a popular strategy. Unfortunately, such polices are often not transferable to the real world due to a mismatch between the simulation and reality, called 'reality gap'. Domain randomization methods tackle this problem by randomizing the physics simulator (source domain) during training according to a distribution over domain parameters in order to obtain more robust policies that are able to overcome the reality gap. Most domain randomization approaches sample the domain parameters from a fixed distribution. This solution is suboptimal in the context of sim-to-real transferability, since it yields policies that have been trained without explicitly optimizing for the reward on the real system (target domain). Additionally, a fixed distribution assumes there is prior knowledge about the uncertainty over the domain parameters. In this paper, we propose Bayesian Domain Randomization (BayRn), a black-box sim-to-real algorithm that solves tasks efficiently by adapting the domain parameter distribution during learning given sparse data from the real-world target domain. BayRn uses Bayesian optimization to search the space of source domain distribution parameters such that this leads to a policy which maximizes the real-word objective, allowing for adaptive distributions during policy optimization. We experimentally validate the proposed approach in sim-to-sim as well as in sim-to-real experiments, comparing against three baseline methods on two robotic tasks. Our results show that BayRn is able to perform sim-to-real transfer, while significantly reducing the required prior knowledge.
翻訳日:2022-12-26 06:23:22 公開日:2021-01-05
# 最小$\ell_2$補間器のロバスト性について

On the robustness of the minimum $\ell_2$ interpolator ( http://arxiv.org/abs/2003.05838v2 )

ライセンス: Link先を確認
Geoffrey Chinot, Matthieu Lerasle(参考訳) ここで、$\mathbb y=\mathbb x\beta^*+\xi$ ここで$\mathbb x$ はランダムな $n\times p$ 行列であり、独立な $\mathcal n(0,\sigma)$ 行であり、ノイズベクトル $\xi\in \mathbb r^n$ を仮定せずに、補間器を最小の$\ell_2$-norm $\hat{\beta}$ で解析する。 高確率で、この推定器の予測損失は、上から$(\|\beta^*\|^2_2r_{cn}(\sigma)\vee \|\xi\|^2/n$、ただし、$r_{k}(\sigma)=\sum_{i\geq k}\lambda_i(\sigma)$は$\sigma$の固有値の和の残りである。 これらの境界は速度の推移を示す。 高信号対雑音比の場合、$\|\beta^*\|^2_2r_{cn}(\sigma)/n$は既存の値を大きく改善する。 低信号対雑音比については、低バウンド保持も大きな確率で提供する。 Sigma$ のスプリーム上の仮定では、この下界は位数 $\| \xi\|_2^2/n$ であり、上界と一致する。 その結果,大雑音環境では予測誤差を高い確率で高精度に追跡することができる。 この結果は、補間が高次元において無害である場合の新しい洞察を与える。

We analyse the interpolator with minimal $\ell_2$-norm $\hat{\beta}$ in a general high dimensional linear regression framework where $\mathbb Y=\mathbb X\beta^*+\xi$ where $\mathbb X$ is a random $n\times p$ matrix with independent $\mathcal N(0,\Sigma)$ rows and without assumption on the noise vector $\xi\in \mathbb R^n$. We prove that, with high probability, the prediction loss of this estimator is bounded from above by $(\|\beta^*\|^2_2r_{cn}(\Sigma)\vee \|\xi\|^2)/n$, where $r_{k}(\Sigma)=\sum_{i\geq k}\lambda_i(\Sigma)$ are the rests of the sum of eigenvalues of $\Sigma$. These bounds show a transition in the rates. For high signal to noise ratios, the rates $\|\beta^*\|^2_2r_{cn}(\Sigma)/n$ broadly improve the existing ones. For low signal to noise ratio, we also provide lower bound holding with large probability. Under assumptions on the sprectrum of $\Sigma$, this lower bound is of order $\| \xi\|_2^2/n$, matching the upper bound. Consequently, in the large noise regime, we are able to precisely track the prediction error with large probability. This results give new insight when the interpolation can be harmless in high dimensions.
翻訳日:2022-12-24 15:43:46 公開日:2021-01-05
# 印刷バングラのテキスト画像からの光学的文字セグメンテーションの制約について

Confronting the Constraints for Optical Character Segmentation from Printed Bangla Text Image ( http://arxiv.org/abs/2003.08384v5 )

ライセンス: Link先を確認
Abu Saleh Md. Abir, Sanjana Rahman, Samia Ellin, Maisha Farzana, Md Hridoy Manik, Chowdhury Rafeed Rahman(参考訳) デジタル化の世界では、光学文字認識は書き起こし履歴の自動化を保持する。 光文字認識システムは基本的に、印刷された画像を編集可能なテキストに変換する。 完全に機能するためには、前処理やセグメンテーションといった重要な手法を踏む必要がある。 事前処理は、印刷データをノイズフリーにし、スキューネスを効率的に除去するのに対して、セグメンテーションは画像の断片化を線、単語、文字に正確に変換するのに役立つ。 これらのステップは、印刷された画像が変換の準備が整うための、より正確で一貫した結果にドアを固定する。 提案アルゴリズムは,スキャン画像やキャプチャ画像の理想ケースと非理想ケースの両方からキャラクタを分割することで,持続可能な結果が得られる。 私たちの仕事の実装は以下のとおりです: https://cutt.ly/rgdfbia

In a world of digitization, optical character recognition holds the automation to written history. Optical character recognition system basically converts printed images into editable texts for better storage and usability. To be completely functional, the system needs to go through some crucial methods such as pre-processing and segmentation. Pre-processing helps printed data to be noise free and gets rid of skewness efficiently whereas segmentation helps the image fragment into line, word and character precisely for better conversion. These steps hold the door to better accuracy and consistent results for a printed image to be ready for conversion. Our proposed algorithm is able to segment characters both from ideal and non-ideal cases of scanned or captured images giving a sustainable outcome. The implementation of our work is provided here: https://cutt.ly/rgdfBIa
翻訳日:2022-12-22 12:49:04 公開日:2021-01-05
# 確率ゼロ階リーマン微分推定と最適化

Stochastic Zeroth-order Riemannian Derivative Estimation and Optimization ( http://arxiv.org/abs/2003.11238v3 )

ライセンス: Link先を確認
Jiaxiang Li, Krishnakumar Balasubramanian, Shiqian Ma(参考訳) 我々は、ユークリッド空間に埋め込まれたリーマン部分多様体上の確率的零次最適化を考える。 そこで本研究では,ガウス平滑化手法のリーマン版に基づく雑音的目的関数評価から,リーマン勾配とヘッセン関数の推定器を提案する。 提案した推定子は、多様体の制約の非線形性の難しさと、函数が多様体上だけ定義されるときにユークリッドガウス滑らか化技術を用いて生じる問題を克服する。 提案する推定器を用いて,次の目的関数の設定でリーマン最適化問題を解く。 (i)確率および勾配リプシッツ(非凸及び測地凸の設定の両方において) (ii)勾配リプシッツ関数と非スムース関数の和、及び (iii) ヘッセン=リプシッツ。 これらの設定に対して、アルゴリズムのオラクルの複雑さを分析して、$\epsilon$-stationary point あるいは $\epsilon$-approximate local minimalr という適切に定義された概念を得る。 特に、我々の複素性は周囲のユークリッド空間の次元とは独立であり、検討中の多様体の固有次元のみに依存する。 我々は,ロボットのブラックボックス剛性制御とニューラルネットワークへのブラックボックス攻撃に対するシミュレーション結果によるアルゴリズムの適用性を実証した。

We consider stochastic zeroth-order optimization over Riemannian submanifolds embedded in Euclidean space, where the task is to solve Riemannian optimization problem with only noisy objective function evaluations. Towards this, our main contribution is to propose estimators of the Riemannian gradient and Hessian from noisy objective function evaluations, based on a Riemannian version of the Gaussian smoothing technique. The proposed estimators overcome the difficulty of the non-linearity of the manifold constraint and the issues that arise in using Euclidean Gaussian smoothing techniques when the function is defined only over the manifold. We use the proposed estimators to solve Riemannian optimization problems in the following settings for the objective function: (i) stochastic and gradient-Lipschitz (in both nonconvex and geodesic convex settings), (ii) sum of gradient-Lipschitz and non-smooth functions, and (iii) Hessian-Lipschitz. For these settings, we analyze the oracle complexity of our algorithms to obtain appropriately defined notions of $\epsilon$-stationary point or $\epsilon$-approximate local minimizer. Notably, our complexities are independent of the dimension of the ambient Euclidean space and depend only on the intrinsic dimension of the manifold under consideration. We demonstrate the applicability of our algorithms by simulation results and real-world applications on black-box stiffness control for robotics and black-box attacks to neural networks.
翻訳日:2022-12-20 03:25:50 公開日:2021-01-05
# Wasserstein分散を用いた再帰確率アルゴリズムの収束

Convergence of Recursive Stochastic Algorithms using Wasserstein Divergence ( http://arxiv.org/abs/2003.11403v2 )

ライセンス: Link先を確認
Abhishek Gupta and William B. Haskell(参考訳) 本稿では,反復的確率演算子理論に基づく統一的フレームワークを開発し,定数ステップサイズ再帰確率アルゴリズム(RSA)の収束度を解析する。 RSAはランダム化を用いて予測を効率的に計算し、その反復は確率過程を形成する。 我々の分析の鍵となる考え方は、RSAを適切な高次元空間に上げ、それと等価なマルコフ連鎖として表現することである。 このマルコフ連鎖の収束を決定するのではなく、このマルコフ連鎖の分布の収束を考察する。 これを研究するために、ワッサーシュタイン発散の新しい概念を定義する。 マルコフ連鎖におけるイテレートの分布がワッサーシュタインの発散に関して収縮性を満たすならば、マルコフ鎖は不変分布を認める。 定常段差RSAの集団の収束をこの枠組みを用いて理解できることを示し、いくつかの詳細な例を示す。

This paper develops a unified framework, based on iterated random operator theory, to analyze the convergence of constant stepsize recursive stochastic algorithms (RSAs). RSAs use randomization to efficiently compute expectations, and so their iterates form a stochastic process. The key idea of our analysis is to lift the RSA into an appropriate higher-dimensional space and then express it as an equivalent Markov chain. Instead of determining the convergence of this Markov chain (which may not converge under constant stepsize), we study the convergence of the distribution of this Markov chain. To study this, we define a new notion of Wasserstein divergence. We show that if the distribution of the iterates in the Markov chain satisfy a contraction property with respect to the Wasserstein divergence, then the Markov chain admits an invariant distribution. We show that convergence of a large family of constant stepsize RSAs can be understood using this framework, and we provide several detailed examples.
翻訳日:2022-12-20 03:25:27 公開日:2021-01-05
# 深層学習における情報理論的目的の統合

Unpacking Information Bottlenecks: Unifying Information-Theoretic Objectives in Deep Learning ( http://arxiv.org/abs/2003.12537v3 )

ライセンス: Link先を確認
Andreas Kirsch, Clare Lyle, Yarin Gal(参考訳) Information Bottleneckの原則は、ディープニューラルネットワークのトレーニングと一般化の方法を説明するメカニズムと、モデルをトレーニングする正規化目的の両方を提供する。 しかし、複数の競合する目的が文献で提案されており、これらの目的に使用される情報理論的な量は、大規模深層ニューラルネットワークでは計算が困難であり、トレーニング目的としての使用は制限されている。 本研究では,これらの量を概観し,従来提案されていた目的を比較・統一することにより,密度推定などの煩雑なツールに頼ることなく,最適化に親しみやすいサロゲート目標を開発できる。 これらの代理的な目的により、現代のニューラルネットワークアーキテクチャに情報のボトルネックを適用することができる。 我々は、最新のDNNアーキテクチャ(ResNets)を用いたMNIST、CIFAR-10、Imagenetteに関する洞察を実証する。

The Information Bottleneck principle offers both a mechanism to explain how deep neural networks train and generalize, as well as a regularized objective with which to train models. However, multiple competing objectives are proposed in the literature, and the information-theoretic quantities used in these objectives are difficult to compute for large deep neural networks, which in turn limits their use as a training objective. In this work, we review these quantities and compare and unify previously proposed objectives, which allows us to develop surrogate objectives more friendly to optimization without relying on cumbersome tools such as density estimation. We find that these surrogate objectives allow us to apply the information bottleneck to modern neural network architectures. We demonstrate our insights on MNIST, CIFAR-10 and Imagenette with modern DNN architectures (ResNets).
翻訳日:2022-12-19 04:35:10 公開日:2021-01-05
# 部分修正種子を用いたグラフマッチング

Graph Matching with Partially-Correct Seeds ( http://arxiv.org/abs/2004.03816v2 )

ライセンス: Link先を確認
Liren Yu, Jiaming Xu, and Xiaojun Lin(参考訳) グラフマッチングは、2つのエッジ相関グラフ間の潜在頂点対応を見つけることを目的としており、様々な分野にまたがる多くの応用を見出している。 本稿では,あらかじめマップされた頂点対の種集合が事前に与えられることを前提として,シードグラフマッチング問題について検討する。 これまでのほとんどの作業では、すべての種子を正す必要がありますが、種子が部分的に正しい設定に焦点を合わせています。 具体的には、エッジが親グラフ $\mathcal{G}(n,p)$ から独立にサンプリングされる2つの相関グラフを考える。 2つのグラフの頂点間の写像は、未知の$\beta$区切りが正しい種子として提供される。 まず、1ドルのホップ地区の共通種数に基づいて頂点にマッチする単純なアルゴリズムを分析し、さらに2ドルのホップ地区の種を利用する新しいアルゴリズムを提案する。 我々は1ドルホップアルゴリズムと2ドルホップアルゴリズムの両方に完全一致するという漸近的でないパフォーマンス保証を確立し、新しい2ドルホップアルゴリズムはグラフがスパースである場合の1ドルホップアルゴリズムよりもはるかに少ない正しいシードを必要とすることを示す。 さらに、$$$hopと$$$$$hopアルゴリズムの新たな性能保証を組み合わせることで、グラフスパーシティの全範囲にわたって、最もよく知られた結果(正しい種子の必要な割合)を達成し、$p\ge n^{5/6}$の場合に、以前の結果を大幅に改善します。 例えば、$p$が定数または$p=n^{-3/4}$の場合、完全整合には$\Omega(\sqrt{n\log n})$ correct seed sufficeしか必要とせず、これまでよく知られていた結果は$\Omega(n)$と$\Omega(n^{3/4}\log n)$ correct seedを要求する。 数値実験は、様々な合成グラフおよび実グラフ上での2ドルホップアルゴリズムの優位性を実証し、我々の理論的な結果を裏付けるものである。

Graph matching aims to find the latent vertex correspondence between two edge-correlated graphs and has found numerous applications across different fields. In this paper, we study a seeded graph matching problem, which assumes that a set of seeds, i.e., pre-mapped vertex-pairs, is given in advance. While most previous work requires all seeds to be correct, we focus on the setting where the seeds are partially correct. Specifically, consider two correlated graphs whose edges are sampled independently from a parent \ER graph $\mathcal{G}(n,p)$. A mapping between the vertices of the two graphs is provided as seeds, of which an unknown $\beta$ fraction is correct. We first analyze a simple algorithm that matches vertices based on the number of common seeds in the $1$-hop neighborhoods, and then further propose a new algorithm that uses seeds in the $2$-hop neighborhoods. We establish non-asymptotic performance guarantees of perfect matching for both $1$-hop and $2$-hop algorithms, showing that our new $2$-hop algorithm requires substantially fewer correct seeds than the $1$-hop algorithm when graphs are sparse. Moreover, by combining our new performance guarantees for the $1$-hop and $2$-hop algorithms, we attain the best-known results (in terms of the required fraction of correct seeds) across the entire range of graph sparsity and significantly improve the previous results in \cite{10.14778/2794367.2794371,lubars2018correcting} when $p\ge n^{-5/6}$. For instance, when $p$ is a constant or $p=n^{-3/4}$, we show that only $\Omega(\sqrt{n\log n})$ correct seeds suffice for perfect matching, while the previously best-known results demand $\Omega(n)$ and $\Omega(n^{3/4}\log n)$ correct seeds, respectively. Numerical experiments corroborate our theoretical findings, demonstrating the superiority of our $2$-hop algorithm on a variety of synthetic and real graphs.
翻訳日:2022-12-15 09:39:34 公開日:2021-01-05
# carl: 強化学習を用いた四足歩行制御エージェント

CARL: Controllable Agent with Reinforcement Learning for Quadruped Locomotion ( http://arxiv.org/abs/2005.03288v3 )

ライセンス: Link先を確認
Ying-Sheng Luo (1), Jonathan Hans Soeseno (1), Trista Pei-Chun Chen (1), Wei-Chao Chen (1, 2) ((1) Inventec Corp. (2) Skywatch Innovation Inc.)(参考訳) 動的環境における動き合成はキャラクタアニメーションの長年の問題となっている。 モーションキャプチャーデータを使用する手法は、そのより大きなキャプチャーとラベリング要件のため、複雑な環境ではスケールしにくい傾向がある。 物理ベースのコントローラーはこの点では有効だが、制御性は低い。 本稿では,高次ディレクティブで制御し,動的環境に自然に反応する四重化剤CARLを提案する。 個々のアニメーションクリップを模倣するエージェントから始め、生成的な敵ネットワークを使用して、速度や方向といったハイレベルなコントロールを、元のアニメーションに対応するアクションディストリビューションに適応させます。 深層強化学習によるさらなる微調整により、エージェントはスムーズな遷移を発生しながら、目に見えない外部摂動から回復することができる。 そして、プロセス全体にナビゲーションモジュールを追加することで、動的環境で自律エージェントを作成するのが簡単になります。 提案手法は,ユーザ制御に追従するエージェントの能力を測定し,その効果を示すために生成した動作の視覚的分析を行う。

Motion synthesis in a dynamic environment has been a long-standing problem for character animation. Methods using motion capture data tend to scale poorly in complex environments because of their larger capturing and labeling requirement. Physics-based controllers are effective in this regard, albeit less controllable. In this paper, we present CARL, a quadruped agent that can be controlled with high-level directives and react naturally to dynamic environments. Starting with an agent that can imitate individual animation clips, we use Generative Adversarial Networks to adapt high-level controls, such as speed and heading, to action distributions that correspond to the original animations. Further fine-tuning through the deep reinforcement learning enables the agent to recover from unseen external perturbations while producing smooth transitions. It then becomes straightforward to create autonomous agents in dynamic environments by adding navigation modules over the entire process. We evaluate our approach by measuring the agent's ability to follow user control and provide a visual analysis of the generated motion to show its effectiveness.
翻訳日:2022-12-05 22:56:59 公開日:2021-01-05
# グラフ類似性計算のためのグラフ分割とグラフニューラルネットワークに基づく階層グラフマッチング

Graph Partitioning and Graph Neural Network based Hierarchical Graph Matching for Graph Similarity Computation ( http://arxiv.org/abs/2005.08008v3 )

ライセンス: Link先を確認
Haoyan Xu, Ziheng Duan, Jie Feng, Runjian Chen, Qianru Zhang, Zhongbin Xu, Yueyang Wang(参考訳) グラフ類似性計算は、1組のグラフ間の類似度スコアを予測することを目的としており、例えばクエリ化合物やFewshot 3D Action Recognitionとよく似た化合物を見つけるなど、下流のアプリケーションを容易にする。 近年、グラフレベルの相互作用やノードレベルの比較に基づくニューラルネットワークに基づくグラフ類似性計算モデルが提案されている。 しかし、グラフ内のノード数が増加すると、必然的に表現能力の低下や計算コストの増大をもたらす。 そこで本研究では,PSimGNNと呼ばれるグラフ分割とグラフニューラルネットワークに基づくモデルを提案し,この問題を効果的に解決する。 具体的には、各入力グラフを一連のサブグラフに分割して、局所的な構造的特徴を直接抽出する。 次に、注目機構を備えた新しいグラフニューラルネットワークを設計し、各サブグラフを埋め込みベクトルにマッピングする。 これらのサブグラフペアのいくつかはノードレベルの比較のために自動的に選択され、サブグラフレベルの埋め込みを細かな情報で補完する。 最後に、各サブグラフ間の粗粒度相互作用情報と異なるサブグラフ内のノード間の微粒度比較情報を統合し、最終的な類似度スコアを予測する。 グラフサイズが異なるグラフデータセットに対する実験結果から,PSimGNNはグラフ類似度指標として近似グラフ編集距離(GED)を用いたグラフ類似性計算タスクにおいて,最先端の手法よりも優れていることが示された。

Graph similarity computation aims to predict a similarity score between one pair of graphs to facilitate downstream applications, such as finding the most similar chemical compounds similar to a query compound or Fewshot 3D Action Recognition. Recently, some graph similarity computation models based on neural networks have been proposed, which are either based on graph-level interaction or node-level comparison. However, when the number of nodes in the graph increases, it will inevitably bring about reduced representation ability or high computation cost. Motivated by this observation, we propose a graph partitioning and graph neural network-based model, called PSimGNN, to effectively resolve this issue. Specifically, each of the input graphs is partitioned into a set of subgraphs to extract the local structural features directly. Next, a novel graph neural network with an attention mechanism is designed to map each subgraph into an embedding vector. Some of these subgraph pairs are automatically selected for node-level comparison to supplement the subgraph-level embedding with fine-grained information. Finally, coarse-grained interaction information among subgraphs and fine-grained comparison information among nodes in different subgraphs are integrated to predict the final similarity score. Experimental results on graph datasets with different graph sizes demonstrate that PSimGNN outperforms state-of-the-art methods in graph similarity computation tasks using approximate Graph Edit Distance (GED) as the graph similarity metric.
翻訳日:2022-12-02 13:05:34 公開日:2021-01-05
# 移動カメラ映像としての全方位画像の知覚品質評価

Perceptual Quality Assessment of Omnidirectional Images as Moving Camera Videos ( http://arxiv.org/abs/2005.10547v2 )

ライセンス: Link先を確認
Xiangjie Sui, Kede Ma, Yiru Yao, Yuming Fang(参考訳) 全方位画像(静的360{\deg}パノラマとも呼ばれる)は、通常の2D画像とはかなり異なる視界条件を課している。 没入型バーチャルリアリティ(VR)環境における画像歪みを人間がどのように認識するかは、注意を引く重要な問題である。 我々は、歪んだパノラマ自体とは別に、ユーザーの視聴行動やパノラマの知覚された品質を決定するために、2種類のVR視聴条件が不可欠であると主張している。 まず,VRの視聴状況,ユーザの視聴行動,360{\deg}画像の知覚的品質の相互作用について,心理物理学的な実験を行った。 そして、収集した人間のデータを徹底的に分析し、いくつかの興味深い発見をもたらす。 また,360{\deg}画像の客観的品質評価のための計算フレームワークを提案し,視聴条件や動作を楽しく表現する。 具体的には、まず、異なる視聴条件下で異なるユーザの視聴行動を用いて、一方向の画像を複数のビデオ表現に変換する。 次に,高度な2次元フルリファレンス映像品質モデルを用いて,知覚品質の算出を行う。 提案するフレームワーク内で,特定の品質対策のセットを構築し,その約束を3つのVR品質データベース上で実証する。

Omnidirectional images (also referred to as static 360{\deg} panoramas) impose viewing conditions much different from those of regular 2D images. How do humans perceive image distortions in immersive virtual reality (VR) environments is an important problem which receives less attention. We argue that, apart from the distorted panorama itself, two types of VR viewing conditions are crucial in determining the viewing behaviors of users and the perceived quality of the panorama: the starting point and the exploration time. We first carry out a psychophysical experiment to investigate the interplay among the VR viewing conditions, the user viewing behaviors, and the perceived quality of 360{\deg} images. Then, we provide a thorough analysis of the collected human data, leading to several interesting findings. Moreover, we propose a computational framework for objective quality assessment of 360{\deg} images, embodying viewing conditions and behaviors in a delightful way. Specifically, we first transform an omnidirectional image to several video representations using different user viewing behaviors under different viewing conditions. We then leverage advanced 2D full-reference video quality models to compute the perceived quality. We construct a set of specific quality measures within the proposed framework, and demonstrate their promises on three VR quality databases.
翻訳日:2022-11-30 23:56:42 公開日:2021-01-05
# 異種ローカルエキスパートによるグローバルマルチクラス分類とデータセット構築

Global Multiclass Classification and Dataset Construction via Heterogeneous Local Experts ( http://arxiv.org/abs/2005.10848v3 )

ライセンス: Link先を確認
Surin Ahn, Ayfer Ozgur and Mert Pilanci(参考訳) データセットの構築とクラウドソーシングの分野において、注目すべき課題は、多種多様なラベルの集合からラベルを集約することである。 人為的なラベル付けや自動ラベル付けシステムのトレーニングのコストを削減するため、データセットの信頼性を確保しつつ、ラベルの数を最小化することに関心がある。 我々は、これを小さな分類器の予測を用いて、$k$-クラス分類を行う問題としてモデル化し、それぞれ$[k]$のサブセットで訓練され、逆と確率の仮定の下でラベルなしサンプルの真のクラスを正確に推測するために必要な分類器の数の境界を導出する。 古典的な集合被覆問題との接続を利用して、よく知られた one-vs を回復する分類器の構成を設計するための最適に近いスキームを作成する。 -特殊事例としての1つの分類法。 MNISTとCIFAR-10データセットを用いた実験は、データのサブセットで訓練された分類器に適用したアグリゲーションスキームの良好な精度(集中型分類器と比較)を示す。 これらの結果から,既存の局所分類器を大規模マルチクラス問題に適応させる新たな手法が示唆された。

In the domains of dataset construction and crowdsourcing, a notable challenge is to aggregate labels from a heterogeneous set of labelers, each of whom is potentially an expert in some subset of tasks (and less reliable in others). To reduce costs of hiring human labelers or training automated labeling systems, it is of interest to minimize the number of labelers while ensuring the reliability of the resulting dataset. We model this as the problem of performing $K$-class classification using the predictions of smaller classifiers, each trained on a subset of $[K]$, and derive bounds on the number of classifiers needed to accurately infer the true class of an unlabeled sample under both adversarial and stochastic assumptions. By exploiting a connection to the classical set cover problem, we produce a near-optimal scheme for designing such configurations of classifiers which recovers the well known one-vs.-one classification approach as a special case. Experiments with the MNIST and CIFAR-10 datasets demonstrate the favorable accuracy (compared to a centralized classifier) of our aggregation scheme applied to classifiers trained on subsets of the data. These results suggest a new way to automatically label data or adapt an existing set of local classifiers to larger-scale multiclass problems.
翻訳日:2022-11-30 23:14:31 公開日:2021-01-05
# 属性ネットワークにおけるコミュニティ検出のためのグラフニューラルネットワーク符号化

Graph Neural Network Encoding for Community Detection in Attribute Networks ( http://arxiv.org/abs/2006.03996v2 )

ライセンス: Link先を確認
Jianyong Sun and Wei Zheng and Qingfu Zhang and Zongben Xu(参考訳) 本稿では,複合属性ネットワークにおけるコミュニティ検出問題に対処する多目的進化アルゴリズムのグラフニューラルネットワーク符号化法を提案する。 本発明のグラフニューラルネットワーク符号化法は、属性ネットワークの各エッジが連続変数に関連付けられている。 非線型変換を通じて、連続値ベクトル(すなわち、エッジに関連付けられた連続変数の連結)は離散値なコミュニティ群解に変換される。 さらに,コミュニティにおけるノードの属性均質性を評価するために,単一属性ネットワークと多属性ネットワークの2つの目的関数を提案する。 新しい符号化法と2つの目的に基づいて、連続符号化MOEAと呼ばれるNSGA-IIに基づく多目的進化アルゴリズム(MOEA)が、連続決定変数を持つ変換コミュニティ検出問題に対して開発された。 異なるタイプを持つ単一属性と複数属性のネットワーク上での実験結果は、このアルゴリズムが既知の進化的および非進化的アルゴリズムよりも優れた性能を示す。 フィットネスランドスケープ解析により、変換されたコミュニティ検出問題は、元の問題よりもスムーズなランドスケープを持つことが明らかとなり、提案したグラフニューラルネットワーク符号化手法の有効性を正当化する。

In this paper, we first propose a graph neural network encoding method for multiobjective evolutionary algorithm to handle the community detection problem in complex attribute networks. In the graph neural network encoding method, each edge in an attribute network is associated with a continuous variable. Through non-linear transformation, a continuous valued vector (i.e. a concatenation of the continuous variables associated with the edges) is transferred to a discrete valued community grouping solution. Further, two objective functions for single- and multi-attribute network are proposed to evaluate the attribute homogeneity of the nodes in communities, respectively. Based on the new encoding method and the two objectives, a multiobjective evolutionary algorithm (MOEA) based upon NSGA-II, termed as continuous encoding MOEA, is developed for the transformed community detection problem with continuous decision variables. Experimental results on single- and multi-attribute networks with different types show that the developed algorithm performs significantly better than some well-known evolutionary and non-evolutionary based algorithms. The fitness landscape analysis verifies that the transformed community detection problems have smoother landscapes than those of the original problems, which justifies the effectiveness of the proposed graph neural network encoding method.
翻訳日:2022-11-24 21:25:24 公開日:2021-01-05
# 深層強化学習を用いた効率的な貧困マッピング

Efficient Poverty Mapping using Deep Reinforcement Learning ( http://arxiv.org/abs/2006.04224v2 )

ライセンス: Link先を確認
Kumar Ayush, Burak Uzkent, Kumar Tanmay, Marshall Burke, David Lobell, Stefano Ermon(参考訳) 高解像度衛星画像と機械学習の組み合わせは、貧困予測、インフラ計測、森林モニタリングなど、多くの持続可能性関連のタスクで有用であることが証明されている。 しかし、高解像度画像によって得られる精度は高価であり、そのような画像は大規模に購入するには極めて高価である。 これは、効率的なスケーリングと高解像度のアプローチの広く採用において、大きなハードルとなる。 精度を維持しつつ取得コストを削減するため,高分解能画像の深層学習作業に先立ち,低コスト画像の取得場所を動的に識別するために,自由低解像度画像を用いた強化学習手法を提案する。 このアプローチをウガンダの貧困予測タスクに適用し、オブジェクト検出を使ってオブジェクトを数え、これらのカウントを使って貧困を予測する以前のアプローチに基づいています。 提案手法は,高解像度画像の80%削減を図り,従来の性能ベンチマークを上回った。 我々のアプローチは、高解像度画像を必要とする多くのサステナビリティ領域に応用できるかもしれない。

The combination of high-resolution satellite imagery and machine learning have proven useful in many sustainability-related tasks, including poverty prediction, infrastructure measurement, and forest monitoring. However, the accuracy afforded by high-resolution imagery comes at a cost, as such imagery is extremely expensive to purchase at scale. This creates a substantial hurdle to the efficient scaling and widespread adoption of high-resolution-based approaches. To reduce acquisition costs while maintaining accuracy, we propose a reinforcement learning approach in which free low-resolution imagery is used to dynamically identify where to acquire costly high-resolution images, prior to performing a deep learning task on the high-resolution images. We apply this approach to the task of poverty prediction in Uganda, building on an earlier approach that used object detection to count objects and use these counts to predict poverty. Our approach exceeds previous performance benchmarks on this task while using 80% fewer high-resolution images. Our approach could have application in many sustainability domains that require high-resolution imagery.
翻訳日:2022-11-24 08:22:57 公開日:2021-01-05
# グラフ埋め込みにおける多様体構造

Manifold structure in graph embeddings ( http://arxiv.org/abs/2006.05168v3 )

ライセンス: Link先を確認
Patrick Rubin-Delanchy(参考訳) グラフの統計的解析は、しばしばそのノードを空間上の点として表現する埋め込みで始まる。 埋め込み次元をどう選ぶかは実際は微妙な決定であるが、理論上は真の次元の概念がしばしば利用できる。 スペクトル埋め込みでは、この次元は非常に高い。 しかし,本論文では,グラフや他の潜在位置モデルを含む既存のランダムグラフモデルが,より低次元な集合の近くにデータが存在することを予測していることを示す。 したがって、隠れた多様体構造を利用する方法を用いることで次元の呪いを回避できる。

Statistical analysis of a graph often starts with embedding, the process of representing its nodes as points in space. How to choose the embedding dimension is a nuanced decision in practice, but in theory a notion of true dimension is often available. In spectral embedding, this dimension may be very high. However, this paper shows that existing random graph models, including graphon and other latent position models, predict the data should live near a much lower-dimensional set. One may therefore circumvent the curse of dimensionality by employing methods which exploit hidden manifold structure.
翻訳日:2022-11-23 13:51:53 公開日:2021-01-05
# ディープラーニングがSARと出会う

Deep Learning Meets SAR ( http://arxiv.org/abs/2006.10027v2 )

ライセンス: Link先を確認
Xiao Xiang Zhu, Sina Montazeri, Mohsin Ali, Yuansheng Hua, Yuanyuan Wang, Lichao Mou, Yilei Shi, Feng Xu, Richard Bamler(参考訳) リモートセンシングにおける深層学習は国際的な誇大広告となっているが、主に光学データの評価に限られている。 深層学習はSAR(Synthetic Aperture Radar)データ処理で導入されているが、最初の試みが成功したにもかかわらず、その大きな可能性はまだロックされていない。 本稿では、最も関連性の高いディープラーニングモデルと概念を紹介し、SARデータの特殊特性を分析して落とし穴を指摘し、SARに適用されたディープラーニングの現状を詳細に検証し、利用可能なベンチマークを要約し、いくつかの重要な研究方向性を推奨する。 この取り組みにより、興味深いが未熟な研究分野におけるさらなる研究を刺激し、大規模なsarデータ処理ワークフローにおけるディープラーニングの利用方法を広げたいと考えています。

Deep learning in remote sensing has become an international hype, but it is mostly limited to the evaluation of optical data. Although deep learning has been introduced in Synthetic Aperture Radar (SAR) data processing, despite successful first attempts, its huge potential remains locked. In this paper, we provide an introduction to the most relevant deep learning models and concepts, point out possible pitfalls by analyzing special characteristics of SAR data, review the state-of-the-art of deep learning applied to SAR in depth, summarize available benchmarks, and recommend some important future research directions. With this effort, we hope to stimulate more research in this interesting yet under-exploited research field and to pave the way for use of deep learning in big SAR data processing workflows.
翻訳日:2022-11-19 20:26:30 公開日:2021-01-05
# Solver-in-the-Loop:微分物理学から学び、反復型PDEソルバーと相互作用する

Solver-in-the-Loop: Learning from Differentiable Physics to Interact with Iterative PDE-Solvers ( http://arxiv.org/abs/2007.00016v2 )

ライセンス: Link先を確認
Kiwon Um, Robert Brand, Yun (Raymond) Fei, Philipp Holl, Nils Thuerey(参考訳) 偏微分方程式(pdes)の正確な解を見つけることは、すべての科学および工学分野において重要な課題である。 近年,識別されたPDEが捉えない効果を補正することで,機械学習が解の精度を向上させることが示されている。 本研究では,反復型pdeソルバの数値誤差を低減し,複雑な補正関数を求めるための異なる学習手法を比較する。 従来使用されていた学習手法は,学習ループにソルバを組み込むことで,トレーニング中にモデルがPDEと対話できるようにする方法により,大幅に優れていた。 これにより、以前の修正を考慮した現実的な入力分布が提供され、数百回の繰り返し評価ステップの安定したロールアウトによって精度が向上し、さらに調整済みの教師付き変種を超える。 非線形対流拡散システムから3次元ナビエ-ストークス流れに至るまで,多種多様なPDEに対する微分可能な物理ネットワークの性能を強調した。

Finding accurate solutions to partial differential equations (PDEs) is a crucial task in all scientific and engineering disciplines. It has recently been shown that machine learning methods can improve the solution accuracy by correcting for effects not captured by the discretized PDE. We target the problem of reducing numerical errors of iterative PDE solvers and compare different learning approaches for finding complex correction functions. We find that previously used learning approaches are significantly outperformed by methods that integrate the solver into the training loop and thereby allow the model to interact with the PDE during training. This provides the model with realistic input distributions that take previous corrections into account, yielding improvements in accuracy with stable rollouts of several hundred recurrent evaluation steps and surpassing even tailored supervised variants. We highlight the performance of the differentiable physics networks for a wide variety of PDEs, from non-linear advection-diffusion systems to three-dimensional Navier-Stokes flows.
翻訳日:2022-11-15 06:23:11 公開日:2021-01-05
# DocVQA: ドキュメントイメージ上のVQAデータセット

DocVQA: A Dataset for VQA on Document Images ( http://arxiv.org/abs/2007.00398v3 )

ライセンス: Link先を確認
Minesh Mathew, Dimosthenis Karatzas, C.V. Jawahar(参考訳) DocVQAと呼ばれる文書画像に視覚質問応答(VQA)のための新しいデータセットを提案する。 データセットは、12,000以上のドキュメントイメージで定義された50,000の質問で構成されている。 VQAと読書理解のための類似データセットと比較して、データセットの詳細な分析を行う。 本稿では,既存のVQAの導入と理解モデルによるいくつかのベースライン結果について報告する。 既存のモデルはある種の質問に対して合理的に機能するが、人間のパフォーマンス(94.36%の精度)に比べて大きな性能差がある。 モデルは、ドキュメントの構造を理解することが重要である質問を特に改善する必要があります。 データセット、コード、リーダーボードはdocvqa.orgで入手できる

We present a new dataset for Visual Question Answering (VQA) on document images called DocVQA. The dataset consists of 50,000 questions defined on 12,000+ document images. Detailed analysis of the dataset in comparison with similar datasets for VQA and reading comprehension is presented. We report several baseline results by adopting existing VQA and reading comprehension models. Although the existing models perform reasonably well on certain types of questions, there is large performance gap compared to human performance (94.36% accuracy). The models need to improve specifically on questions where understanding structure of the document is crucial. The dataset, code and leaderboard are available at docvqa.org
翻訳日:2022-11-14 23:38:04 公開日:2021-01-05
# 深部テンポラルエンコーディングを用いたマルチインスタンスビデオ異常検出

Multiple Instance-Based Video Anomaly Detection using Deep Temporal Encoding-Decoding ( http://arxiv.org/abs/2007.01548v2 )

ライセンス: Link先を確認
Ammar Mansoor Kamoona, Amirali Khodadadian Gosta, Alireza Bab-Hadiashar, Reza Hoseinnezhad(参考訳) 本稿では,複数インスタンス学習を用いた監視ビデオにおける異常検出のための,弱教師付き深時間符号化復号法を提案する。 提案手法では,ビデオクリップをバッグとして扱い,ビデオクリップをバッグ内のインスタンスとして扱うマルチインスタンスフレームワークで開発されたトレーニングフェーズにおいて,異常なビデオクリップと正常なビデオクリップの両方を使用する。 我々の主な貢献は、ビデオインスタンス間の時間的関係を検討するための新しいアプローチである。 ビデオインスタンス(clips)を独立したインスタンスではなく、シーケンシャルなビジュアルデータとして扱います。 時間とともにビデオインスタンスの空間的-時間的進化を捉えるように設計された、深い時間的およびエンコーダネットワークを採用している。 また,コンピュータビジョン文献に最近提示された類似の損失関数よりも滑らかな新たな損失関数を提案する。 修正損失を伴う時間符号化復号法をシミュレーション研究の最先端技術に対してベンチマークした。 提案手法は,ビデオ監視アプリケーションにおける異常検出の最先端ソリューションと同等かそれ以上に動作することを示す。

In this paper, we propose a weakly supervised deep temporal encoding-decoding solution for anomaly detection in surveillance videos using multiple instance learning. The proposed approach uses both abnormal and normal video clips during the training phase which is developed in the multiple instance framework where we treat video as a bag and video clips as instances in the bag. Our main contribution lies in the proposed novel approach to consider temporal relations between video instances. We deal with video instances (clips) as a sequential visual data rather than independent instances. We employ a deep temporal and encoder network that is designed to capture spatial-temporal evolution of video instances over time. We also propose a new loss function that is smoother than similar loss functions recently presented in the computer vision literature, and therefore; enjoys faster convergence and improved tolerance to local minima during the training phase. The proposed temporal encoding-decoding approach with modified loss is benchmarked against the state-of-the-art in simulation studies. The results show that the proposed method performs similar to or better than the state-of-the-art solutions for anomaly detection in video surveillance applications.
翻訳日:2022-11-14 05:39:02 公開日:2021-01-05
# 深部生成モデルによる格子場理論の熱力学観測値の推定

Estimation of Thermodynamic Observables in Lattice Field Theories with Deep Generative Models ( http://arxiv.org/abs/2007.07115v2 )

ライセンス: Link先を確認
Kim A. Nicoli, Christopher J. Anders, Lena Funcke, Tobias Hartung, Karl Jansen, Pan Kessel, Shinichi Nakajima, Paolo Stornati(参考訳) 本研究では,格子場理論に対する深層生成機械学習モデルの適用が,マルコフ・チェイン・モンテカルロ法(MCMC)の問題点を解く上で有望な方法であることを示す。 より具体的には、生成モデルを用いて自由エネルギーの絶対値を推定できることを示し、これは既存のMCMC法とは対照的である。 本研究では,2次元$\phi^4$理論に対する提案手法の有効性を実証し,詳細な数値実験においてmcmc法と比較する。

In this work, we demonstrate that applying deep generative machine learning models for lattice field theory is a promising route for solving problems where Markov Chain Monte Carlo (MCMC) methods are problematic. More specifically, we show that generative models can be used to estimate the absolute value of the free energy, which is in contrast to existing MCMC-based methods which are limited to only estimate free energy differences. We demonstrate the effectiveness of the proposed method for two-dimensional $\phi^4$ theory and compare it to MCMC-based methods in detailed numerical experiments.
翻訳日:2022-11-10 15:34:39 公開日:2021-01-05
# 強化学習アルゴリズムの発見

Discovering Reinforcement Learning Algorithms ( http://arxiv.org/abs/2007.08794v3 )

ライセンス: Link先を確認
Junhyuk Oh, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, David Silver(参考訳) 強化学習(Reinforcement Learning、RL)アルゴリズムは、エージェントのパラメータをいくつかの可能なルールの1つに従って更新する。 データから更新ルールの発見を自動化すれば、より効率的なアルゴリズム、あるいは特定の環境に適合するアルゴリズムにつながる可能性がある。 この重要な科学的課題に対処する試みは以前からあったが、価値関数や時間差学習といったRLの基本的な概念に代わるものを見つけることは可能かどうか、未解決の問題である。 本稿では,'予測すべきもの'(値関数など)と'それから学ぶ方法'(ブートストラップなど)の両方を含む更新ルール全体を,環境とのインタラクションによって発見する新しいメタラーニング手法を提案する。 この手法の出力は、私たちがLearred Policy Gradient (LPG)と呼ぶRLアルゴリズムである。 実験の結果,提案手法は値関数の概念に代えて独自の代替法を見出した。 さらに、その予測を維持、利用するためのブートストラップ機構も発見する。 驚いたことに、おもちゃの環境だけを訓練すると、lpgは複雑なatariゲームに効果的に一般化し、非自明なパフォーマンスを達成する。 これはデータから一般的なRLアルゴリズムを発見する可能性を示している。

Reinforcement learning (RL) algorithms update an agent's parameters according to one of several possible rules, discovered manually through years of research. Automating the discovery of update rules from data could lead to more efficient algorithms, or algorithms that are better adapted to specific environments. Although there have been prior attempts at addressing this significant scientific challenge, it remains an open question whether it is feasible to discover alternatives to fundamental concepts of RL such as value functions and temporal-difference learning. This paper introduces a new meta-learning approach that discovers an entire update rule which includes both 'what to predict' (e.g. value functions) and 'how to learn from it' (e.g. bootstrapping) by interacting with a set of environments. The output of this method is an RL algorithm that we call Learned Policy Gradient (LPG). Empirical results show that our method discovers its own alternative to the concept of value functions. Furthermore it discovers a bootstrapping mechanism to maintain and use its predictions. Surprisingly, when trained solely on toy environments, LPG generalises effectively to complex Atari games and achieves non-trivial performance. This shows the potential to discover general RL algorithms from data.
翻訳日:2022-11-09 13:03:24 公開日:2021-01-05
# ディープニューラルネットワークにおけるマルチタスク学習と学習のトレードオフの探索

Navigating the Trade-Off between Multi-Task Learning and Learning to Multitask in Deep Neural Networks ( http://arxiv.org/abs/2007.10527v2 )

ライセンス: Link先を確認
Sachin Ravi and Sebastian Musslick and Maia Hamin and Theodore L. Willke and Jonathan D. Cohen(参考訳) マルチタスク学習とマルチタスクという用語は容易に混同される。 マルチタスク学習(multi-task learning)は、ネットワークが様々な関連するタスクで訓練され、タスクの獲得が促進される機械学習のパラダイムである。 対照的に、マルチタスクは、特に認知科学文献において、複数のタスクを同時に実行する能力を示すために使用される。 マルチタスク学習は、共有表現の形でタスク間の共通構造の発見を利用するが、マルチタスクは、タスク間の表現を分離して処理干渉を回避することで促進される。 ここでは、浅いネットワークと単純なタスク設定を含む以前の作業に基づいて、共有表現と分離表現の使用によって仲介されるマルチタスク学習とマルチタスクのトレードオフが存在することを示唆する。 ディープネットワークにおいて同じ緊張が生じ、エージェントが未知の環境でこのトレードオフを管理するためのメタラーニングアルゴリズムについて議論する。 我々は,エージェントが環境の機能としてトレーニング戦略をうまく最適化できる,様々な実験を通して示す。

The terms multi-task learning and multitasking are easily confused. Multi-task learning refers to a paradigm in machine learning in which a network is trained on various related tasks to facilitate the acquisition of tasks. In contrast, multitasking is used to indicate, especially in the cognitive science literature, the ability to execute multiple tasks simultaneously. While multi-task learning exploits the discovery of common structure between tasks in the form of shared representations, multitasking is promoted by separating representations between tasks to avoid processing interference. Here, we build on previous work involving shallow networks and simple task settings suggesting that there is a trade-off between multi-task learning and multitasking, mediated by the use of shared versus separated representations. We show that the same tension arises in deep networks and discuss a meta-learning algorithm for an agent to manage this trade-off in an unfamiliar environment. We display through different experiments that the agent is able to successfully optimize its training strategy as a function of the environment.
翻訳日:2022-11-08 10:10:40 公開日:2021-01-05
# 確率スパイクニューラルネットワークのためのマルチサンプルオンライン学習

Multi-Sample Online Learning for Probabilistic Spiking Neural Networks ( http://arxiv.org/abs/2007.11894v2 )

ライセンス: Link先を確認
Hyeryung Jang and Osvaldo Simeone(参考訳) spiking neural networks(snns)は、バイナリ時系列の動的、オンライン、イベント駆動処理を通じて、推論と学習のための生物学的脳の効率の一部をキャプチャする。 SNNの既存の学習アルゴリズムの多くは、漏れた統合と火災のような決定論的神経モデルに基づいており、局所性のような制約を強制する時間を通してのバックプロパゲーションのヒューリスティックな近似に依存している。 対照的に、確率的SNNモデルは、リソース制約されたシステムに特に有効であることが証明されたオンライン、ローカル、更新ルールを介して直接訓練することができる。 本稿では、確率的SNNのもう一つの利点、すなわち、同じ入力を問うと独立した出力を生成する能力について検討する。 決定論的snモデルが提供できない機能である不確実性を定量化するために、複数の出力サンプルが推論中に使用できることが示されている。 さらに、ログロストレーニング基準のより正確な統計的推定と勾配を求めるために、トレーニングに活用することができる。 具体的には,グローバルな学習信号を持つ3要素形式に従う汎用予測最大化(GEM)に基づくオンライン学習ルールをGEM-SNNと呼ぶ。 標準のニューロモルフィックデータセットにおける構造化された出力記憶と分類の実験結果は、推論やトレーニングに使用されるサンプル数を増やす際のログの類似性、正確性、キャリブレーションの点で有意な改善を示している。

Spiking Neural Networks (SNNs) capture some of the efficiency of biological brains for inference and learning via the dynamic, online, event-driven processing of binary time series. Most existing learning algorithms for SNNs are based on deterministic neuronal models, such as leaky integrate-and-fire, and rely on heuristic approximations of backpropagation through time that enforce constraints such as locality. In contrast, probabilistic SNN models can be trained directly via principled online, local, update rules that have proven to be particularly effective for resource-constrained systems. This paper investigates another advantage of probabilistic SNNs, namely their capacity to generate independent outputs when queried over the same input. It is shown that the multiple generated output samples can be used during inference to robustify decisions and to quantify uncertainty -- a feature that deterministic SNN models cannot provide. Furthermore, they can be leveraged for training in order to obtain more accurate statistical estimates of the log-loss training criterion, as well as of its gradient. Specifically, this paper introduces an online learning rule based on generalized expectation-maximization (GEM) that follows a three-factor form with global learning signals and is referred to as GEM-SNN. Experimental results on structured output memorization and classification on a standard neuromorphic data set demonstrate significant improvements in terms of log-likelihood, accuracy, and calibration when increasing the number of samples used for inference and training.
翻訳日:2022-11-07 11:37:09 公開日:2021-01-05
# 縦断的患者記録の予測分析のための正準アーキテクチャ

A Canonical Architecture For Predictive Analytics on Longitudinal Patient Records ( http://arxiv.org/abs/2007.12780v2 )

ライセンス: Link先を確認
Parthasarathy Suryanarayanan, Bhavani Iyer, Prithwish Chakraborty, Bibo Hao, Italo Buleje, Piyush Madan, James Codella, Antonio Foncubierta, Divya Pathak, Sarah Miller, Amol Rajmane, Shannon Harrer, Gigi Yuan-Reed, Daby Sow(参考訳) 医療エコシステム内の多くの機関が、患者の成果を向上して低コストでビジネスオペレーションを最適化するために、AI技術に多大な投資をしている。 AIの誇大宣伝にもかかわらず、このポテンシャルの完全な実現は、データプライバシ、セキュリティ、バイアス、公正性、説明可能性など、いくつかのシステム上の問題によって深刻な障害を受けている。 本稿では、これらの課題に対処する医療におけるAIモデル開発のための新しい標準アーキテクチャを提案する。 このシステムは、データ取り込み、モデル構築、生産環境におけるモデルプロモーションを含む、ライフサイクルのすべてのフェーズを通じて、AI予測モデルの作成と管理を可能にする。 本稿では,このアーキテクチャについて,実世界問題における使用経験の質的評価とともに詳細に述べる。

Many institutions within the healthcare ecosystem are making significant investments in AI technologies to optimize their business operations at lower cost with improved patient outcomes. Despite the hype with AI, the full realization of this potential is seriously hindered by several systemic problems, including data privacy, security, bias, fairness, and explainability. In this paper, we propose a novel canonical architecture for the development of AI models in healthcare that addresses these challenges. This system enables the creation and management of AI predictive models throughout all the phases of their life cycle, including data ingestion, model building, and model promotion in production environments. This paper describes this architecture in detail, along with a qualitative evaluation of our experience of using it on real world problems.
翻訳日:2022-11-07 06:23:41 公開日:2021-01-05
# 医療における信頼できる人工知能作成における説明可能性の役割--用語・設計選択・評価戦略の包括的調査

The role of explainability in creating trustworthy artificial intelligence for health care: a comprehensive survey of the terminology, design choices, and evaluation strategies ( http://arxiv.org/abs/2007.15911v2 )

ライセンス: Link先を確認
Aniek F. Markus, Jan A. Kors, Peter R. Rijnbeek(参考訳) 人工知能(AI)は、人々の健康と幸福を改善する大きな可能性を秘めているが、臨床実践における採用は依然として限られている。 透明性の欠如は、臨床医がaiシステムを信頼できると確信するべきであるため、実装の主要な障壁の1つとして認識される。 説明可能なAIは、この問題を克服する可能性があり、信頼できるAIへのステップになり得る。 本稿では、医療分野における説明可能なAIシステムの設計に関する研究者や実践者にガイダンスを提供するため、最近の文献をレビューし、説明可能なAI分野の形式化に寄与する。 説明可能性を求める理由は、説明可能性の性質(解釈可能性と忠実さ)の相対的重要性を決定するため、説明すべきことを決定する。 これに基づいて,説明可能なaiメソッドのクラス(説明可能なモデリングとポストホックな説明,モデルベース,属性ベース,サンプルベース説明,グローバルおよびローカル説明)の選択を導くフレームワークを提案する。 さらに、客観的に標準化された評価に重要な量的評価指標が、いくつかの特性(例えば、明度)や説明のタイプ(例えば、例に基づく手法)にはまだ欠けていることが判明した。 我々は、説明可能なモデリングは信頼できるAIに貢献できると結論づけるが、医療における信頼できるAI(例えば、データ品質の報告、広範囲な(外部の)検証、規制)を作成するためには、説明可能性の利点を実際に証明する必要がある。

Artificial intelligence (AI) has huge potential to improve the health and well-being of people, but adoption in clinical practice is still limited. Lack of transparency is identified as one of the main barriers to implementation, as clinicians should be confident the AI system can be trusted. Explainable AI has the potential to overcome this issue and can be a step towards trustworthy AI. In this paper we review the recent literature to provide guidance to researchers and practitioners on the design of explainable AI systems for the health-care domain and contribute to formalization of the field of explainable AI. We argue the reason to demand explainability determines what should be explained as this determines the relative importance of the properties of explainability (i.e. interpretability and fidelity). Based on this, we propose a framework to guide the choice between classes of explainable AI methods (explainable modelling versus post-hoc explanation; model-based, attribution-based, or example-based explanations; global and local explanations). Furthermore, we find that quantitative evaluation metrics, which are important for objective standardized evaluation, are still lacking for some properties (e.g. clarity) and types of explanations (e.g. example-based methods). We conclude that explainable modelling can contribute to trustworthy AI, but the benefits of explainability still need to be proven in practice and complementary measures might be needed to create trustworthy AI in health care (e.g. reporting data quality, performing extensive (external) validation, and regulation).
翻訳日:2022-11-04 05:35:23 公開日:2021-01-05
# 胸部x線写真とctスキャンを用いたcovid-19検出と予後予測に機械学習を使う一般的な落とし穴と推奨

Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans ( http://arxiv.org/abs/2008.06388v4 )

ライセンス: Link先を確認
Michael Roberts, Derek Driggs, Matthew Thorpe, Julian Gilbey, Michael Yeung, Stephan Ursprung, Angelica I. Aviles-Rivero, Christian Etmann, Cathal McCague, Lucian Beer, Jonathan R. Weir-McCall, Zhongzhao Teng, Effrossyni Gkrania-Klotsas, James H.F. Rudd, Evis Sala, Carola-Bibiane Sch\"onlieb (on behalf of the AIX-COVNET collaboration)(参考訳) 機械学習の手法は、標準的な胸部x線写真(cxr)とct画像からcovid-19の迅速かつ正確な検出と予後を予測できる。 これら2つのタスクのための新しい機械学習ベースのモデルについて、2020年に多くの記事が発行されているが、どの臨床的有用性があるかは不明だ。 本稿では、2020年1月1日から2020年10月3日までにアップロードされた論文やプレプリントに対して、OVID、MEDLINE、PubMed、bioRxiv、medRxiv、arXivを介してEMBASEを検索し、CXRまたはCT画像から新型コロナウイルスの診断または予後に関する新しい機械学習モデルを記述した。 調査では,初回検診後に2,212件,初回検診後に415件,品質検診後に61件を対象とした。 以上の結果から,方法論的欠陥や根底偏りによる臨床応用の可能性は認められなかった。 検証済みの新型コロナウイルスモデルが必要な緊急性を考えると、これは大きな弱点である。 この問題に対処するため、我々はこれらの問題を解決し、高品質なモデル開発とドキュメントの充実に繋がる多くの推奨事項を提示する。

Machine learning methods offer great promise for fast and accurate detection and prognostication of COVID-19 from standard-of-care chest radiographs (CXR) and computed tomography (CT) images. Many articles have been published in 2020 describing new machine learning-based models for both of these tasks, but it is unclear which are of potential clinical utility. In this systematic review, we search EMBASE via OVID, MEDLINE via PubMed, bioRxiv, medRxiv and arXiv for published papers and preprints uploaded from January 1, 2020 to October 3, 2020 which describe new machine learning models for the diagnosis or prognosis of COVID-19 from CXR or CT images. Our search identified 2,212 studies, of which 415 were included after initial screening and, after quality screening, 61 studies were included in this systematic review. Our review finds that none of the models identified are of potential clinical use due to methodological flaws and/or underlying biases. This is a major weakness, given the urgency with which validated COVID-19 models are needed. To address this, we give many recommendations which, if followed, will solve these issues and lead to higher quality model development and well documented manuscripts.
翻訳日:2022-10-30 16:37:02 公開日:2021-01-05
# MultiVERSE:多重・多重異種ネットワーク埋め込み手法

MultiVERSE: a multiplex and multiplex-heterogeneous network embedding approach ( http://arxiv.org/abs/2008.10085v2 )

ライセンス: Link先を確認
L\'eo Pio-Lopez, Alberto Valdeolivas, Laurent Tichit, \'Elisabeth Remy, Ana\"is Baudot(参考訳) ネットワーク埋め込みアプローチは、様々なネットワークを分析するために勢いを増している。 実際、これらのアプローチは、コミュニティ検出、ノード分類、リンク予測といったタスクの効率を実証している。 しかし、ネットワークの埋め込み方法は特に複数のネットワークを扱うように設計されているものはほとんどなく、異なるタイプのエッジを持つ異なる層で構成されている。 さらに,既存の手法では,複数のノードを多重ヘテロゲネスネットワーク,すなわち異なる種類のノードとエッジを含む複数のレイヤからなるネットワークから,複数のノードを組み込むことはできない。 本研究では,RWR-M(Restart on Multiplex)とRWR-MH(Multiplex-Heterogeneous)ネットワークを用いたVERSE法の拡張であるMultipleVERSEを提案する。 MultiVERSEは、マルチプレックスとマルチプレックスヘテロジニアスネットワークからノード埋め込みを学習する高速でスケーラブルな方法である。 生体およびソーシャルネットワーク上でMultiVERSEを評価し,その効率性を実証した。 実際、MultiVERSEは多重ネットワーク埋め込みにおけるリンク予測やネットワーク再構築のタスクにおいて他の手法よりも優れており、多重ネットワーク埋め込みにおけるリンク予測のタスクにおいても効率的である。 最後に,MultiVERSEをリンク予測とクラスタリングを用いた稀な疾患遺伝子関連の研究に適用する。 MultiVERSEはgithubのhttps://github.com/Lpiol/MultiVERSEで無料で利用できる。

Network embedding approaches are gaining momentum to analyse a large variety of networks. Indeed, these approaches have demonstrated their efficiency for tasks such as community detection, node classification, and link prediction. However, very few network embedding methods have been specifically designed to handle multiplex networks, i.e. networks composed of different layers sharing the same set of nodes but having different types of edges. Moreover, to our knowledge, existing approaches cannot embed multiple nodes from multiplex-heterogeneous networks, i.e. networks composed of several layers containing both different types of nodes and edges. In this study, we propose MultiVERSE, an extension of the VERSE method with Random Walks with Restart on Multiplex (RWR-M) and Multiplex-Heterogeneous (RWR-MH) networks. MultiVERSE is a fast and scalable method to learn node embeddings from multiplex and multiplex-heterogeneous networks. We evaluate MultiVERSE on several biological and social networks and demonstrate its efficiency. MultiVERSE indeed outperforms most of the other methods in the tasks of link prediction and network reconstruction for multiplex network embedding, and is also efficient in the task of link prediction for multiplex-heterogeneous network embedding. Finally, we apply MultiVERSE to study rare disease-gene associations using link prediction and clustering. MultiVERSE is freely available on github at https://github.com/Lpiol/MultiVERSE.
翻訳日:2022-10-26 03:20:22 公開日:2021-01-05
# 隠れマルコフモデル推論によるビデオ超解像のための露天撮影データ

Exploit Camera Raw Data for Video Super-Resolution via Hidden Markov Model Inference ( http://arxiv.org/abs/2008.10710v2 )

ライセンス: Link先を確認
Xiaohong Liu, Kangdi Shi, Zhe Wang, Jun Chen(参考訳) 我々の知る限り、既存のディープラーニングベースのビデオ超解法(VSR)手法は、カメラシステムの画像信号処理装置(ISP)によって生成されたビデオのみを入力として利用する。 そのような方法 1)ISPにおける非可逆操作による情報損失による本質的に準最適 2) VSRがISPの前処理ユニットとして機能する実際の撮像パイプラインとは矛盾する。 この問題に対処するために,カメラセンサデータを直接活用する新しいVSR手法を提案し,RawVD(Raw Video Dataset)を慎重に構築し,トレーニング,検証,テストを行う。 この方法は、逐次的深層推論(sdi)モジュールと再構成モジュールから構成されている。 SDIモジュールは、HMM(Hidden Markov Model)推論の標準分解結果によって提案されるアーキテクチャ原理に基づいて設計されており、変形可能な畳み込みを用いてペアワイズ特徴融合を繰り返し実行することにより、ターゲットの高解像度フレームを推定する。 注意に基づく残留密集ブロック(ardbs)を精巧に設計した復元モジュールは,その目的を果たす。 1)融合した特徴を精錬し、 2)正確な色補正のための空間特異的変換を生成するために必要な色情報を学ぶ。 広範にわたる実験により, カメラの生データ, ネットワークアーキテクチャの有効性, および超解像および色補正プロセスの分離により, 提案手法は最先端技術に比べて優れたvsr性能を達成でき, 任意の特定のカメラispに適合できることを示した。 コードとデータセットはhttps://github.com/proteus1991/rawvsrで入手できる。

To the best of our knowledge, the existing deep-learning-based Video Super-Resolution (VSR) methods exclusively make use of videos produced by the Image Signal Processor (ISP) of the camera system as inputs. Such methods are 1) inherently suboptimal due to information loss incurred by non-invertible operations in ISP, and 2) inconsistent with the real imaging pipeline where VSR in fact serves as a pre-processing unit of ISP. To address this issue, we propose a new VSR method that can directly exploit camera sensor data, accompanied by a carefully built Raw Video Dataset (RawVD) for training, validation, and testing. This method consists of a Successive Deep Inference (SDI) module and a reconstruction module, among others. The SDI module is designed according to the architectural principle suggested by a canonical decomposition result for Hidden Markov Model (HMM) inference; it estimates the target high-resolution frame by repeatedly performing pairwise feature fusion using deformable convolutions. The reconstruction module, built with elaborately designed Attention-based Residual Dense Blocks (ARDBs), serves the purpose of 1) refining the fused feature and 2) learning the color information needed to generate a spatial-specific transformation for accurate color correction. Extensive experiments demonstrate that owing to the informativeness of the camera raw data, the effectiveness of the network architecture, and the separation of super-resolution and color correction processes, the proposed method achieves superior VSR results compared to the state-of-the-art and can be adapted to any specific camera-ISP. Code and dataset are available at https://github.com/proteus1991/RawVSR.
翻訳日:2022-10-25 12:36:28 公開日:2021-01-05
# DRLE:IoVにおける交通光制御のためのエッジでの分散強化学習

DRLE: Decentralized Reinforcement Learning at the Edge for Traffic Light Control in the IoV ( http://arxiv.org/abs/2009.01502v2 )

ライセンス: Link先を確認
Pengyuan Zhou, Xianfu Chen, Zhi Liu, Tristan Braud, Pan Hui, Jussi Kangasharju(参考訳) インターネット・オブ・ビークルズ(IoV)は、車両と道路ユニット間のリアルタイムデータ交換を可能にし、都市部における交通渋滞を緩和するための有望な解決策を提供する。 一方、効率的なトラフィック光制御によるトラフィック管理の改善は、通信環境の改善とネットワーク負荷の低減によって、IoVにも恩恵をもたらす。 したがって、IoVと効率的な交通光制御は、希薄なサイクルを定式化することができる。 エッジコンピューティングは、ネットワークの端で低レイテンシの計算能力を提供する新しい技術であり、このサイクルの性能をさらに向上させることができる。 しかし, 収集した情報の価値はあるものの, エッジ駆動型IoVでは, 有効利用と迅速なフィードバックのための効率的なソリューションがまだ開発されていない。 この目的のために、IoV(DRLE)における信号制御のためのエッジにおける分散強化学習を提案する。 DRLEは、IoVのユビキティを利用してトラフィックデータの収集を加速し、渋滞を緩和し、より優れたトラフィック光制御を提供する。 DRLEはエッジサーバのカバレッジ内で動作し、近隣のエッジサーバからの集約データを使用して、都市規模のトラフィック光制御を提供する。 DRLEは、大面積制御の非常に複雑な問題を分解する。 分散マルチエージェント問題です。 我々はそのグローバルな最適性を具体的な数学的推論で証明する。 提案した分散強化学習アルゴリズムは,各エッジノードで実行され,リアルタイムに信号に適応する。 我々は,いくつかの最先端アルゴリズムにおいて,このアプローチが優れていることを示す。

The Internet of Vehicles (IoV) enables real-time data exchange among vehicles and roadside units and thus provides a promising solution to alleviate traffic jams in the urban area. Meanwhile, better traffic management via efficient traffic light control can benefit the IoV as well by enabling a better communication environment and decreasing the network load. As such, IoV and efficient traffic light control can formulate a virtuous cycle. Edge computing, an emerging technology to provide low-latency computation capabilities at the edge of the network, can further improve the performance of this cycle. However, while the collected information is valuable, an efficient solution for better utilization and faster feedback has yet to be developed for edge-empowered IoV. To this end, we propose a Decentralized Reinforcement Learning at the Edge for traffic light control in the IoV (DRLE). DRLE exploits the ubiquity of the IoV to accelerate the collection of traffic data and its interpretation towards alleviating congestion and providing better traffic light control. DRLE operates within the coverage of the edge servers and uses aggregated data from neighboring edge servers to provide city-scale traffic light control. DRLE decomposes the highly complex problem of large area control. into a decentralized multi-agent problem. We prove its global optima with concrete mathematical reasoning. The proposed decentralized reinforcement learning algorithm running at each edge node adapts the traffic lights in real time. We conduct extensive evaluations and demonstrate the superiority of this approach over several state-of-the-art algorithms.
翻訳日:2022-10-22 08:16:30 公開日:2021-01-05
# 決定に基づくユニバーサル・アタック

Decision-based Universal Adversarial Attack ( http://arxiv.org/abs/2009.07024v4 )

ライセンス: Link先を確認
Jing Wu, Mingyi Zhou, Shuaicheng Liu, Yipeng Liu, Ce Zhu(参考訳) 単一の摂動は、分類器によって誤分類される最も自然な画像を示すことができる。 ブラックボックス設定では、現在の普遍的敵攻撃法は代用モデルを用いて摂動を生成し、その摂動を攻撃モデルに適用する。 しかし、この移動はしばしば劣る結果をもたらす。 本研究では,ブラックボックスで直接作業することで,普遍的対向摂動を生成する。 さらに,トップ畳み込み層がストライプに敏感であるため,直交行列をベースとした,ストライプのようなテクスチャを持つ単一摂動を生成する逆流を設計することを目的とする。 そこで我々は,効率的な決定に基づくユニバーサルアタック(DUAttack)を提案する。 少ないデータで、提案手法は最終的な推論ラベルのみに基づく摂動を計算するが、優れた転送性はモデルだけでなく、異なるビジョンタスクにも及んでいる。 DUAttackの有効性は、他の最先端攻撃との比較によって検証される。 DUAttackの効率性は、Microsoft Azureを含む現実世界の設定でも実証されている。 さらに,いくつかの代表的防衛手法がDUAttackに取り組んでおり,提案手法の実用性を示している。

A single perturbation can pose the most natural images to be misclassified by classifiers. In black-box setting, current universal adversarial attack methods utilize substitute models to generate the perturbation, then apply the perturbation to the attacked model. However, this transfer often produces inferior results. In this study, we directly work in the black-box setting to generate the universal adversarial perturbation. Besides, we aim to design an adversary generating a single perturbation having texture like stripes based on orthogonal matrix, as the top convolutional layers are sensitive to stripes. To this end, we propose an efficient Decision-based Universal Attack (DUAttack). With few data, the proposed adversary computes the perturbation based solely on the final inferred labels, but good transferability has been realized not only across models but also span different vision tasks. The effectiveness of DUAttack is validated through comparisons with other state-of-the-art attacks. The efficiency of DUAttack is also demonstrated on real world settings including the Microsoft Azure. In addition, several representative defense methods are struggling with DUAttack, indicating the practicability of the proposed method.
翻訳日:2022-10-18 06:25:44 公開日:2021-01-05
# 粒子状複合材料の設計促進のための教師付き機械学習アプローチ:熱伝導率への応用

A Supervised Machine Learning Approach for Accelerating the Design of Particulate Composites: Application to Thermal Conductivity ( http://arxiv.org/abs/2010.00041v3 )

ライセンス: Link先を確認
Mohammad Saber Hashemi, Masoud Safdari, Azadeh Sheidaei(参考訳) 所望の熱伝導率(TC)を有する粒子状多機能複合材料の設計のための教師付き機械学習(ML)に基づく計算手法を提案する。 設計変数は、材料特性とミクロ組織を直接リンクする材料微細構造の物理ディスクリプタである。 sobolシーケンスに基づいて十分な大きさと均一にサンプリングされたデータベースが生成される。 また, 高速フーリエ変換(FFT)ホモジェナイゼーション法を用いて, 効率的な高密度パッキング法により微細構造が実現された。 最適化ML法は, 生成データベース上で学習し, 構造と特性の複雑な関係を確立する。 最後に, 所望のTCを用いた新しい複合材料, 液体金属(LM)エラストマーの逆設計におけるMLモデルの応用について述べる。 その結果, 高忠実度FFTシミュレーションによる微構造挙動の予測にはサロゲートモデルが正確であり, ケーススタディでは逆設計が頑健であることがわかった。

A supervised machine learning (ML) based computational methodology for the design of particulate multifunctional composite materials with desired thermal conductivity (TC) is presented. The design variables are physical descriptors of the material microstructure that directly link microstructure to the material's properties. A sufficiently large and uniformly sampled database was generated based on the Sobol sequence. Microstructures were realized using an efficient dense packing algorithm, and the TCs were obtained using our previously developed Fast Fourier Transform (FFT) homogenization method. Our optimized ML method is trained over the generated database and establishes the complex relationship between the structure and properties. Finally, the application of the trained ML model in the inverse design of a new class of composite materials, liquid metal (LM) elastomer, with desired TC is discussed. The results show that the surrogate model is accurate in predicting the microstructure behavior with respect to high-fidelity FFT simulations, and inverse design is robust in finding microstructure parameters according to case studies.
翻訳日:2022-10-12 23:36:18 公開日:2021-01-05
# 準最適専門家からDexterous Manipulationを学ぶ

Learning Dexterous Manipulation from Suboptimal Experts ( http://arxiv.org/abs/2010.08587v2 )

ライセンス: Link先を確認
Rae Jeong, Jost Tobias Springenberg, Jackie Kay, Daniel Zheng, Yuxiang Zhou, Alexandre Galashov, Nicolas Heess, Francesco Nori(参考訳) 高次元状態-アクション空間におけるデクスタース操作の学習は、大きなボトルネックを提示した探索において重要な課題である。 多くの場合、学習プロセスは、デモンストレーションやその他の準最適専門家によって導かれるが、継続的なアクション空間のための現在のrlアルゴリズムは、高度にオフポリシーな専門家データとオンポリティカルな探索データの組み合わせを効果的に利用できないことが多い。 解決策として、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせたシンプルなポリシー反復アルゴリズムであるRelative Entropy Q-Learning(REQ)を導入する。 これは、学習前の重要サンプリングによる最適ポリシーであり、混合データ分布を利用するのに適している。 実験により、REQは、ロボット操作タスクにおいて、準最適の専門家が利用できるいくつかの強力なベースラインを上回ります。 簡単なウェイポイントトラッキングコントローラを構成することで、最適下界の専門家を効果的に構築できることを示すとともに、学習したプリミティブをウェイポイントコントローラと組み合わせて、人間の手によるシミュレーションされたバイマニュアルロボットの複雑な操作タスクをブートストラップする参照動作を得る方法を示す。 最後に、REQは、デモから、一般的な政治外のRL、オフラインのRL、およびRLにも有効であることを示す。 ビデオとさらなる資料はsites.google.com/view/rlfseで入手できる。

Learning dexterous manipulation in high-dimensional state-action spaces is an important open challenge with exploration presenting a major bottleneck. Although in many cases the learning process could be guided by demonstrations or other suboptimal experts, current RL algorithms for continuous action spaces often fail to effectively utilize combinations of highly off-policy expert data and on-policy exploration data. As a solution, we introduce Relative Entropy Q-Learning (REQ), a simple policy iteration algorithm that combines ideas from successful offline and conventional RL algorithms. It represents the optimal policy via importance sampling from a learned prior and is well-suited to take advantage of mixed data distributions. We demonstrate experimentally that REQ outperforms several strong baselines on robotic manipulation tasks for which suboptimal experts are available. We show how suboptimal experts can be constructed effectively by composing simple waypoint tracking controllers, and we also show how learned primitives can be combined with waypoint controllers to obtain reference behaviors to bootstrap a complex manipulation task on a simulated bimanual robot with human-like hands. Finally, we show that REQ is also effective for general off-policy RL, offline RL, and RL from demonstrations. Videos and further materials are available at sites.google.com/view/rlfse.
翻訳日:2022-10-06 21:40:34 公開日:2021-01-05
# LSTMネットワークによる集約SQLクエリの近似

Approximating Aggregated SQL Queries With LSTM Networks ( http://arxiv.org/abs/2010.13149v3 )

ライセンス: Link先を確認
Nir Regev, Lior Rokach, Asaf Shabtai(参考訳) データ技術への継続的な投資にもかかわらず、クエリデータのレイテンシは依然として大きな課題である。 現代の分析ソリューションでは、インタラクティブな処理と自動処理をサポートするために、ほぼリアルタイムの応答性が必要です。 現在の技術(hadoop、spark、dataflow)はデータセットをスキャンしてクエリを実行する。 タスクの実行速度を最大化するために、スケーラブルなデータストレージの提供に注力している。 これらのソリューションは、データへの継続的なアクセスに依存しているため、適切なレベルの対話性を提供しない。 本稿では,近似クエリ処理(AQP)と呼ばれるクエリ近似の手法を提案する。 LSTMネットワークを用いてクエリと結果の関係を学習し、クエリ結果を予測するための高速推論層を提供する。 我々の手法( ``Hunch`` 参照)は、高いクエリスループットを提供する軽量LSTMネットワークを生成する。 提案手法は12のデータセットを用いて評価し,クエリ待ち時間,モデル重み,精度の観点から,最先端のaqpエンジン(verdictdb,blinkdb)と比較した。 その結果,本手法は平均二乗誤差 (nrmse) の正規化によってクエリの結果を予測し, 比較したベンチマークと比較した結果, 平均二乗誤差 (nrmse) が約1\%から4\%に向上したことがわかった。 さらに,提案手法では1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。

Despite continuous investments in data technologies, the latency of querying data still poses a significant challenge. Modern analytic solutions require near real-time responsiveness both to make them interactive and to support automated processing. Current technologies (Hadoop, Spark, Dataflow) scan the dataset to execute queries. They focus on providing a scalable data storage to maximize task execution speed. We argue that these solutions fail to offer an adequate level of interactivity since they depend on continual access to data. In this paper we present a method for query approximation, also known as approximate query processing (AQP), that reduce the need to scan data during inference (query calculation), thus enabling a rapid query processing tool. We use LSTM network to learn the relationship between queries and their results, and to provide a rapid inference layer for predicting query results. Our method (referred as ``Hunch``) produces a lightweight LSTM network which provides a high query throughput. We evaluated our method using twelve datasets and compared to state-of-the-art AQP engines (VerdictDB, BlinkDB) from query latency, model weight and accuracy perspectives. The results show that our method predicted queries' results with a normalized root mean squared error (NRMSE) ranging from approximately 1\% to 4\% which in the majority of our data sets was better then the compared benchmarks. Moreover, our method was able to predict up to 120,000 queries in a second (streamed together), and with a single query latency of no more than 2ms.
翻訳日:2022-10-03 04:58:12 公開日:2021-01-05
# 分散保存型Xベクトル生成を用いたVoicePrivacy Challenge 2020における話者匿名化

Speaker Anonymization with Distribution-Preserving X-Vector Generation for the VoicePrivacy Challenge 2020 ( http://arxiv.org/abs/2010.13457v2 )

ライセンス: Link先を確認
Henry Turner, Giulio Lovisotto and Ivan Martinovic(参考訳) 本稿では,VoicePrivacy Challenge 2020への応募として,分散保存音声匿名化手法を提案する。 課題ベースラインシステムは,有機スピーカーから抽出したものよりもはるかに高い精度で,互いに非常によく似た,偽のXベクトルを生成する。 この違いは、匿名化プロセスにおいて多くのx-ベクトルを話者プールから平均し、情報の喪失を引き起こすことから生じる。 本稿では,x-ベクトルの分布特性とその類似性を保ちながら,これらの限界を克服する新しいx-ベクトル生成法を提案する。 我々は人口データを用いてx-ベクトル空間の性質を学習し、偽のx-ベクトルをサンプリングする生成モデルに適合させる。 提案手法は, 有機話者Xベクトルの相似性分布をより正確に追従するXベクトルを生成する方法を示す。 本手法は,システムの匿名化コンポーネントとして他者と容易に統合でき,匿名化時に使用する話者のプールを配布する必要がなくなる。 我々のアプローチは、男性で最大19.4\%$、女性で1.1\%$のeerの増加につながります。

In this paper, we present a Distribution-Preserving Voice Anonymization technique, as our submission to the VoicePrivacy Challenge 2020. We observe that the challenge baseline system generates fake X-vectors which are very similar to each other, significantly more so than those extracted from organic speakers. This difference arises from averaging many X-vectors from a pool of speakers in the anonymization process, causing a loss of information. We propose a new method to generate fake X-vectors which overcomes these limitations by preserving the distributional properties of X-vectors and their intra-similarity. We use population data to learn the properties of the X-vector space, before fitting a generative model which we use to sample fake X-vectors. We show how this approach generates X-vectors that more closely follow the expected intra-similarity distribution of organic speaker X-vectors. Our method can be easily integrated with others as the anonymization component of the system and removes the need to distribute a pool of speakers to use during the anonymization. Our approach leads to an increase in EER of up to $19.4\%$ in males and $11.1\%$ in females in scenarios where enrollment and trial utterances are anonymized versus the baseline solution, demonstrating the diversity of our generated voices.
翻訳日:2022-10-02 19:50:49 公開日:2021-01-05
# covariance self-attention dual path unet による直腸腫瘍の分画

Covariance Self-Attention Dual Path UNet for Rectal Tumor Segmentation ( http://arxiv.org/abs/2011.02880v2 )

ライセンス: Link先を確認
Haijun Gao, Bochuan Zheng, Dazhi Pan, Xiangyin Zeng(参考訳) 深層学習アルゴリズムは直腸腫瘍セグメンテーションに好適である。 しかし, 深層学習法を用いて直腸腫瘍の位置と大きさを正確に識別することは依然として課題である。 直腸腫瘍セグメント化のための十分な特徴情報を抽出する能力を高めるために,CSA-DPUNet(Covariance Self-Attention Dual Path UNet)を提案する。 提案されたネットワークは、主にUNetの2つの改善を含んでいる。 1)CT画像からより多くの特徴情報を抽出するのに役立つ2つの収縮経路と2つの拡張経路(新しいネットワークをDPUNetと呼ぶ)からなる1つの経路構造を持つUNetを修正する。 2)criss-cross自己付着モジュールをdpunetに導入し,相関操作の原計算法を共分散操作に置き換え,dpunetのキャラクタリゼーション能力をさらに向上させ,直腸腫瘍の分節精度を向上させる。 実験の結果, csa-dpunetは15.31%, 7.2%, 11.8%, 9.5%のdice係数, p, r, f1が改善し, csa-dpunetは直腸腫瘍の分画に有効であることが示された。

Deep learning algorithms are preferable for rectal tumor segmentation. However, it is still a challenge task to accurately segment and identify the locations and sizes of rectal tumors by using deep learning methods. To increase the capability of extracting enough feature information for rectal tumor segmentation, we propose a Covariance Self-Attention Dual Path UNet (CSA-DPUNet). The proposed network mainly includes two improvements on UNet: 1) modify UNet that has only one path structure to consist of two contracting path and two expansive paths (nam new network as DPUNet), which can help extract more feature information from CT images; 2) employ the criss-cross self-attention module into DPUNet, meanwhile, replace the original calculation method of correlation operation with covariance operation, which can further enhances the characterization ability of DPUNet and improves the segmentation accuracy of rectal tumors. Experiments illustrate that compared with the current state-of-the-art results, CSA-DPUNet brings 15.31%, 7.2%, 11.8%, and 9.5% improvement in Dice coefficient, P, R, F1, respectively, which demonstrates that our proposed CSA-DPUNet is effective for rectal tumor segmentation.
翻訳日:2022-09-29 23:09:16 公開日:2021-01-05
# inferbench: 自動ベンチマークシステムによるディープラーニング推論の理解

InferBench: Understanding Deep Learning Inference Serving with an Automatic Benchmarking System ( http://arxiv.org/abs/2011.02327v3 )

ライセンス: Link先を確認
Huaizheng Zhang, Yizheng Huang, Yonggang Wen, Jianxiong Yin and Kyle Guan(参考訳) ディープラーニング(dl)モデルは、多くのアプリケーションのコアモジュールになっています。 しかし、ハードウェアとソフトウェアの両方の影響を考慮に入れたパフォーマンスベンチマークなしでこれらのモデルをデプロイすると、サービス不足とコストのかかる運用費が発生することが多い。 DLモデルの展開を容易にするため,我々はDL開発者向けに,自動かつ包括的なベンチマークシステムを実装した。 ベンチマーク関連のタスクを実現するには、開発者は数行のコードからなる構成ファイルを用意するだけでよい。 我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。 次に、対応する要求、ワークロード、さらにはモデルもシステムが自動的に生成し、DLサービスベンチマークを実行する。 最後に、開発者はシステム内の多くの分析ツールやモデルを利用して、異なるシステム構成のトレードオフに関する洞察を得ることができる。 さらに、2層スケジューラが組み込まれ、不要な干渉を回避し、平均ジョブコンパイル時間を1.43倍に短縮する(30\%削減相当)。 システム設計は、開発者の日々のDLサービス評価作業を迅速化するために、DLクラスタ運用におけるベストプラクティスに従う。 詳細な評価を行うために,ベンチマーク実験を多数実施する。 これらの結果は、dlサービス設定とリソース割り当てのガイドラインとして、非常に価値があります。

Deep learning (DL) models have become core modules for many applications. However, deploying these models without careful performance benchmarking that considers both hardware and software's impact often leads to poor service and costly operational expenditure. To facilitate DL models' deployment, we implement an automatic and comprehensive benchmark system for DL developers. To accomplish benchmark-related tasks, the developers only need to prepare a configuration file consisting of a few lines of code. Our system, deployed to a leader server in DL clusters, will dispatch users' benchmark jobs to follower workers. Next, the corresponding requests, workload, and even models can be generated automatically by the system to conduct DL serving benchmarks. Finally, developers can leverage many analysis tools and models in our system to gain insights into the trade-offs of different system configurations. In addition, a two-tier scheduler is incorporated to avoid unnecessary interference and improve average job compilation time by up to 1.43x (equivalent of 30\% reduction). Our system design follows the best practice in DL clusters operations to expedite day-to-day DL service evaluation efforts by the developers. We conduct many benchmark experiments to provide in-depth and comprehensive evaluations. We believe these results are of great values as guidelines for DL service configuration and resource allocation.
翻訳日:2022-09-29 23:07:06 公開日:2021-01-05
# CircleGAN: 球円をまたいだ生成的対角学習

CircleGAN: Generative Adversarial Learning across Spherical Circles ( http://arxiv.org/abs/2011.12486v2 )

ライセンス: Link先を確認
Woohyeon Shim and Minsu Cho(参考訳) 球面円を用いた超球体埋め込み空間の構造化を学習することにより,生成したサンプルの現実性と多様性を向上させる新しいGAN識別器を提案する。 提案する判別器は、非現実的なサンプルを大円に垂直な極に向けて押しながら、最も長い球面円、すなわち大円の周りに現実的なサンプルを配置することを学ぶ。 長い円は超球面上の広い領域を占めるため、表現学習の多様性を増し、その逆も促進する。 したがって、対応する球状円に基づいてサンプルを識別することは、自然に生成されたサンプルに多様性を誘導することができる。 また,各カテゴリのハイパースフィアを作成し,クラス単位での識別と更新を行うことで,クラスラベル付き条件設定の手法を拡張する。 実験では,標準ベンチマークにおける条件付きおよび条件付き両方の生成の有効性を検証する。

We present a novel discriminator for GANs that improves realness and diversity of generated samples by learning a structured hypersphere embedding space using spherical circles. The proposed discriminator learns to populate realistic samples around the longest spherical circle, i.e., a great circle, while pushing unrealistic samples toward the poles perpendicular to the great circle. Since longer circles occupy larger area on the hypersphere, they encourage more diversity in representation learning, and vice versa. Discriminating samples based on their corresponding spherical circles can thus naturally induce diversity to generated samples. We also extend the proposed method for conditional settings with class labels by creating a hypersphere for each category and performing class-wise discrimination and update. In experiments, we validate the effectiveness for both unconditional and conditional generation on standard benchmarks, achieving the state of the art.
翻訳日:2022-09-21 02:56:54 公開日:2021-01-05
# 不規則サンプリング時系列からの学習の原理, モデル, 方法に関する調査

A Survey on Principles, Models and Methods for Learning from Irregularly Sampled Time Series ( http://arxiv.org/abs/2012.00168v2 )

ライセンス: Link先を確認
Satya Narayan Shukla, Benjamin M. Marlin(参考訳) 不規則にサンプリングされた時系列データは、生物学、生態学、気候科学、天文学、健康など多くの応用領域で自然に発生する。 このようなデータは、観測の間に一様でない間隔が存在するため、機械学習や統計学から多くの古典モデルの基本的な課題である。 しかしながら、機械学習コミュニティでは、不規則にサンプリングされた単変量および多変量時系列データから学ぶための特別なモデルとアーキテクチャの開発において、過去10年間で大きな進歩があった。 本稿では、まず、不規則にサンプリングされた時系列から学習するためのアプローチが、どのデータ表現に基づいているか、どのモデリングプリミティブを使って不規則なサンプリングの根本的な問題に対処するか、どの推論タスクを実行するか、などについて説明する。 次に、モデリングプリミティブの軸に沿って整理された最近の文献を調査します。 本稿では,時間的離散化,補間,繰り返し,注意,構造的不変性に基づくアプローチについて述べる。 アプローチの類似点と相違点を議論し,主な強みと弱みを強調する。

Irregularly sampled time series data arise naturally in many application domains including biology, ecology, climate science, astronomy, and health. Such data represent fundamental challenges to many classical models from machine learning and statistics due to the presence of non-uniform intervals between observations. However, there has been significant progress within the machine learning community over the last decade on developing specialized models and architectures for learning from irregularly sampled univariate and multivariate time series data. In this survey, we first describe several axes along which approaches to learning from irregularly sampled time series differ including what data representations they are based on, what modeling primitives they leverage to deal with the fundamental problem of irregular sampling, and what inference tasks they are designed to perform. We then survey the recent literature organized primarily along the axis of modeling primitives. We describe approaches based on temporal discretization, interpolation, recurrence, attention and structural invariance. We discuss similarities and differences between approaches and highlight primary strengths and weaknesses.
翻訳日:2021-06-06 14:59:29 公開日:2021-01-05
# 水道網における音響漏れ検出

Acoustic Leak Detection in Water Networks ( http://arxiv.org/abs/2012.06280v2 )

ライセンス: Link先を確認
Robert M\"uller, Steffen Illium, Fabian Ritz, Tobias Schr\"oder, Christian Platschek, J\"org Ochs, Claudia Linnhoff-Popien(参考訳) 本研究では,エネルギー効率や展開容易性などの実世界の制約を満たす水網における音響漏れ検出の一般的な手順を提案する。 都市近郊の水供給網に装着した7つの接触型マイクロホンの記録に基づき,いくつかの浅層および深部異常検出モデルを訓練した。 人間の専門家が電子サウンドスティックを使ってリークを検知する方法に触発されて、これらのモデルを使って事前定義された決定の地平線を越えてリークを繰り返し聞く。 この方法では、システムの定常的な監視を避けます。 ほぼすべてのモデルにおいて、近接して漏れを検出することは自明な作業であることがわかったが、ニューラルネットワークに基づくアプローチは、遠方の漏れを検出することでより良い結果が得られる。

In this work, we present a general procedure for acoustic leak detection in water networks that satisfies multiple real-world constraints such as energy efficiency and ease of deployment. Based on recordings from seven contact microphones attached to the water supply network of a municipal suburb, we trained several shallow and deep anomaly detection models. Inspired by how human experts detect leaks using electronic sounding-sticks, we use these models to repeatedly listen for leaks over a predefined decision horizon. This way we avoid constant monitoring of the system. While we found the detection of leaks in close proximity to be a trivial task for almost all models, neural network based approaches achieve better results at the detection of distant leaks.
翻訳日:2021-05-11 02:47:50 公開日:2021-01-05
# MVFNet:効率的なビデオ認識のための多視点融合ネットワーク

MVFNet: Multi-View Fusion Network for Efficient Video Recognition ( http://arxiv.org/abs/2012.06977v2 )

ライセンス: Link先を確認
Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding(参考訳) 伝統的に、時空間モデリングネットワークとその複雑さは、ビデオアクション認識における2つの最も集中した研究テーマである。 既存の最先端手法は, 効率の良い時空間モデリングソリューションが性能においてわずかに劣っているのに対して, 複雑さに関わらず, 優れた精度を実現している。 本稿では,効率と効率を同時に獲得することを試みる。 まず,従来のH x W x Tビデオフレームを時空信号として扱うことに加えて,他の2面のハイトタイムとワイドタイムの映像をモデル化し,映像のダイナミクスを徹底的に捉えることを提案する。 第二に、我々のモデルは2D CNNのバックボーンに基づいて設計されており、モデル複雑性は設計によってよく意識されている。 具体的には,分離可能な畳み込みを用いたビデオダイナミックスを効率良く活用するための,新しいマルチビュー融合(mvf)モジュールを提案する。 これはプラグイン・アンド・プレイモジュールであり、市販の2D CNNに挿入してMVFNetと呼ばれるシンプルなモデルを作ることができる。 さらにMVFNetは、一般的なビデオモデリングフレームワークとみなすことができ、C2D、SlowOnly、TSMといった既存のメソッドを異なる設定で専門化することができる。 一般的なベンチマーク(例えば、Something V1 & V2, Kinetics, UCF-101, HMDB-51)では、その優位性を示す大規模な実験が行われている。 提案したMVFNetは2D CNNの複雑さで最先端のパフォーマンスを実現することができる。

Conventionally, spatiotemporal modeling network and its complexity are the two most concentrated research topics in video action recognition. Existing state-of-the-art methods have achieved excellent accuracy regardless of the complexity meanwhile efficient spatiotemporal modeling solutions are slightly inferior in performance. In this paper, we attempt to acquire both efficiency and effectiveness simultaneously. First of all, besides traditionally treating H x W x T video frames as space-time signal (viewing from the Height-Width spatial plane), we propose to also model video from the other two Height-Time and Width-Time planes, to capture the dynamics of video thoroughly. Secondly, our model is designed based on 2D CNN backbones and model complexity is well kept in mind by design. Specifically, we introduce a novel multi-view fusion (MVF) module to exploit video dynamics using separable convolution for efficiency. It is a plug-and-play module and can be inserted into off-the-shelf 2D CNNs to form a simple yet effective model called MVFNet. Moreover, MVFNet can be thought of as a generalized video modeling framework and it can specialize to be existing methods such as C2D, SlowOnly, and TSM under different settings. Extensive experiments are conducted on popular benchmarks (i.e., Something-Something V1 & V2, Kinetics, UCF-101, and HMDB-51) to show its superiority. The proposed MVFNet can achieve state-of-the-art performance with 2D CNN's complexity.
翻訳日:2021-05-09 12:50:42 公開日:2021-01-05
# 解釈による深層ニューラルネットワークの非神秘化:調査

Demystifying Deep Neural Networks Through Interpretation: A Survey ( http://arxiv.org/abs/2012.07119v2 )

ライセンス: Link先を確認
Giang Dao and Minwoo Lee(参考訳) 現代のディープラーニングアルゴリズムは、トレーニングデータセットにおけるクロスエントロピー損失を最小限に抑えるなど、客観的なメトリックを最適化する傾向にある。 問題は、単一の計量が現実世界のタスクの不完全な記述であることだ。 単一の計量はアルゴリズムがなぜ学習するかを説明できない。 誤った場合、解釈可能性の欠如は、エラーの理解と修正が困難になる。 近年、ニューラルネットワークの振る舞いや思考プロセスに関する洞察を提供するために、解釈可能性の問題に取り組む作業が行われている。 この研究は潜在的なバイアスを特定し、アルゴリズムの公平性と期待する性能を確保するために重要である。

Modern deep learning algorithms tend to optimize an objective metric, such as minimize a cross entropy loss on a training dataset, to be able to learn. The problem is that the single metric is an incomplete description of the real world tasks. The single metric cannot explain why the algorithm learn. When an erroneous happens, the lack of interpretability causes a hardness of understanding and fixing the error. Recently, there are works done to tackle the problem of interpretability to provide insights into neural networks behavior and thought process. The works are important to identify potential bias and to ensure algorithm fairness as well as expected performance.
翻訳日:2021-05-09 12:50:08 公開日:2021-01-05
# (参考訳) 気象・気候における機械学習エミュレータのためのcopulaに基づく合成データ生成:簡易放射モデルへの応用

Copula-based synthetic data generation for machine learning emulators in weather and climate: application to a simple radiation model ( http://arxiv.org/abs/2012.09037v2 )

ライセンス: CC BY 4.0
David Meyer, Thomas Nagler, Robin J. Hogan(参考訳) 合成データによる機械学習(ml)エミュレータの改善は可能か? MLモデルをトレーニングするための実際のデータの使用は、しばしば大きな制限の原因である。 例えば、実データは(a)状況と領域のサブセットのみを表し、(b)ソースに高価であり、(c)ライセンスの制限により特定の個人に限定されている。 コンピュータビジョンでは合成データの利用がますます普及しているが、天候や気候におけるmlエミュレータのトレーニングは、まだ実際のデータデータセットの使用に依存している。 本稿では,コプラをベースとした合成合成データセットを用いることで,下降する長波放射を推定するためのMLエミュレータの予測が向上するかどうかを検討する。 その結果、バルク誤差は平均バイアス誤差(0.08から-0.02Wm$^{-2}$)で最大75%、平均絶対誤差(0.17から0.44Wm$^{-2}$)で最大62%削減され、将来のMLエミュレータの一般化の可能性が示された。

Can we improve machine learning (ML) emulators with synthetic data? The use of real data for training ML models is often the cause of major limitations. For example, real data may be (a) only representative of a subset of situations and domains, (b) expensive to source, (c) limited to specific individuals due to licensing restrictions. Although the use of synthetic data is becoming increasingly popular in computer vision, the training of ML emulators in weather and climate still relies on the use of real data datasets. Here we investigate whether the use of copula-based synthetically-augmented datasets improves the prediction of ML emulators for estimating the downwelling longwave radiation. Results show that bulk errors are cut by up to 75 % for the mean bias error (from 0.08 to -0.02 W m$^{-2}$) and by up to 62 % (from 1.17 to 0.44 W m$^{-2}$) for the mean absolute error, thus showing potential for improving the generalization of future ML emulators.
翻訳日:2021-05-03 10:51:36 公開日:2021-01-05
# (参考訳) 絡み合いの測定: メトリクスのレビュー

Measuring Disentanglement: A Review of Metrics ( http://arxiv.org/abs/2012.09276v2 )

ライセンス: CC BY 4.0
Julian Zaidi, Jonathan Boilard, Ghyslain Gagnon, Marc-Andr\'e Carbonneau(参考訳) データのばらつきの要因を分離して表現する学習は、aiの重要な問題である。 これらの表現を学ぶために多くの進歩がなされているが、不連続を定量化する方法はまだ不明である。 いくつかの指標が存在するが、その暗黙の仮定、真の測定値とその限界についてはほとんど知られていない。 その結果、異なる表現を比較する場合、結果を解釈することは困難である。 本研究では, 乱れの指標を調査し, 徹底的に分析する。 我々は,すべての指標を介入型,予測型,情報型という3つの家系に分類する新しい分類法を提案する。 幅広い実験を行い、表現特性を分離し、様々な側面におけるすべてのメトリクスを比較する。 実験結果と解析結果から,不整合表現特性の関係について考察する。 最後に,ゆがみを測定し,その結果を報告するためのガイドラインを提供する。

Learning to disentangle and represent factors of variation in data is an important problem in AI. While many advances are made to learn these representations, it is still unclear how to quantify disentanglement. Several metrics exist, however little is known on their implicit assumptions, what they truly measure and their limits. As a result, it is difficult to interpret results when comparing different representations. In this work, we survey supervised disentanglement metrics and thoroughly analyze them. We propose a new taxonomy in which all metrics fall into one of three families: intervention-based, predictor-based and information-based. We conduct extensive experiments, where we isolate representation properties to compare all metrics on many aspects. From experiment results and analysis, we provide insights on relations between disentangled representation properties. Finally, we provide guidelines on how to measure disentanglement and report the results.
翻訳日:2021-05-03 06:00:29 公開日:2021-01-05
# 主題別bciと主題非依存bciに対する分類アルゴリズムの比較

Comparison of Classification Algorithms Towards Subject-Specific and Subject-Independent BCI ( http://arxiv.org/abs/2012.12473v2 )

ライセンス: Link先を確認
Parisa Ghane, Narges Zarnaghi Naghsh, Ulisses Braga-Neto(参考訳) 運動画像脳インタフェースの設計は、対象データ収集とキャリブレーションの制限とシステム適応要件の要求により困難であると考えられている。 近年,事前のキャリブレーションや厳密なシステム適応を伴わず,複数のユーザに適用可能なSI設計が注目されている。 siの設計は困難であり、文献では精度が低い。 システム性能の2つの主要な要因は、分類アルゴリズムと利用可能なデータの品質である。 本稿では,SSパラダイムとSIパラダイムの分類性能の比較検討を行う。 その結果,SSモデルの分類アルゴリズムは性能に大きなばらつきを示すことがわかった。 したがって、対象ごとに異なる分類アルゴリズムが必要となる。 SIモデルは、性能のばらつきが低いが、比較的大きなサンプルサイズが利用できる場合にのみ使用されるべきである。 SIモデルでは, LDAとCARTは, サンプルサイズが小さい場合, サンプルサイズが小さい場合, SVMは他の分類器よりも優れていると仮定した。 さらに、ユーザーを考慮してデザインアプローチを選択するべきです。 SS設計は特定の主題に対してより有望に聞こえるが、SIアプローチは精神的、身体的課題のあるユーザにとってより便利である。

Motor imagery brain computer interface designs are considered difficult due to limitations in subject-specific data collection and calibration, as well as demanding system adaptation requirements. Recently, subject-independent (SI) designs received attention because of their possible applicability to multiple users without prior calibration and rigorous system adaptation. SI designs are challenging and have shown low accuracy in the literature. Two major factors in system performance are the classification algorithm and the quality of available data. This paper presents a comparative study of classification performance for both SS and SI paradigms. Our results show that classification algorithms for SS models display large variance in performance. Therefore, distinct classification algorithms per subject may be required. SI models display lower variance in performance but should only be used if a relatively large sample size is available. For SI models, LDA and CART had the highest accuracy for small and moderate sample size, respectively, whereas we hypothesize that SVM would be superior to the other classifiers if large training sample-size was available. Additionally, one should choose the design approach considering the users. While the SS design sound more promising for a specific subject, an SI approach can be more convenient for mentally or physically challenged users.
翻訳日:2021-04-25 18:15:21 公開日:2021-01-05
# Kaleidoscope: 構造化されたリニアマップの効率よく学習可能な表現

Kaleidoscope: An Efficient, Learnable Representation For All Structured Linear Maps ( http://arxiv.org/abs/2012.14966v2 )

ライセンス: Link先を確認
Tri Dao, Nimit S. Sohoni, Albert Gu, Matthew Eichhorn, Amit Blonder, Megan Leszczynski, Atri Rudra, Christopher R\'e(参考訳) 現代のニューラルネットワークアーキテクチャでは、低ランク行列、スパース行列、置換、フーリエ変換などの構造化線形変換を使用して、推論速度を改善し、一般的な線形写像と比較してメモリ使用量を削減する。 しかしながら、無数の構造化変換(およびそのパラメータ化)の選択は、速度、空間、正確さのトレードオフを必要とする面倒な作業である。 我々は,準最適空間 (パラメータ) と時間 (アリトメティック操作) の複雑性を持つ任意の構造化行列を確実にキャプチャする,kaleidoscope matrices (k-matrices) と呼ばれる行列群を導入する。 モデル品質を改善するために手作りの手順を置き換えるために,K-行列がエンドツーエンドのパイプライン内で自動的に学習可能であることを実証的に検証する。 例えば、ShuffleNetのチャネルシャッフルを置き換えることで、ImageNetの分類精度が最大5%向上する。 音声データ前処理におけるフィルタバンクの特徴計算を学習可能なカレイダスコープ層に置き換えることで,TIMIT音声認識タスクの精度がわずか0.4%低下する。 さらに、k行列はモデルの潜在構造を捉えることができる: 困難な置換画像分類タスクのために、k行列に基づく置換の表現は正しい潜在構造を学習することができ、下流の畳み込みモデルの精度を9%以上向上させる。 本手法を効果的に実装し,トランスフォーマーネットワークにおけるk行列を用いて,言語翻訳タスクにおけるエンドツーエンド推論速度を36%高速化する。

Modern neural network architectures use structured linear transformations, such as low-rank matrices, sparse matrices, permutations, and the Fourier transform, to improve inference speed and reduce memory usage compared to general linear maps. However, choosing which of the myriad structured transformations to use (and its associated parameterization) is a laborious task that requires trading off speed, space, and accuracy. We consider a different approach: we introduce a family of matrices called kaleidoscope matrices (K-matrices) that provably capture any structured matrix with near-optimal space (parameter) and time (arithmetic operation) complexity. We empirically validate that K-matrices can be automatically learned within end-to-end pipelines to replace hand-crafted procedures, in order to improve model quality. For example, replacing channel shuffles in ShuffleNet improves classification accuracy on ImageNet by up to 5%. K-matrices can also simplify hand-engineered pipelines -- we replace filter bank feature computation in speech data preprocessing with a learnable kaleidoscope layer, resulting in only 0.4% loss in accuracy on the TIMIT speech recognition task. In addition, K-matrices can capture latent structure in models: for a challenging permuted image classification task, a K-matrix based representation of permutations is able to learn the right latent structure and improves accuracy of a downstream convolutional model by over 9%. We provide a practically efficient implementation of our approach, and use K-matrices in a Transformer network to attain 36% faster end-to-end inference speed on a language translation task.
翻訳日:2021-04-18 20:45:00 公開日:2021-01-05
# 多方向時空間ネットワークに基づく共同空気質と天気予報

Joint Air Quality and Weather Prediction Based on Multi-Adversarial Spatiotemporal Networks ( http://arxiv.org/abs/2012.15037v2 )

ライセンス: Link先を確認
Jindong Han, Hao Liu, Hengshu Zhu, Hui Xiong, Dejing Dou(参考訳) 正確な空気質と天気予報は、都市の統治と人間の生活にとって非常に重要である。 空気の質や天気予報には多くの努力がなされているが、ほとんどは単に機能入力として互いに使用しており、2つの予測タスク間の内部接続を無視している。 一方、あるタスクの正確な予測は、別のタスクのパフォーマンスを改善するのに役立つ。 一方、地理的に分布する大気質と気象観測局は、都市全体の時空間依存モデリングのヒントを提供する。 本稿では,この2つの知見に触発されて,共同空気質と天気予報のための多変数時空間連続グラフニューラルネットワーク(MasterGNN)を提案する。 具体的には,大気品質と気象観測局間の時空間自己相関をモデル化する不均質なリカレントグラフニューラルネットワークを提案する。 そこで我々は,時空間モデルによる観測雑音の伝搬に対する多変数グラフ学習フレームワークを開発した。 さらに,マルチタスク学習をマルチタスク学習問題として定式化し,適応的学習戦略を提案する。 最後に、2つの実世界のデータセットに関する広範な実験により、MasterGNNは大気質と天気予報のタスクの7つのベースラインと比較して、最高のパフォーマンスを達成することが示された。

Accurate and timely air quality and weather predictions are of great importance to urban governance and human livelihood. Though many efforts have been made for air quality or weather prediction, most of them simply employ one another as feature input, which ignores the inner-connection between two predictive tasks. On the one hand, the accurate prediction of one task can help improve another task's performance. On the other hand, geospatially distributed air quality and weather monitoring stations provide additional hints for city-wide spatiotemporal dependency modeling. Inspired by the above two insights, in this paper, we propose the Multi-adversarial spatiotemporal recurrent Graph Neural Networks (MasterGNN) for joint air quality and weather predictions. Specifically, we first propose a heterogeneous recurrent graph neural network to model the spatiotemporal autocorrelation among air quality and weather monitoring stations. Then, we develop a multi-adversarial graph learning framework to against observation noise propagation introduced by spatiotemporal modeling. Moreover, we present an adaptive training strategy by formulating multi-adversarial learning as a multi-task learning problem. Finally, extensive experiments on two real-world datasets show that MasterGNN achieves the best performance compared with seven baselines on both air quality and weather prediction tasks.
翻訳日:2021-04-18 06:05:15 公開日:2021-01-05
# 配車システムにおけるマルチタスク学習エキスパートの時空間混合のゲーテッドアンサンブル

Gated Ensemble of Spatio-temporal Mixture of Experts for Multi-task Learning in Ride-hailing System ( http://arxiv.org/abs/2012.15408v2 )

ライセンス: Link先を確認
M. H. Rahman, S. M. Rifaat, S. N. Sadeek, M. Abrar, D. Wang(参考訳) 時空間予測モデルの設計は、業務的にも都市的にも個別に行うことが、拡大する交通ネットワーク企業にとって重荷となる。 そこで本研究では,各都市における時空間タスクを同時に予測するための,専門家ネットワーク(GESME-Net)と畳み込みリカレントニューラルネットワーク(CRNN),畳み込みニューラルネット(CNN),およびリカレントニューラルネットワーク(RNN)を併用した,時空間混在のゲートアンサンブルを開発することにより,マルチタスク学習アーキテクチャを提案する。 さらに、入力非依存特徴重み付け層をマルチタスク学習における共同表現学習アーキテクチャに統合し、予測に使用する入力特徴の寄与を明らかにする。 i)北京の需要と需給ギャップを同時に予測し、(ii)成都と西安の需要を同時に予測する。 どちらのシナリオにおいても、提案するアーキテクチャのモデルは、シングルタスクとマルチタスクのディープラーニングベンチマークとアンサンブルベースの機械学習アルゴリズムよりも優れています。

Designing spatio-temporal forecasting models separately in a task-wise and city-wise manner pose a burden for the expanding transportation network companies. Therefore, a multi-task learning architecture is proposed in this study by developing gated ensemble of spatio-temporal mixture of experts network (GESME-Net) with convolutional recurrent neural network (CRNN), convolutional neural network (CNN), and recurrent neural network (RNN) for simultaneously forecasting spatio-temporal tasks in a city as well as across different cities. Furthermore, an input agnostic feature weighting layer is integrated with the architecture for learning joint representation in multi-task learning and revealing the contribution of the input features utilized in prediction. The proposed architecture is tested with data from Didi Chuxing for: (i) simultaneously forecasting demand and supply-demand gap in Beijing, and (ii) simultaneously forecasting demand across Chengdu and Xian. In both scenarios, models from our proposed architecture outperformed the single-task and multi-task deep learning benchmarks and ensemble-based machine learning algorithms.
翻訳日:2021-04-17 17:05:02 公開日:2021-01-05
# ニューラルネットワークによる非視線イメージング

Non-line-of-Sight Imaging via Neural Transient Fields ( http://arxiv.org/abs/2101.00373v2 )

ライセンス: Link先を確認
Siyuan Shen, Zi Wang, Ping Liu, Zhengqing Pan, Ruiqian Li, Tian Gao, Shiying Li, and Jingyi Yu(参考訳) 我々はNon-Line-of-Sight(NLOS)イメージングのためのニューラルネットワークフレームワークを提案する。 以前のソリューションは、隠れたシーンの3d幾何学(例えば、点雲)またはボクセル密度(例えば、予め定義されたボリューム内)を明示的に復元することを模索していた。 対照的に,近年のneural radiance field (nerf) アプローチに触発されて,多層パーセプトロン (mlp) を用いて神経過渡場(netf)を表現した。 しかし、NeTFは線に沿った放射よりも球面上の過渡度を測定する。 そこで我々は, 共焦点と非共焦点の両方に適用可能な球形NeTF再構成パイプラインを定式化した。 NeRFと比較すると、NeTFはよりスペーサーな視点(走査スポット)をサンプリングし、サンプリングは極めて不均一である。 そこで我々は,再建におけるロバスト性を改善するため,モンテカルロ法を導入する。 合成データセットと実データセットに関する総合的な実験は、NeTFがより高い品質の再構築を提供し、最先端技術に欠けている細部を保存していることを示している。

We present a neural modeling framework for Non-Line-of-Sight (NLOS) imaging. Previous solutions have sought to explicitly recover the 3D geometry (e.g., as point clouds) or voxel density (e.g., within a pre-defined volume) of the hidden scene. In contrast, inspired by the recent Neural Radiance Field (NeRF) approach, we use a multi-layer perceptron (MLP) to represent the neural transient field or NeTF. However, NeTF measures the transient over spherical wavefronts rather than the radiance along lines. We therefore formulate a spherical volume NeTF reconstruction pipeline, applicable to both confocal and non-confocal setups. Compared with NeRF, NeTF samples a much sparser set of viewpoints (scanning spots) and the sampling is highly uneven. We thus introduce a Monte Carlo technique to improve the robustness in the reconstruction. Comprehensive experiments on synthetic and real datasets demonstrate NeTF provides higher quality reconstruction and preserves fine details largely missing in the state-of-the-art.
翻訳日:2021-04-13 07:14:37 公開日:2021-01-05
# (参考訳) 知識とテキストの変換による知識強化コモンセンス質問応答のベンチマーク

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation ( http://arxiv.org/abs/2101.00760v2 )

ライセンス: CC BY 4.0
Ning Bian, Xianpei Han, Bo Chen, Le Sun(参考訳) 人間の基本的な能力は、言語理解と質問応答において常識知識を活用することである。 近年,cqa(knowledge-enhanced commonsense question answering)アプローチが数多く提案されている。 しかし、(1)CQAの外部知識をどの程度活用できるかは、まだ不明である。 2)現在のCQAモデルではどの程度の知識が活用されているか。 (3)今後のCQAにとって最も有望な方向は何か。 これらの疑問に答えるために、我々は、シンプルで効果的な知識からテキストへの変換フレームワークを用いて、複数の標準CQAデータセットに対して広範な実験を行うことにより、知識に富んだCQAをベンチマークする。 Experiments show that: (1) Our knowledge-to-text framework is effective and achieves state-of-the-art performance on CommonsenseQA dataset, providing a simple and strong knowledge-enhanced baseline for CQA; (2) The potential of knowledge is still far from being fully exploited in CQA -- there is a significant performance gap from current models to our models with golden knowledge; and (3) Context-sensitive knowledge selection, heterogeneous knowledge exploitation, and commonsense-rich language models are promising CQA directions.

A fundamental ability of humans is to utilize commonsense knowledge in language understanding and question answering. In recent years, many knowledge-enhanced Commonsense Question Answering (CQA) approaches have been proposed. However, it remains unclear: (1) How far can we get by exploiting external knowledge for CQA? (2) How much potential of knowledge has been exploited in current CQA models? (3) Which are the most promising directions for future CQA? To answer these questions, we benchmark knowledge-enhanced CQA by conducting extensive experiments on multiple standard CQA datasets using a simple and effective knowledge-to-text transformation framework. Experiments show that: (1) Our knowledge-to-text framework is effective and achieves state-of-the-art performance on CommonsenseQA dataset, providing a simple and strong knowledge-enhanced baseline for CQA; (2) The potential of knowledge is still far from being fully exploited in CQA -- there is a significant performance gap from current models to our models with golden knowledge; and (3) Context-sensitive knowledge selection, heterogeneous knowledge exploitation, and commonsense-rich language models are promising CQA directions.
翻訳日:2021-04-12 07:32:04 公開日:2021-01-05
# (参考訳) ビデオライブストリーミングにおける無関係顔追跡とピクセル化による個人プライバシー保護

Personal Privacy Protection via Irrelevant Faces Tracking and Pixelation in Video Live Streaming ( http://arxiv.org/abs/2101.01060v2 )

ライセンス: CC BY 4.0
Jizhe Zhou, Chi-Man Pun(参考訳) 現在まで、プライバシー保護が意図するピクセル化タスクは労働集約的であり、まだ研究されていない。 ビデオのライブストリーミングが普及すると、ストリーミング中にオンラインの顔のピクセル化機構を確立するのは緊急だ。 本稿では,FPVLS (Face Pixelation in Video Live Streaming) と呼ばれる新しい手法を開発し,制約のないストリーミング中に自動的に個人プライバシーフィルタを生成する。 単にマルチフェイストラッカーを適用するだけで、ターゲットドリフト、計算効率、ピクセルオーバーといった問題が発生します。 したがって、無関係な人の顔の高速かつ正確なピクセル化のために、FPVLSは2つのコアステージのフレーム・ツー・ビデオ構造で構成される。 個々のフレーム上では、FPVLSは画像ベースの顔検出と埋め込みネットワークを使用して顔ベクトルを生成する。 生軌跡生成段階において,提案する位置決め親和性伝播(piap)クラスタリングアルゴリズムは,顔ベクトルと位置決め情報を利用して,同一人物の顔をフレーム間で迅速に関連付ける。 このようなフレーム単位で蓄積された生の軌道は、間欠的であり、ビデオレベルでは信頼できない。 そこで本研究では,提案ネットワークと2つのサンプルテストとを融合した軌道修正段階を,経験的確率比(elr)統計に基づいて紹介する。 最終画素に対して精製された軌跡上にガウスフィルタを配置する。 収集したビデオライブストリーミングデータセットにおいて、FPVLSは満足度の高い精度、リアルタイム効率を取得し、オーバーピクセル問題を含む。

To date, the privacy-protection intended pixelation tasks are still labor-intensive and yet to be studied. With the prevailing of video live streaming, establishing an online face pixelation mechanism during streaming is an urgency. In this paper, we develop a new method called Face Pixelation in Video Live Streaming (FPVLS) to generate automatic personal privacy filtering during unconstrained streaming activities. Simply applying multi-face trackers will encounter problems in target drifting, computing efficiency, and over-pixelation. Therefore, for fast and accurate pixelation of irrelevant people's faces, FPVLS is organized in a frame-to-video structure of two core stages. On individual frames, FPVLS utilizes image-based face detection and embedding networks to yield face vectors. In the raw trajectories generation stage, the proposed Positioned Incremental Affinity Propagation (PIAP) clustering algorithm leverages face vectors and positioned information to quickly associate the same person's faces across frames. Such frame-wise accumulated raw trajectories are likely to be intermittent and unreliable on video level. Hence, we further introduce the trajectory refinement stage that merges a proposal network with the two-sample test based on the Empirical Likelihood Ratio (ELR) statistic to refine the raw trajectories. A Gaussian filter is laid on the refined trajectories for final pixelation. On the video live streaming dataset we collected, FPVLS obtains satisfying accuracy, real-time efficiency, and contains the over-pixelation problems.
翻訳日:2021-04-12 04:15:20 公開日:2021-01-05
# googlenetと転送学習を用いた高速スケーラブルbnn推論のためのフレームワーク

A Framework for Fast Scalable BNN Inference using Googlenet and Transfer Learning ( http://arxiv.org/abs/2101.00793v2 )

ライセンス: Link先を確認
Karthik E(参考訳) 映像・画像解析における効率よく正確な物体検出は、深層学習の助けを借りたコンピュータビジョンシステムの進歩の大きな恩恵の1つである。 ディープラーニングの助けを借りて、より強力なツールが進化し、高いレベルと深い機能を学ぶことができ、オブジェクト検出アルゴリズムの従来のアーキテクチャにおける既存の問題を克服することができる。 本論文の目的は,オブジェクト検出における高精度なリアルタイム性能の実現である。 コンピュータビジョンの分野では、既存のアルゴリズムを改善することで、視覚情報の検出と処理の分野で多くの研究が進められている。 バイナライズされたニューラルネットワークは、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの様々なビジョンタスクで高いパフォーマンスを示している。 MNIST(Modified National Institute of Standards and Technology database)、CIFAR(Canadian Institute for Advanced Research)、SVHN(Street View House Numbers)データセットは、22層の深さを持つ事前訓練された畳み込みニューラルネットワーク(CNN)を用いて実装されている。 教師付き学習は、特定のデータセットをモデルの適切な構造に分類する作業で使用される。 静止画像では精度を向上させるために、Googlenetが使用される。 Googlenetの最終レイヤは転送学習に置き換えられ、Googlenetの精度が向上する。 同時に、移動画像の精度を転送学習技術により維持することができる。 ハードウェアは、多くのデータセットでより高速な結果を得るために、あらゆるモデルの主要なバックボーンである。 ここで、Nvidia Jetson Nanoはグラフィクス処理ユニット(GPU)であり、オブジェクト検出の過程で大量の計算を処理することができる。 その結果,移動学習法により検出された物体の精度は,既存手法と比較して高いことがわかった。

Efficient and accurate object detection in video and image analysis is one of the major beneficiaries of the advancement in computer vision systems with the help of deep learning. With the aid of deep learning, more powerful tools evolved, which are capable to learn high-level and deeper features and thus can overcome the existing problems in traditional architectures of object detection algorithms. The work in this thesis aims to achieve high accuracy in object detection with good real-time performance. In the area of computer vision, a lot of research is going into the area of detection and processing of visual information, by improving the existing algorithms. The binarized neural network has shown high performance in various vision tasks such as image classification, object detection, and semantic segmentation. The Modified National Institute of Standards and Technology database (MNIST), Canadian Institute for Advanced Research (CIFAR), and Street View House Numbers (SVHN) datasets are used which is implemented using a pre-trained convolutional neural network (CNN) that is 22 layers deep. Supervised learning is used in the work, which classifies the particular dataset with the proper structure of the model. In still images, to improve accuracy, Googlenet is used. The final layer of the Googlenet is replaced with the transfer learning to improve the accuracy of the Googlenet. At the same time, the accuracy in moving images can be maintained by transfer learning techniques. Hardware is the main backbone for any model to obtain faster results with a large number of datasets. Here, Nvidia Jetson Nano is used which is a graphics processing unit (GPU), that can handle a large number of computations in the process of object detection. Results show that the accuracy of objects detected by the transfer learning method is more when compared to the existing methods.
翻訳日:2021-04-11 23:05:33 公開日:2021-01-05
# Gauss-Legendreによるガウス過程の回帰

Gauss-Legendre Features for Gaussian Process Regression ( http://arxiv.org/abs/2101.01137v2 )

ライセンス: Link先を確認
Paz Fink Shustin, Haim Avron(参考訳) ガウス過程は強力な確率的カーネル学習フレームワークを提供し、ガウス過程回帰のような手法で高品質な非パラメトリック回帰モデルを学ぶことができる。 それでも、ガウス過程回帰の学習フェーズでは、大規模なデータセットでは現実的ではない大量の計算が必要である。 本稿では,カーネル行列の低階近似を用いてガウス過程の回帰をスケールアップするためのガウス・ルゲンドル二次法を提案する。 我々は,低階近似の構造を利用して,効果的なハイパーパラメータ学習,トレーニング,予測を行う。 本手法は,数値積分による低ランク近似も構築する,よく知られたランダムフーリエ特徴量アプローチに強く影響されている。 しかし,本手法では,訓練点数において多対数である特徴量を用いて,カーネルに対する高品質な近似を生成できるが,同様の保証にはランダムなフーリエ特徴量の場合,訓練点数において少なくとも線形な量が必要となる。 さらに,この手法が構築する低ランク近似の構造は,ランダムフーリエ特徴によって生成されたものとは微妙に異なるため,より効率的なハイパーパラメータ学習が可能となる。 低次元データセットを用いた学習法の有用性を数値実験により検証した。

Gaussian processes provide a powerful probabilistic kernel learning framework, which allows learning high quality nonparametric regression models via methods such as Gaussian process regression. Nevertheless, the learning phase of Gaussian process regression requires massive computations which are not realistic for large datasets. In this paper, we present a Gauss-Legendre quadrature based approach for scaling up Gaussian process regression via a low rank approximation of the kernel matrix. We utilize the structure of the low rank approximation to achieve effective hyperparameter learning, training and prediction. Our method is very much inspired by the well-known random Fourier features approach, which also builds low-rank approximations via numerical integration. However, our method is capable of generating high quality approximation to the kernel using an amount of features which is poly-logarithmic in the number of training points, while similar guarantees will require an amount that is at the very least linear in the number of training points when random Fourier features. Furthermore, the structure of the low-rank approximation that our method builds is subtly different from the one generated by random Fourier features, and this enables much more efficient hyperparameter learning. The utility of our method for learning with low-dimensional datasets is demonstrated using numerical experiments.
翻訳日:2021-04-11 22:47:18 公開日:2021-01-05
# (参考訳) One vs Previous and similar Classes Learning -- 比較研究

One vs Previous and Similar Classes Learning -- A Comparative Study ( http://arxiv.org/abs/2101.01294v1 )

ライセンス: CC BY 4.0
Daniel Cauchi, Adrian Muscat(参考訳) 多クラス分類問題を扱う場合、分類器の作り方と組み合わせて個々の分類を区別する学習パラダイムを用いて、一連のバイナリ分類器からなるモデルを構築するのが一般的である。 新しいデータがシステムに入り、モデルが更新する必要がある場合、これらのモデルはスクラッチから再トレーニングされる必要がある。 この研究は、トレーニングされたモデルをスクラッチから再トレーニングすることなく更新できる3つの学習パラダイムを提案する。 比較分析を行い、ベースラインに対して評価する。 提案したパラダイムは更新時にベースラインよりも高速で、うち2つはスクラッチからのトレーニングも高速で、特に大規模なデータセットでは同等の分類性能を維持している。

When dealing with multi-class classification problems, it is common practice to build a model consisting of a series of binary classifiers using a learning paradigm which dictates how the classifiers are built and combined to discriminate between the individual classes. As new data enters the system and the model needs updating, these models would often need to be retrained from scratch. This work proposes three learning paradigms which allow trained models to be updated without the need of retraining from scratch. A comparative analysis is performed to evaluate them against a baseline. Results show that the proposed paradigms are faster than the baseline at updating, with two of them being faster at training from scratch as well, especially on larger datasets, while retaining a comparable classification performance.
翻訳日:2021-04-11 21:58:14 公開日:2021-01-05
# (参考訳) 一般非線形リワード機能を有する対数組合せ帯域

Adversarial Combinatorial Bandits with General Non-linear Reward Functions ( http://arxiv.org/abs/2101.01301v1 )

ライセンス: CC BY 4.0
Xi Chen and Yanjun Han and Yining Wang(参考訳) 本稿では,非線形報酬関数を持つ逆組合せバンディットについて検討し,逆線形組合せバンディットに関する既存の研究を拡張した。 一般の非線形報酬を伴う相反的組合せ的バンディットは、バンディット文学において重要なオープン問題であり、線形報酬、確率的バンディット、半バンディットフィードバックの場合には大きなギャップがあるかどうかはまだ不明である。 例えば、$N$のアームと$K$のアームのサブセットが$T$のタイムに選択されている場合、ミニマックス最適後悔は$\widetilde\Theta_{d}(\sqrt{N^d T})$ もし報酬関数が$d$次多項式で$d<K$と$\Theta_K(\sqrt{N^K T})$ならば、報酬関数は低次多項式ではない。 {Both bounds is significantly different from the bound $O(\sqrt{\mathrm{poly}(N,K)T})$ for the linear case, which suggests that is a fundamental gap between the linear and non-linear reward structure。 また,オンラインレコメンデーションにおける逆ソート最適化問題に対する応用も見いだした。 逆数分解問題の最悪の場合、最適なアルゴリズムは個々の$\binom{N}{K}$アソートを独立に扱う必要がある。

In this paper we study the adversarial combinatorial bandit with a known non-linear reward function, extending existing work on adversarial linear combinatorial bandit. {The adversarial combinatorial bandit with general non-linear reward is an important open problem in bandit literature, and it is still unclear whether there is a significant gap from the case of linear reward, stochastic bandit, or semi-bandit feedback.} We show that, with $N$ arms and subsets of $K$ arms being chosen at each of $T$ time periods, the minimax optimal regret is $\widetilde\Theta_{d}(\sqrt{N^d T})$ if the reward function is a $d$-degree polynomial with $d< K$, and $\Theta_K(\sqrt{N^K T})$ if the reward function is not a low-degree polynomial. {Both bounds are significantly different from the bound $O(\sqrt{\mathrm{poly}(N,K)T})$ for the linear case, which suggests that there is a fundamental gap between the linear and non-linear reward structures.} Our result also finds applications to adversarial assortment optimization problem in online recommendation. We show that in the worst-case of adversarial assortment problem, the optimal algorithm must treat each individual $\binom{N}{K}$ assortment as independent.
翻訳日:2021-04-11 21:45:52 公開日:2021-01-05
# (参考訳) Flip Consistencyを用いた自己監督型ビジュアルLiDARオドメトリー

Self-supervised Visual-LiDAR Odometry with Flip Consistency ( http://arxiv.org/abs/2101.01322v1 )

ライセンス: CC BY 4.0
Bin Li and Mu Hu and Shuling Wang and Lianghao Wang and Xiaojin Gong(参考訳) 学習に基づくほとんどの手法は、劇的な照明のバリエーションやテクスチャのないシナリオに苦しむ視覚センサを用いてエゴモーションを推定する。 本稿では,ライダーから得られた疎度で正確な深度測定を取り入れ,視覚的手法の限界を克服する。 そこで我々は,自己教師型視覚ライダー・オドメトリー(Self-VLO)フレームワークを設計する。 3次元ライダーポイントから投影された単眼画像とスパース深度マップの両方を入力として、基底の真理ラベルを使わずに、エンドツーエンドの学習方法でポーズと深度推定を生成する。 2つのモードを効果的に融合するために,視覚および奥行き画像から特徴を抽出し,その特徴を複数のスケールでデコーダに融合する2経路エンコーダを設計した。 また,適応的に重み付けされたフリップ一貫性損失を設計することで,VLOの自己教師型学習を容易にする。 kitti odometryベンチマークの実験では、提案手法が全ての自己教師付き視覚またはライダーオドメトリーよりも優れていることが示されている。 また、完全に監督されたvosよりもパフォーマンスが良く、核融合の威力を示す。

Most learning-based methods estimate ego-motion by utilizing visual sensors, which suffer from dramatic lighting variations and textureless scenarios. In this paper, we incorporate sparse but accurate depth measurements obtained from lidars to overcome the limitation of visual methods. To this end, we design a self-supervised visual-lidar odometry (Self-VLO) framework. It takes both monocular images and sparse depth maps projected from 3D lidar points as input, and produces pose and depth estimations in an end-to-end learning manner, without using any ground truth labels. To effectively fuse two modalities, we design a two-pathway encoder to extract features from visual and depth images and fuse the encoded features with those in decoders at multiple scales by our fusion module. We also adopt a siamese architecture and design an adaptively weighted flip consistency loss to facilitate the self-supervised learning of our VLO. Experiments on the KITTI odometry benchmark show that the proposed approach outperforms all self-supervised visual or lidar odometries. It also performs better than fully supervised VOs, demonstrating the power of fusion.
翻訳日:2021-04-11 21:24:12 公開日:2021-01-05
# (参考訳) カスタマーサービスにおける共感型チャットボットの評価

Evaluating Empathetic Chatbots in Customer Service Settings ( http://arxiv.org/abs/2101.01334v1 )

ライセンス: CC BY 4.0
Akshay Agarwal, Shashank Maiya, Sonu Aggarwal(参考訳) カスタマーサービスは、生きた人間のエージェントの反応に共感を求める設定である。 近年の進歩は、オープンドメインのチャットボットが、生きた人間の発話に対する共感を示すためにどのように訓練されるかを示している。 顧客からの質問に応答する混合スキルチャットボットモデルは、そのような訓練を受けていないモデルよりも、感情を認識し、適切な共感を示すように訓練された場合、実際の人間エージェント応答によく似ている。 分析では、有名ブランド20社のカスタマーサービスコンテキストにおける数百万の顧客<->エージェントダイアログの例を含む、Twitterのカスタマーサービスデータセットを活用する。

Customer service is a setting that calls for empathy in live human agent responses. Recent advances have demonstrated how open-domain chatbots can be trained to demonstrate empathy when responding to live human utterances. We show that a blended skills chatbot model that responds to customer queries is more likely to resemble actual human agent response if it is trained to recognize emotion and exhibit appropriate empathy, than a model without such training. For our analysis, we leverage a Twitter customer service dataset containing several million customer<->agent dialog examples in customer service contexts from 20 well-known brands.
翻訳日:2021-04-11 21:12:04 公開日:2021-01-05
# (参考訳) 部分観測可能なマルコフ決定過程のフィルタリングによるトレーニング結果の改善

Improving Training Result of Partially Observable Markov Decision Process by Filtering Beliefs ( http://arxiv.org/abs/2101.02178v1 )

ライセンス: CC BY 4.0
Oscar LiJen Hsu(参考訳) 本研究では,自律型ロボットや制御方針に関する多くの領域で広く用いられている,部分観測可能なマルコフ決定プロセス(POMDP)の性能向上のためのフィルタリング信念手法を提案する。 私の方法では 類似の信念のペアを 検索して比較します 同様の信念は制御政策に無意味な影響を与えるため、訓練時間を短縮するためにその信念は濾過される。 実験結果から,提案手法は,学習結果の質や手法の効率の点で,ポイントベース近似POMDPよりも優れていることが示された。

In this study I proposed a filtering beliefs method for improving performance of Partially Observable Markov Decision Processes(POMDPs), which is a method wildly used in autonomous robot and many other domains concerning control policy. My method search and compare every similar belief pair. Because a similar belief have insignificant influence on control policy, the belief is filtered out for reducing training time. The empirical results show that the proposed method outperforms the point-based approximate POMDPs in terms of the quality of training results as well as the efficiency of the method.
翻訳日:2021-04-11 21:05:02 公開日:2021-01-05
# (参考訳) 多言語音声感情認識における最小ショット分類のための固定maml

Fixed-MAML for Few Shot Classification in Multilingual Speech Emotion Recognition ( http://arxiv.org/abs/2101.01356v1 )

ライセンス: CC BY 4.0
Anugunj Naman, Liliana Mancini(参考訳) 本稿では,音声感情認識タスク(SER)に少数ショット学習を適用する可能性について分析する。 現在の音声感情認識モデルは、非常にうまく機能するが、入力が多言語であれば失敗する。 さらに、そのようなモデルをトレーニングする場合、トレーニングコーパスが広い場合にのみモデルの性能が適する。 大きなトレーニングコーパスが利用できることは、あまり人気がない言語やあいまいでない言語を選択する場合の重要な問題である。 我々は,この課題を数発学習問題にすることで,多言語主義と利用可能なデータの欠如という課題を解決しようとする。 N-ウェイK-ショット問題におけるすべてのNクラスが新しく、NとFがそれぞれ感情クラスの数と予め定義された固定クラスであるようなN+F経路問題を定義するという仮定を緩和することを提案する。 本稿では,モデル非依存メタラーニング(MAML)アルゴリズムを改良し,この問題を解き,新しいモデルF-MAMLと呼ぶ。 この修正は、オリジナルのMAMLよりもパフォーマンスが良く、EmoFilmデータセットよりも優れている。

In this paper, we analyze the feasibility of applying few-shot learning to speech emotion recognition task (SER). The current speech emotion recognition models work exceptionally well but fail when then input is multilingual. Moreover, when training such models, the models' performance is suitable only when the training corpus is vast. This availability of a big training corpus is a significant problem when choosing a language that is not much popular or obscure. We attempt to solve this challenge of multilingualism and lack of available data by turning this problem into a few-shot learning problem. We suggest relaxing the assumption that all N classes in an N-way K-shot problem be new and define an N+F way problem where N and F are the number of emotion classes and predefined fixed classes, respectively. We propose this modification to the Model-Agnostic MetaLearning (MAML) algorithm to solve the problem and call this new model F-MAML. This modification performs better than the original MAML and outperforms on EmoFilm dataset.
翻訳日:2021-04-11 20:59:32 公開日:2021-01-05
# (参考訳) 遅延を伴う確率制御問題に対する繰り返しニューラルネットワーク

Recurrent Neural Networks for Stochastic Control Problems with Delay ( http://arxiv.org/abs/2101.01385v1 )

ライセンス: CC BY 4.0
Jiequn Han, Ruimeng Hu(参考訳) 遅延を伴う確率的制御問題は、系の経路依存的特徴と固有高次元のため困難である。 本稿では,遅延特性を持つ確率的制御問題を解くために,ディープニューラルネットワークに基づくアルゴリズムを提案し,体系的に研究する。 具体的には、シーケンスモデリングにニューラルネットワークを用いる(\emph{e.g。 ポリシーをパラメータ化し、目的関数を最適化するために、長い短期記憶のようなリカレントニューラルネットワークを使用する。 提案アルゴリズムは,線形二乗問題,有限遅延の最適消費,完全メモリのポートフォリオ最適化の3つのベンチマーク例で検証した。 特に、再帰的ニューラルネットワークのアーキテクチャは、自然に経路依存機能を柔軟に捉え、フィードフォワードネットワークよりも効率的で安定したネットワークトレーニングでより良いパフォーマンスをもたらすことに気付きます。 完全なメモリを備えたポートフォリオ最適化では、無限の遅延が特徴である。

Stochastic control problems with delay are challenging due to the path-dependent feature of the system and thus its intrinsic high dimensions. In this paper, we propose and systematically study deep neural networks-based algorithms to solve stochastic control problems with delay features. Specifically, we employ neural networks for sequence modeling (\emph{e.g.}, recurrent neural networks such as long short-term memory) to parameterize the policy and optimize the objective function. The proposed algorithms are tested on three benchmark examples: a linear-quadratic problem, optimal consumption with fixed finite delay, and portfolio optimization with complete memory. Particularly, we notice that the architecture of recurrent neural networks naturally captures the path-dependent feature with much flexibility and yields better performance with more efficient and stable training of the network compared to feedforward networks. The superiority is even evident in the case of portfolio optimization with complete memory, which features infinite delay.
翻訳日:2021-04-11 20:38:50 公開日:2021-01-05
# (参考訳) to do or not: cost-sensitive causal decision-making

To do or not to do: cost-sensitive causal decision-making ( http://arxiv.org/abs/2101.01407v1 )

ライセンス: CC BY 4.0
Diego Olaya, Wouter Verbeke, Jente Van Belle, Marie-Anne Guerry(参考訳) 因果分類モデルは、プロセスインスタンスの特性に応じて、関心のカテゴリー的ビジネス成果に対する処理の効果を予測するために、さまざまな運用ビジネスプロセスに適用される。 これにより、運用上の意思決定を最適化し、ポジティブな結果率を最大化するために、特定のインスタンスに適用される最適な処理を選択することができる。 因果分類モデルを学ぶための文献には様々な強力なアプローチが提示されているが、様々な治療の費用と潜在的な結果の利益を考えると、推定された個々の治療効果に基づく最適な意思決定のための形式的な枠組みは定まっていない。 そこで本稿では,予測値フレームワークを拡張し,推定された個別処理効果の線形関数である二重二元因果分類のコスト依存性決定境界,積算結果の確率,問題設定のコストと利益パラメータを正式に導入する。 この境界は、コスト感受性の因果分類の目的として、期待される因果利益を最大化するために、正および負の処理クラスにおける因果分類のインスタンスを許容する。 本稿では,因果分類の対象となる条件ごとに,期待因果利益を最大化するためのインスタンスをランク付けする期待因果利益ランキングを,個々の処理効果に基づいて従来のランキングアプローチと異なるものに紹介する。 提案手法は,合成およびマーケティングキャンペーンデータセットを用いて実験的に評価する。 その結果,提案手法は費用不感なランキング手法を効果的に上回り,収益性を高めることができることがわかった。

Causal classification models are adopted across a variety of operational business processes to predict the effect of a treatment on a categorical business outcome of interest depending on the process instance characteristics. This allows optimizing operational decision-making and selecting the optimal treatment to apply in each specific instance, with the aim of maximizing the positive outcome rate. While various powerful approaches have been presented in the literature for learning causal classification models, no formal framework has been elaborated for optimal decision-making based on the estimated individual treatment effects, given the cost of the various treatments and the benefit of the potential outcomes. In this article, we therefore extend upon the expected value framework and formally introduce a cost-sensitive decision boundary for double binary causal classification, which is a linear function of the estimated individual treatment effect, the positive outcome probability and the cost and benefit parameters of the problem setting. The boundary allows causally classifying instances in the positive and negative treatment class to maximize the expected causal profit, which is introduced as the objective at hand in cost-sensitive causal classification. We introduce the expected causal profit ranker which ranks instances for maximizing the expected causal profit at each possible threshold for causally classifying instances and differs from the conventional ranking approach based on the individual treatment effect. The proposed ranking approach is experimentally evaluated on synthetic and marketing campaign data sets. The results indicate that the presented ranking method effectively outperforms the cost-insensitive ranking approach and allows boosting profitability.
翻訳日:2021-04-11 20:20:22 公開日:2021-01-05
# (参考訳) 新型コロナウイルス : ラベル付きデータを用いずに治療・ワクチン関連記事の識別方法の比較分析

COVID-19: Comparative Analysis of Methods for Identifying Articles Related to Therapeutics and Vaccines without Using Labeled Data ( http://arxiv.org/abs/2101.02017v1 )

ライセンス: CC BY 4.0
Mihir Parmar, Ashwin Karthik Ambalavanan, Hong Guan, Rishab Banerjee, Jitesh Pabla and Murthy Devarakonda(参考訳) 本稿では,テキスト中のタスク固有の用語(およびその同義語)の有無に基づいて,テキスト分類手法を分析する手法を提案する。 本研究は,6種類のトランスファーラーニングおよび非教師なし手法を用いて,新型コロナウイルスワクチンおよび治療関連項目のスクリーニングを行った。 分析の結果、検索エンジンの結果に基づいて訓練されたbertモデルは一般的にうまく機能するが、タスク固有の用語を含まない関連する抽象をミス分類した。 私たちはこの洞察を使って、より効果的な教師なしアンサンブルを作りました。

Here we proposed an approach to analyze text classification methods based on the presence or absence of task-specific terms (and their synonyms) in the text. We applied this approach to study six different transfer-learning and unsupervised methods for screening articles relevant to COVID-19 vaccines and therapeutics. The analysis revealed that while a BERT model trained on search-engine results generally performed well, it miss-classified relevant abstracts that did not contain task-specific terms. We used this insight to create a more effective unsupervised ensemble.
翻訳日:2021-04-11 19:53:46 公開日:2021-01-05
# (参考訳) モバイル食品グレーディングシステムにおけるサポートベクトルマシンとYOLO

Support Vector Machine and YOLO for a Mobile Food Grading System ( http://arxiv.org/abs/2101.01418v1 )

ライセンス: CC BY 4.0
Lili Zhu, Petros Spachos(参考訳) 食品の品質と安全性は、人間の健康だけでなく、社会開発や安定にも必須の保証であるため、社会にとって大きな関心事である。 食品の品質と安全性の確保は複雑なプロセスである。 全ての食品加工段階は、栽培、収穫、貯蔵から準備と消費まで考慮すべきである。 グレーディングは食品の品質を制御するための重要なプロセスの1つである。 本稿では,食品の品位評価を行うモバイル視覚システムを提案する。 具体的には,移動コンベア上でバナナの画像を取得する。 バナナの分類には機械学習に基づく2層画像処理システムを用い,これら2層をエッジデバイスとクラウドサーバにそれぞれ割り当てる。 Support Vector Machine (SVM)は、色とテクスチャの特徴からなる抽出された特徴ベクトルに基づいてバナナを分類する最初の層である。 次に、You Only Look Once (YOLO) v3 モデルにより、皮の欠陥領域を更に特定し、入力が中熟または熟成クラスに属するかどうかを決定する。 実験結果によると、第1層の性能は98.5%、第2層の精度は85.7%、全体の精度は96.4%であった。

Food quality and safety are of great concern to society since it is an essential guarantee not only for human health but also for social development, and stability. Ensuring food quality and safety is a complex process. All food processing stages should be considered, from cultivating, harvesting and storage to preparation and consumption. Grading is one of the essential processes to control food quality. This paper proposed a mobile visual-based system to evaluate food grading. Specifically, the proposed system acquires images of bananas when they are on moving conveyors. A two-layer image processing system based on machine learning is used to grade bananas, and these two layers are allocated on edge devices and cloud servers, respectively. Support Vector Machine (SVM) is the first layer to classify bananas based on an extracted feature vector composed of color and texture features. Then, the a You Only Look Once (YOLO) v3 model further locating the peel's defected area and determining if the inputs belong to the mid-ripened or well-ripened class. According to experimental results, the first layer's performance achieved an accuracy of 98.5% while the accuracy of the second layer is 85.7%, and the overall accuracy is 96.4%.
翻訳日:2021-04-11 19:46:50 公開日:2021-01-05
# (参考訳) 説明可能なAIとアルゴリズムアドバイザの採用:実験的検討

Explainable AI and Adoption of Algorithmic Advisors: an Experimental Study ( http://arxiv.org/abs/2101.02555v1 )

ライセンス: CC BY 4.0
Daniel Ben David, Yehezkel S. Resheff, Talia Tron(参考訳) 機械学習は、技術経験の共通部分になりつつある。 規制やユーザビリティを考慮した場合、説明可能なAI(XAI)の概念は、一貫性のある説明で意思決定を支援する能力を必要とする場合に魅力的である。 多くの研究機関がXAIのアルゴリズム的手法に取り組んできたが、人間の協力と自動システムの導入に最適な方法を決定する方法はまだ分かっていない。 本稿では,参加者が web ベースのゲームをプレイする実験手法を開発し,その中に人間あるいはアルゴリズムのアドバイザリからアドバイスを受け,実験条件によって異なる説明文を提示する。 我々は、基準に依存した意思決定フレームワークを使用して、時間とともにゲーム結果を評価し、様々な重要な状況において、異なるタイプの説明が採用する準備、支払いの意思、金融AIコンサルタントの信頼に影響を及ぼすかどうかを判断する。 初対面時の導入を促進する説明の種類は,失敗後,あるいはコストが掛かる場合に最も成功したものとは異なることがわかった。 さらに参加者は、説明を含むAIアドバイザの料金を喜んで支払う。 これらの結果は、アルゴリズムの採用と信頼のためのXAIの重要性に関する文献に重きを置いている。

Machine learning is becoming a commonplace part of our technological experience. The notion of explainable AI (XAI) is attractive when regulatory or usability considerations necessitate the ability to back decisions with a coherent explanation. A large body of research has addressed algorithmic methods of XAI, but it is still unclear how to determine what is best suited to create human cooperation and adoption of automatic systems. Here we develop an experimental methodology where participants play a web-based game, during which they receive advice from either a human or algorithmic advisor, accompanied with explanations that vary in nature between experimental conditions. We use a reference-dependent decision-making framework, evaluate the game results over time, and in various key situations, to determine whether the different types of explanations affect the readiness to adopt, willingness to pay and trust a financial AI consultant. We find that the types of explanations that promotes adoption during first encounter differ from those that are most successful following failure or when cost is involved. Furthermore, participants are willing to pay more for AI-advice that includes explanations. These results add to the literature on the importance of XAI for algorithmic adoption and trust.
翻訳日:2021-04-11 19:24:42 公開日:2021-01-05
# (参考訳) 大規模高次元データに対するデータ品質測定と効率的な評価アルゴリズム

Data Quality Measures and Efficient Evaluation Algorithms for Large-Scale High-Dimensional Data ( http://arxiv.org/abs/2101.01441v1 )

ライセンス: CC BY 4.0
Hyeongmin Cho, Sangkyun Lee(参考訳) 機械学習は、モバイルシステムにおけるオブジェクトや音声認識など、さまざまな応用分野で有効であることが証明されている。 機械学習の成功の鍵は、大規模なトレーニングデータの可用性にあるため、多くのデータセットが公開され、公開されている。 データコンシューマやマネージャの観点から見れば、データ品質の測定は学習プロセスにおける重要な第一歩です。 どのデータセットを使用するか、更新し、メンテナンスするかを判断する必要があります。 しかし、特に画像やビデオなどの大規模高次元データに関して、データ品質を測定するための実践的な方法は多くはない。 本稿では,データ品質の2つの重要な側面であるクラス分離性とクラス内可変性を計算可能な2つのデータ品質尺度を提案する。 従来のデータ品質指標はクラス分離性にのみ焦点をあてる傾向があるが、クラス内変動性も重要なデータ品質要因であることが示唆される。 ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点による品質測定を効率的に行うアルゴリズムを提案する。 実験では,我々の測度は小型データに対する古典的測度と互換性があり,大規模高次元データセット上でより効率的に計算できることを示す。

Machine learning has been proven to be effective in various application areas, such as object and speech recognition on mobile systems. Since a critical key to machine learning success is the availability of large training data, many datasets are being disclosed and published online. From a data consumer or manager point of view, measuring data quality is an important first step in the learning process. We need to determine which datasets to use, update, and maintain. However, not many practical ways to measure data quality are available today, especially when it comes to large-scale high-dimensional data, such as images and videos. This paper proposes two data quality measures that can compute class separability and in-class variability, the two important aspects of data quality, for a given dataset. Classical data quality measures tend to focus only on class separability; however, we suggest that in-class variability is another important data quality factor. We provide efficient algorithms to compute our quality measures based on random projections and bootstrapping with statistical benefits on large-scale high-dimensional data. In experiments, we show that our measures are compatible with classical measures on small-scale data and can be computed much more efficiently on large-scale high-dimensional datasets.
翻訳日:2021-04-11 19:11:49 公開日:2021-01-05
# (参考訳) 符号制約付きサポートベクターマシンの学習

Learning Sign-Constrained Support Vector Machines ( http://arxiv.org/abs/2101.01473v1 )

ライセンス: CC BY 4.0
Kenya Tajima, Takahiko Henmi, Kohei Tsuchida, Esmeraldo Ronnie R. Zara, and Tsuyoshi Kato(参考訳) ドメイン知識は学習機械の一般化性能を向上させるのに有用である。 サイン制約は、ドメイン知識と学習マシンを組み合わせるための便利な表現です。 本稿では,線形支持ベクトルマシンの学習において,重み係数の符号を制約し,符号制約下で経験的リスクを最小化するための2つの最適化アルゴリズムを考案する。 2つのアルゴリズムのうちの1つは、投影勾配法に基づいており、投影勾配法の各イテレーションは計算コストがo(nd)$であり、目的誤差のサブリニア収束が保証される。 第二のアルゴリズムはフランク=ウルフ法に基づいており、サブ線形に収束し、明確な終端基準を持つ。 Frank-Wolfeの各イテレーションは、$O(nd)$コストも必要である。 さらに、目的関数の曲率を分析することにより、最小の反復数に対する明示的な表現を導出し、$\epsilon$-accurate の解を保証する。 最後に,訓練例との類似性が特徴ベクトルを構成する場合,符号制約が有望な手法であることを実証的に示す。

Domain knowledge is useful to improve the generalization performance of learning machines. Sign constraints are a handy representation to combine domain knowledge with learning machine. In this paper, we consider constraining the signs of the weight coefficients in learning the linear support vector machine, and develop two optimization algorithms for minimizing the empirical risk under the sign constraints. One of the two algorithms is based on the projected gradient method, in which each iteration of the projected gradient method takes $O(nd)$ computational cost and the sublinear convergence of the objective error is guaranteed. The second algorithm is based on the Frank-Wolfe method that also converges sublinearly and possesses a clear termination criterion. We show that each iteration of the Frank-Wolfe also requires $O(nd)$ cost. Furthermore, we derive the explicit expression for the minimal iteration number to ensure an $\epsilon$-accurate solution by analyzing the curvature of the objective function. Finally, we empirically demonstrate that the sign constraints are a promising technique when similarities to the training examples compose the feature vector.
翻訳日:2021-04-11 18:39:37 公開日:2021-01-05
# (参考訳) ファウショット学習のための局所的伝播

Local Propagation for Few-Shot Learning ( http://arxiv.org/abs/2101.01480v1 )

ライセンス: CC BY 4.0
Yann Lifchitz, Yannis Avrithis, Sylvaine Picard(参考訳) 少数ショット学習の課題は、利用可能なデータが基盤となるディストリビューションをキャプチャするには不十分であることだ。 これを軽減するために、(a) 局所的な画像表現を用いて、基本的に定数係数でデータの量を乗算し、(b) よりラベルのないデータを用いて、例えば、トランスダクティブ推論によって、複数のクエリを共同で行う。 本研究では,これら2つのアイデアをまとめて,emph{local propagation}を導入する。 ローカルな画像の特徴を独立した例として扱い、それらの上にグラフを構築し、その特徴自体と、未知のラベルの両方を伝播させる。 興味深いことに、画像ごとに多数の機能があるため、単一のクエリでさえトランスダクティブ推論を引き起こす。 その結果、ノントランスダクティブ設定とトランスダクティブ設定の両方において、最小ショット推論に対する普遍的に安全な選択が得られ、対応する手法よりも精度が向上する。 これは、利用可能なデータ量に応じてメソッドを選択する必要がある既存のソリューションとは対照的である。

The challenge in few-shot learning is that available data is not enough to capture the underlying distribution. To mitigate this, two emerging directions are (a) using local image representations, essentially multiplying the amount of data by a constant factor, and (b) using more unlabeled data, for instance by transductive inference, jointly on a number of queries. In this work, we bring these two ideas together, introducing \emph{local propagation}. We treat local image features as independent examples, we build a graph on them and we use it to propagate both the features themselves and the labels, known and unknown. Interestingly, since there is a number of features per image, even a single query gives rise to transductive inference. As a result, we provide a universally safe choice for few-shot inference under both non-transductive and transductive settings, improving accuracy over corresponding methods. This is in contrast to existing solutions, where one needs to choose the method depending on the quantity of available data.
翻訳日:2021-04-11 18:03:15 公開日:2021-01-05
# (参考訳) マルチモーダル・アンペア画像分割のためのDeep Class-Specific Affinity-Guided Convolutional Network

Deep Class-Specific Affinity-Guided Convolutional Network for Multimodal Unpaired Image Segmentation ( http://arxiv.org/abs/2101.01513v1 )

ライセンス: CC BY 4.0
Jingkun Chen, Wenqi Li, Hongwei Li, Jianguo Zhang(参考訳) マルチモーダル医用画像分割は臨床診断において重要な役割を果たす。 入力モダリティはしばしば空間的に整列していないため、依然として困難である。 既存の学習ベースの手法では、トレーニング可能なレイヤをモダリティ間で共有し、視覚的特徴の相違を最小限に抑えることを主に検討している。 この問題は、しばしば共同教師付き特徴学習として定式化されるが、マルチスケール特徴とクラス固有の表現はまだ検討されていない。 本稿では,マルチモーダル画像分割のための親和性誘導完全畳み込みネットワークを提案する。 効果的な表現を学ぶために、階層的特徴推論の知識をエンコードするためにクラス固有の親和性行列を共有畳み込み層と共に設計し、相互モダリティの一般化を確実にする。 我々の親和性行列は視覚的特徴の空間的アライメントに依存しないので、不対向なマルチモーダル入力でトレーニングすることができる。 提案手法は,公開マルチモーダルベンチマークデータセットと最先端手法に比較して広範囲に評価した。

Multi-modal medical image segmentation plays an essential role in clinical diagnosis. It remains challenging as the input modalities are often not well-aligned spatially. Existing learning-based methods mainly consider sharing trainable layers across modalities and minimizing visual feature discrepancies. While the problem is often formulated as joint supervised feature learning, multiple-scale features and class-specific representation have not yet been explored. In this paper, we propose an affinity-guided fully convolutional network for multimodal image segmentation. To learn effective representations, we design class-specific affinity matrices to encode the knowledge of hierarchical feature reasoning, together with the shared convolutional layers to ensure the cross-modality generalization. Our affinity matrix does not depend on spatial alignments of the visual features and thus allows us to train with unpaired, multimodal inputs. We extensively evaluated our method on two public multimodal benchmark datasets and outperform state-of-the-art methods.
翻訳日:2021-04-11 16:08:39 公開日:2021-01-05
# (参考訳) ニューラルネットワークにおける雑音感度に基づくエネルギー効率とロバスト逆検出

Noise Sensitivity-Based Energy Efficient and Robust Adversary Detection in Neural Networks ( http://arxiv.org/abs/2101.01543v1 )

ライセンス: CC BY 4.0
Rachel Sterneck, Abhishek Moitra, Priyadarshini Panda(参考訳) ニューラルネットワークはコンピュータビジョンにおいて顕著な性能を達成したが、敵の例には弱い。 逆の例は、愚かな分類器ネットワークに注意深く浸透した入力であり、人間には変わらない。 本稿では,従来の敵検出手法に基づいて,検出サブネットワークを用いたディープニューラルネットワーク(DNN)の強化手法を提案する。 ネットワークの異なる中間層における逆勾配の寄与を測定するための新しい指標である$\textit{Adversarial Noise Sensitivity}$ (ANS) を用いる。 ANS値に基づいて、最も感度の高い層に検出器を付加する。 以前の研究では、より複雑な検出器がDNNに追加され、モデルの推論計算コストが増加した。 対照的に、DNNへの検出器の構造化と戦略的付加は、全体的なネットワークを逆向きにレジリエントにしながら、モデルの複雑さを低減します。 MNIST, CIFAR-10, CIFAR-100における包括的ホワイトボックスおよびブラックボックス実験により, 本手法は, 対向例に対する最先端検出器の堅牢性を向上することを示した。 さらに,様々なハードウェアでスケーラブルなCMOSアクセラレータプラットフォーム上でのエネルギー分析により,提案手法のエネルギー効率を検証した。 また,量子化が検出対象ネットワークに与える影響を実証する。

Neural networks have achieved remarkable performance in computer vision, however they are vulnerable to adversarial examples. Adversarial examples are inputs that have been carefully perturbed to fool classifier networks, while appearing unchanged to humans. Based on prior works on detecting adversaries, we propose a structured methodology of augmenting a deep neural network (DNN) with a detector subnetwork. We use $\textit{Adversarial Noise Sensitivity}$ (ANS), a novel metric for measuring the adversarial gradient contribution of different intermediate layers of a network. Based on the ANS value, we append a detector to the most sensitive layer. In prior works, more complex detectors were added to a DNN, increasing the inference computational cost of the model. In contrast, our structured and strategic addition of a detector to a DNN reduces the complexity of the model while making the overall network adversarially resilient. Through comprehensive white-box and black-box experiments on MNIST, CIFAR-10, and CIFAR-100, we show that our method improves state-of-the-art detector robustness against adversarial examples. Furthermore, we validate the energy efficiency of our proposed adversarial detection methodology through an extensive energy analysis on various hardware scalable CMOS accelerator platforms. We also demonstrate the effects of quantization on our detector-appended networks.
翻訳日:2021-04-11 15:56:31 公開日:2021-01-05
# (参考訳) 低光超高分解能シーケンスにおけるコンテキストカラー化とデノイジング

Contextual colorization and denoising for low-light ultra high resolution sequences ( http://arxiv.org/abs/2101.01597v1 )

ライセンス: CC BY 4.0
N. Anantrasirichai and David Bull(参考訳) 低照度画像シーケンスは通常、時空間的不整合ノイズ、フリック、移動物体のぼやけに悩まされる。 これらのアーティファクトは視覚的品質を大幅に低下させ、ほとんどの場合、許容できる品質を生成するために後処理が必要である。 機械学習に基づく最先端の強化手法の多くは、真理データを必要とするが、通常は自然に捕獲された低照度シーケンスでは利用できない。 我々はこれらの問題に,同時着色と着色を提供する未経験学習手法で対処する。 我々のアプローチはCycleGANの構造の適応である。 超高解像度コンテンツに関連する過大なメモリ制限を克服するため,我々は,ローカル機能とコンテキスト機能の両方をキャプチャするマルチスケールパッチベースフレームワークを提案する。 また,フレッカリングアーティファクトを除去するために適応的な時間平滑化手法が用いられる。 実験結果から,本手法は主観的品質の観点から既存手法よりも優れており,輝度レベルや雑音の変動に頑健であることがわかった。

Low-light image sequences generally suffer from spatio-temporal incoherent noise, flicker and blurring of moving objects. These artefacts significantly reduce visual quality and, in most cases, post-processing is needed in order to generate acceptable quality. Most state-of-the-art enhancement methods based on machine learning require ground truth data but this is not usually available for naturally captured low light sequences. We tackle these problems with an unpaired-learning method that offers simultaneous colorization and denoising. Our approach is an adaptation of the CycleGAN structure. To overcome the excessive memory limitations associated with ultra high resolution content, we propose a multiscale patch-based framework, capturing both local and contextual features. Additionally, an adaptive temporal smoothing technique is employed to remove flickering artefacts. Experimental results show that our method outperforms existing approaches in terms of subjective quality and that it is robust to variations in brightness levels and noise.
翻訳日:2021-04-11 14:58:53 公開日:2021-01-05
# (参考訳) look twice: タスクと種をまたいだ帰納固定の計算モデル

Look Twice: A Computational Model of Return Fixations across Tasks and Species ( http://arxiv.org/abs/2101.01611v1 )

ライセンス: CC BY 4.0
Mengmi Zhang, Will Xiao, Olivia Rose, Katarina Bendtz, Margaret Livingstone, Carlos Ponce, Gabriel Kreiman(参考訳) サケード眼球運動により、動物は画像の異なる部分を高解像度にすることができる。 自由視聴中、リターンの抑制は、以前に訪れた場所を妨げて探検を動機付ける。 この抑制にもかかわらず、被験者は頻繁にリターン固定を行う。 サルとヒトの217,440件のうち44,328件の返却固定を静的画像や自我中心の動画で系統的に検討した。 ユビキタスリターン固定は被験者間で一貫しており、短いオフセットで発生する傾向があり、非リターン固定よりも長い期間が特徴であった。 返却固定位置は, 視覚探索作業において, 検索対象と高い精度と高い類似性を示す画像領域に対応していた。 本稿では,物体認識のための深層畳み込みニューラルネットワークを活用し,固定のシーケンスを予測する,生物学的にインスパイアされた計算モデルを提案する。 入力画像が与えられると、モデルは次のサッケードの位置を制約する4つのマップを計算します:サッケードマップ、ターゲットの類似度マップ、サッケードサイズマップ、メモリマップ。 このモデルは頻繁にリターンフィクスメントを示し、タスクや種間でリターンフィクスレーションの特性を近似する。 このモデルでは,情報的画像位置の活用とシーン視聴時の新たな画像位置の探索のトレードオフを把握するための最初のステップを提供する。

Saccadic eye movements allow animals to bring different parts of an image into high-resolution. During free viewing, inhibition of return incentivizes exploration by discouraging previously visited locations. Despite this inhibition, here we show that subjects make frequent return fixations. We systematically studied a total of 44,328 return fixations out of 217,440 fixations across different tasks, in monkeys and humans, and in static images or egocentric videos. The ubiquitous return fixations were consistent across subjects, tended to occur within short offsets, and were characterized by longer duration than non-return fixations. The locations of return fixations corresponded to image areas of higher saliency and higher similarity to the sought target during visual search tasks. We propose a biologically-inspired computational model that capitalizes on a deep convolutional neural network for object recognition to predict a sequence of fixations. Given an input image, the model computes four maps that constrain the location of the next saccade: a saliency map, a target similarity map, a saccade size map, and a memory map. The model exhibits frequent return fixations and approximates the properties of return fixations across tasks and species. The model provides initial steps towards capturing the trade-off between exploitation of informative image locations combined with exploration of novel image locations during scene viewing.
翻訳日:2021-04-11 14:48:02 公開日:2021-01-05
# (参考訳) 自己エンコーディング分子コンフォメーション

Auto-Encoding Molecular Conformations ( http://arxiv.org/abs/2101.01618v1 )

ライセンス: CC BY 4.0
Robin Winter, Frank No\'e, Djork-Arn\'e Clevert(参考訳) 本稿では,分子コンフォメーションのためのオートエンコーダを提案する。 提案モデルでは,分子グラフ(コンフォーメーション)内の原子の離散的な空間配置を連続的な固定サイズの潜在表現に変換する。 この潜在表現では、類似のコンフォメーションがクラスタ化され、異なるコンフォメーションが分割される。 さらに、分子配座の大きなデータセット上で確率モデルをトレーニングすることにより、我々のモデルが与えられた分子に対して様々なエネルギー的に好適な配座を生成する方法を示す。 最後に, 連続表現により, 最適な空間的性質に適合した分子を見つけるための最適化手法が有効であることを示す。

In this work we introduce an Autoencoder for molecular conformations. Our proposed model converts the discrete spatial arrangements of atoms in a given molecular graph (conformation) into and from a continuous fixed-sized latent representation. We demonstrate that in this latent representation, similar conformations cluster together while distinct conformations split apart. Moreover, by training a probabilistic model on a large dataset of molecular conformations, we demonstrate how our model can be used to generate diverse sets of energetically favorable conformations for a given molecule. Finally, we show that the continuous representation allows us to utilize optimization methods to find molecules that have conformations with favourable spatial properties.
翻訳日:2021-04-11 14:46:57 公開日:2021-01-05
# (参考訳) 見出し型転送における自動評価とタスクフレーミングの相互作用について

On the interaction of automatic evaluation and task framing in headline style transfer ( http://arxiv.org/abs/2101.01634v1 )

ライセンス: CC BY 4.0
Lorenzo De Mattei, Michele Cafagna, Huiyuan Lai, Felice Dell'Orletta, Malvina Nissim, Albert Gatt(参考訳) NLGコミュニティで進行中の議論は、コーパスベースの指標と比較して、人的評価が最も信頼性の高い方法であるとして、システムを評価する最良の方法に関するものである。 しかし、スタイル転送などの微妙なテキストの差異を伴うタスクは、人間が実行するのが難しい傾向がある。 本稿では,目的学習型分類器に基づく評価手法を提案し,BLEUやROUGEといった従来の指標よりもシステム差を反映した手法を提案する。

An ongoing debate in the NLG community concerns the best way to evaluate systems, with human evaluation often being considered the most reliable method, compared to corpus-based metrics. However, tasks involving subtle textual differences, such as style transfer, tend to be hard for humans to perform. In this paper, we propose an evaluation method for this task based on purposely-trained classifiers, showing that it better reflects system differences than traditional metrics such as BLEU and ROUGE.
翻訳日:2021-04-11 14:23:24 公開日:2021-01-05
# (参考訳) 行動予測強化のための理論に基づく習慣モデル

Theory-based Habit Modeling for Enhancing Behavior Prediction ( http://arxiv.org/abs/2101.01637v1 )

ライセンス: CC BY 4.0
Chao Zhang, Joaquin Vanschoren, Arlette van Wissen, Daniel Lakens, Boris de Ruyter, and Wijnand A. IJsselsteijn(参考訳) 習慣の心理学的理論は、強い習慣が行動の反復によって形成されるとき、同じ環境で自動的に行動を起こすと仮定する。 習慣と行動の相互関係を考えると、ライフスタイルの変化(例えば歯ブラシ)は、主に古い習慣を破り、新しい健康な習慣を創造するタスクである。 このように、ユーザの習慣の強さを表すことは、行動変化支援システム(BCSS)にとって非常に有用であり、例えば、行動予測や介入が意図した効果に達するかどうかの決定に役立ちます。 しかし、習慣の強さは直接観察できず、既存の自己申告措置はユーザに課税されている。 本稿では,最近の習慣形成の計算モデルに基づいて,知的システムが観察可能な行動に基づいて習慣強度を計算する方法を提案する。 2つの介入研究から得られたデータを用いて,1日2回歯を磨くことを3週間訓練し,加速度計を用いて行動監視を行った。 階層的クロスバリデーションにより, 将来のブラッシング行動を予測する作業において, 計算された習慣強度は, 自己申告された習慣強さよりも明らかに優れており, 過去の行動頻度に基づくモデルよりも優れていることがわかった。 本研究は,ユーザの習慣をモデル化する理論に基づくアプローチを最初に支援し,個人化された適応的な介入を実現するための習慣計算の利用を促す。

Psychological theories of habit posit that when a strong habit is formed through behavioral repetition, it can trigger behavior automatically in the same environment. Given the reciprocal relationship between habit and behavior, changing lifestyle behaviors (e.g., toothbrushing) is largely a task of breaking old habits and creating new and healthy ones. Thus, representing users' habit strengths can be very useful for behavior change support systems (BCSS), for example, to predict behavior or to decide when an intervention reaches its intended effect. However, habit strength is not directly observable and existing self-report measures are taxing for users. In this paper, built on recent computational models of habit formation, we propose a method to enable intelligent systems to compute habit strength based on observable behavior. The hypothesized advantage of using computed habit strength for behavior prediction was tested using data from two intervention studies, where we trained participants to brush their teeth twice a day for three weeks and monitored their behaviors using accelerometers. Through hierarchical cross-validation, we found that for the task of predicting future brushing behavior, computed habit strength clearly outperformed self-reported habit strength (in both studies) and was also superior to models based on past behavior frequency (in the larger second study). Our findings provide initial support for our theory-based approach of modeling user habits and encourages the use of habit computation to deliver personalized and adaptive interventions.
翻訳日:2021-04-11 14:15:21 公開日:2021-01-05
# (参考訳) ソフト振動センサの単眼深度推定

Monocular Depth Estimation for Soft Visuotactile Sensors ( http://arxiv.org/abs/2101.01677v1 )

ライセンス: CC BY 4.0
Rares Ambrus, Vitor Guizilini, Naveen Kuppuswamy, Andrew Beaulieu, Adrien Gaidon, Alex Alspach(参考訳) ソフトバブルのような流体充填型ソフトビゾタクティルセンサーは、接触形状や力に対する高精度な感覚フィードバックを得る能力とともに、信頼性の高い把握を可能にするため、堅牢な操作において重要な課題を軽減する。 構造は単純だが、表面の変形を直接測定するカスタムIR/深度イメージングセンサーによって生じる大きさの制約により、実用性は制限されている。 この限界を緩和するために, 内部の小型赤外線イメージングセンサから直接内部(触覚)の深度マップを推定するために, 最先端の単眼深度推定法を適用した。 実世界実験により, 深層ネットワークは, ほとんどがテクスチャレス変形可能な流体充填センサ内のより短い範囲 (1-100mm) で精度の高い予測を行うために効果的に訓練できることを示した。 そこで本研究では,10秒未満のランダムポーズを必要とする物体認識ネットワークを,少量の多様な物体(マグ,ワイングラス,ボックス,指)に対して簡単な教師付き学習プロセスを提案する。 私たちのアプローチはサンプル効率が高く、精度が高く、トレーニング時に認識できないさまざまなオブジェクトやセンサ構成を一般化する。 最後に, ソフト振動センサとグリッパーの設計における我々のアプローチの意義について考察する。

Fluid-filled soft visuotactile sensors such as the Soft-bubbles alleviate key challenges for robust manipulation, as they enable reliable grasps along with the ability to obtain high-resolution sensory feedback on contact geometry and forces. Although they are simple in construction, their utility has been limited due to size constraints introduced by enclosed custom IR/depth imaging sensors to directly measure surface deformations. Towards mitigating this limitation, we investigate the application of state-of-the-art monocular depth estimation to infer dense internal (tactile) depth maps directly from the internal single small IR imaging sensor. Through real-world experiments, we show that deep networks typically used for long-range depth estimation (1-100m) can be effectively trained for precise predictions at a much shorter range (1-100mm) inside a mostly textureless deformable fluid-filled sensor. We propose a simple supervised learning process to train an object-agnostic network requiring less than 10 random poses in contact for less than 10 seconds for a small set of diverse objects (mug, wine glass, box, and fingers in our experiments). We show that our approach is sample-efficient, accurate, and generalizes across different objects and sensor configurations unseen at training time. Finally, we discuss the implications of our approach for the design of soft visuotactile sensors and grippers.
翻訳日:2021-04-11 13:46:54 公開日:2021-01-05
# (参考訳) 金融異常検出のための時間的知識蒸留によるラベル増強

Label Augmentation via Time-based Knowledge Distillation for Financial Anomaly Detection ( http://arxiv.org/abs/2101.01689v1 )

ライセンス: CC BY 4.0
Hongda Shen, Eren Kursun(参考訳) 金融サービス業界では異常検出がますます重要になっている。 異常な出来事は詐欺、身元盗難、ネットワーク侵入、アカウントの乗っ取り、マネーロンダリングなどの違法行為を示すことが多い。 金融異常検出のユースケースは、特に不正戦術を常に変化させるような敵環境において、基礎となるパターンの動的な性質によって深刻な課題に直面している。 新しいパターンでモデルを再トレーニングすることは極めて重要です。迅速な変更に遅れず、古いパターンからモデルを取り除いたり、トレーニングデータのサイズを継続的に拡大するなど、他の課題も伴います。 結果として生じるデータ成長は管理が難しく、最新の攻撃に対するモデルの反応のアジリティを低下させる。 データサイズが制限され、最新のパターンを追跡する必要が生じたため、古い期間が実際に減少することが多く、結果として脆弱性が生じる。 本研究では,古いモデルからの学習を最新のモデルに活用するためのラベル拡張手法を提案する。 実験の結果,提案手法は学習時間を大幅に削減でき,性能改善の可能性も示唆された。

Detecting anomalies has become increasingly critical to the financial service industry. Anomalous events are often indicative of illegal activities such as fraud, identity theft, network intrusion, account takeover, and money laundering. Financial anomaly detection use cases face serious challenges due to the dynamic nature of the underlying patterns especially in adversarial environments such as constantly changing fraud tactics. While retraining the models with the new patterns is absolutely essential; keeping up with the rapid changes introduces other challenges as it moves the model away from older patterns or continuously grows the size of the training data. The resulting data growth is hard to manage and it reduces the agility of the models' response to the latest attacks. Due to the data size limitations and the need to track the latest patterns, older time periods are often dropped in practice, which in turn, causes vulnerabilities. In this study, we propose a label augmentation approach to utilize the learning from older models to boost the latest. Experimental results show that the proposed approach provides a significant reduction in training time, while providing potential performance improvement.
翻訳日:2021-04-11 13:34:32 公開日:2021-01-05
# (参考訳) プロデューサーの商業性予測のための映画分析

Analyzing movies to predict their commercial viability for producers ( http://arxiv.org/abs/2101.01697v1 )

ライセンス: CC BY 4.0
Devendra Swami, Yash Phogat, Aadiraj Batlaw, Ashwin Goyal(参考訳) 映画が上映されると、大きな憶測が映画の相対的な成功を懸念している。 この相対性理論は、しばしば大予算のブロックバスターが断続的な失敗で例外的な成功を収めたために、映画の当初の予算に関して特に重要である。 では、今後の映画の成功をどうやって予測するのか? 本稿では,今後のフィルムの返却を予測できるモデルを開発するために,膨大なフィルムデータについて検討した。 まず、各フィルムごとにゲノムタグとともに、共通の映画属性を持つmovielensデータセットから始めました。 ゲノムタグは、フィルムのどの特性が最も有意義であるかを洞察する。 その後、映画コンテンツ、キャスト/クリュー、オーディエンス知覚、予算、tmdb、imdb、metacritic webサイトからの収益に関する追加機能を加えました。 次に探索的データ分析を行い,利用可能な特徴の履歴情報を収集する幅広い新機能を考案した。 その後, 特異値分解(SVD)を用いて高次元特徴の次元的縮小を行った。 ゲノムタグ)。 最後に,ランダムフォレスト分類器を構築し,モデル精度を最適化するためにハイパーパラメータチューニングを行った。 本モデルの将来の応用は、映画業界で見ることができ、プロダクション企業は、想定された生産手順の概要に基づいて、期待されたプロジェクトリターンをより良い予測が可能となり、最適なリターンを達成するために計画の修正が可能となる。

Upon film premiere, a major form of speculation concerns the relative success of the film. This relativity is in particular regards to the film's original budget, as many a time have big-budget blockbusters been met with exceptional success as met with abject failure. So how does one predict the success of an upcoming film? In this paper, we explored a vast array of film data in an attempt to develop a model that could predict the expected return of an upcoming film. The approach to this development is as follows: First, we began with the MovieLens dataset having common movie attributes along with genome tags per each film. Genome tags give insight into what particular characteristics of the film are most salient. We then included additional features regarding film content, cast/crew, audience perception, budget, and earnings from TMDB, IMDB, and Metacritic websites. Next, we performed exploratory data analysis and engineered a wide range of new features capturing historical information for the available features. Thereafter, we used singular value decomposition (SVD) for dimensionality reduction of the high dimensional features (ex. genome tags). Finally, we built a Random Forest Classifier and performed hyper-parameter tuning to optimize for model accuracy. A future application of our model could be seen in the film industry, allowing production companies to better predict the expected return of their projects based on their envisioned outline for their production procedure, thereby allowing them to revise their plan in an attempt to achieve optimal returns.
翻訳日:2021-04-11 13:28:22 公開日:2021-01-05
# (参考訳) AutoDropout: 深いネットワークを規則化するドロップアウトパターンを学ぶ

AutoDropout: Learning Dropout Patterns to Regularize Deep Networks ( http://arxiv.org/abs/2101.01761v1 )

ライセンス: CC BY 4.0
Hieu Pham, Quoc V. Le(参考訳) ニューラルネットワークはしばしば過度にパラメータ化され、アグレッシブな正規化の恩恵を受ける。 ドロップアウトやウェイト崩壊のような従来の正規化手法では、ネットワークの入力や隠れ状態の構造を利用できない。 結果として、これらの従来の手法は、空間ドロップアウトやドロップブロックのような、隠れた状態の特定の連続した領域の値をランダムにドロップしてゼロに設定する手法よりも効果が低い。 ドロップアウトエリアの位置はランダムだが、SpatialDropoutとDropBlockのパターンは手動で設計、固定されている。 ここでは、ドロップアウトパターンを学ぶことを提案する。 本手法では, ConvNet や Transformer などのターゲットネットワークの各チャネルおよびレイヤにおいて, コントローラがドロップアウトパターンを生成することを学習する。 その後、ターゲットネットワークをドロップアウトパターンでトレーニングし、その結果の検証性能をコントローラが学習するための信号として使用する。 本手法は,CIFAR-10 と ImageNet 上の画像認識と Penn Treebank および WikiText-2 上の言語モデリングに有効であることを示す。 学習したドロップアウトパターンは、penn treebankの言語モデルからwmt 2014のengligh- french translationまで、さまざまなタスクやデータセットに転送される。 私たちのコードは利用可能です。

Neural networks are often over-parameterized and hence benefit from aggressive regularization. Conventional regularization methods, such as Dropout or weight decay, do not leverage the structures of the network's inputs and hidden states. As a result, these conventional methods are less effective than methods that leverage the structures, such as SpatialDropout and DropBlock, which randomly drop the values at certain contiguous areas in the hidden states and setting them to zero. Although the locations of dropout areas random, the patterns of SpatialDropout and DropBlock are manually designed and fixed. Here we propose to learn the dropout patterns. In our method, a controller learns to generate a dropout pattern at every channel and layer of a target network, such as a ConvNet or a Transformer. The target network is then trained with the dropout pattern, and its resulting validation performance is used as a signal for the controller to learn from. We show that this method works well for both image recognition on CIFAR-10 and ImageNet, as well as language modeling on Penn Treebank and WikiText-2. The learned dropout patterns also transfers to different tasks and datasets, such as from language model on Penn Treebank to Engligh-French translation on WMT 2014. Our code will be available.
翻訳日:2021-04-11 13:21:41 公開日:2021-01-05
# (参考訳) ニューラルネットワーク制御器を用いた閉ループシステムの効率的な到達性解析

Efficient Reachability Analysis of Closed-Loop Systems with Neural Network Controllers ( http://arxiv.org/abs/2101.01815v1 )

ライセンス: CC BY 4.0
Michael Everett, Golnaz Habibi, Jonathan P. How(参考訳) ニューラルネットワーク(NN)は、ロボットシステムに大きな経験的パフォーマンス改善を提供するが、これらのシステムの安全性特性を公式に解析する上での課題も導入する。 特に、この研究はnnコントローラを用いたクローズドループシステムの前方到達可能集合の推定に焦点を当てている。 最近の研究は、これらの到達可能な集合の境界を提供するが、計算効率の良いアプローチは(有用性を検証するのに使用できない)過度に保守的な境界を提供する。 この研究はnnコントローラを用いた閉ループシステムの到達可能性解析のための凸最適化問題を定式化することでギャップを埋める。 解は半定値のプログラムベースの手法よりも厳密でないが、計算は極めて高速であり、利用可能な計算時間の一部は、厳密性ギャップを克服するよりも、入力集合分割によって境界を洗練するために使うことができる。 提案手法は,不確実性のある現実的なシステムに適用可能な,計測およびプロセスノイズのあるシステムについても検討する。 最後に、数値比較により、計算時間の10\times$が、最先端と比較して計算時間の$\frac{1}{2}$で減少し、様々な不確実性源を扱う能力が四重項モデル上で強調される。

Neural Networks (NNs) can provide major empirical performance improvements for robotic systems, but they also introduce challenges in formally analyzing those systems' safety properties. In particular, this work focuses on estimating the forward reachable set of closed-loop systems with NN controllers. Recent work provides bounds on these reachable sets, yet the computationally efficient approaches provide overly conservative bounds (thus cannot be used to verify useful properties), whereas tighter methods are too intensive for online computation. This work bridges the gap by formulating a convex optimization problem for reachability analysis for closed-loop systems with NN controllers. While the solutions are less tight than prior semidefinite program-based methods, they are substantially faster to compute, and some of the available computation time can be used to refine the bounds through input set partitioning, which more than overcomes the tightness gap. The proposed framework further considers systems with measurement and process noise, thus being applicable to realistic systems with uncertainty. Finally, numerical comparisons show $10\times$ reduction in conservatism in $\frac{1}{2}$ of the computation time compared to the state-of-the-art, and the ability to handle various sources of uncertainty is highlighted on a quadrotor model.
翻訳日:2021-04-11 12:38:40 公開日:2021-01-05
# (参考訳) ミニバッチ最適輸送距離の解析とその応用

Minibatch optimal transport distances; analysis and applications ( http://arxiv.org/abs/2101.01792v1 )

ライセンス: CC BY 4.0
Kilian Fatras, Younes Zine, Szymon Majewski, R\'emi Flamary, R\'emi Gribonval, Nicolas Courty(参考訳) 最適輸送距離は確率分布を比較するための古典的なツールとなり、機械学習に多くの応用を見出した。 しかし、最近のアルゴリズム開発にもかかわらず、その複雑さは大規模なデータセットでの使用を妨げている。 この課題を克服するため、一般的な回避策はミニバッチ上でこれらの距離を計算することである。 より小さな輸送問題の結果を 平均化しています 本稿では,本手法の広範な分析を行い,その効果を限定したケースで検討した。 まず,多種多様な最適輸送核を考える。 特に、ミニバッチ戦略は、偏りのない推定器、勾配、期待値の周りに有界な濃度などの魅力的な性質が伴うが、同時に制限がある:ミニバッチ OT は距離ではない。 失われた距離公理のいくつかを回復するために、debiased minibatch ot関数を導入し、その統計的および最適化特性について検討する。 また, この理論解析とともに, 勾配流, 生成的逆ネットワーク (gans) や色彩伝達に関する経験的実験を行い, この戦略の実用的関心を浮き彫りにする。

Optimal transport distances have become a classic tool to compare probability distributions and have found many applications in machine learning. Yet, despite recent algorithmic developments, their complexity prevents their direct use on large scale datasets. To overcome this challenge, a common workaround is to compute these distances on minibatches i.e. to average the outcome of several smaller optimal transport problems. We propose in this paper an extended analysis of this practice, which effects were previously studied in restricted cases. We first consider a large variety of Optimal Transport kernels. We notably argue that the minibatch strategy comes with appealing properties such as unbiased estimators, gradients and a concentration bound around the expectation, but also with limits: the minibatch OT is not a distance. To recover some of the lost distance axioms, we introduce a debiased minibatch OT function and study its statistical and optimisation properties. Along with this theoretical analysis, we also conduct empirical experiments on gradient flows, generative adversarial networks (GANs) or color transfer that highlight the practical interest of this strategy.
翻訳日:2021-04-11 11:59:52 公開日:2021-01-05
# 画像中の連結成分をカウントするディープニューラルネットワークの能力の理解

Understanding the Ability of Deep Neural Networks to Count Connected Components in Images ( http://arxiv.org/abs/2101.01386v1 )

ライセンス: Link先を確認
Shuyue Guan, Murray Loew(参考訳) 人間は減量によって非常に速く数えられるが、物体の数が増加するにつれて著しく遅くなる。 これまでの研究では、訓練されたディープニューラルネットワーク(DNN)検出器が、オブジェクトの数とともにゆっくりと増加する時間にオブジェクトの数をカウントできることが示されている。 このような現象は、DNNの減数化能力を示しているが、人間とは異なり、多人数でも同様に機能する。 既存の多くの研究がオブジェクトカウントにDNNをうまく応用しているが、DNNの減数化能力とその解釈に関する研究は少ない。 本稿では,DNNが一般に接続されたコンポーネントを数える能力を持っていないことを示す。 我々は,これらの実験の結果と現象を理解するために,結論と説明を支援する実験を行った。 DNNのようなMLモデルの学習可能な問題を検証するための3つのML学習可能特性を提案し、DNNが特定のカウント問題に対して機能するが、一般に接続されたコンポーネントをカウントできない理由を説明する。

Humans can count very fast by subitizing, but slow substantially as the number of objects increases. Previous studies have shown a trained deep neural network (DNN) detector can count the number of objects in an amount of time that increases slowly with the number of objects. Such a phenomenon suggests the subitizing ability of DNNs, and unlike humans, it works equally well for large numbers. Many existing studies have successfully applied DNNs to object counting, but few studies have studied the subitizing ability of DNNs and its interpretation. In this paper, we found DNNs do not have the ability to generally count connected components. We provided experiments to support our conclusions and explanations to understand the results and phenomena of these experiments. We proposed three ML-learnable characteristics to verify learnable problems for ML models, such as DNNs, and explain why DNNs work for specific counting problems but cannot generally count connected components.
翻訳日:2021-04-11 11:47:09 公開日:2021-01-05
# 視覚における注意過程の制御について

On the Control of Attentional Processes in Vision ( http://arxiv.org/abs/2101.01533v1 )

ライセンス: Link先を確認
John K. Tsotsos, Omar Abid, Iuliia Kotseruba, Markus D. Solbach(参考訳) 視覚における注意処理の研究は、長く深い歴史を持っている。 最近、脳内の複数の注意機能がどのように協調するかについての洞察に富んだ見解を提示する論文がいくつかある。 これらは実験的な観察から始まり、著者らはこれらの観察を説明する構造、プロセス、計算を提案する。 本稿では,過去の作品が実験的に基礎づけられた作品に対する補完的アプローチとして捉えた。 我々は過去の著者と同じ問題にアプローチするが、マーの計算レベルが規定する問題の性質から計算スペクトルの他の端からアプローチする。 人間が得意とする無数の空間的タスクの1つを成功させるために注意のプロセスを調整するとき、脳はどんな問題を解決する必要があるだろうか? もちろん、アプローチが最終的に一致し、完全な理論を形成することを願っているが、これはすぐにはありそうにない。 注意制御の必要性に対処し、人間の行動にみられる視覚的・注意的タスクの幅と計算上の困難を検証し、脳内での注意制御がどのように起こるかのスケッチを提案する。 本論文の重要な結論は、視覚における人間の注意機能にはエグゼクティブコントローラが必要であり、その理解には、実験観察から直接モデリングや学習に焦点を当てた以前のアプローチと相補的な「第一原理」計算アプローチが存在することである。

The study of attentional processing in vision has a long and deep history. Recently, several papers have presented insightful perspectives into how the coordination of multiple attentional functions in the brain might occur. These begin with experimental observations and the authors propose structures, processes, and computations that might explain those observations. Here, we consider a perspective that past works have not, as a complementary approach to the experimentally-grounded ones. We approach the same problem as past authors but from the other end of the computational spectrum, from the problem nature, as Marr's Computational Level would prescribe. What problem must the brain solve when orchestrating attentional processes in order to successfully complete one of the myriad possible visuospatial tasks at which we as humans excel? The hope, of course, is for the approaches to eventually meet and thus form a complete theory, but this is likely not soon. We make the first steps towards this by addressing the necessity of attentional control, examining the breadth and computational difficulty of the visuospatial and attentional tasks seen in human behavior, and suggesting a sketch of how attentional control might arise in the brain. The key conclusions of this paper are that an executive controller is necessary for human attentional function in vision, and that there is a 'first principles' computational approach to its understanding that is complementary to the previous approaches that focus on modelling or learning from experimental observations directly.
翻訳日:2021-04-11 11:46:54 公開日:2021-01-05
# 適応的特徴を用いた強化学習に基づく集団エンティティアライメント

Reinforcement Learning based Collective Entity Alignment with Adaptive Features ( http://arxiv.org/abs/2101.01353v1 )

ライセンス: Link先を確認
Weixin Zeng, Xiang Zhao, Jiuyang Tang, Xuemin Lin and Paul Groth(参考訳) エンティティアライメント(EA)は、同じ現実世界のオブジェクトを参照しているが異なる知識グラフ(KG)にあるエンティティを識別するタスクである。 エンティティをアライメントするために、既存のEAソリューションはそれらを別々に扱い、反対側のエンティティのランキングとしてアライメント結果を生成する。 しかしながら、この意思決定パラダイムは、エンティティ間の相互依存を考慮して失敗する。 近年の取り組みでは、アライメントプロセスに1-to-1制約を課すことでこの問題を緩和しているが、基礎となる相互依存性を適切にモデル化することはできない。 このギャップを埋めるため、この作業では、意思決定プロセスのダイナミクスを調べ、エンティティをまとめるための強化学習(rl)ベースのモデルを提供します。 rlフレームワークの下では、相互依存を特徴付けるために一貫性と排他性制約を考案し、集団的アライメントを制限する。 さらに、RLフレームワークへのより正確な入力を生成するために、適応的特徴融合戦略によって統合される異種KGにおけるエンティティ間の類似性の異なる側面を捉えるために、代表的特徴を用いる。 提案手法は,言語間および単言語間のEAベンチマークで評価し,最先端のソリューションと比較した。 実験結果は,その有効性と優越性を検証する。

Entity alignment (EA) is the task of identifying the entities that refer to the same real-world object but are located in different knowledge graphs (KGs). For entities to be aligned, existing EA solutions treat them separately and generate alignment results as ranked lists of entities on the other side. Nevertheless, this decision-making paradigm fails to take into account the interdependence among entities. Although some recent efforts mitigate this issue by imposing the 1-to-1 constraint on the alignment process, they still cannot adequately model the underlying interdependence and the results tend to be sub-optimal. To fill in this gap, in this work, we delve into the dynamics of the decision-making process, and offer a reinforcement learning (RL) based model to align entities collectively. Under the RL framework, we devise the coherence and exclusiveness constraints to characterize the interdependence and restrict collective alignment. Additionally, to generate more precise inputs to the RL framework, we employ representative features to capture different aspects of the similarity between entities in heterogeneous KGs, which are integrated by an adaptive feature fusion strategy. Our proposal is evaluated on both cross-lingual and mono-lingual EA benchmarks and compared against state-of-the-art solutions. The empirical results verify its effectiveness and superiority.
翻訳日:2021-04-11 11:46:31 公開日:2021-01-05
# 属性認識単語埋め込みを用いたニュース記事の政治的非分極化

Political Depolarization of News Articles Using Attribute-aware Word Embeddings ( http://arxiv.org/abs/2101.01391v1 )

ライセンス: Link先を確認
Ruibo Liu, Lili Wang, Chenyan Jia, Soroush Vosoughi(参考訳) 米国では政治的分極が増加している。 この分極は、イデオロギーエコーチャンバーの生成に寄与することで公共の球体に悪影響を及ぼす。 本稿では,この偏光性・偏光性メディアに寄与する要因の1つに焦点をあてる。 ニュース記事の非分極化のための枠組みを提案する。 特定のイデオロギー的スラント(リベラルあるいは保守的な)のあるトピックに関する記事が与えられたとき、このフレームワークはまず記事の中の極性言語を検出し、その後極性言語を中立表現に置き換えた新しい記事を生成する。 極性単語を検出するために,360kのメディア記事のイデオロギーや話題を認識する多属性単語埋め込みモデルを訓練する。 次に,テキスト生成のための新しいアルゴリズムであるtext annealing depolarization algorithm (tada)を提案する。 TADAは、イデオロギーの極性を減少させるだけでなく、文法的正しさを維持しつつ、テキストの元の引数を保っている単語埋め込みモデルから中立表現を検索する。 11のトピックにまたがる99のストーリーに対して,本モデルの非分極出力を完全自動と半自動の2つのモードで比較することにより,我々のフレームワークを評価する。 161人のテスタからのフィードバックに基づき,本フレームワークは半自動モードで90.1%,全自動モードで78.3%を脱分極した。 さらに、被験者の81.2%は、非極性コンテンツ情報は保存状態が良く、79%は、原文と非極性テキストを比較した場合、非極性が意味的正確性に影響を与えないことに同意している。 我々の研究は、データ駆動手法が政治的極性を見つけるのに役立ち、記事の非極性化を助けることを示している。

Political polarization in the US is on the rise. This polarization negatively affects the public sphere by contributing to the creation of ideological echo chambers. In this paper, we focus on addressing one of the factors that contributes to this polarity, polarized media. We introduce a framework for depolarizing news articles. Given an article on a certain topic with a particular ideological slant (eg., liberal or conservative), the framework first detects polar language in the article and then generates a new article with the polar language replaced with neutral expressions. To detect polar words, we train a multi-attribute-aware word embedding model that is aware of ideology and topics on 360k full-length media articles. Then, for text generation, we propose a new algorithm called Text Annealing Depolarization Algorithm (TADA). TADA retrieves neutral expressions from the word embedding model that not only decrease ideological polarity but also preserve the original argument of the text, while maintaining grammatical correctness. We evaluate our framework by comparing the depolarized output of our model in two modes, fully-automatic and semi-automatic, on 99 stories spanning 11 topics. Based on feedback from 161 human testers, our framework successfully depolarized 90.1% of paragraphs in semi-automatic mode and 78.3% of paragraphs in fully-automatic mode. Furthermore, 81.2% of the testers agree that the non-polar content information is well-preserved and 79% agree that depolarization does not harm semantic correctness when they compare the original text and the depolarized text. Our work shows that data-driven methods can help to locate political polarity and aid in the depolarization of articles.
翻訳日:2021-04-11 11:46:09 公開日:2021-01-05
# 医用知識グラフ深層学習を用いたがん診断のためのドメイン知識の統合

Integration of Domain Knowledge using Medical Knowledge Graph Deep Learning for Cancer Phenotyping ( http://arxiv.org/abs/2101.01337v1 )

ライセンス: Link先を確認
Mohammed Alawad, Shang Gao, Mayanka Chandra Shekar, S.M.Shamimul Hasan, J. Blair Christian, Xiao-Cheng Wu, Eric B. Durbin, Jennifer Doherty, Antoinette Stroup, Linda Coyle, Lynne Penberthy, Georgia Tourassi(参考訳) 自然言語処理(NLP)のためのディープラーニング(DL)の重要なコンポーネントは、単語埋め込みである。 単語の意味や文脈を効果的に捉えた単語埋め込みは、様々なNLPタスクのための下流DLモデルの性能を大幅に向上させることができる。 既存の単語埋め込み技術の多くは、文書やテキストにおける単語共起に基づく単語のコンテキストをキャプチャするが、手元にあるNLPタスクにとって重要な概念間の、より広範なドメイン固有の関係をキャプチャすることはできない。 本稿では,医学用語オントロジーからの外部知識を,単語埋め込みによって捉えた文脈に統合する手法を提案する。 具体的には、がん病理報告における臨床用語間の関係を見つけるために、UMLS(Unified Medical Language System)のような医療知識グラフを用いる。 本研究の目的は,臨床概念間の距離を最小化することである。 我々は,Multitask Convolutional Neural Network (MT-CNN) を用いて,約900Kの癌病理報告のデータセットから6つのがん特性(部位,部位,側方性,行動,組織学,学年)を抽出する手法を提案する。 その結果,ドメイン情報埋め込みを用いたMT-CNNモデルは,すべてのタスクに標準単語2vec埋め込みを用いて同一のMT-CNNより優れており,マイクロF1のスコアは4.97\%,マクロF1のスコアは22.5\%向上した。

A key component of deep learning (DL) for natural language processing (NLP) is word embeddings. Word embeddings that effectively capture the meaning and context of the word that they represent can significantly improve the performance of downstream DL models for various NLP tasks. Many existing word embeddings techniques capture the context of words based on word co-occurrence in documents and text; however, they often cannot capture broader domain-specific relationships between concepts that may be crucial for the NLP task at hand. In this paper, we propose a method to integrate external knowledge from medical terminology ontologies into the context captured by word embeddings. Specifically, we use a medical knowledge graph, such as the unified medical language system (UMLS), to find connections between clinical terms in cancer pathology reports. This approach aims to minimize the distance between connected clinical concepts. We evaluate the proposed approach using a Multitask Convolutional Neural Network (MT-CNN) to extract six cancer characteristics -- site, subsite, laterality, behavior, histology, and grade -- from a dataset of ~900K cancer pathology reports. The results show that the MT-CNN model which uses our domain informed embeddings outperforms the same MT-CNN using standard word2vec embeddings across all tasks, with an improvement in the overall micro- and macro-F1 scores by 4.97\%and 22.5\%, respectively.
翻訳日:2021-04-11 11:45:37 公開日:2021-01-05
# IFRS 16 リースによる強化学習を活用した強化監査手法

Enhanced Audit Techniques Empowered by the Reinforcement Learning Pertaining to IFRS 16 Lease ( http://arxiv.org/abs/2101.05633v1 )

ライセンス: Link先を確認
Byungryul Choi(参考訳) 会計監査の目的は、手作業による分析よりも数値分析の方が優れているとして、機械学習や強化学習によって強化される企業の財務活動を明確に理解することである。 For the purpose of assessment on the relevance, completeness and accuracy of the information produced by entity pertaining to the newly implemented International Financial Reporting Standard 16 Lease (IFRS 16) is one of such candidates as its characteristic of requiring the understanding on the nature of contracts and its complete analysis from listing up without omission, which can be enhanced by the digitalization of contracts for the purpose of creating the lists, still leaving the need of auditing cash flows of companies for the possible omission due to the potential error at the stage of data collection, especially for entities with various short or middle term business sites and related leases, such as construction entities. 強化学習とそのよく知られたコードの実装は、ドメイン知識から数値システムへのインタプリタの可能性と活用可能性を引き出すためであり、物理学におけるフロード数などの非次元数による外挿と比較できる「ゲーム化インタプリタ」や「数値化インタプリタ」とも呼ばれる。 インタプリタの研究は、ドメインおよび商業領域における人工知能の実用性を高めることができる。

The purpose of accounting audit is to have clear understanding on the financial activities of a company, which can be enhanced by machine learning or reinforcement learning as numeric analysis better than manual analysis can be made. For the purpose of assessment on the relevance, completeness and accuracy of the information produced by entity pertaining to the newly implemented International Financial Reporting Standard 16 Lease (IFRS 16) is one of such candidates as its characteristic of requiring the understanding on the nature of contracts and its complete analysis from listing up without omission, which can be enhanced by the digitalization of contracts for the purpose of creating the lists, still leaving the need of auditing cash flows of companies for the possible omission due to the potential error at the stage of data collection, especially for entities with various short or middle term business sites and related leases, such as construction entities. The implementation of the reinforcement learning and its well-known code is to be made for the purpose of drawing the possibility and utilizability of interpreters from domain knowledge to numerical system, also can be called 'gamification interpreter' or 'numericalization interpreter' which can be referred or compared to the extrapolation with nondimensional numbers, such as Froude Number, in physics, which was a source of inspiration at this study. Studies on the interpreters can be able to empower the utilizability of artificial general intelligence in domain and commercial area.
翻訳日:2021-04-11 11:44:51 公開日:2021-01-05
# 信頼性のある機械学習における対称的損失視点

A Symmetric Loss Perspective of Reliable Machine Learning ( http://arxiv.org/abs/2101.01366v1 )

ライセンス: Link先を確認
Nontawat Charoenphakdee, Jongyeong Lee, Masashi Sugiyama(参考訳) 二分分類における経験的リスクを最小化する場合、ゼロワン損失を代理損失に置き換え、学習目標を最適化可能にするのが一般的である。 二元分類におけるよく知られた代理損失の例としては、ロジスティック損失、ヒンジ損失、およびsgmoid損失がある。 代理損失の選択は、訓練された分類器の性能に大きな影響を与えることが知られており、慎重に選択すべきである。 近年,ある種の対称的条件(例えば対称的損失)を満たす代理的損失は,劣化ラベルから学習に有用であることが示されている。 本稿では,対称損失とその応用について概観する。 まず, 平衡誤差率 (BER) の最小化と受信動作特性曲線 (AUC) の最大化の下での領域において, 破損したラベルから対称損失が頑健に分類できることを示す。 そこで本研究では,関連キーワードや未ラベル文書からのみ学習したいという問題に対して,AUCの頑健な最大化手法が自然言語処理にどのように役立つかを実証する。 最後に、信頼度の高い機械学習における対称損失の潜在的な応用や、対称条件の恩恵を受ける非対称損失の設計など、今後の方向性について論じる。

When minimizing the empirical risk in binary classification, it is a common practice to replace the zero-one loss with a surrogate loss to make the learning objective feasible to optimize. Examples of well-known surrogate losses for binary classification include the logistic loss, hinge loss, and sigmoid loss. It is known that the choice of a surrogate loss can highly influence the performance of the trained classifier and therefore it should be carefully chosen. Recently, surrogate losses that satisfy a certain symmetric condition (aka., symmetric losses) have demonstrated their usefulness in learning from corrupted labels. In this article, we provide an overview of symmetric losses and their applications. First, we review how a symmetric loss can yield robust classification from corrupted labels in balanced error rate (BER) minimization and area under the receiver operating characteristic curve (AUC) maximization. Then, we demonstrate how the robust AUC maximization method can benefit natural language processing in the problem where we want to learn only from relevant keywords and unlabeled documents. Finally, we conclude this article by discussing future directions, including potential applications of symmetric losses for reliable machine learning and the design of non-symmetric losses that can benefit from the symmetric condition.
翻訳日:2021-04-11 11:44:30 公開日:2021-01-05
# 誘導波のモデル化のための構造化機械学習ツール

Structured Machine Learning Tools for Modelling Characteristics of Guided Waves ( http://arxiv.org/abs/2101.01506v1 )

ライセンス: Link先を確認
Marcus Haywood-Alexander, Nikolaos Dervilis, Keith Worden, Elizabeth J. Cross, Robin S. Mills, Timothy J. Rogers(参考訳) 非破壊的評価 (NDE) や構造的健康モニタリング (SHM) では, 材料・構造物の損傷調査に超音波誘導波を用いることが人気を博している。 このような高周波波の使用は、より小さなスケールで損傷を検出する能力から、低周波法よりも有利である。 しかしながら、構造物の損傷を評価し、NDEやSHMツールを実装するためには、材料・構造全体にわたる誘導波の挙動に関する知識が重要である(特にSHMシステムのセンサ配置を設計する場合)。 この挙動を決定することは、連続モード変換のような特異な現象が起こる繊維・マトリックス複合体のような複雑な材料では極めて希薄である。 本稿では,複合材料中の導波の特徴空間をモデル化する新しい手法を提案する。 このテクニックはデータ駆動モデルに基づいており、事前の物理的知識を使って構造化された機械学習ツールを作成することができる。 本稿では,ガウス過程をフルベイズ解析ツールとして利用し,MLツールを用いたモデリングにおいて誘導波の物理的知識をどのように活用できるかを示す。 本稿では,機械学習手法を適用する際の注意深い考察を通じて,外挿能力や物理的解釈などの利点を有するより頑健なモデルが生成できることを示す。

The use of ultrasonic guided waves to probe the materials/structures for damage continues to increase in popularity for non-destructive evaluation (NDE) and structural health monitoring (SHM). The use of high-frequency waves such as these offers an advantage over low-frequency methods from their ability to detect damage on a smaller scale. However, in order to assess damage in a structure, and implement any NDE or SHM tool, knowledge of the behaviour of a guided wave throughout the material/structure is important (especially when designing sensor placement for SHM systems). Determining this behaviour is extremely diffcult in complex materials, such as fibre-matrix composites, where unique phenomena such as continuous mode conversion takes place. This paper introduces a novel method for modelling the feature-space of guided waves in a composite material. This technique is based on a data-driven model, where prior physical knowledge can be used to create structured machine learning tools; where constraints are applied to provide said structure. The method shown makes use of Gaussian processes, a full Bayesian analysis tool, and in this paper it is shown how physical knowledge of the guided waves can be utilised in modelling using an ML tool. This paper shows that through careful consideration when applying machine learning techniques, more robust models can be generated which offer advantages such as extrapolation ability and physical interpretation.
翻訳日:2021-04-11 11:43:35 公開日:2021-01-05
# ジェネレータネットワークを用いたエンドツーエンドビデオ質問応答生成

End-to-End Video Question-Answer Generation with Generator-Pretester Network ( http://arxiv.org/abs/2101.01447v1 )

ライセンス: Link先を確認
Hung-Ting Su, Chen-Hsi Chang, Po-Wei Shen, Yu-Siang Wang, Ya-Liang Chang, Yu-Cheng Chang, Pu-Jen Cheng and Winston H. Hsu(参考訳) マルチメディアにおけるビデオ質問応答(VQA)課題に挑戦する新しい課題であるビデオ質問応答生成(VQAG)について検討する。 高価なデータアノテーションコストのため、ビデオQA、MSVD-QA、MSRVTT-QAなどの大規模ビデオQAデータセットは、ビデオ自体の代わりにキャプションを入力するCaption Question Generation(CapQG)を使用して自動的に注釈付けされる。 キャプションはビデオを完全に表現するものではないし、実際に利用できないため、VQAG(Video Question-Answer Generation)を通じてビデオに基づいて質問対を生成することが重要である。 既存のV2T(Video-to-text)アプローチは、ビデオを入力として用いながら、質問のみを生成する。 本研究では,(1)JQAG(Joint Question-Answer Generator)とJQAG(Joint Question-Answer Generator)の2つのコンポーネントに焦点をあてて,ビデオ質問の"回答"トレーニングを可能にする,新しいモデルであるGenerator-Pretester Networkを提案する。 2)Pretester(PT)は,モデルの提案した回答と根拠的真理解の両方で,先行した回答をチェックすることによって,生成した質問を検証する。 我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。 さらに、生成したQAペアをビデオQAタスクでのみ使用することにより、いくつかの教師付きベースラインを超えることができる。 生成した質問をビデオQAアプリケーションに適用し、生成した質問のみを用いて教師付きベースラインを超越する。 事前学習戦略として,半教師付き (20%) や注釈付きデータによる教師付き学習の場合には,capqg と transfer learning の両方のアプローチを上回っている。 これらの実験結果から,ビデオQAトレーニングの新たな視点が示唆された。

We study a novel task, Video Question-Answer Generation (VQAG), for challenging Video Question Answering (Video QA) task in multimedia. Due to expensive data annotation costs, many widely used, large-scale Video QA datasets such as Video-QA, MSVD-QA and MSRVTT-QA are automatically annotated using Caption Question Generation (CapQG) which inputs captions instead of the video itself. As captions neither fully represent a video, nor are they always practically available, it is crucial to generate question-answer pairs based on a video via Video Question-Answer Generation (VQAG). Existing video-to-text (V2T) approaches, despite taking a video as the input, only generate a question alone. In this work, we propose a novel model Generator-Pretester Network that focuses on two components: (1) The Joint Question-Answer Generator (JQAG) which generates a question with its corresponding answer to allow Video Question "Answering" training. (2) The Pretester (PT) verifies a generated question by trying to answer it and checks the pretested answer with both the model's proposed answer and the ground truth answer. We evaluate our system with the only two available large-scale human-annotated Video QA datasets and achieves state-of-the-art question generation performances. Furthermore, using our generated QA pairs only on the Video QA task, we can surpass some supervised baselines. We apply our generated questions to Video QA applications and surpasses some supervised baselines using generated questions only. As a pre-training strategy, we outperform both CapQG and transfer learning approaches when employing semi-supervised (20%) or fully supervised learning with annotated data. These experimental results suggest the novel perspectives for Video QA training.
翻訳日:2021-04-11 11:43:14 公開日:2021-01-05
# 半教師付き領域適応のための条件付き画像伝達

Relaxed Conditional Image Transfer for Semi-supervised Domain Adaptation ( http://arxiv.org/abs/2101.01400v1 )

ライセンス: Link先を確認
Qijun Luo, Zhili Liu, Lanqing Hong, Chongxuan Li, Kuo Yang, Liyuan Wang, Fengwei Zhou, Guilin Li, Zhenguo Li, Jun Zhu(参考訳) 完全にラベル付けされたソースドメインの助けを借りて、部分的にラベル付けされたターゲットドメインでモデルを学習することを目的とした半教師付きドメイン適応(SSDA)が近年注目を集めている。 両領域のラベル付きデータを明示的に活用するために,SSDAのセマンティクスを変更することなく画像の転送を行う条件付きGANフレームワークを自然に導入する。 しかし,このようなアプローチではラベル支配問題を特定する。 実際、ジェネレータは入力元画像を見落とし、各クラスのプロトタイプのみを記憶する傾向があるため、不満足な適応性能が得られる。 この目的のために, 単純だが効果的なRelaxed Conditional GAN (Relaxed cGAN) フレームワークを提案する。 具体的には、イメージをジェネレータにラベルを付けずに供給します。 このようにして、ジェネレータは入力データの意味情報を推測する必要がある。 我々は,その平衡が望ましいことを正式に証明し,その実用的収束と画像転送の有効性を実証的に検証する。 さらに,対象領域のラベルなしデータを利用するためのいくつかの手法を提案し,SSDA設定におけるモデルを強化する。 私たちは、Digits、DomainNet、Office-Homeといったよく認識されたデータセットでメソッドを検証する。 DomainNet、Office-Home、およびほとんどの桁のベンチマークにおいて、低リソースおよび高リソース設定で最先端のパフォーマンスを達成する。

Semi-supervised domain adaptation (SSDA), which aims to learn models in a partially labeled target domain with the assistance of the fully labeled source domain, attracts increasing attention in recent years. To explicitly leverage the labeled data in both domains, we naturally introduce a conditional GAN framework to transfer images without changing the semantics in SSDA. However, we identify a label-domination problem in such an approach. In fact, the generator tends to overlook the input source image and only memorizes prototypes of each class, which results in unsatisfactory adaptation performance. To this end, we propose a simple yet effective Relaxed conditional GAN (Relaxed cGAN) framework. Specifically, we feed the image without its label to our generator. In this way, the generator has to infer the semantic information of input data. We formally prove that its equilibrium is desirable and empirically validate its practical convergence and effectiveness in image transfer. Additionally, we propose several techniques to make use of unlabeled data in the target domain, enhancing the model in SSDA settings. We validate our method on the well-adopted datasets: Digits, DomainNet, and Office-Home. We achieve state-of-the-art performance on DomainNet, Office-Home and most digit benchmarks in low-resource and high-resource settings.
翻訳日:2021-04-11 11:42:41 公開日:2021-01-05
# WildDeepfake: ディープフェイク検出のためのリアルタイムデータセット

WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection ( http://arxiv.org/abs/2101.01456v1 )

ライセンス: Link先を確認
Bojia Zi, Minghao Chang, Jingjing Chen, Xingjun Ma, Yu-Gang Jiang(参考訳) 近年、ディープフェイク(deepfake deepfake)と呼ばれるフェイススワップ技術が悪用され、人々の関心が高まっている。 これまで多くのディープフェイクビデオ(ディープフェイクとして知られる)が制作され、インターネットにアップロードされ、効果的な対策が求められてきた。 ディープフェイク対策の1つはディープフェイク検出である。 deepfake detectionionやfaceforensics++など、deepfake検出器のトレーニングとテストをサポートするために、いくつかのdeepfakeデータセットがリリースされた。 これはディープフェイク検出を大幅に進歩させたものだが、これらのデータセットの実際のビデオのほとんどは、一部のボランティアアクターが限られたシーンで撮影されている。 これらのデータセットで開発された検出器は、インターネット上の現実世界のディープフェイクに対して効果が低下する可能性がある。 本稿では,実世界のディープフェイク検出を支援するために,インターネットから完全に収集した707個のディープフェイクビデオから抽出した7,314個の顔シーケンスからなる新しいデータセットWildDeepfakeを提案する。 WildDeepfakeは、既存のデータセットに加えて、現実世界のディープフェイクに対するディープフェイク検出の有効性の開発とテストに使用できる小さなデータセットである。 既存のデータセットとワイルドディープフェイクデータセットの両方で、一連のベースライン検出ネットワークを体系的に評価し、ワイルドディープフェイクは確かにより困難なデータセットであり、検出性能が劇的に低下することを示している。 また2つ提案する(例)。 2Dおよび3D) 注意型ディープフェイク検出ネットワーク(ADDNets)は、リアルタイム/フェイク顔のアテンションマスクを利用して検出を改善する。 ADDNetsが既存のデータセットとWildDeepfakeの両方に与える影響を実証的に検証する。 データセットは:https://github.com/deepfakeinthewild/deepfake-in-the-wildで入手できる。

In recent years, the abuse of a face swap technique called deepfake Deepfake has raised enormous public concerns. So far, a large number of deepfake videos (known as "deepfakes") have been crafted and uploaded to the internet, calling for effective countermeasures. One promising countermeasure against deepfakes is deepfake detection. Several deepfake datasets have been released to support the training and testing of deepfake detectors, such as DeepfakeDetection and FaceForensics++. While this has greatly advanced deepfake detection, most of the real videos in these datasets are filmed with a few volunteer actors in limited scenes, and the fake videos are crafted by researchers using a few popular deepfake softwares. Detectors developed on these datasets may become less effective against real-world deepfakes on the internet. To better support detection against real-world deepfakes, in this paper, we introduce a new dataset WildDeepfake, which consists of 7,314 face sequences extracted from 707 deepfake videos collected completely from the internet. WildDeepfake is a small dataset that can be used, in addition to existing datasets, to develop and test the effectiveness of deepfake detectors against real-world deepfakes. We conduct a systematic evaluation of a set of baseline detection networks on both existing and our WildDeepfake datasets, and show that WildDeepfake is indeed a more challenging dataset, where the detection performance can decrease drastically. We also propose two (eg. 2D and 3D) Attention-based Deepfake Detection Networks (ADDNets) to leverage the attention masks on real/fake faces for improved detection. We empirically verify the effectiveness of ADDNets on both existing datasets and WildDeepfake. The dataset is available at:https://github.com/deepfakeinthewild/deepfake-in-the-wild.
翻訳日:2021-04-11 11:42:19 公開日:2021-01-05
# 線形制約問題に対する遅延射影法:収束速度、加速度、および応用

Delayed Projection Techniques for Linearly Constrained Problems: Convergence Rates, Acceleration, and Applications ( http://arxiv.org/abs/2101.01505v1 )

ライセンス: Link先を確認
Xiang Li, Zhihua Zhang(参考訳) 本研究では,線形制約問題 (LCP) に対して,統計学,最適化,機械学習に多用した新しいプロジェクションベースアルゴリズムについて検討する。 LCP の従来の原始勾配に基づく手法は、各(確率的な)勾配降下の後に射影を呼ぶので、要求される射影の数は勾配降下(あるいは全反復)のそれと同値である。 近年の分散最適化の進展に動機づけられ,しばらくの間投影を呼び出し,投影周波数を下げ,投影効率を向上させる遅延投影手法を提案する。 そこで,本手法では分散還元法と高速化法を併用し,lcpに対する一連の確率的手法を考案する。 理論上, 凸凸と一般凸の双方において, 投影効率の向上が可能であることを示す。 解析は単純で統一的で,遅延投影を用いて他の手法にも容易に拡張できる。 分散最適化において,新たなアルゴリズムをフェデレーション最適化,新たなフラッグド・プライバシ保存サブフィールドに適用する場合,従来のアルゴリズムよりも収束率の高い分散化フェデレーションアルゴリズムだけでなく,フェデレーション最適化に固有のデータ不均一性を扱うことができる最初の高速化手法も得られる。

In this work, we study a novel class of projection-based algorithms for linearly constrained problems (LCPs) which have a lot of applications in statistics, optimization, and machine learning. Conventional primal gradient-based methods for LCPs call a projection after each (stochastic) gradient descent, resulting in that the required number of projections equals that of gradient descents (or total iterations). Motivated by the recent progress in distributed optimization, we propose the delayed projection technique that calls a projection once for a while, lowering the projection frequency and improving the projection efficiency. Accordingly, we devise a series of stochastic methods for LCPs using the technique, including a variance reduced method and an accelerated one. We theoretically show that it is feasible to improve projection efficiency in both strongly convex and generally convex cases. Our analysis is simple and unified and can be easily extended to other methods using delayed projections. When applying our new algorithms to federated optimization, a newfangled and privacy-preserving subfield in distributed optimization, we obtain not only a variance reduced federated algorithm with convergence rates better than previous works, but also the first accelerated method able to handle data heterogeneity inherent in federated optimization.
翻訳日:2021-04-11 11:41:47 公開日:2021-01-05
# sos度低減とクラスタリングとロバストモーメント推定への応用

SoS Degree Reduction with Applications to Clustering and Robust Moment Estimation ( http://arxiv.org/abs/2101.01509v1 )

ライセンス: Link先を確認
David Steurer, Stefan Tiegel(参考訳) 我々は新しい変数を導入することで2乗証明の総和の度合いを著しく低減する一般的な枠組みを開発する。 このフレームワークのパワーを説明するために、クラスタリングとロバストモーメント推定という2つの重要な推定問題に対する2乗和に基づくアルゴリズムを高速化する。 得られたアルゴリズムは、以前の最高のアルゴリズムと同じ統計的保証を提供するが、実行時間が大幅に速い。 大まかに言えば、次元 $d$ の n$ のサンプルが与えられると、我々のアルゴリズムは、時間 $d^{o(\ell)}\cdot n^{o(1)}$ でorder-\ell$ momentsを活用できるが、単純な実装では $(d\cdot n)^{o(\ell)}$ である。 上記のアプリケーションの場合、典型的なサンプルサイズは $d^{\Theta(\ell)}$ なので、我々のフレームワークは実行時間を $d^{O(\ell^2)}$ から $d^{O(\ell)}$ に改善します。

We develop a general framework to significantly reduce the degree of sum-of-squares proofs by introducing new variables. To illustrate the power of this framework, we use it to speed up previous algorithms based on sum-of-squares for two important estimation problems, clustering and robust moment estimation. The resulting algorithms offer the same statistical guarantees as the previous best algorithms but have significantly faster running times. Roughly speaking, given a sample of $n$ points in dimension $d$, our algorithms can exploit order-$\ell$ moments in time $d^{O(\ell)}\cdot n^{O(1)}$, whereas a naive implementation requires time $(d\cdot n)^{O(\ell)}$. Since for the aforementioned applications, the typical sample size is $d^{\Theta(\ell)}$, our framework improves running times from $d^{O(\ell^2)}$ to $d^{O(\ell)}$.
翻訳日:2021-04-11 11:41:25 公開日:2021-01-05
# RKHSにおけるハードアフィンSDP形状制約の扱い

Handling Hard Affine SDP Shape Constraints in RKHSs ( http://arxiv.org/abs/2101.01519v1 )

ライセンス: Link先を確認
Pierre-Cyril Aubin-Frankowski, Zoltan Szabo(参考訳) 非ネガティビティ、単調性、凸性、超モジュラリティといった形状制約は、機械学習や統計学の様々な応用において重要な役割を果たす。 しかし、リッチ関数クラスに対して、このサイド情報を予測モデルに(例えば、間隔のすべての点で)難しい方法で組み込むことは、非常に難しい問題である。 本稿では,ベクトル値再生カーネルヒルベルト空間 (vRKHSs) に属するモデルに対して,関数導関数に対するハードアフィンSDP制約を符号化するために,二階錐の締め付け(SOC)に依存する統一的かつモジュラー凸最適化フレームワークを提案する。 提案手法のモジュラー性により,複数の形状制約を同時に処理し,無限個の制約を有限個に絞り込むことができる。 vrkhssの幾何学的性質を活かし,提案手法と適応型の一貫性を実証する。 このアプローチの効率性は、形状最適化、安全クリティカル制御、計量学の文脈で示される。

Shape constraints, such as non-negativity, monotonicity, convexity or supermodularity, play a key role in various applications of machine learning and statistics. However, incorporating this side information into predictive models in a hard way (for example at all points of an interval) for rich function classes is a notoriously challenging problem. We propose a unified and modular convex optimization framework, relying on second-order cone (SOC) tightening, to encode hard affine SDP constraints on function derivatives, for models belonging to vector-valued reproducing kernel Hilbert spaces (vRKHSs). The modular nature of the proposed approach allows to simultaneously handle multiple shape constraints, and to tighten an infinite number of constraints into finitely many. We prove the consistency of the proposed scheme and that of its adaptive variant, leveraging geometric properties of vRKHSs. The efficiency of the approach is illustrated in the context of shape optimization, safety-critical control and econometrics.
翻訳日:2021-04-11 11:41:03 公開日:2021-01-05
# ユーザ体験をパーソナライズするためのフィードバック付き順次選択バンディット

Sequential Choice Bandits with Feedback for Personalizing users' experience ( http://arxiv.org/abs/2101.01572v1 )

ライセンス: Link先を確認
Anshuka Rangi, Massimo Franceschetti and Long Tran-Thanh(参考訳) 本研究では,フィードバックを用いた逐次選択帯域について検討する。 ユーザエクスペリエンスをパーソナライズして報酬を最大化するプラットフォームのためのバンドアルゴリズムを提案する。 このアクションがユーザのしきい値より下にある場合、与えられたユーザに対して、プラットフォームには肯定的な報酬が与えられ、これはアクションの非減少機能である。 ユーザは忍耐予算を備えており、しきい値を超えるアクションは忍耐を減少させる。 すべての忍耐が失われると、ユーザはプラットフォームを放棄する。 プラットフォームは、各アクションでプラットフォームに利用可能な情報パターンを記述する2つの異なるフィードバックモデルに基づいて、報酬を最大化するために、ユーザのしきい値の学習を試みる。 プラットフォームがユーザのしきい値が一定間隔にあることを知っていれば,最も適切なアクションを決定することで,後悔の概念を定義します。 次に、2つのフィードバックモデルに対するbanditアルゴリズムを提案し、後悔の上限が$\tilde{o}(n^{2/3})$と$\tilde\omega(n^{2/3})$の順であることを示し、そこでは$n$がユーザの総数である。 最後に、パーソナライズされた体験を受け取る前のユーザの待ち時間は、$N$で均一であることを示す。

In this work, we study sequential choice bandits with feedback. We propose bandit algorithms for a platform that personalizes users' experience to maximize its rewards. For each action directed to a given user, the platform is given a positive reward, which is a non-decreasing function of the action, if this action is below the user's threshold. Users are equipped with a patience budget, and actions that are above the threshold decrease the user's patience. When all patience is lost, the user abandons the platform. The platform attempts to learn the thresholds of the users in order to maximize its rewards, based on two different feedback models describing the information pattern available to the platform at each action. We define a notion of regret by determining the best action to be taken when the platform knows that the user's threshold is in a given interval. We then propose bandit algorithms for the two feedback models and show that upper and lower bounds on the regret are of the order of $\tilde{O}(N^{2/3})$ and $\tilde\Omega(N^{2/3})$, respectively, where $N$ is the total number of users. Finally, we show that the waiting time of any user before receiving a personalized experience is uniform in $N$.
翻訳日:2021-04-11 11:40:46 公開日:2021-01-05
# ベイズリスク下におけるスレート政策の評価

Off-Policy Evaluation of Slate Policies under Bayes Risk ( http://arxiv.org/abs/2101.02553v1 )

ライセンス: Link先を確認
Nikos Vlassis, Fernando Amat Gil, Ashok Chandrashekar(参考訳) 本研究では,スレートのスロット上で伐採方針が決定される典型的な場合において,スレート帯の非政治評価の問題について検討する。 我々はベイズリスクを評価基準とすることで既存の文献から少し離れており、Swaminathan et al.\ (2017; arXiv:1605.04812) の擬似逆(PI)推定器を含む「付加的」推定器のファミリーを分析している。 制御変量法を用いて,上記の問題においてpiよりもリスクが低いことを保証した,このファミリーにおける新たな推定器を同定する。 特に、PIに対するリスク改善はスロット数とともに線形に増加し、ログとターゲットポリシーの間のスロットレベルのばらつきの集合の算術平均と調和平均とのギャップによって線形に増加することを示す。 均一なロギングポリシと決定論的ターゲットポリシの典型的な場合、各発散はスロットサイズに対応し、スロット毎の多様なアクションで問題をスレートするために最大ゲインを得ることができることを示す。

We study the problem of off-policy evaluation for slate bandits, for the typical case in which the logging policy factorizes over the slots of the slate. We slightly depart from the existing literature by taking Bayes risk as the criterion by which to evaluate estimators, and we analyze the family of 'additive' estimators that includes the pseudoinverse (PI) estimator of Swaminathan et al.\ (2017; arXiv:1605.04812). Using a control variate approach, we identify a new estimator in this family that is guaranteed to have lower risk than PI in the above class of problems. In particular, we show that the risk improvement over PI grows linearly with the number of slots, and linearly with the gap between the arithmetic and the harmonic mean of a set of slot-level divergences between the logging and the target policy. In the typical case of a uniform logging policy and a deterministic target policy, each divergence corresponds to slot size, showing that maximal gains can be obtained for slate problems with diverse numbers of actions per slot.
翻訳日:2021-04-11 11:40:22 公開日:2021-01-05
# ロバストなcur分解:理論とイメージングへの応用

Robust CUR Decomposition: Theory and Imaging Applications ( http://arxiv.org/abs/2101.05231v1 )

ライセンス: Link先を確認
HanQin Cai, Keaton Hamm, Longxiu Huang, Deanna Needell(参考訳) 本稿では,CUR分解フレームワークにおけるロバストPCAの利用とその応用について考察する。 我々の主アルゴリズムは行列のカラムロー分解のロバストバージョンである $\mathbf{D}=\mathbf{L}+\mathbf{S}$ ここで$\mathbf{L}$はローランク、$\mathbf{S}$はスパースアウトリーを含む。 これらの手法は計算コストが低い場合に解釈可能な因子分解をもたらし、従来の方法とは対照的に、外れ値の分離に頑健な新しいCUR分解を提供する。 本稿では,ロバストPCAの2つの重要な画像応用について考察する。 本稿では,ベンチマークビデオや顔データセット上でのロバストCUR分解の質的挙動について検討し,ロバストPCAと同等に動作し,より高速であることを示す。 さらに,与えられた行列のコンパクトなカー分解を生成するハイブリッドランダム化・決定論的サンプリング法を検討し,これを映像列に適用して標準フレームを生成する。

This paper considers the use of Robust PCA in a CUR decomposition framework and applications thereof. Our main algorithms produce a robust version of column-row factorizations of matrices $\mathbf{D}=\mathbf{L}+\mathbf{S}$ where $\mathbf{L}$ is low-rank and $\mathbf{S}$ contains sparse outliers. These methods yield interpretable factorizations at low computational cost, and provide new CUR decompositions that are robust to sparse outliers, in contrast to previous methods. We consider two key imaging applications of Robust PCA: video foreground-background separation and face modeling. This paper examines the qualitative behavior of our Robust CUR decompositions on the benchmark videos and face datasets, and find that our method works as well as standard Robust PCA while being significantly faster. Additionally, we consider hybrid randomized and deterministic sampling methods which produce a compact CUR decomposition of a given matrix, and apply this to video sequences to produce canonical frames thereof.
翻訳日:2021-04-11 11:39:44 公開日:2021-01-05
# 分散主成分分析のための線形収束アルゴリズム

A Linearly Convergent Algorithm for Distributed Principal Component Analysis ( http://arxiv.org/abs/2101.01300v1 )

ライセンス: Link先を確認
Arpita Gang and Waheed U. Bajwa(参考訳) 主成分分析 (PCA) は, ビッグデータ時代における次元削減のための作業用ツールである。 しばしば見過ごされるが、PCAの目的はデータ次元を減らすだけでなく、非相関な特徴を生み出すことである。 本稿では,データ共分散行列の固有ベクトルを推定する必要があるPCAのこの2つの目的,すなわち特徴の次元的減少とデコリレーションに焦点を当てる。 現代のデータ量の増加は、複数のマシンにまたがるデータサンプルの保存を必要とすることが多く、集中型PCAアルゴリズムの使用を妨げている。 近年,PCA問題に対する分散ソリューションがいくつか提案されているが,収束保証や通信オーバーヘッドが懸念されている。 本稿では,データ共分散行列の固有ベクトルを推定する分散sanger's algorithm (dsa) と呼ばれる,一時間スケールの分散pcaアルゴリズムを提案する。 さらに,提案アルゴリズムは真の解の近傍に線形に収束することを示した。 また,提案手法の有効性を示す数値実験を行った。

Principal Component Analysis (PCA) is the workhorse tool for dimensionality reduction in this era of big data. While often overlooked, the purpose of PCA is not only to reduce data dimensionality, but also to yield features that are uncorrelated. This paper focuses on this dual objective of PCA, namely, dimensionality reduction and decorrelation of features, which requires estimating the eigenvectors of a data covariance matrix, as opposed to only estimating the subspace spanned by the eigenvectors. The ever-increasing volume of data in the modern world often requires storage of data samples across multiple machines, which precludes the use of centralized PCA algorithms. Although a few distributed solutions to the PCA problem have been proposed recently, convergence guarantees and/or communications overhead of these solutions remain a concern. With an eye towards communications efficiency, this paper introduces a feedforward neural network-based one time-scale distributed PCA algorithm termed Distributed Sanger's Algorithm (DSA) that estimates the eigenvectors of a data covariance matrix when data are distributed across an undirected and arbitrarily connected network of machines. Furthermore, the proposed algorithm is shown to converge linearly to a neighborhood of the true solution. Numerical results are also shown to demonstrate the efficacy of the proposed solution.
翻訳日:2021-04-11 11:39:21 公開日:2021-01-05
# コンテキスト依存型構文解析のための動的ハイブリッドネットワーク

Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing ( http://arxiv.org/abs/2101.01686v1 )

ライセンス: Link先を確認
Binyuan Hui, Ruiying Geng, Qiyu Ren, Binhua Li, Yongbin Li, Jian Sun, Fei Huang, Luo Si, Pengfei Zhu, Xiaodan Zhu(参考訳) セマンティクス解析は自然言語処理において長い間根本的な問題であった。 近年、クロスドメインなコンテキスト依存意味解析が研究の新たな焦点となっている。 問題の中心は、対話履歴において自然言語発話とデータベーススキーマの両方の文脈情報を活用するという課題である。 本稿では,文脈的発話,トークン,データベーススキーマ,および会話の進行に伴う複雑な相互作用を効果的にモデル化できる動的グラフフレームワークを提案する。 このフレームワークは、帰納バイアスを取り入れた動的メモリ減衰機構を用いて、強化された文脈関係表現を統合する。 この記事の執筆時点では,提案するフレームワークが既存のモデルを大きなマージンで上回り,SParCとCoSQLの2つの大規模ベンチマークで最先端のパフォーマンスを新たに達成していることを示す。 具体的には、SParCでは55.8%の質問マッチと30.8%のインタラクションマッチの精度、CoSQLでは46.8%の質問マッチと17.0%のインタラクションマッチの精度を実現している。

Semantic parsing has long been a fundamental problem in natural language processing. Recently, cross-domain context-dependent semantic parsing has become a new focus of research. Central to the problem is the challenge of leveraging contextual information of both natural language utterance and database schemas in the interaction history. In this paper, we present a dynamic graph framework that is capable of effectively modelling contextual utterances, tokens, database schemas, and their complicated interaction as the conversation proceeds. The framework employs a dynamic memory decay mechanism that incorporates inductive bias to integrate enriched contextual relation representation, which is further enhanced with a powerful reranking model. At the time of writing, we demonstrate that the proposed framework outperforms all existing models by large margins, achieving new state-of-the-art performance on two large-scale benchmarks, the SParC and CoSQL datasets. Specifically, the model attains a 55.8% question-match and 30.8% interaction-match accuracy on SParC, and a 46.8% question-match and 17.0% interaction-match accuracy on CoSQL.
翻訳日:2021-04-11 11:37:56 公開日:2021-01-05
# 大規模食品知識グラフを用いた限定質問回答としての個人化食品推薦

Personalized Food Recommendation as Constrained Question Answering over a Large-scale Food Knowledge Graph ( http://arxiv.org/abs/2101.01775v1 )

ライセンス: Link先を確認
Yu Chen, Ananya Subburathinam, Ching-Hua Chen and Mohammed J. Zaki(参考訳) 食品レコメンデーションは、ユーザーが健康的な食事習慣を身につけるための重要な手段となっている。 食品推奨に関する以前の研究(i) ユーザの明示的な要求を考慮しない、(ii) 重要な健康要因(アレルギーや栄養要求など)を無視している、(iii) 健康的なレシピを推薦するために豊富な食品知識を活用しない、のいずれかである。 そこで本研究では,本課題を大規模食品知識ベース/グラフ(kbqa)上での制約付き質問応答としてモデル化し,食品推薦のための新しい問題定式化を提案する。 ユーザクエリからの要求に加えて、ユーザの食事嗜好や健康ガイドラインからのパーソナライズされた要件は、QAシステムへの追加的な制約として統一された方法で処理される。 このアイデアを検証するために,大規模食品知識グラフと健康ガイドラインに基づいて,個人化された食品推奨のためのqaスタイルのデータセットを作成する。 さらに,クエリのネゲーション処理や数値比較を行う新しい手法を備えた,kbqaベースのパーソナライズドフードレコメンデーションフレームワークを提案する。 ベンチマーク実験の結果,提案手法は非個人化レシピ(評価指標の平均59.7%の絶対的改善)を著しく上回り,より関連性が高く健康的なレシピを推奨できることがわかった。

Food recommendation has become an important means to help guide users to adopt healthy dietary habits. Previous works on food recommendation either i) fail to consider users' explicit requirements, ii) ignore crucial health factors (e.g., allergies and nutrition needs), or iii) do not utilize the rich food knowledge for recommending healthy recipes. To address these limitations, we propose a novel problem formulation for food recommendation, modeling this task as constrained question answering over a large-scale food knowledge base/graph (KBQA). Besides the requirements from the user query, personalized requirements from the user's dietary preferences and health guidelines are handled in a unified way as additional constraints to the QA system. To validate this idea, we create a QA style dataset for personalized food recommendation based on a large-scale food knowledge graph and health guidelines. Furthermore, we propose a KBQA-based personalized food recommendation framework which is equipped with novel techniques for handling negations and numerical comparisons in the queries. Experimental results on the benchmark show that our approach significantly outperforms non-personalized counterparts (average 59.7% absolute improvement across various evaluation metrics), and is able to recommend more relevant and healthier recipes.
翻訳日:2021-04-11 11:37:38 公開日:2021-01-05
# 知識ベースによる質問応答のためのグローバルセマンティクスのモデル化

Modeling Global Semantics for Question Answering over Knowledge Bases ( http://arxiv.org/abs/2101.01510v1 )

ライセンス: Link先を確認
Peiyun Wu and Yunjie Wu and Linjuan Wu and Xiaowang Zhang and Zhiyong Feng(参考訳) 意味解析は知識ベース(KBQA)に対する質問応答の重要なアプローチとして、質問を完全なクエリグラフに変換し、正しい論理的クエリを生成する。 既存の意味解析アプローチは主に、クエリグラフを選択するための質問の内部構造(例えば、質問のすべてのエンティティ間の依存関係と関係)への注意を減らした関係性に重点を置いている。 本稿では,KBQAにおける意味解析のためのリレーショナルグラフ畳み込みネットワーク(RGCN)モデルgRGCNを提案する。 gRGCNは、RGCNとリレーショナルセマンティクス(エンティティ間の関係のラベル表現)による構造セマンティクスを含む、質問とその対応するクエリグラフのグローバルセマンティクスを階層的関係注意機構を介して抽出する。 ベンチマークで評価した結果,本モデルは市販モデルよりも優れていた。

Semantic parsing, as an important approach to question answering over knowledge bases (KBQA), transforms a question into the complete query graph for further generating the correct logical query. Existing semantic parsing approaches mainly focus on relations matching with paying less attention to the underlying internal structure of questions (e.g., the dependencies and relations between all entities in a question) to select the query graph. In this paper, we present a relational graph convolutional network (RGCN)-based model gRGCN for semantic parsing in KBQA. gRGCN extracts the global semantics of questions and their corresponding query graphs, including structure semantics via RGCN and relational semantics (label representation of relations between entities) via a hierarchical relation attention mechanism. Experiments evaluated on benchmarks show that our model outperforms off-the-shelf models.
翻訳日:2021-04-11 11:36:36 公開日:2021-01-05
# ロボット故障のための説明可能なAI:障害復旧におけるユーザ支援を改善する説明生成

Explainable AI for Robot Failures: Generating Explanations that Improve User Assistance in Fault Recovery ( http://arxiv.org/abs/2101.01625v1 )

ライセンス: Link先を確認
Devleena Das, Siddhartha Banerjee, Sonia Chernova(参考訳) インテリジェントシステムの能力の増大に伴い、私たちの日常生活におけるロボットの統合が増加している。 しかし、そのような複雑な人間環境で相互作用する場合、ロボットシステムの失敗は避けられない。 説明可能なAIの分野は、複雑な決定システムをより解釈可能にすることを目指しているが、既存のほとんどの技術はドメインの専門家をターゲットにしている。 逆に、多くの障害ケースでは、ロボットは専門家でないユーザーからの回復支援を必要とする。 本稿では,エージェントの計画実行中の予期せぬ障害の原因を非専門家に説明する,新たなタイプの説明を紹介する。 エラー説明が有意義であるためには,手書き説明のセット内の情報の種類が,非専門家の失敗やソリューション識別に最も役立つかを検討することが必要である。 さらに,このような説明を自律的に生成し,既存のエンコーダ・デコーダモデルを拡張し,環境をまたいで一般化する方法について検討する。 本研究では,家庭環境において,ロボットが操作作業を行う状況において,そのような課題を考察する。 その結果,失敗の文脈と過去の行動の履歴を捉えた説明が,非専門家の失敗やソリューション識別に最も効果的であることが判明した。 さらに, 第2のユーザ評価により, モデル生成説明が非認識のオフィス環境に一般化できることを確認し, 手書き説明と同等の有効性を検証した。

With the growing capabilities of intelligent systems, the integration of robots in our everyday life is increasing. However, when interacting in such complex human environments, the occasional failure of robotic systems is inevitable. The field of explainable AI has sought to make complex-decision making systems more interpretable but most existing techniques target domain experts. On the contrary, in many failure cases, robots will require recovery assistance from non-expert users. In this work, we introduce a new type of explanation, that explains the cause of an unexpected failure during an agent's plan execution to non-experts. In order for error explanations to be meaningful, we investigate what types of information within a set of hand-scripted explanations are most helpful to non-experts for failure and solution identification. Additionally, we investigate how such explanations can be autonomously generated, extending an existing encoder-decoder model, and generalized across environments. We investigate such questions in the context of a robot performing a pick-and-place manipulation task in the home environment. Our results show that explanations capturing the context of a failure and history of past actions, are the most effective for failure and solution identification among non-experts. Furthermore, through a second user evaluation, we verify that our model-generated explanations can generalize to an unseen office environment, and are just as effective as the hand-scripted explanations.
翻訳日:2021-04-11 11:36:19 公開日:2021-01-05
# CycleSegNet: サイクルリファインメントと領域対応によるオブジェクトのコセグメンテーション

CycleSegNet: Object Co-segmentation with Cycle Refinement and Region Correspondence ( http://arxiv.org/abs/2101.01308v1 )

ライセンス: Link先を確認
Guankai Li, Chi Zhang, Guosheng Lin(参考訳) イメージコセグメンテーション(image co-segmentation)は、イメージの集合内の共通オブジェクトを分割することを目的とした、アクティブなコンピュータビジョンタスクである。 近年,協調作業に対処する学習アルゴリズムが開発されている。 このタスクの主な困難は、画像間の情報を効果的に転送し、共通のオブジェクト領域を推測する方法である。 本稿では,協調作業のための新しいフレームワークであるCycleSegNetを紹介する。 ネットワーク設計には,ローカル画像領域間で情報を交換するための基本操作である領域対応モジュールと,ConvLSTMを用いて画像埋め込みや情報交換を段階的に更新するサイクル改善モジュールの2つの重要な要素がある。 PASCAL VOCデータセット,MSRCデータセット,インターネットデータセット,iCosegデータセットの4つの一般的なベンチマークデータセットの実験結果から,提案手法が既存のネットワークを著しく上回り,新たな最先端性能を実現することを示す。

Image co-segmentation is an active computer vision task which aims to segment the common objects in a set of images. Recently, researchers design various learning-based algorithms to handle the co-segmentation task. The main difficulty in this task is how to effectively transfer information between images to infer the common object regions. In this paper, we present CycleSegNet, a novel framework for the co-segmentation task. Our network design has two key components: a region correspondence module which is the basic operation for exchanging information between local image regions, and a cycle refinement module which utilizes ConvLSTMs to progressively update image embeddings and exchange information in a cycle manner. Experiment results on four popular benchmark datasets -- PASCAL VOC dataset, MSRC dataset, Internet dataset and iCoseg dataset demonstrate that our proposed method significantly outperforms the existing networks and achieves new state-of-the-art performance.
翻訳日:2021-04-11 11:35:57 公開日:2021-01-05
# 金融券画像の高速テキスト認識手法に関する研究

Research on Fast Text Recognition Method for Financial Ticket Image ( http://arxiv.org/abs/2101.01310v1 )

ライセンス: Link先を確認
Fukang Tian, Haiyu Wu, Bo Xu(参考訳) 現在,ディープラーニング手法が広く適用されており,様々な分野の開発が進められている。 金融会計分野では、金融券の急激な増加が労働コストを劇的に増加させるため、会計の圧力を和らげるために深層学習手法が必要である。 現在,金融チケット認識に深層学習手法を適用している研究がいくつかある。 しかし、まず、彼らのアプローチは数種類のチケットしかカバーしていない。 さらに、その認識モデルの精度と速度は、実用的な財務会計システムの要件を満たすことができない。 さらに,チケットの種類や内容の詳細な分析は行われていない。 そこで本稿ではまず,482種類の金融チケットの異なる特徴を分析し,すべての金融チケットを3つのカテゴリに分け,各カテゴリの異なる認識パターンを提案する。 これらの認識パターンは、ほぼあらゆる種類のファイナンシャルチケット認識のニーズを満たすことができる。 第2に、固定形式の金融切符(全切符の68.27\%)について、より高速なrcnnに基づいて、簡易かつ効率的な金融切符高速検出ネットワーク(ftfdnet)を提案する。 さらに、ファイナンシャルチケットのテキストの特徴により、高い認識精度を得るために、損失関数、地域提案ネットワーク(RPN)、非最大抑圧(NMS)を改善して、FTFDNetをよりテキストに集中させる。 最後に,ICDAR2019請求書コンテストにおけるチケット認識モデルの比較を行った。 実験の結果, FTFDNetは処理速度を50%向上し, 類似の精度を維持した。

Currently, deep learning methods have been widely applied in and thus promoted the development of different fields. In the financial accounting field, the rapid increase in the number of financial tickets dramatically increases labor costs; hence, using a deep learning method to relieve the pressure on accounting is necessary. At present, a few works have applied deep learning methods to financial ticket recognition. However, first, their approaches only cover a few types of tickets. In addition, the precision and speed of their recognition models cannot meet the requirements of practical financial accounting systems. Moreover, none of the methods provides a detailed analysis of both the types and content of tickets. Therefore, this paper first analyzes the different features of 482 kinds of financial tickets, divides all kinds of financial tickets into three categories and proposes different recognition patterns for each category. These recognition patterns can meet almost all types of financial ticket recognition needs. Second, regarding the fixed format types of financial tickets (accounting for 68.27\% of the total types of tickets), we propose a simple yet efficient network named the Financial Ticket Faster Detection network (FTFDNet) based on a Faster RCNN. Furthermore, according to the characteristics of the financial ticket text, in order to obtain higher recognition accuracy, the loss function, Region Proposal Network (RPN), and Non-Maximum Suppression (NMS) are improved to make FTFDNet focus more on text. Finally, we perform a comparison with the best ticket recognition model from the ICDAR2019 invoice competition. The experimental results illustrate that FTFDNet increases the processing speed by 50\% while maintaining similar precision.
翻訳日:2021-04-11 11:35:41 公開日:2021-01-05
# VersatileGait: 微粒な属性と複雑なシナリオを備えた大規模合成ゲイトデータセット

VersatileGait: A Large-Scale Synthetic Gait Dataset with Fine-GrainedAttributes and Complicated Scenarios ( http://arxiv.org/abs/2101.01394v1 )

ライセンス: Link先を確認
Huanzhang Dou, Wenhu Zhang, Pengyi Zhang, Yuhan Zhao, Songyuan Li, Zequn Qin, Fei Wu, Lin Dong, Xi Li(参考訳) 実用的な歩行認識アプリケーションの動機として,ゲームエンジンによる大規模合成歩行データセット(versatilegait)の自動作成を提案する。 限られたサンプルと単純なシナリオを持つ既存のリアルゲイトデータセットと比較して、提案されたVersatileGaitデータセットには、巨大なデータセットサイズ、高いサンプルの多様性、高品質アノテーション、マルチピッチ角、実際のデータセットとの小さなドメインギャップなど、いくつかの優れた特性がある。 さらに、データセットの有効性(事前トレーニング後のドメイン転送など)についても検討する。 次に,VersatileGaitの微粒化属性を用いて,精度と速度の両方で歩行認識を促進し,マルチピッチ角度設定で歩行認識性能を正当化する。 さらに,提案する多目的歩行の歩容認識における有用性と有用性を示す拡張実験を,関連する応用とともに実施する。 We will release both VersatileGait and its corresponding data generation Toolkit for further study。

With the motivation of practical gait recognition applications, we propose to automatically create a large-scale synthetic gait dataset (called VersatileGait) by a game engine, which consists of around one million silhouette sequences of 11,000 subjects with fine-grained attributes in various complicated scenarios. Compared with existing real gait datasets with limited samples and simple scenarios, the proposed VersatileGait dataset possesses several nice properties, including huge dataset size, high sample diversity, high-quality annotations, multi-pitch angles, small domain gap with the real one, etc. Furthermore, we investigate the effectiveness of our dataset (e.g., domain transfer after pretraining). Then, we use the fine-grained attributes from VersatileGait to promote gait recognition in both accuracy and speed, and meanwhile justify the gait recognition performance under multi-pitch angle settings. Additionally, we explore a variety of potential applications for research.Extensive experiments demonstrate the value and effective-ness of the proposed VersatileGait in gait recognition along with its associated applications. We will release both VersatileGait and its corresponding data generation toolkit for further studies.
翻訳日:2021-04-11 11:35:16 公開日:2021-01-05
# オンラインEMT補償のためのCycleGAN

CycleGAN for Interpretable Online EMT Compensation ( http://arxiv.org/abs/2101.01444v1 )

ライセンス: Link先を確認
Henry Krumb and Dhritimaan Das and Romol Chadda and Anirban Mukhopadhyay(参考訳) 目的:EMTは最小侵襲でX線誘導を部分的に置き換えることができ、ORの放射線を低減できる。 しかし、このハイブリッド環境では、EMTはX線装置による金属歪みに邪魔される。 EMTの誤差を補うことで,患者や外科医の放射線被曝を減らすためのハイブリッドナビゲーション臨床を計画する。 方法:我々のオンライン補償戦略は,サイクル一貫性のある生成対向ニューラルネットワーク(CycleGAN)を利用する。 3d位置は様々なベッドサイド環境からベンチ相当物に翻訳される。 ドメイン変換ポイントは、ベンチドメインのエラーを低減するために微調整される。 ファントム実験における補償手法の評価を行った。 結果: ドメイン翻訳手法は歪んだ点を実験室の等価点にマッピングするので, 予測は異なるCアーム環境間で一致している。 エラーはすべての評価環境でうまく低減される。 定性的ファントム実験は,我々のアプローチが目に見えないc-arm環境にうまく一般化することを示す。 結論: 敵対的かつサイクル一貫性のあるトレーニングは、オンラインエラー補償に対する説明可能で一貫性があり、解釈可能なアプローチである。 EMT誤差補償の質的評価は, 回転誤差補償法の可能性を示すものである。

Purpose: Electromagnetic Tracking (EMT) can partially replace X-ray guidance in minimally invasive procedures, reducing radiation in the OR. However, in this hybrid setting, EMT is disturbed by metallic distortion caused by the X-ray device. We plan to make hybrid navigation clinical reality to reduce radiation exposure for patients and surgeons, by compensating EMT error. Methods: Our online compensation strategy exploits cycle-consistent generative adversarial neural networks (CycleGAN). 3D positions are translated from various bedside environments to their bench equivalents. Domain-translated points are fine-tuned to reduce error in the bench domain. We evaluate our compensation approach in a phantom experiment. Results: Since the domain-translation approach maps distorted points to their lab equivalents, predictions are consistent among different C-arm environments. Error is successfully reduced in all evaluation environments. Our qualitative phantom experiment demonstrates that our approach generalizes well to an unseen C-arm environment. Conclusion: Adversarial, cycle-consistent training is an explicable, consistent and thus interpretable approach for online error compensation. Qualitative assessment of EMT error compensation gives a glimpse to the potential of our method for rotational error compensation.
翻訳日:2021-04-11 11:34:57 公開日:2021-01-05
# 犬皮膚腫瘍におけるbi-およびmulti-Nucleated tumor cellのデータセット

Dataset on Bi- and Multi-Nucleated Tumor Cells in Canine Cutaneous Mast Cell Tumors ( http://arxiv.org/abs/2101.01445v1 )

ライセンス: Link先を確認
Christof A. Bertram, Taryn A. Donovan, Marco Tecilla, Florian Bartenschlager, Marco Fragoso, Frauke Wilm, Christian Marzahl, Katharina Breininger, Andreas Maier, Robert Klopfleisch, Marc Aubreville(参考訳) 2つの核(biucleated cell, BiNC)以上の核(multinucleated cells, MuNC)を持つ腫瘍細胞は、腫瘍発生、腫瘍進展、治療抵抗性を促進すると考えられている細胞遺伝物質の増加を示す。 犬皮膚マスト細胞腫瘍 (ccMCT) では、二核化と多核化は、予後不良と相関する細胞学的および組織学的グレーディングスキームで用いられるパラメータである。 本研究では, BiNCの19,983点, MuNCの1,416点, ccMCTの32個の組織学的全スライド画像を用いた最初のオープンソースデータセットを構築した。 ラベルは病理学者とアルゴリズム支援ラベリングアプローチによって作成され、各候補の専門家によるレビューが行われた。 最先端のディープラーニングベースのモデルでは、BNCは0.675ドル、MNCは0.623ドル、全スライド画像は11点である。 これらの画像から抽出した関心領域(2.37 mm^2$)では,BiNCは0.270~0.526, MuNCは0.3160.622, MNCは0.667, MuNCは0.685であった。 このオープンデータセットは、このタスクの自動画像解析の開発を容易にし、組織学的腫瘍予後のこの側面の標準化を促進するのに役立つ。

Tumor cells with two nuclei (binucleated cells, BiNC) or more nuclei (multinucleated cells, MuNC) indicate an increased amount of cellular genetic material which is thought to facilitate oncogenesis, tumor progression and treatment resistance. In canine cutaneous mast cell tumors (ccMCT), binucleation and multinucleation are parameters used in cytologic and histologic grading schemes (respectively) which correlate with poor patient outcome. For this study, we created the first open source data-set with 19,983 annotations of BiNC and 1,416 annotations of MuNC in 32 histological whole slide images of ccMCT. Labels were created by a pathologist and an algorithmic-aided labeling approach with expert review of each generated candidate. A state-of-the-art deep learning-based model yielded an $F_1$ score of 0.675 for BiNC and 0.623 for MuNC on 11 test whole slide images. In regions of interest ($2.37 mm^2$) extracted from these test images, 6 pathologists had an object detection performance between 0.270 - 0.526 for BiNC and 0.316 - 0.622 for MuNC, while our model archived an $F_1$ score of 0.667 for BiNC and 0.685 for MuNC. This open dataset can facilitate development of automated image analysis for this task and may thereby help to promote standardization of this facet of histologic tumor prognostication.
翻訳日:2021-04-11 11:34:40 公開日:2021-01-05
# 深度誘導スキップ接続による新しいビュー合成

Novel View Synthesis via Depth-guided Skip Connections ( http://arxiv.org/abs/2101.01619v1 )

ライセンス: Link先を確認
Yuxin Hou, Arno Solin, Juho Kannala(参考訳) 一つのソースイメージを与えられたシーンの新たなビューを合成するための原則的アプローチを提案する。 従来の新しいビュー合成法は、画像ベースのレンダリング方法(例)に分けられる。 フロー予測)またはピクセル生成方法。 フロー予測により、ターゲットビューはピクセルを直接再利用できるが、容易に歪んだ結果をもたらすことができる。 直接回帰するピクセルは構造的に一貫した結果をもたらすが、一般的には低レベルの詳細が欠如している。 本稿では,エンコーダデコーダアーキテクチャを用いて,対象視の画素を回帰する。 詳細を維持するために、デコーダのアライメントされた特徴写像とスキップ接続を結合し、ターゲットビューの予測深度マップによってアライメントを導出する。 実験結果から,本手法は歪みに悩まされず,アライメントされたスキップ接続でテクスチャの詳細を保存できることがわかった。

We introduce a principled approach for synthesizing new views of a scene given a single source image. Previous methods for novel view synthesis can be divided into image-based rendering methods (e.g. flow prediction) or pixel generation methods. Flow predictions enable the target view to re-use pixels directly, but can easily lead to distorted results. Directly regressing pixels can produce structurally consistent results but generally suffer from the lack of low-level details. In this paper, we utilize an encoder-decoder architecture to regress pixels of a target view. In order to maintain details, we couple the decoder aligned feature maps with skip connections, where the alignment is guided by predicted depth map of the target view. Our experimental results show that our method does not suffer from distortions and successfully preserves texture details with aligned skip connections.
翻訳日:2021-04-11 11:34:14 公開日:2021-01-05
# 空間的注意が反復的6次元物体ポーズ推定を改善する

Spatial Attention Improves Iterative 6D Object Pose Estimation ( http://arxiv.org/abs/2101.01659v1 )

ライセンス: Link先を確認
Stefan Stevsic, Otmar Hilliges(参考訳) RGB画像からオブジェクトの6Dポーズを推定するタスクは、初期ポーズ推定ステップと、オブジェクトとその観察を正しく登録する精細化手順の2つの主要なステップに分割することができる。 本稿では,RGB画像からの6次元ポーズ推定補正手法を提案する。 最終的な推定値の精度を高めるためには、観測とレンダリングモデルを調整する必要がある。 我々の主な洞察は、最初のポーズ推定の後、アライメント中の推定精度を向上させるために、物体の異なる空間的特徴に注意を払うことが重要であることである。 さらに、画像に隠されたオブジェクトの部分は、アライメントプロセス中に、より少ない重量で与えられるべきである。 ほとんどの最先端の洗練されたアプローチは、このきめ細かい推論を許さず、問題の構造を完全に活用できない。 対照的に、ポーズリファインメント中の空間的詳細情報を特定し、活用する空間的注意機構を中心に構築された新しいニューラルネットワークアーキテクチャを提案する。 実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。 我々は6次元ポーズ推定のための標準ベンチマークデータセット(LineMODとOcclusion LineMOD)の実験を行い、従来の最先端手法よりも優れていた。

The task of estimating the 6D pose of an object from RGB images can be broken down into two main steps: an initial pose estimation step, followed by a refinement procedure to correctly register the object and its observation. In this paper, we propose a new method for 6D pose estimation refinement from RGB images. To achieve high accuracy of the final estimate, the observation and a rendered model need to be aligned. Our main insight is that after the initial pose estimate, it is important to pay attention to distinct spatial features of the object in order to improve the estimation accuracy during alignment. Furthermore, parts of the object that are occluded in the image should be given less weight during the alignment process. Most state-of-the-art refinement approaches do not allow for this fine-grained reasoning and can not fully leverage the structure of the problem. In contrast, we propose a novel neural network architecture built around a spatial attention mechanism that identifies and leverages information about spatial details during pose refinement. We experimentally show that this approach learns to attend to salient spatial features and learns to ignore occluded parts of the object, leading to better pose estimation across datasets. We conduct experiments on standard benchmark datasets for 6D pose estimation (LineMOD and Occlusion LineMOD) and outperform previous state-of-the-art methods.
翻訳日:2021-04-11 11:33:59 公開日:2021-01-05
# 高速ビデオセマンティックセグメンテーションのための局所記憶注意

Local Memory Attention for Fast Video Semantic Segmentation ( http://arxiv.org/abs/2101.01715v1 )

ライセンス: Link先を確認
Matthieu Paul, Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) 本稿では,既存の単一フレームセマンティクスセグメンテーションモデルをビデオセマンティクスセグメンテーションパイプラインに変換するニューラルネットワークモジュールを提案する。 以前の作業とは対照的に、事実上任意の単一フレームアーキテクチャに統合可能なシンプルで一般的なモジュールを目指しています。 我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。 メモリに格納された情報は、アテンション機構を介してアクセスされる。 これにより、前のフレームから時間的な外観の手がかりが提供され、第2の注意ベースのモジュールを通して現在のフレームの符号化で融合される。 セグメンテーションデコーダは融合表現を処理し、最終的なセグメンテーションを予測する。 ERFNetとPSPNetの2つの一般的なセマンティックセグメンテーションネットワークに統合する。 都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。

We propose a novel neural network module that transforms an existing single-frame semantic segmentation model into a video semantic segmentation pipeline. In contrast to prior works, we strive towards a simple and general module that can be integrated into virtually any single-frame architecture. Our approach aggregates a rich representation of the semantic information in past frames into a memory module. Information stored in the memory is then accessed through an attention mechanism. This provides temporal appearance cues from prior frames, which are then fused with an encoding of the current frame through a second attention-based module. The segmentation decoder processes the fused representation to predict the final semantic segmentation. We integrate our approach into two popular semantic segmentation networks: ERFNet and PSPNet. We observe an improvement in segmentation performance on Cityscapes by 1.7% and 2.1% in mIoU respectively, while increasing inference time of ERFNet by only 1.5ms.
翻訳日:2021-04-11 11:32:58 公開日:2021-01-05
# Trear: Transformer-based RGB-D Egocentric Action Recognition

Trear: Transformer-based RGB-D Egocentric Action Recognition ( http://arxiv.org/abs/2101.03904v1 )

ライセンス: Link先を確認
Xiangyu Li and Yonghong Hou and Pichao Wang and Zhimin Gao and Mingliang Xu and Wanqing Li(参考訳) 本稿では,RGB-D \textbf{e}gocentric \textbf{a}ction \textbf{r}ecognition frameworkであるTrearを提案する。 フレーム間アテンションエンコーダと相互アテンショナルフュージョンブロックの2つのモジュールで構成されている。 光フローやリカレントユニットの代わりに、異なるモードからのデータの時間構造をモデル化するための自己注意機構を採用する。 入力フレームはランダムにトリミングされ、データ冗長性の影響を軽減する。 各モードの特徴は、提案した融合ブロックを介して相互作用し、単純だが効果的な融合操作により結合されたRGB-D表現を生成する。 THU-READとFPHAという2つの大きなエゴセントリックなRGB-Dデータセットと、WCVSという小さなデータセットに関する実証実験により、提案手法は最先端の結果よりも大きなマージンで優れていることが示された。

In this paper, we propose a \textbf{Tr}ansformer-based RGB-D \textbf{e}gocentric \textbf{a}ction \textbf{r}ecognition framework, called Trear. It consists of two modules, inter-frame attention encoder and mutual-attentional fusion block. Instead of using optical flow or recurrent units, we adopt self-attention mechanism to model the temporal structure of the data from different modalities. Input frames are cropped randomly to mitigate the effect of the data redundancy. Features from each modality are interacted through the proposed fusion block and combined through a simple yet effective fusion operation to produce a joint RGB-D representation. Empirical experiments on two large egocentric RGB-D datasets, THU-READ and FPHA, and one small dataset, WCVS, have shown that the proposed method outperforms the state-of-the-art results by a large margin.
翻訳日:2021-04-11 11:32:42 公開日:2021-01-05
# 階層型時系列のトレーニング可能な再構成法

A Trainable Reconciliation Method for Hierarchical Time-Series ( http://arxiv.org/abs/2101.01329v1 )

ライセンス: Link先を確認
Davide Burba, Trista Chen(参考訳) 多くのアプリケーションでは、異なる階層レベルで複数の時系列の予測を生成する必要がある。 明らかな例として、需要予測が店、市、国レベルで必要となるサプライチェーンが挙げられる。 独立した予測は通常、階層的な制約のために適切に加算されないため、和解のステップが必要である。 本稿では,エンコーダ-デコーダニューラルネットワークに基づく汎用的,柔軟な,実装が容易な和解戦略を提案する。 実世界の4つのデータセット上で本手法をテストすることにより,和解設定における既存手法の性能を継続的に到達または超えることを示す。

In numerous applications, it is required to produce forecasts for multiple time-series at different hierarchy levels. An obvious example is given by the supply chain in which demand forecasting may be needed at a store, city, or country level. The independent forecasts typically do not add up properly because of the hierarchical constraints, so a reconciliation step is needed. In this paper, we propose a new general, flexible, and easy-to-implement reconciliation strategy based on an encoder-decoder neural network. By testing our method on four real-world datasets, we show that it can consistently reach or surpass the performance of existing methods in the reconciliation setting.
翻訳日:2021-04-11 11:32:26 公開日:2021-01-05
# DBMSクエリオプティマイザの強化に関する調査研究:心拍数推定,コストモデル,計画列挙

A Survey on Advancing the DBMS Query Optimizer: Cardinality Estimation, Cost Model, and Plan Enumeration ( http://arxiv.org/abs/2101.01507v1 )

ライセンス: Link先を確認
Hai Lan, Zhifeng Bao, Yuwei Peng(参考訳) クエリオプティマイザはデータベースシステムの中心にあります。 本稿では, ほぼすべてのデータベースシステムにおいて, コストベースオプティマイザが採用されている。 コストベースのオプティマイザは、(サブ)プランを見つけるためにプラン列挙アルゴリズムを導入し、そのプランのコストを取得するためにコストモデルを使用し、最小コストでプランを選択する。 コストモデルでは、演算子によるタプルの数である濃度が重要な役割を果たす。 基数推定の不正確さ、コストモデルにおける誤差、および巨大な計画空間のため、最適化器は複雑なクエリに対する最適な実行計画を見出すことができない。 本稿では,まず,上記の制限の背景にある原因について深く研究する。 次に,コストベースのオプティマイザ,濃度推定,コストモデル,計画列挙における3つの重要なコンポーネントの品質向上手法について検討する。 また、上記各側面の今後の方向性についての洞察も提供します。

Query optimizer is at the heart of the database systems. Cost-based optimizer studied in this paper is adopted in almost all current database systems. A cost-based optimizer introduces a plan enumeration algorithm to find a (sub)plan, and then uses a cost model to obtain the cost of that plan, and selects the plan with the lowest cost. In the cost model, cardinality, the number of tuples through an operator, plays a crucial role. Due to the inaccuracy in cardinality estimation, errors in cost model, and the huge plan space, the optimizer cannot find the optimal execution plan for a complex query in a reasonable time. In this paper, we first deeply study the causes behind the limitations above. Next, we review the techniques used to improve the quality of the three key components in the cost-based optimizer, cardinality estimation, cost model, and plan enumeration. We also provide our insights on the future directions for each of the above aspects.
翻訳日:2021-04-11 11:31:59 公開日:2021-01-05
# 反復的信念変化に対応する動的選好論理:表現結果と特徴付け

Dynamic Preference Logic meets Iterated Belief Change: Representation Results and Postulates Characterization ( http://arxiv.org/abs/2101.01676v1 )

ライセンス: Link先を確認
Marlo Souza, \'Alvaro Moreira, Renata Vieira(参考訳) agmの信条改正は信条変更操作の研究における主要なパラダイムの1つである。 近年,信念と情報変化の論理が文献で提案され,豊かで表現力豊かなセマンティック・フレームワークにおける信念変化操作の符号化に利用されている。 セガーバーグの研究により、AGMのような操作と動的ドキサスティック論理のエンコーディングの関連性は以前にも研究されてきたが、DEL(Dynamic Epistemic Logics)の領域に関するほとんどの研究は、我々の知る限り、これらの論理を信念変化演算子の数学的性質を研究するためのツールとして利用しようとはしなかった。 本研究では,delファミリーの論理である動的選好論理を,反復的信念変化の有名な仮定に注目して,動的信念変化演算子の特性について研究する。

AGM's belief revision is one of the main paradigms in the study of belief change operations. Recently, several logics for belief and information change have been proposed in the literature and used to encode belief change operations in rich and expressive semantic frameworks. While the connections of AGM-like operations and their encoding in dynamic doxastic logics have been studied before by the work of Segerberg, most works on the area of Dynamic Epistemic Logics (DEL) have not, to our knowledge, attempted to use those logics as tools to investigate mathematical properties of belief change operators. This work investigates how Dynamic Preference Logic, a logic in the DEL family, can be used to study properties of dynamic belief change operators, focusing on well-known postulates of iterated belief change.
翻訳日:2021-04-11 11:31:42 公開日:2021-01-05
# 深層学習に基づく呼吸音分析モデル学習のための呼吸音ラベル作成ソフトウェアの開発

Development of a Respiratory Sound Labeling Software for Training a Deep Learning-Based Respiratory Sound Analysis Model ( http://arxiv.org/abs/2101.01352v1 )

ライセンス: Link先を確認
Fu-Shun Hsu, Chao-Jung Huang, Chen-Yi Kuo, Shang-Ran Huang, Yuan-Ren Cheng, Jia-Horng Wang, Yi-Lin Wu, Tzu-Ling Tzeng, Feipei Lai(参考訳) 呼吸のオースカルトレーションは、医療従事者が奇抜な肺音が聞こえた時に呼吸異常を検出するのに役立つ。 ディープラーニングに基づく最先端の人工知能技術は、呼吸音の自動分析の開発において大きな可能性を秘めている。 深層学習に基づくモデルのトレーニングには、正常な呼吸音と冒険的な音の正確なラベルが必要となる。 本稿では, 吸気, 吸気, 緊急呼吸音をより正確に, 迅速に識別し, ラベル付けするための呼吸音ラベルソフトウェアの開発を実証する。 我々のラベルソフトウェアはMATLAB Audio Labelerと商用オーディオエディタRX7の6つの機能を統合している。 2019年10月現在, 呼吸肺音の15秒間のオーディオファイル9,765件, 吸入ラベル34,095件, 吸入ラベル18,349件, 連続無呼吸音13,883件, 不連続無呼吸音15,606件を収録している。 これらのラベルに基づいてトレーニングされた畳み込みリカレントニューラルネットワークは、吸入イベント検出のF1スコア86.0%、CAS検出の51.6%、DAS検出の71.4%で良好な性能を示した。 その結果,提案する呼吸音ラベリングソフトウェアはラベルを事前に定義し,ワンクリックラベリングを行うことが容易であり,全体として正確なラベリングのプロセスが容易であることがわかった。 このソフトウェアは、大量のラベル付き音響データを必要とするディープラーニングベースのモデルの開発を支援する。

Respiratory auscultation can help healthcare professionals detect abnormal respiratory conditions if adventitious lung sounds are heard. The state-of-the-art artificial intelligence technologies based on deep learning show great potential in the development of automated respiratory sound analysis. To train a deep learning-based model, a huge number of accurate labels of normal breath sounds and adventitious sounds are needed. In this paper, we demonstrate the work of developing a respiratory sound labeling software to help annotators identify and label the inhalation, exhalation, and adventitious respiratory sound more accurately and quickly. Our labeling software integrates six features from MATLAB Audio Labeler, and one commercial audio editor, RX7. As of October, 2019, we have labeled 9,765 15-second-long audio files of breathing lung sounds, and accrued 34,095 inhalation labels,18,349 exhalation labels, 13,883 continuous adventitious sounds (CASs) labels and 15,606 discontinuous adventitious sounds (DASs) labels, which are significantly larger than previously published studies. The trained convolutional recurrent neural networks based on these labels showed good performance with F1-scores of 86.0% on inhalation event detection, 51.6% on CASs event detection and 71.4% on DASs event detection. In conclusion, our results show that our proposed respiratory sound labeling software could easily pre-define a label, perform one-click labeling, and overall facilitate the process of accurately labeling. This software helps develop deep learning-based models that require a huge amount of labeled acoustic data.
翻訳日:2021-04-11 11:31:11 公開日:2021-01-05
# CLOI: 産業施設の幾何学的デジタル双対生成のための自動ベンチマークフレームワーク

CLOI: An Automated Benchmark Framework For Generating Geometric Digital Twins Of Industrial Facilities ( http://arxiv.org/abs/2101.01355v1 )

ライセンス: Link先を確認
Eva Agapaki and Ioannis Brilakis(参考訳) 本稿では,既存の産業施設の最も重要な形状の個々のラベル付きポイントクラスタを,汎用的な点レベルフォーマットで最小限の手作業で正確に生成する,CLOIという新しいフレームワークを考案し,実装し,ベンチマークする。 CLOIはディープラーニングと幾何学的手法を組み合わせて、ポイントをクラスと個々のインスタンスに分割する。 現在の商用ソフトウェアにおけるポイントクラウドデータからの幾何学的デジタルツイン生成は、面倒で手作業のプロセスである。 CLOIフレームワークを用いた実験により, 工業施設の複雑・不完全点雲を確実に分断でき, 82%の分画精度が得られることがわかった。 現在の実施状況と比較すると,提案手法は平均30%の時間節約を実現することができる。 CLOIは、工場の最も重要なオブジェクトに対して幾何学的デジタルツインニングを達成した最初のフレームワークである。 これは、構築された環境のセマンティックに富んだデジタル双生児の生成に関するさらなる研究の基礎を提供する。

This paper devises, implements and benchmarks a novel framework, named CLOI, that can accurately generate individual labelled point clusters of the most important shapes of existing industrial facilities with minimal manual effort in a generic point-level format. CLOI employs a combination of deep learning and geometric methods to segment the points into classes and individual instances. The current geometric digital twin generation from point cloud data in commercial software is a tedious, manual process. Experiments with our CLOI framework reveal that the method can reliably segment complex and incomplete point clouds of industrial facilities, yielding 82% class segmentation accuracy. Compared to the current state-of-practice, the proposed framework can realize estimated time-savings of 30% on average. CLOI is the first framework of its kind to have achieved geometric digital twinning for the most important objects of industrial factories. It provides the foundation for further research on the generation of semantically enriched digital twins of the built environment.
翻訳日:2021-04-11 11:30:40 公開日:2021-01-05
# 画像テキストマッチングのための類似性推論とフィルタリング

Similarity Reasoning and Filtration for Image-Text Matching ( http://arxiv.org/abs/2101.01368v1 )

ライセンス: Link先を確認
Haiwen Diao, Ying Zhang, Lin Ma, Huchuan Lu(参考訳) 画像テキストマッチングは視覚と言語をブリッジする上で重要な役割を担い、画像と文のグローバルなアライメント、あるいは領域と単語間の局所的なアライメントを活用することで大きな進歩を遂げた。 しかし、より正確なマッチングスコアを推測するためにこれらのアライメントを最大限に活用する方法はまだ未検討である。 本稿では,画像テキストマッチングのための新しい類似グラフ推論と注意フィルタリング(sgraf)ネットワークを提案する。 具体的には、ベクトルに基づく類似性表現をまず学習し、より包括的に局所的および大域的アライメントを特徴付け、次に1つのグラフ畳み込みニューラルネットワークに依存する類似性グラフ推論(sgr)モジュールを導入し、局所的および大域的アライメントの両方との関係認識類似性を推定する。 similarity Attention Filtration (SAF)モジュールはさらに、重要なアライメントと代表アライメントを選択的に参加させ、非意味なアライメントの干渉を脇に配置することで、これらのアライメントを効果的に統合するために開発されている。 Flickr30K と MSCOCO のデータセット上での最先端性能と,SGR および SAF モジュールの定性的実験と解析による良好な解釈性を示す。

Image-text matching plays a critical role in bridging the vision and language, and great progress has been made by exploiting the global alignment between image and sentence, or local alignments between regions and words. However, how to make the most of these alignments to infer more accurate matching scores is still underexplored. In this paper, we propose a novel Similarity Graph Reasoning and Attention Filtration (SGRAF) network for image-text matching. Specifically, the vector-based similarity representations are firstly learned to characterize the local and global alignments in a more comprehensive manner, and then the Similarity Graph Reasoning (SGR) module relying on one graph convolutional neural network is introduced to infer relation-aware similarities with both the local and global alignments. The Similarity Attention Filtration (SAF) module is further developed to integrate these alignments effectively by selectively attending on the significant and representative alignments and meanwhile casting aside the interferences of non-meaningful alignments. We demonstrate the superiority of the proposed method with achieving state-of-the-art performances on the Flickr30K and MSCOCO datasets, and the good interpretability of SGR and SAF modules with extensive qualitative experiments and analyses.
翻訳日:2021-04-11 11:30:23 公開日:2021-01-05
# 3次元CNNアーキテクチャにおける自動ハードマイニングによる脳腫瘍分離と生存予測

Brain Tumor Segmentation and Survival Prediction using Automatic Hard mining in 3D CNN Architecture ( http://arxiv.org/abs/2101.01546v1 )

ライセンス: Link先を確認
Vikas Kumar Anand, Sanjeev Grampurohit, Pranav Aurangabadkar, Avinash Kori, Mahendra Khened, Raghavendra S Bhat, Ganapathy Krishnamurthi(参考訳) 我々は3次元完全畳み込みニューラルネットワーク(CNN)を用いて、マルチモーダル磁気共鳴画像(MRI)からグリオーマとその構成成分を抽出する。 このアーキテクチャは、重みと残留接続の数を減らすために密結合パターンを使用し、brats 2018データセットでトレーニングした重みで初期化される。 シース類似度係数(DSC)の閾値を高めて、エポックの増加に伴ってハードケースを選択することにより、セグメンテーションタスクの難しいケースの訓練を行う。 BraTS2020の検証データ(n = 125)では,腫瘍コア,全腫瘍,活性腫瘍サイス0.744,0.876,0.714を達成した。 テストデータセットでは,腫瘍コアと活性腫瘍のDSCを約7%増加させた。 DSCでは,BraTS 2020テストデータのネットワーク性能は0.775,0.815,0.85で,腫瘍,腫瘍コア,腫瘍全体を増強する。 生成したセグメンテーションマスクを用いて得られたレジオミクス特徴から従来の機械学習を用いて被験者の全体的な生存率を決定する。 検証およびテストデータセットの精度は0.448および0.452である。

We utilize 3-D fully convolutional neural networks (CNN) to segment gliomas and its constituents from multimodal Magnetic Resonance Images (MRI). The architecture uses dense connectivity patterns to reduce the number of weights and residual connections and is initialized with weights obtained from training this model with BraTS 2018 dataset. Hard mining is done during training to train for the difficult cases of segmentation tasks by increasing the dice similarity coefficient (DSC) threshold to choose the hard cases as epoch increases. On the BraTS2020 validation data (n = 125), this architecture achieved a tumor core, whole tumor, and active tumor dice of 0.744, 0.876, 0.714,respectively. On the test dataset, we get an increment in DSC of tumor core and active tumor by approximately 7%. In terms of DSC, our network performances on the BraTS 2020 test data are 0.775, 0.815, and 0.85 for enhancing tumor, tumor core, and whole tumor, respectively. Overall survival of a subject is determined using conventional machine learning from rediomics features obtained using a generated segmentation mask. Our approach has achieved 0.448 and 0.452 as the accuracy on the validation and test dataset.
翻訳日:2021-04-11 11:29:30 公開日:2021-01-05
# 単一準備型教師なし量子機械学習:概念と応用

Single-preparation unsupervised quantum machine learning: concepts and applications ( http://arxiv.org/abs/2101.01442v1 )

ライセンス: Link先を確認
Yannick Deville, Alain Deville(参考訳) 機械学習」という言葉は特に、マッピングを導出するアルゴリズムを指す。 intput/output変換は、考慮された変換に関する情報を提供する数値データを使用する。 これらの変換は、分類/クラスタリング、回帰、システム識別、システム反転、入力信号の復元/分離など、多くの問題に現れる。 ここでは、これらすべての問題、古典的および量子的フレームワーク間の関係をまず分析する。 次に、量子データおよび/または量子処理手段を含む最も困難なバージョン、すなわち教師なしバージョンに焦点を当てます。 盲目 学習 さらに,sipqip(single-preparation quantum information processing)の一般概念を提案する。 結果として得られたメソッドは各状態の単一のインスタンスのみを必要とするが、通常のメソッドは各固定状態のコピーを非常に正確に生成する必要がある。 我々は,SIPQIPの概念を,システム同定(盲点量子プロセストモグラフィ,盲点ハミルトンパラメータ推定,BHPE,盲点量子チャネル同定・推定,盲点位相推定),システム反転と状態推定(盲点量子ソース分離,BQSS,盲点量子チャネル等化,盲点量子チャネル等化),分類など,様々なタスクに適用する。 また, 数値実験により, 標準多重準備法よりも精度の高い推定が可能となった。 bqssとbqsrは量子レジスタに格納されている状態を変化させる非理想性を補うために使用される量子ゲートの設計を可能にし、より一般的な自己適応型量子ゲートの概念への道を開く(論文のより長いバージョンの抽象版を参照)。

The term "machine learning" especially refers to algorithms that derive mappings, i.e. intput/output transforms, by using numerical data that provide information about considered transforms. These transforms appear in many problems, related to classification/clustering, regression, system identification, system inversion and input signal restoration/separation. We here first analyze the connections between all these problems, in the classical and quantum frameworks. We then focus on their most challenging versions, involving quantum data and/or quantum processing means, and unsupervised, i.e. blind, learning. Moreover, we propose the quite general concept of SIngle-Preparation Quantum Information Processing (SIPQIP). The resulting methods only require a single instance of each state, whereas usual methods have to very accurately create many copies of each fixed state. We apply our SIPQIP concept to various tasks, related to system identification (blind quantum process tomography or BQPT, blind Hamiltonian parameter estimation or BHPE, blind quantum channel identification/estimation, blind phase estimation), system inversion and state estimation (blind quantum source separation or BQSS, blind quantum entangled state restoration or BQSR, blind quantum channel equalization) and classification. Numerical tests show that our framework moreover yields much more accurate estimation than the standard multiple-preparation approach. Our methods are especially useful in a quantum computer, that we propose to more briefly call a "quamputer": BQPT and BHPE simplify the characterization of the gates of quamputers; BQSS and BQSR allow one to design quantum gates that may be used to compensate for the non-idealities that alter states stored in quantum registers, and they open the way to the much more general concept of self-adaptive quantum gates (see longer version of abstract in paper).
翻訳日:2021-04-11 11:29:09 公開日:2021-01-05
# エネルギー時系列に対するデータ駆動コピーペーストインプテーション

Data-Driven Copy-Paste Imputation for Energy Time Series ( http://arxiv.org/abs/2101.01423v1 )

ライセンス: Link先を確認
Moritz Weber, Marian Turowski, H\"useyin K. \c{C}akmak, Ralf Mikut, Uwe K\"uhnapfel, Veit Hagenmeyer(参考訳) スマートグリッドへの世界的移行の基盤は、スマートメーターである。 スマートメータは通常、グリッドシミュレーション、障害検出、負荷予測、負荷分析、負荷管理など、さまざまなアプリケーションで不可欠なエネルギー時系列を収集して提供します。 残念ながら、これらの時系列はデータを使用する前に処理しなければならない値の欠如によって特徴づけられることが多い。 時系列における欠落値を扱う一般的なアプローチはインプテーションである。 しかし、既存の計算法はパワータイムシリーズ用に設計されており、ギャップの総エネルギーを考慮していないため、エネルギータイムシリーズを計算する際にはジャンプや一定シフトが発生する。 本稿では,これらの問題を克服するために,エネルギ時系列に対する新しいCPI法を提案する。 CPI法は、同様の特性を持つデータブロックをコピーし、各ギャップの総エネルギーを保持しながら時系列のギャップに貼り付ける。 提案手法は,人工的に挿入された6つの欠落値の共有を1~30%含む実世界のデータセットで評価する。 比較のために選択された3つのベンチマークインプテーションメソッドをはるかに上回っている。 比較の結果,cpi法ではマッチングパターンを用い,各ギャップの総エネルギーを適度な実行時間のみに保ちながら保存できることがわかった。

A cornerstone of the worldwide transition to smart grids are smart meters. Smart meters typically collect and provide energy time series that are vital for various applications, such as grid simulations, fault-detection, load forecasting, load analysis, and load management. Unfortunately, these time series are often characterized by missing values that must be handled before the data can be used. A common approach to handle missing values in time series is imputation. However, existing imputation methods are designed for power time series and do not take into account the total energy of gaps, resulting in jumps or constant shifts when imputing energy time series. In order to overcome these issues, the present paper introduces the new Copy-Paste Imputation (CPI) method for energy time series. The CPI method copies data blocks with similar properties and pastes them into gaps of the time series while preserving the total energy of each gap. The new method is evaluated on a real-world dataset that contains six shares of artificially inserted missing values between 1 and 30%. It outperforms by far the three benchmark imputation methods selected for comparison. The comparison furthermore shows that the CPI method uses matching patterns and preserves the total energy of each gap while requiring only a moderate run-time.
翻訳日:2021-04-11 11:27:21 公開日:2021-01-05
# ExploitDBポストからの抽出要約によるインフォームティブCVE記述の生成

Generating Informative CVE Description From ExploitDB Posts by Extractive Summarization ( http://arxiv.org/abs/2101.01431v1 )

ライセンス: Link先を確認
Jiamou Sun, Zhenchang Xing, Hao Guo, Deheng Ye, Xiaohong Li, Xiwei Xu, Liming Zhu(参考訳) ExploitDBは、公式CVEデータベースに多数の脆弱性を貢献する重要な公開Webサイトの1つである。 これらの脆弱性の60\%以上がセキュリティ上のリスクが高い。 残念なことに、73%以上のエクスプロイトが対応するCVEよりも公に早く現れており、約40%のエクスプロイトはCVEを持っていない。 ExploitDBポストのCVEの文書化を支援するために,提案するオープンインフォメーション手法は,動詞とノイズの多いExpploitDBポストから,9つの重要な脆弱性側面(脆弱性タイプ,ベンダー,アタッカータイプ,根本原因,攻撃ベクトルおよび影響)を抽出するものである。 ExploitDBポストから抽出されたアスペクトは、提案されたCVE記述テンプレートに従ってCVE記述に構成される。 手動ラベル付き13,017文の評価と抽出された3,456文の統計的サンプリングを行い,その抽出精度を確認した。 27,230の参照CVE記述と比較する。 構成したcve記述はテキスト要約法を評価するための最長の共通部分列ベースメトリクスであるhigh rough-l (0.38) を達成する。

ExploitDB is one of the important public websites, which contributes a large number of vulnerabilities to official CVE database. Over 60\% of these vulnerabilities have high- or critical-security risks. Unfortunately, over 73\% of exploits appear publicly earlier than the corresponding CVEs, and about 40\% of exploits do not even have CVEs. To assist in documenting CVEs for the ExploitDB posts, we propose an open information method to extract 9 key vulnerability aspects (vulnerable product/version/component, vulnerability type, vendor, attacker type, root cause, attack vector and impact) from the verbose and noisy ExploitDB posts. The extracted aspects from an ExploitDB post are then composed into a CVE description according to the suggested CVE description templates, which is must-provided information for requesting new CVEs. Through the evaluation on 13,017 manually labeled sentences and the statistically sampling of 3,456 extracted aspects, we confirm the high accuracy of our extraction method. Compared with 27,230 reference CVE descriptions. Our composed CVE descriptions achieve high ROUGH-L (0.38), a longest common subsequence based metric for evaluating text summarization methods.
翻訳日:2021-04-11 11:27:01 公開日:2021-01-05
# 都市大気汚染シミュレーションの低次モデルに対する逆学習LSTM

Adversarially trained LSTMs on reduced order models of urban air pollution simulations ( http://arxiv.org/abs/2101.01568v1 )

ライセンス: Link先を確認
C\'esar Quilodr\'an-Casas, Rossella Arcucci, Christopher Pain, Yike Guo(参考訳) 本稿では,深層学習を用いた大気汚染予測の数値流体力学シミュレーションの改善手法を提案する。 本手法は,主成分分析 (PCA) と敵対的学習を統合し,元のモデル解から得られた縮小順序モデルの予測能力を向上させる手法である。 PCAを介してリダクションオーダーモデル(ROM)が得られると、Long Short-Term Memory Network(LSTM)がROM上で逆向きにトレーニングされて予測を行う。 訓練されたLSTMは、古典的な方法で訓練されたLSTMよりも優れている。 研究エリアはロンドンにあり、交通渋滞のジャンクションを再現する速度と集中トレーサが含まれている。 この逆向きに訓練されたLSTMベースのアプローチは、大気汚染トレーサのより高速な予測を生成するためにROM上で使用される。

This paper presents an approach to improve computational fluid dynamics simulations forecasts of air pollution using deep learning. Our method, which integrates Principal Components Analysis (PCA) and adversarial training, is a way to improve the forecast skill of reduced order models obtained from the original model solution. Once the reduced-order model (ROM) is obtained via PCA, a Long Short-Term Memory network (LSTM) is adversarially trained on the ROM to make forecasts. Once trained, the adversarially trained LSTM outperforms a LSTM trained in a classical way. The study area is in London, including velocities and a concentration tracer that replicates a busy traffic junction. This adversarially trained LSTM-based approach is used on the ROM in order to produce faster forecasts of the air pollution tracer.
翻訳日:2021-04-11 11:26:34 公開日:2021-01-05
# RGBD屋内ロボットナビゲーションのための強化学習のためのA*カリキュラムアプローチ

An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor Robot Navigation ( http://arxiv.org/abs/2101.01774v1 )

ライセンス: Link先を確認
Kaushik Balakrishnan, Punarjay Chakravarty, Shubham Shrivastava(参考訳) 多様な環境をナビゲートするためのロボットの訓練は、マッピングやローカライゼーションといった複数の異なる知覚タスクの合流と、最適な経路計画と制御を伴う、難しい問題である。 エージェントはDeep Reinforcement Learning(DRL)を使用して、カメライメージから直接エンドツーエンドで制御出力に回帰する。 これはデータ非効率で、GPUでトレーニングするのに数日かかります。 本稿では,ニューラルネットワークの認識と制御の訓練を分離し,カリキュラムアプローチを用いて経路の複雑さを徐々に増大させることにより,この問題を克服しようとする。 具体的には、事前訓練された双子の変分オートエンコーダ(VAE)を用いて環境からのRGBD(RGB & depth)センシングを遅延埋め込みに圧縮し、DRLベースの制御ポリシーをトレーニングする。 A*は、従来のパスプランナをポリシーのガイドとして使用し、トレーニングが進むにつれて、A*経路に沿って開始位置と目標位置の距離が漸増する。 本研究では,提案手法の有効性を,居住環境におけるpointnavタスクの訓練時間の短縮と性能向上の両面から実証する。 直感に基づくDRLナビゲーションポリシーのトレーニングを改善するこの戦略は、工場フロアのコボットやラストマイル配送ロボットといった産業に特に関心を持つロボットの展開を加速させるものと期待されている。

Training robots to navigate diverse environments is a challenging problem as it involves the confluence of several different perception tasks such as mapping and localization, followed by optimal path-planning and control. Recently released photo-realistic simulators such as Habitat allow for the training of networks that output control actions directly from perception: agents use Deep Reinforcement Learning (DRL) to regress directly from the camera image to a control output in an end-to-end fashion. This is data-inefficient and can take several days to train on a GPU. Our paper tries to overcome this problem by separating the training of the perception and control neural nets and increasing the path complexity gradually using a curriculum approach. Specifically, a pre-trained twin Variational AutoEncoder (VAE) is used to compress RGBD (RGB & depth) sensing from an environment into a latent embedding, which is then used to train a DRL-based control policy. A*, a traditional path-planner is used as a guide for the policy and the distance between start and target locations is incrementally increased along the A* route, as training progresses. We demonstrate the efficacy of the proposed approach, both in terms of increased performance and decreased training times for the PointNav task in the Habitat simulation environment. This strategy of improving the training of direct-perception based DRL navigation policies is expected to hasten the deployment of robots of particular interest to industry such as co-bots on the factory floor and last-mile delivery robots.
翻訳日:2021-04-11 11:26:21 公開日:2021-01-05
# 動的凸集合を用いた合成予測市場の設計と解析

Design and Analysis of a Synthetic Prediction Market using Dynamic Convex Sets ( http://arxiv.org/abs/2101.01787v1 )

ライセンス: Link先を確認
Nishanth Nakshatri and Arjun Menon and C. Lee Giles and Sarah Rajtmajer and Christopher Griffin(参考訳) 本稿では,特徴空間で定義される凸半代数集合のsgmoid変換を用いてエージェント購入論理を定義する合成予測市場を提案する。 資産価格は対数採点市場規則によって決定される。 資産価格の時間変化は、時間変動エージェント購入ルールにつながる半代数集合の構造に影響する。 基礎となる幾何学的前提の下では、結果として生じる合成予測市場は、入力データの集合上で定義された二項関数を任意に近似することができる。 また、市場収束のための十分な条件を提供し、特定のインスタンスにおいて、市場が資産スポット価格のリミットサイクルを示すことができることを示す。 市場が所定のデータセットの分布をモデル化できるようにエージェントパラメータを訓練するための進化的アルゴリズムを提供し、2つのオープンソースデータセットを用いて市場近似を示す。 結果は標準的な機械学習手法と比較される。

We present a synthetic prediction market whose agent purchase logic is defined using a sigmoid transformation of a convex semi-algebraic set defined in feature space. Asset prices are determined by a logarithmic scoring market rule. Time varying asset prices affect the structure of the semi-algebraic sets leading to time-varying agent purchase rules. We show that under certain assumptions on the underlying geometry, the resulting synthetic prediction market can be used to arbitrarily closely approximate a binary function defined on a set of input data. We also provide sufficient conditions for market convergence and show that under certain instances markets can exhibit limit cycles in asset spot price. We provide an evolutionary algorithm for training agent parameters to allow a market to model the distribution of a given data set and illustrate the market approximation using two open source data sets. Results are compared to standard machine learning methods.
翻訳日:2021-04-11 11:25:54 公開日:2021-01-05
# 深部強化学習と展開:レンズアレイを用いたミリ波マルチユーザMIMOのビーム選択とプリコーディング

Joint Deep Reinforcement Learning and Unfolding: Beam Selection and Precoding for mmWave Multiuser MIMO with Lens Arrays ( http://arxiv.org/abs/2101.01336v1 )

ライセンス: Link先を確認
Qiyu Hu, Yanzhen Liu, Yunlong Cai, Guanding Yu, and Zhi Ding(参考訳) ミリ波マルチユーザマルチ入力多重出力 (mu-mimo) システムと離散型レンズアレイ (dla) は、その単純なハードウェア実装と優れた性能により大きな注目を集めている。 本研究では,DLAを用いたミリ波MU-MIMOシステムにおけるビーム選択とディジタルプリコーディング行列の結合設計について検討し,送信電力制約と選択行列構造の制約を最大化する。 離散変数と結合制約を持つ非凸問題の研究は解決が困難であり,それに取り組むために結合ニューラルネットワーク(NN)設計の効率的な枠組みを提案する。 具体的には,深部強化学習(DRL)に基づくNNと,ビーム選択とディジタルプリコーディング行列の最適化に使用される深部展開NNから構成される。 DRLに基づくNNでは、ビーム選択問題をマルコフ決定プロセスとして定式化し、その問題を解決するために二重深度Q-ネットワークアルゴリズムを開発した。 基地局は、国家、行動、報酬機能を慎重に設計するエージェントであると考えられている。 ディジタルプリコーディングマトリクスの設計について,反復重み付き最小平均二乗誤差アルゴリズムによるディープアンフォールディングnnを開発し,このアルゴリズムを学習可能なパラメータを導入した階層構造に展開する。 シミュレーションの結果、nnは、複雑さと強固なロバスト性によって、既存の反復アルゴリズムを著しく上回っていることが証明された。

The millimeter wave (mmWave) multiuser multiple-input multiple-output (MU-MIMO) systems with discrete lens arrays (DLA) have received great attention due to their simple hardware implementation and excellent performance. In this work, we investigate the joint design of beam selection and digital precoding matrices for mmWave MU-MIMO systems with DLA to maximize the sum-rate subject to the transmit power constraint and the constraints of the selection matrix structure. The investigated non-convex problem with discrete variables and coupled constraints is challenging to solve and an efficient framework of joint neural network (NN) design is proposed to tackle it. Specifically, the proposed framework consists of a deep reinforcement learning (DRL)-based NN and a deep-unfolding NN, which are employed to optimize the beam selection and digital precoding matrices, respectively. As for the DRL-based NN, we formulate the beam selection problem as a Markov decision process and a double deep Q-network algorithm is developed to solve it. The base station is considered to be an agent, where the state, action, and reward function are carefully designed. Regarding the design of the digital precoding matrix, we develop an iterative weighted minimum mean-square error algorithm induced deep-unfolding NN, which unfolds this algorithm into a layerwise structure with introduced trainable parameters. Simulation results verify that this jointly trained NN remarkably outperforms the existing iterative algorithms with reduced complexity and stronger robustness.
翻訳日:2021-04-11 11:25:41 公開日:2021-01-05
# Het-node2vec:不均一多グラフ埋め込みのための2次ランダムウォークサンプリング

Het-node2vec: second order random walk sampling for heterogeneous multigraphs embedding ( http://arxiv.org/abs/2101.01425v1 )

ライセンス: Link先を確認
Giorgio Valentini and Elena Casiraghi and Luca Cappelletti and Vida Ravanmehr and Tommaso Fontana and Justin Reese and Peter Robinson(参考訳) 本稿では,ノード近傍サンプリング法を異種マルチグラフに拡張するアルゴリズム(Het-node2vec)を提案する。 複数種類のノードとエッジによって特徴づけられるネットワーク。 その結果得られたランダムウォークサンプルは、グラフの構造的特徴と異なる種類のノードとエッジのセマンティクスの両方をキャプチャする。 提案するアルゴリズムは、特定のノードやエッジタイプに注目して、調査中の予測問題に関心のある未表示のノード/エッジタイプに対する正確な表現を可能にする。 これらの豊かでよく焦点を絞った表現は、異種グラフの教師なしおよび教師なしの学習を促進することができる。

We introduce a set of algorithms (Het-node2vec) that extend the original node2vec node-neighborhood sampling method to heterogeneous multigraphs, i.e. networks characterized by multiple types of nodes and edges. The resulting random walk samples capture both the structural characteristics of the graph and the semantics of the different types of nodes and edges. The proposed algorithms can focus their attention on specific node or edge types, allowing accurate representations also for underrepresented types of nodes/edges that are of interest for the prediction problem under investigation. These rich and well-focused representations can boost unsupervised and supervised learning on heterogeneous graphs.
翻訳日:2021-04-11 11:25:15 公開日:2021-01-05
# オンライン多価学習:手段、モーメント、予測間隔

Online Multivalid Learning: Means, Moments, and Prediction Intervals ( http://arxiv.org/abs/2101.01739v1 )

ライセンス: Link先を確認
Varun Gupta, Christopher Jung, Georgy Noarov, Mallesh M. Pai, Aaron Roth(参考訳) 本稿では,様々な意味で"多値"である文脈予測を,オンラインで選択した例$(x,y)$ に対して,汎用的かつ効率的な手法を提案する。 これは、結果の見積もりが、例の列で平均されるように、ラベルの様々な統計値$y$を正確に予測するだけでなく、任意のグループ$\mathcal{G}$の相互交差する集合に属する任意の$G$に対して$x \in G$を条件に予測することを意味する。 このフレームワークのインスタンスは3つあります。 1つは平均予測であり、Hebert-Johnsonらによる多重校正の概念を満たすオンラインアルゴリズムに対応する。 2つ目は、Jungらによる平均条件モーメント多重校正の概念を満たすオンラインアルゴリズムに対応する分散と高次モーメント予測である。 最後に,予測区間の多値性という新たな概念を定義し,それを満たす予測区間を求めるアルゴリズムを提案する。 我々のアルゴリズムは、逆選択された例を扱うため、任意の点予測手法の残差の統計を等しく予測することができ、オンラインの逆数設定であっても、ブラックボックスアルゴリズムの予測の不確かさを定量化する非常に一般的な手法が生まれる。 予測間隔のインスタンス化を行う場合、これは共形予測と同じような問題を解決するが、逆境環境では、多値性保証は単純な限界カバレッジ保証よりも強い。

We present a general, efficient technique for providing contextual predictions that are "multivalid" in various senses, against an online sequence of adversarially chosen examples $(x,y)$. This means that the resulting estimates correctly predict various statistics of the labels $y$ not just marginally -- as averaged over the sequence of examples -- but also conditionally on $x \in G$ for any $G$ belonging to an arbitrary intersecting collection of groups $\mathcal{G}$. We provide three instantiations of this framework. The first is mean prediction, which corresponds to an online algorithm satisfying the notion of multicalibration from Hebert-Johnson et al. The second is variance and higher moment prediction, which corresponds to an online algorithm satisfying the notion of mean-conditioned moment multicalibration from Jung et al. Finally, we define a new notion of prediction interval multivalidity, and give an algorithm for finding prediction intervals which satisfy it. Because our algorithms handle adversarially chosen examples, they can equally well be used to predict statistics of the residuals of arbitrary point prediction methods, giving rise to very general techniques for quantifying the uncertainty of predictions of black box algorithms, even in an online adversarial setting. When instantiated for prediction intervals, this solves a similar problem as conformal prediction, but in an adversarial environment and with multivalidity guarantees stronger than simple marginal coverage guarantees.
翻訳日:2021-04-11 11:25:04 公開日:2021-01-05
# マルチエージェント通信のためのニューロシンボリックトランスフォーマー

Neurosymbolic Transformers for Multi-Agent Communication ( http://arxiv.org/abs/2101.03238v1 )

ライセンス: Link先を確認
Jeevana Priya Inala, Yichen Yang, James Paulos, Yewen Pu, Osbert Bastani, Vijay Kumar, Martin Rinard, Armando Solar-Lezama(参考訳) コミュニケーションの量を最小限に抑えつつ,協調型マルチエージェント計画問題を解くためのコミュニケーション構造を推定する問題について検討する。 通信の量を通信グラフの最大度として定量化する。 コミュニケーションの最小化は、決定空間と目的の両方の組合せの性質のため困難であり、例えば、勾配勾配を用いたニューラルネットワークのトレーニングでは、この問題は解決できない。 本稿では,通信グラフ生成に使用するプログラム的通信ポリシーと,行動選択に使用されるトランスフォーマティブ・ポリシー・ネットワークを組み合わせた制御ポリシーを合成する新しいアルゴリズムを提案する。 提案手法は,まずトランスフォーマーポリシーを学習し,暗黙的に「ソフト」な通信グラフを生成し,その後,このグラフを「硬化」してニューロシンボリックトランスフォーマーを形成するプログラム的通信ポリシーを合成する。 実験では, ほぼ最適性能を維持しながら, 低次通信グラフを生成するポリシーをいかに合成できるかを示す。

We study the problem of inferring communication structures that can solve cooperative multi-agent planning problems while minimizing the amount of communication. We quantify the amount of communication as the maximum degree of the communication graph; this metric captures settings where agents have limited bandwidth. Minimizing communication is challenging due to the combinatorial nature of both the decision space and the objective; for instance, we cannot solve this problem by training neural networks using gradient descent. We propose a novel algorithm that synthesizes a control policy that combines a programmatic communication policy used to generate the communication graph with a transformer policy network used to choose actions. Our algorithm first trains the transformer policy, which implicitly generates a "soft" communication graph; then, it synthesizes a programmatic communication policy that "hardens" this graph, forming a neurosymbolic transformer. Our experiments demonstrate how our approach can synthesize policies that generate low-degree communication graphs while maintaining near-optimal performance.
翻訳日:2021-04-11 11:24:32 公開日:2021-01-05
# OFDMを用いた無線画像伝送のためのディープジョイントソースチャネル符号化

Deep Joint Source Channel Coding for WirelessImage Transmission with OFDM ( http://arxiv.org/abs/2101.03909v1 )

ライセンス: Link先を確認
Mingyu Yang, Chenghong Bian, and Hun-Seok Kim(参考訳) 非線形信号クリップによるマルチパスフェーディングチャネル上での無線画像伝送のためのディープラーニングベースジョイントソースチャネル符号化(JSCC)方式を提案する。 提案するエンコーダとデコーダは畳み込みニューラルネットワーク(cnn)を使用し、ソースイメージを複素値ベースバンドサンプルに直接マッピングし、直交周波数分割多重(ofdm)伝送を行う。 提案したモデル駆動機械学習アプローチは、マルチパスフェーディングチャネルに対処するためにOFDMデータパスを統合しながら、ソースとチャネルを分離する必要がない。 エンドツーエンドのJSCC通信システムは、トレーニング可能なCNN層と、マルチパスチャネルモデルとOFDM信号処理ブロックを表す非トレーニング可能な異なるレイヤを組み合わせる。 機械学習フレームワークにofdmベースバンド処理ブロックを組み込むことで、ドメインエキスパートの知識を注入することで、非構造化cnnと比較して全体的なパフォーマンスが大幅に向上することを示す。 提案手法は,BPGやLDPCなど,最先端のソースとチャネルをOFDMで符号化する従来の方式よりも優れている。 また,ofdmの非線形信号クリッピングに対して,訓練中のモデルパラメータに適合しない各種チャネル条件に対して頑健であることが示されている。

We present a deep learning based joint source channel coding (JSCC) scheme for wireless image transmission over multipath fading channels with non-linear signal clipping. The proposed encoder and decoder use convolutional neural networks (CNN) and directly map the source images to complex-valued baseband samples for orthogonal frequency division multiplexing (OFDM) transmission. The proposed model-driven machine learning approach eliminates the need for separate source and channel coding while integrating an OFDM datapath to cope with multipath fading channels. The end-to-end JSCC communication system combines trainable CNN layers with non-trainable but differentiable layers representing the multipath channel model and OFDM signal processing blocks. Our results show that injecting domain expert knowledge by incorporating OFDM baseband processing blocks into the machine learning framework significantly enhances the overall performance compared to an unstructured CNN. Our method outperforms conventional schemes that employ state-of-the-art but separate source and channel coding such as BPG and LDPC with OFDM. Moreover, our method is shown to be robust against non-linear signal clipping in OFDM for various channel conditions that do not match the model parameter used during the training.
翻訳日:2021-04-11 11:24:16 公開日:2021-01-05