このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210706となっている論文です。

PDF登録状況(公開日: 20210706)

TitleAuthorsAbstract論文公表日・翻訳日
# 置換型組合せ最適化のためのquboソルバを用いたハイブリッドフレームワーク

A Hybrid Framework Using a QUBO Solver For Permutation-Based Combinatorial Optimization ( http://arxiv.org/abs/2009.12767v2 )

ライセンス: Link先を確認
Siong Thye Goh, Sabrish Gopalakrishnan, Jianyuan Bo, Hoong Chuin Lau(参考訳) 本稿では,qubo(high-performance quadratic unconstrained binary optimization)ソルバを用いて,大規模置換型組合せ問題を効果的に解くためのハイブリッドフレームワークを提案する。 そのためには、制約付き最適化モデルからパラメータチューニングを伴う制約のないモデルへの変換が必要となる。 通常はビット数に制限があるQUBOソルバを使用する際の課題を克服する手法を提案する。 まず、エネルギー景観を円滑にするために、最適性を損なうことなく入力の大きさを小さくする。 本稿では,パラメータのチューニングを効果的に行う機械学習手法を提案する。 実現可能性に対処するため,多項式時間投影アルゴリズムを導入する。 最後に, 大規模問題の解法として, quboソルバを小部分問題に対して繰り返し呼び出す分割解法を提案する。 本研究では,E-TSP (Euclidean Traveling Salesman) インスタンスとフローショップ問題 (FSP) について検証した。 最もよく知られたアプローチと比較して、それぞれ10\%$未満と11\%$未満の最適性ギャップが得られます。

In this paper, we propose a hybrid framework to solve large-scale permutation-based combinatorial problems effectively using a high-performance quadratic unconstrained binary optimization (QUBO) solver. To do so, transformations are required to change a constrained optimization model to an unconstrained model that involves parameter tuning. We propose techniques to overcome the challenges in using a QUBO solver that typically comes with limited numbers of bits. First, to smooth the energy landscape, we reduce the magnitudes of the input without compromising optimality. We propose a machine learning approach to tune the parameters for good performance effectively. To handle possible infeasibility, we introduce a polynomial-time projection algorithm. Finally, to solve large-scale problems, we introduce a divide-and-conquer approach that calls the QUBO solver repeatedly on small sub-problems. We tested our approach on provably hard Euclidean Traveling Salesman (E-TSP) instances and Flow Shop Problem (FSP). Optimality gap that is less than $10\%$ and $11\%$ are obtained respectively compared to the best-known approach.
翻訳日:2023-04-30 20:45:08 公開日:2021-07-06
# 時間遅延フィードバックを用いた多次元フォトニッククラスター状態の決定論的生成

Deterministic generation of multidimensional photonic cluster states using time-delay feedback ( http://arxiv.org/abs/2101.07772v2 )

ライセンス: Link先を確認
Yu Shi, Edo Waks(参考訳) クラスター状態は多くの量子情報処理アプリケーションで有用である。 特に、普遍的な測定ベースの量子計算(MBQC)は2次元のクラスタ状態を利用し、トポロジカルにフォールトトレラントなMBQCは3次元以上のクラスタ状態を必要とする。 本研究では,単一原子空洞システムと時間遅延フィードバックを用いて,多次元フォトニッククラスター状態を生成するプロトコルを提案する。 クラスタ状態の次元は、時間遅延フィードバックの数で線形に増加する。 まず、テンソルネットワーク状態の図式導出を行い、行列積状態と逐次光子から生成される絡み合った対状態のシミュレーションに有用である。 また,本手法は,実験上の欠陥と生成状態の論理的誤りをブリッジし解析する簡単な方法を提供する。 本研究では,現実的な実験条件下で生成されたクラスタ状態を解析し,1キュービットと2キュービットの誤差に対処する。 数値シミュレーションにより,生成状態の忠実性に最適な原子キャビティ協調性が観察された。

Cluster states are useful in many quantum information processing applications. In particular, universal measurement-based quantum computation (MBQC) utilizes 2D cluster states, and topologically fault-tolerant MBQC requires cluster states with three or higher dimensions. This work proposes a protocol to deterministically generate multidimensional photonic cluster states using a single atom-cavity system and time-delay feedback. The dimensionality of the cluster state increases linearly with the number of time-delay feedback. We firstly give a diagrammatic derivation of the tensor network states, which is valuable in simulating matrix product states and projected entangled pair states generated from sequential photons. Our method also provides a simple way to bridge and analyze the experimental imperfections and the logical errors of the generated states. In this method, we analyze the generated cluster states under realistic experimental conditions and address both one-qubit and two-qubit errors. Through numerical simulation, we observe an optimal atom-cavity cooperativity for the fidelity of the generated states, which is surprising given the prevailing assumption that higher cooperativity systems are inherently better for photonic applications.
翻訳日:2023-04-14 18:02:27 公開日:2021-07-06
# 共形場理論における長距離浄化の絡み合いと反射エントロピー

Long-distance entanglement of purification and reflected entropy in conformal field theory ( http://arxiv.org/abs/2102.00013v3 )

ライセンス: Link先を確認
Hugo A. Camargo, Lucas Hackl, Michal P. Heller, Alexander Jahn, Bennet Windt(参考訳) 量子場理論における混合状態のエンタングルメント特性の定量化は、清浄のエントロピーと反射エントロピーのエンタングルメントを通じて行われる。 本研究では、任意の次元における共形場理論の真空において、互いに遠く離れた2つの球状部分領域の両量について検討する。 格子法を用いて, 部分領域間の距離の対数によって, 相互情報行動に関して, 両者の崩壊, 浄化の絡み合い, 反射エントロピーが増大する初等的証明を見いだした。 臨界点におけるイジングスピン鎖と関連する自由フェルミオン共形場理論の場合には、両方の興味の量に対して数値的に全体係数を計算する。

Quantifying entanglement properties of mixed states in quantum field theory via entanglement of purification and reflected entropy is a new and challenging subject. In this work, we study both quantities for two spherical subregions far away from each other in the vacuum of a conformal field theory in any number of dimensions. Using lattice techniques, we find an elementary proof that the decay of both, the entanglement of purification and reflected entropy, is enhanced with respect to the mutual information behaviour by a logarithm of the distance between the subregions. In the case of the Ising spin chain at criticality and the related free fermion conformal field theory, we compute also the overall coefficients numerically for the both quantities of interest.
翻訳日:2023-04-13 08:43:40 公開日:2021-07-06
# 超伝導トランスモン量子ビットを用いた量子誤り訂正のためのハードウェア効率のリーク低減手法

A hardware-efficient leakage-reduction scheme for quantum error correction with superconducting transmon qubits ( http://arxiv.org/abs/2102.08336v2 )

ライセンス: Link先を確認
Francesco Battistel, Boris M. Varbanov, Barbara M. Terhal(参考訳) 量子ビット計算部分空間の外の漏れは、量子エラー補正(QEC)に脅威をもたらす。 ハードウェアやQECサイクルのオーバヘッドを必要とせず、2つのリーク低減ユニット(LRU)を用いてこれらの問題をトランスモンベースサーフェスコードで緩和する手法を提案する。 データキュービットの場合、マイクロ波ドライブは読み出し共振器に漏れを転送し、すぐに減衰し、現実のシステムパラメータに対する計算サブスペース内のコヒーレンスに不可逆的に影響することを保証する。 ancilla qubitsの場合、測定結果に基づいて条件付けられた$|1\rangle\leftrightarrow|2\rangle$$\pi$ pulseを適用する。 距離3面符号の密度行列シミュレーションを用いて,LRUが有限性に制限された場合にも,平均リーク寿命がほぼ1QECサイクルに短縮されることを示す。 さらに,これは論理誤差率の大幅な低減につながることを示す。 このLRUスキームは、短期的なスケーラブルQEC実証の可能性を開放する。

Leakage outside of the qubit computational subspace poses a threatening challenge to quantum error correction (QEC). We propose a scheme using two leakage-reduction units (LRUs) that mitigate these issues for a transmon-based surface code, without requiring an overhead in terms of hardware or QEC-cycle time as in previous proposals. For data qubits we consider a microwave drive to transfer leakage to the readout resonator, where it quickly decays, ensuring that this negligibly affects the coherence within the computational subspace for realistic system parameters. For ancilla qubits we apply a $|1\rangle\leftrightarrow|2\rangle$ $\pi$ pulse conditioned on the measurement outcome. Using density-matrix simulations of the distance-3 surface code we show that the average leakage lifetime is reduced to almost 1 QEC cycle, even when the LRUs are implemented with limited fidelity. Furthermore, we show that this leads to a significant reduction of the logical error rate. This LRU scheme opens the prospect for near-term scalable QEC demonstrations.
翻訳日:2023-04-11 00:12:59 公開日:2021-07-06
# 黒い穴に自由落下する検出器によるハーベストング絡み

Harvesting Entanglement with Detectors Freely Falling into a Black Hole ( http://arxiv.org/abs/2102.09573v2 )

ライセンス: Link先を確認
Kensuke Gallock-Yoshimura, Erickson Tjoa and Robert B. Mann(参考訳) 我々は、ブラックホールに自由落下する検出器の絡み合いと相互情報収集プロトコルに関する最初の調査を行う。 1+1)$-dimensional schwarzschild ブラックホール時空の研究では、2つの点状のunruh-dewitt (udw)検出器を自由落下と静的軌道の異なる組み合わせで考える。 曲った時空に適した相対速度の一般化を用いて、ブラックホールの真空から抽出された相関の量は、少なくともホライゾン近傍の領域外では、大部分は運動的である(つまり、検出器の相対速度に起因する)。 第2に、検出器が事象水平線によって因果的に切断されている場合でも、ブラックホール真空から相関を純粋に得ることができる。 最後に, 地平線近傍の既知の「絡み合い影」は, 相対的な重力赤方偏移は地平線が交差するにつれて有限であり, 2つの自由落下検出器の場合には確かに存在しないことを示した。

We carry out the first investigation of the entanglement and mutual information harvesting protocols for detectors freely falling into a black hole. Working in $(1+1)$-dimensional Schwarzschild black hole spacetime, we consider two pointlike Unruh-DeWitt (UDW) detectors in different combinations of free-falling and static trajectories. Employing a generalization of relative velocity suitable for curved spacetimes, we find that the amount of correlations extracted from the black hole vacuum, at least outside the near-horizon regime, is largely kinematic in origin (i.e. it is mostly due to the relative velocities of the detectors). Second, correlations can be harvested purely from the black hole vacuum even when the detectors are causally disconnected by the event horizon. Finally, we show that the previously known `entanglement shadow' near the horizon is indeed absent for the case of two free-falling-detectors, since their relative gravitational redshift remains finite as the horizon is crossed, in accordance with the equivalence principle.
翻訳日:2023-04-10 20:01:09 公開日:2021-07-06
# 光格子におけるrydberg原子の光イオン化

Photoionization of Rydberg Atoms in Optical Lattices ( http://arxiv.org/abs/2102.09622v2 )

ライセンス: Link先を確認
Ryan Cardman, Jamie MacLennan, Sarah E. Anderson, Yun-Jhih Chen, Georg Raithel(参考訳) 我々は,光イオン化法 (PI) とポテンシャルエネルギー曲線法 (PEC) の定式化を開発し,光格子深さのいくつかの状態をカバーする例に応用する。 ライドバーグ原子寿命に対する格子誘起piの影響は、自然崩壊と比較して顕著から高次に支配的である。 PIの挙動は、一般にPI断面積の急激な減少が、角運動量の関数($\ell$)と、光学格子PEC間の格子誘起の$\ell$-mixingによって制御される。 GHzディープ格子では、$\ell$-mixing はリッチな PEC 構造につながり、重要な$$\ell$ PI 断面は多くの格子混合 Rydberg 状態に分散する。 数十MHzの深さ未満の格子では、PEC の低い原子は本質的に$$$mixing-free であり、大きな PI 断面積を維持し、高$$$PEC の原子はPI-free となる傾向にある。 GHzディープリドバーグ原子格子におけるPIのキャラクタリゼーションは、Rydberg原子の光制御や量子状態操作に有用であるが、浅層格子におけるPIのデータは格子濃縮リドバーグ原子の高精度分光や量子計算に有用である可能性がある。

We develop a formalism for photoionization (PI) and potential energy curves (PECs) of Rydberg atoms in ponderomotive optical lattices and apply it to examples covering several regimes of the optical-lattice depth. The effect of lattice-induced PI on Rydberg-atom lifetime ranges from noticeable to highly dominant when compared with natural decay. The PI behavior is governed by the generally rapid decrease of the PI cross sections as a function of angular-momentum ($\ell$), and by lattice-induced $\ell$-mixing across the optical-lattice PECs. In GHz-deep lattices, $\ell$-mixing leads to a rich PEC structure, and the significant low-$\ell$ PI cross sections are distributed over many lattice-mixed Rydberg states. In lattices less than several tens-of-MHz deep, atoms on low-$\ell$ PECs are essentially $\ell$-mixing-free and maintain large PI cross sections, while atoms on high-$\ell$ PECs trend towards being PI-free. Characterization of PI in GHz-deep Rydberg-atom lattices may be beneficial for optical control and quantum-state manipulation of Rydberg atoms, while data on PI in shallower lattices are potentially useful in high-precision spectroscopy and quantum-computing applications of lattice-confined Rydberg atoms.
翻訳日:2023-04-10 19:50:13 公開日:2021-07-06
# コロナヘルス - 新型コロナウイルスパンデミックの状況を探る研究とセンサーベースのモバイルアプリプラットフォーム

Corona Health -- A Study- and Sensor-based Mobile App Platform Exploring Aspects of the COVID-19 Pandemic ( http://arxiv.org/abs/2106.03386v2 )

ライセンス: Link先を確認
Felix Beierle, Johannes Schobel, Carsten Vogel, Johannes Allgaier, Lena Mulansky, Fabian Haug, Julian Haug, Winfried Schlee, Marc Holfelder, Michael Stach, Marc Schickler, Harald Baumeister, Caroline Cohrdes, J\"urgen Deckert, Lorenz Deserno, Johanna-Sophie Edler, Felizitas A. Eichner, Helmut Greger, Grit Hein, Peter Heuschmann, Dennis John, Hans A. Kestler, Dagmar Krefting, Berthold Langguth, Patrick Meybohm, Thomas Probst, Manfred Reichert, Marcel Romanos, Stefan St\"ork, Yannik Terhorst, Martin Wei{\ss}, R\"udiger Pryss(参考訳) 新型コロナウイルス(covid-19)パンデミック(covid-19)の際の身体的および精神的健康状態は、通常、調査を通じて評価されるため、縦断的な調査を行うことが難しく、リコールバイアスに苦しむデータにつながる可能性がある。 EMA(Ecological momentary Assessment)によるスマートフォンアプリは、このような問題を緩和し、その場での録音を可能にする。 そのようなアプリを実装するのは簡単ではなく、厳格な規制と法的要件を必要とし、パンデミックの急激な変化に適切に対応するために短い開発サイクルを必要とする。 既存のアプリフレームワークに基づいて、モバイルセンサーの記録と組み合わせてアンケートベースの研究を展開するためのプラットフォームとして機能するcorona healthを開発した。 本稿では,Corona Healthの技術的詳細を述べるとともに,収集したデータに対する最初の洞察を提供する。 公衆衛生、医療、心理学、コンピュータサイエンスの専門家による協力を通じて、google playとapple app store(2020年7月)でcorona healthを8つの言語で公開し、これまでに7,290のインストールを魅了しました。 現在、身体的・精神的健康に関する5つの研究が展開されており、17,241のアンケートが満たされている。 corona healthは、新型コロナウイルス(covid-19)パンデミックに関連する研究を行うための有効なツールであり、将来のemaベースの研究の青写真として機能する。 私たちが収集したデータは、メンタルヘルス状態や身体的健康状態、特徴、トラジェクトリー、そして新型コロナウイルスのパンデミックとさまざまな予防措置のリスクと保護要因に関する知識を大幅に改善します。

Physical and mental well-being during the COVID-19 pandemic is typically assessed via surveys, which might make it difficult to conduct longitudinal studies and might lead to data suffering from recall bias. Ecological momentary assessment (EMA) driven smartphone apps can help alleviate such issues, allowing for in situ recordings. Implementing such an app is not trivial, necessitates strict regulatory and legal requirements, and requires short development cycles to appropriately react to abrupt changes in the pandemic. Based on an existing app framework, we developed Corona Health, an app that serves as a platform for deploying questionnaire-based studies in combination with recordings of mobile sensors. In this paper, we present the technical details of Corona Health and provide first insights into the collected data. Through collaborative efforts from experts from public health, medicine, psychology, and computer science, we released Corona Health publicly on Google Play and the Apple App Store (in July, 2020) in 8 languages and attracted 7,290 installations so far. Currently, five studies related to physical and mental well-being are deployed and 17,241 questionnaires have been filled out. Corona Health proves to be a viable tool for conducting research related to the COVID-19 pandemic and can serve as a blueprint for future EMA-based studies. The data we collected will substantially improve our knowledge on mental and physical health states, traits and trajectories as well as its risk and protective factors over the course of the COVID-19 pandemic and its diverse prevention measures.
翻訳日:2023-03-27 09:14:06 公開日:2021-07-06
# 15ユーザ量子セキュアな直接通信ネットワーク

A 15-user quantum secure direct communication network ( http://arxiv.org/abs/2106.13509v2 )

ライセンス: Link先を確認
Zhantong Qi, Yuanhua Li, Yiwen Huang, Juan Feng, Yuanlin Zheng and Xianfeng Chen(参考訳) 絡み合いに基づく量子セキュアダイレクト通信(QSDC)は、秘密情報を直接送信することができる。 しかし、4つのエンコードされた絡み合った状態の集合を同時に区別できないことは、その実用的応用を制限する。 本稿では、時間エネルギーの絡み合いと総周波数生成に基づく決定論的QSDCネットワークについて検討する。 15ユーザは完全に接続されたQSDCネットワークに属しており、2人のユーザが共有する絡み合った状態の忠実度は97%以上である。 その結果,両ユーザが40km以上の光ファイバーでqsdcを行う場合,それらが共有する絡み合い状態の忠実度は95%以上であり,情報伝達速度は1kbp/s以上であることがわかった。 我々のレターは、提案するQSDCネットワークの実現可能性を示し、今後、衛星ベースの長距離・グローバルQSDCの実現の基礎となる。

Quantum secure direct communication (QSDC) based on entanglement can directly transmit confidential information. However, the inability to simultaneously distinguish the four sets of encoded entangled states limits its practical application. Here, we explore a deterministic QSDC network based on time-energy entanglement and sum-frequency generation. 15 users are in a fully connected QSDC network, and the fidelity of the entangled state shared by any two users is greater than 97%. The results show that when any two users are performing QSDC over 40 kilometers of optical fiber, the fidelity of the entangled state shared by them is still greater than 95%, and the rate of information transmission can be maintained above 1Kbp/s. Our Letter demonstrates the feasibility of a proposed QSDC network, and hence lays the foundation for the realization of satellite-based long-distance and global QSDC in the future.
翻訳日:2023-03-25 14:07:49 公開日:2021-07-06
# 経路積分のペアワイズ連結テンソルネットワーク表現

A Pairwise Connected Tensor Network Representation of Path Integrals ( http://arxiv.org/abs/2106.14934v4 )

ライセンス: Link先を確認
Amartya Bose(参考訳) ファインマン・ヴァーノンの影響関数を含む実時間経路積分のテンソル的性質は、非マルコフメモリの有限長を生かして行列積状態を用いて利用できることが最近示されている。 テンソルネットワークは、パス積分の構造を表現するための新しい統一言語を提供することを約束する。 ここで、一般化テンソルネットワークは、影響汎関数のペアワイズ相互作用構造を具体化し、コンパクトな表現と効率的な評価を可能にする。 この対接続テンソルネットワークパス積分(PCTNPI)は、典型的なスピンボソン問題への応用とスペクトル密度の正確な形に起因する差の探索を通じて説明される。 保存条件と性能を,反復的準断熱伝達経路積分と反復的すべり仮定経路積分と比較した。 最後に,PCTNPIを用いたマルチステート問題シミュレーションの実現可能性を示す。

It has been recently shown how the tensorial nature of real-time path integrals involving the Feynman-Vernon influence functional can be utilized using matrix product states, taking advantage of the finite length of the non-Markovian memory. Tensor networks promise to provide a new, unified language to express the structure of path integral. Here, a generalized tensor network is derived and implemented specifically incorporating the pairwise interaction structure of the influence functional, allowing for a compact representation and efficient evaluation. This pairwise connected tensor network path integral (PCTNPI) is illustrated through applications to typical spin-boson problems and explorations of the differences caused by the exact form of the spectral density. The storage requirements and performance are compared with iterative quasi-adiabatic propagator path integral and iterative blip-summed path integral. Finally, the viability of using PCTNPI for simulating multistate problems is demonstrated taking advantage of the compressed representation.
翻訳日:2023-03-24 21:54:16 公開日:2021-07-06
# 実量子状態の実験的マスキング

Experimental Masking of Real Quantum States ( http://arxiv.org/abs/2107.01589v2 )

ライセンス: Link先を確認
Rui-Qi Zhang, Zhibo Hou, Zihao Li, Huangjun Zhu, Guo-Yong Xiang, Chuan-Feng Li, Guang-Can Guo(参考訳) 量子情報のマスキング(英: Masking of quantum information)は、任意のローカルオブザーバーにアクセスできないような相関関係に情報を隠す方法である。 すべての量子状態全体の集合は、非マスキング定理に従って二部相関にマスクすることはできないが、実状態の集合はマスク可能であり、最大マスク可能な集合である。 本研究では,フォトニック量子ウォークを用いて実量子のマスキングプロトコルを実験的に実現する。 我々の実験は、実クォータートの量子情報は、単一の光子の2つの異なる自由度で符号化された2ビットのハイブリッド絡み合った状態の2部相関に完全に隠れることを示した。 隠れた情報は各量子ビットからのみアクセスすることはできないが、相関測定から約99%の忠実度で確実に検索することができる。 対照的に、実密度行列の集合の任意の超集合はマスキングできない。

Masking of quantum information is a way of hiding information in correlations such that no information is accessible to any local observer. Although the set of all quantum states as a whole cannot be masked into bipartite correlations according to the no-masking theorem, the set of real states is maskable and is a maximal maskable set. In this work, we experimentally realize a masking protocol of the real ququart by virtue of a photonic quantum walk. Our experiment clearly demonstrates that quantum information of the real ququart can be completely hidden in bipartite correlations of two-qubit hybrid entangled states, which are encoded in two different degrees of freedom of a single photon. The hidden information is not accessible from each qubit alone, but can be faithfully retrieved with a fidelity of about 99% from correlation measurements. By contrast, any superset of the set of real density matrices cannot be masked.
翻訳日:2023-03-23 11:28:05 公開日:2021-07-06
# Schr\\odinger, Hartree-Fock, M\"uller 理論における分子の最大負イオン

The maximal negative ion of molecules in Schr\"odinger, Hartree-Fock, and M\"uller theories ( http://arxiv.org/abs/2107.01826v2 )

ライセンス: Link先を確認
Yukimi Goto(参考訳) 境界は電子の最大値 $n_c$ について研究され、トータル核電荷 $z$ の $k$ 原子に結合できる。 n_c < \min\{2z+1, 1.22z + 3z^{1/3}\}$ in schr\"odinger theory が証明されている。 これによりリーブの有界な$N_c < 2Z+K$が向上し、ナムの結果を分子に拡張する。 さらに、Hartree-Fock と M\"uller 理論の分子に対するイオン化予想が証明され、すなわち$N_c \le Z + CKR_\mathrm{min}^{-3}$、$R_\mathrm{min}$ は原子間の最小距離であり、$C$ は普遍定数である。

Bounds are studied for the maximum number, $N_c$, of electrons that can be bound to $K$ atoms of the total nuclear charge $Z$. It is proved that $N_c < \min\{2Z+1, 1.22Z + 3Z^{1/3}\}$ in Schr\"odinger theory. This improves Lieb's bound $N_c < 2Z+K$ and extends Nam's results for an atom to the molecule. Moreover, the ionization conjectures for the molecules in Hartree-Fock and M\"uller theories are proved, i.e., $N_c \le Z + CKR_\mathrm{min}^{-3}$, where $R_\mathrm{min}$ is the minimal distance between atoms and $C$ is a universal constant.
翻訳日:2023-03-23 09:17:38 公開日:2021-07-06
# コイン対称性が量子ウォークの無限打撃時間に及ぼす影響

Influence of coin symmetry on infinite hitting times in quantum walks ( http://arxiv.org/abs/2107.02383v1 )

ライセンス: Link先を確認
Prithviraj Prabhu and Todd A. Brun(参考訳) 有限グラフ上の古典的ランダムウォークは下限の性質を持ち、任意の頂点からのウォークは有限時間で他の頂点に到達できる。 離散時間量子ウォークは有限連結グラフ上では無限のヒットタイムを持つ。 この現象は、方向保存グラフ自己同型群がヒルベルト空間に自明に影響を及ぼすようなグラフ対称性と関連している。 グラフが(ある意味で)十分に対称であれば、関連する量子ウォークユニタリは、任意のコインフリップ作用素に対して、対象頂点の集合を重複しない固有ベクトルを含む。 これらの固有ベクトルは無限ヒッティング時間(IHT)部分空間にまたがる。 IHT部分空間の量子状態は決して目標頂点に到達せず、無限に打つ時間に繋がる。 3d立方体のグラフはこの対称性の制約を満たしていないが、一定の対称コインを持つこのグラフ上の量子ウォークは無限のヒットタイムを示すことができる。 コイン-置換対称性(英語版)(CPS)の群を解析し、コイン対称性の効果を研究する: コイン・ヒルベルト空間上で非自明に作用するグラフ自己同型は、コイン作用素は不変である。 置換不変のグローバー硬貨のような大きなCPS基を持つ高対称の硬貨を使用する単位は、より大きなIHT部分空間の結果として、到達しない確率が高い。

Classical random walks on finite graphs have an underrated property: a walk from any vertex can reach every other vertex in finite time, provided they are connected. Discrete-time quantum walks on finite connected graphs however, can have infinite hitting times. This phenomenon is related to graph symmetry, as previously characterized by the group of direction-preserving graph automorphisms that trivially affect the coin Hilbert space. If a graph is symmetric enough (in a particular sense) then the associated quantum walk unitary will contain eigenvectors that do not overlap a set of target vertices, for any coin flip operator. These eigenvectors span the Infinite Hitting Time (IHT) subspace. Quantum states in the IHT subspace never reach the target vertices, leading to infinite hitting times. However, this is not the whole story: the graph of the 3D cube does not satisfy this symmetry constraint, yet quantum walks on this graph with certain symmetric coins can exhibit infinite hitting times. We study the effect of coin symmetry by analyzing the group of coin-permutation symmetries (CPS): graph automorphisms that act nontrivially on the coin Hilbert space but leave the coin operator invariant. Unitaries using highly symmetric coins with large CPS groups, such as the permutation-invariant Grover coin, are associated with higher probabilities of never arriving, as a result of their larger IHT subspaces.
翻訳日:2023-03-23 06:56:42 公開日:2021-07-06
# 局所動作による量子ゲートの効率的な実験的検証

Efficient Experimental Verification of Quantum Gates with Local Operations ( http://arxiv.org/abs/2107.02365v1 )

ライセンス: Link先を確認
Rui-Qi Zhang, Zhibo Hou, Jun-Feng Tang, Jiangwei Shang, Huangjun Zhu, Guo-Yong Xiang, Chuan-Feng Li, and Guang-Can Guo(参考訳) 量子ゲートの正しい機能を検証することは、信頼できる量子情報処理への重要なステップであるが、次元の呪いによってシステムのサイズが大きくなると、圧倒的な課題となる。 最近の理論的ブレークスルーは、$O(1/\epsilon)$を局所演算のみを用い、$\epsilon$を推定精度として、最適なサンプルの複雑さで様々な重要な量子ゲートを検証することができることを示している。 本研究では,実用的ゲート不完全化に頑健な量子ゲート検証(qgv)の変種を提案し,局所状態と測定のみを用いて,2量子ビット制御なしゲートと3量子ビットトッフォリゲートの効率的なqgvを実現する。 実験結果から, 平均1600および2600の測定値を用いて, 実装した制御ノットゲートとトフォリゲートがそれぞれ少なくとも99%, 97%の忠実度を有することを95%の信頼度で検証できることがわかった。 qgvのより低いサンプルの複雑さと実験可能性を示し、量子時代の大きな量子デバイスを検証する際の次元の呪いに対する解決策を約束する。

Verifying the correct functioning of quantum gates is a crucial step towards reliable quantum information processing, but it becomes an overwhelming challenge as the system size grows due to the dimensionality curse. Recent theoretical breakthroughs show that it is possible to verify various important quantum gates with the optimal sample complexity of $O(1/\epsilon)$ using local operations only, where $\epsilon$ is the estimation precision. In this work, we propose a variant of quantum gate verification (QGV) which is robust to practical gate imperfections, and experimentally realize efficient QGV on a two-qubit controlled-not gate and a three-qubit Toffoli gate using only local state preparations and measurements. The experimental results show that, by using only 1600 and 2600 measurements on average, we can verify with 95% confidence level that the implemented controlled-not gate and Toffoli gate have fidelities at least 99% and 97%, respectively. Demonstrating the superior low sample complexity and experimental feasibility of QGV, our work promises a solution to the dimensionality curse in verifying large quantum devices in the quantum era.
翻訳日:2023-03-23 06:56:02 公開日:2021-07-06
# パラメトリックゲートにおける強駆動効果の高精度解析法

Accurate methods for the analysis of strong-drive effects in parametric gates ( http://arxiv.org/abs/2107.02343v1 )

ライセンス: Link先を確認
Alexandru Petrescu and Camille Le Calonnec and Catherine Leroux and Agustin Di Paolo and Pranav Mundada and Sara Sussman and Andrei Vrajitoarea and Andrew A. Houck and Alexandre Blais(参考訳) 高速で忠実なゲートを囲む能力は、実行可能な量子プロセッサにとって重要な要件である。 実際には、高速ゲートの達成には、回転波近似では捉えられない強い駆動効果のペナルティがしばしば伴う。 これらの効果はゲートプロトコルのシミュレーションで解析できるが、それらは計算コストがかかり、しばしば物理現象を隠蔽する。 本稿では, 正確な数値と摂動解析手法を用いて, フロッケ固有確率を直接解き, ゲートパラメータを効率的に抽出する方法を示す。 このツールキットの例として、パラメトリック駆動カプラで接続された2つの固定周波数トランスモン量子ビット間のパラメトリックゲートの空間について検討する。 時間依存シュリーファー・ウルフ摂動理論に基づく解析的な処理は、ゲート周波数とスプリアス相互作用の閉形式表現を生じさせ、強い駆動に有効である。 これらの計算から,$i$SWAP, Control-Z, CNOT など,異なる種類のゲートに対する最適操作条件を特定する。 これらの解析結果は,ドライブ依存ゲートパラメータを直接抽出する数値フロケ計算によって補完される。 このアプローチは時間発展の完全なシミュレーションよりもかなりの計算上の利点がある。 より一般的に、解析的および数値的戦略を組み合わせることで、パラメトリック駆動型相互作用を含む2ビットゲートを特徴付けることができ、マルチキュービットアーキテクチャにおける不要なZZ相互作用のキャンセルなどのゲート最適化やクロストーク緩和に適用できる。

The ability to perform fast, high-fidelity entangling gates is an important requirement for a viable quantum processor. In practice, achieving fast gates often comes with the penalty of strong-drive effects that are not captured by the rotating-wave approximation. These effects can be analyzed in simulations of the gate protocol, but those are computationally costly and often hide the physics at play. Here, we show how to efficiently extract gate parameters by directly solving a Floquet eigenproblem using exact numerics and a perturbative analytical approach. As an example application of this toolkit, we study the space of parametric gates generated between two fixed-frequency transmon qubits connected by a parametrically driven coupler. Our analytical treatment, based on time-dependent Schrieffer-Wolff perturbation theory, yields closed-form expressions for gate frequencies and spurious interactions, and is valid for strong drives. From these calculations, we identify optimal regimes of operation for different types of gates including $i$SWAP, controlled-Z, and CNOT. These analytical results are supplemented by numerical Floquet computations from which we directly extract drive-dependent gate parameters. This approach has a considerable computational advantage over full simulations of time evolutions. More generally, our combined analytical and numerical strategy allows us to characterize two-qubit gates involving parametrically driven interactions, and can be applied to gate optimization and cross-talk mitigation such as the cancellation of unwanted ZZ interactions in multi-qubit architectures.
翻訳日:2023-03-23 06:55:39 公開日:2021-07-06
# 関係量子力学とpbr定理:平和的共存

Relational Quantum Mechanics and the PBR Theorem: A Peaceful Coexistence ( http://arxiv.org/abs/2107.02566v1 )

ライセンス: Link先を確認
Andrea Oldofredi, Claudio Calosi(参考訳) リレーショナル量子力学(RQM)によれば、波動関数 $\psi$ は時空で進化する具体的な物理アイテムでも、ある量子系の絶対状態を表すオブジェクトでもないと考えられている。 この解釈的枠組みでは、$\psi$ は観測者の情報を符号化する計算装置として定義される。 この観点はpbrの定理と相反しており、波動関数がいくつかのオントティック状態によって記述された基礎となる現実の知識を表現するという形式的な結果である。 この論文では、RQMはPBRの議論の結論に影響されず、従って、主張された矛盾を解消することができる。 そのために、PBR定理の根底、すなわちハリガンとスペクケンスの存在論的モデルの分類について徹底的に議論し、オンティック状態の性質に関する暗黙の仮定がRQMの主テットと相容れないことを示す。 次に,関係性PBR型の結果を導出できるかどうかを質問し,負に答える。 この結論は、文献でまだ議論されていないこの定理のいくつかの限界を示している。

According to Relational Quantum Mechanics (RQM) the wave function $\psi$ is considered neither a concrete physical item evolving in spacetime, nor an object representing the absolute state of a certain quantum system. In this interpretative framework, $\psi$ is defined as a computational device encoding observers' information; hence, RQM offers a somewhat epistemic view of the wave function. This perspective seems to be at odds with the PBR theorem, a formal result excluding that wave functions represent knowledge of an underlying reality described by some ontic state. In this paper we argue that RQM is not affected by the conclusions of PBR's argument; consequently, the alleged inconsistency can be dissolved. To do that, we will thoroughly discuss the very foundations of the PBR theorem, i.e. Harrigan and Spekkens' categorization of ontological models, showing that their implicit assumptions about the nature of the ontic state are incompatible with the main tenets of RQM. Then, we will ask whether it is possible to derive a relational PBR-type result, answering in the negative. This conclusion shows some limitations of this theorem not yet discussed in the literature.
翻訳日:2023-03-23 06:50:15 公開日:2021-07-06
# 立方相ゲートを用いたテレポーテーション

Teleportation with a cubic phase gate ( http://arxiv.org/abs/2107.02511v1 )

ライセンス: Link先を確認
E. R. Zinatullin, S. B. Korolev, T. Yu. Golubeva(参考訳) 本研究では, 転位した圧縮状態に立方相ゲートを適用して, テレポーテーション精度を向上させるための量子テレポーテーション方式を提案する。 提案手法をハイゼンベルクの言語で記述し, テレポーテーションに誤差を加えるという観点から評価し, 元のスキームよりも誤差を少なくできることを示した。 波動関数の言語で記述を繰り返すと、変位値の範囲が発見され、その結果が妥当となる。 真空状態のテレポーテーションの例を用いて、このスキームは高い忠実度値を達成することができることを示した。

We propose a modified quantum teleportation scheme to increase the teleportation accuracy by applying a cubic phase gate to the displaced squeezed state. We have described the proposed scheme in Heisenberg's language, evaluating it from the point of view of adding an error in teleportation, and have shown that it allows achieving less error than the original scheme. Repeating the description in the language of wave functions, we have found the range of the displacement values, at which our conclusions will be valid. Using the example of teleportation of the vacuum state, we have shown that the scheme allows one to achieve high fidelity values.
翻訳日:2023-03-23 06:49:20 公開日:2021-07-06
# 長距離相互作用を持つモデルに相関長はあるか?

Is there a correlation length in a model with long-range interactions? ( http://arxiv.org/abs/2107.02508v1 )

ライセンス: Link先を確認
Debasis Sadhukhan and Jacek Dziarmaga(参考訳) 長距離キタエフモデルの一例を考えると、臨界点から離れた相関関数が通常の指数的崩壊ではなく、パワーローテールを持つ長距離相互作用を持つモデルにおける相関長を求める。 準粒子スペクトルは、標準相関長指数である$\nu$を識別できる方法で臨界点からの距離に依存することが判明した。 指数は、臨界点が近づくと発散する相関長$\xi$ を暗黙的に定義する。 相関長は相関関数にも現れるが,指数的尾部には存在しない。 代わりに$\xi$ は異なる指数を持つ2つの異なる代数的崩壊の間の交差を示す距離である。 距離が\xi$より短いとき、コリレーターは臨界点と同じパワー法則で崩壊し、$\xi$よりも長い距離ではより急なパワー法則でより早く崩壊する。 このコリレータでは、通常のスケーリング仮説を、スケーリング距離の役割を担う$\xi$で定式化することができる。 相関長は、サブリーディングの異常なフェルミオンコリレータにも印を残しているが、興味深いことに、短距離の臨界パワーロー崩壊が長距離パワーローテールよりも急な長距離相互作用の仕組みが存在する。

Considering an example of the long-range Kitaev model, we are looking for a correlation length in a model with long range interactions whose correlation functions away from a critical point have power-law tails instead of the usual exponential decay. It turns out that quasiparticle spectrum depends on a distance from the critical point in a way that allows to identify the standard correlation length exponent, $\nu$. The exponent implicitly defines a correlation length $\xi$ that diverges when the critical point is approached. We show that the correlation length manifests itself also in the correlation function but not in its exponential tail because there is none. Instead $\xi$ is a distance that marks a crossover between two different algebraic decays with different exponents. At distances shorter than $\xi$ the correlator decays with the same power law as at the critical point while at distances longer than $\xi$ it decays faster, with a steeper power law. For this correlator it is possible to formulate the usual scaling hypothesis with $\xi$ playing the role of the scaling distance. The correlation length also leaves its mark on the subleading anomalous fermionic correlator but, interestingly, there is a regime of long range interactions where its short distance critical power-law decay is steeper than its long distance power law tail.
翻訳日:2023-03-23 06:49:10 公開日:2021-07-06
# 偏光物体のメタサーフェス支援量子ゴースト識別

Metasurface-Assisted Quantum Ghost Discrimination of Polarization Objects ( http://arxiv.org/abs/2107.02703v1 )

ライセンス: Link先を確認
Andres Vega, Thomas Pertsch, Frank Setzpfandt, Andrey A. Sukhorukov(参考訳) 偏光物体群間の非局所的識別のためのメタサーフェス支援ゴーストイメージングの概念を開発した。 特別に設計されたメタサーフェスがイメージングシステムに組み込まれ、量子エンタングルや古典的相関を持つ光子の楕円基底における並列状態変換を行う。 そして、対象物が完全にあるいは部分的に透明な偏光要素と任意の向きの角度を識別できるのは、複数の準曲面出力と単純な偏光無感なバケット検出器の間の相関測定が4つ以下である。 我々は、絡み合った光子状態が、幅広い種類の対象に対する古典的相関よりも根本的な優位性をもたらすことを厳密に証明する。 このアプローチは、動的環境における様々なスペクトル領域にわたるリアルタイムおよび低照度イメージングの応用を見つけることができる。

We develop a concept of metasurface-assisted ghost imaging for non-local discrimination between a set of polarization objects. The specially designed metasurfaces are incorporated in the imaging system to perform parallel state transformations in general elliptical bases of quantum-entangled or classically-correlated photons. Then, only four or fewer correlation measurements between multiple metasurface outputs and a simple polarization-insensitive bucket detector after the object can allow for the identification of fully or partially transparent polarization elements and their arbitrary orientation angles. We rigorously establish that entangled photon states offer a fundamental advantage compared to classical correlations for a broad class of objects. The approach can find applications for real-time and low-light imaging across diverse spectral regions in dynamic environments.
翻訳日:2023-03-23 06:41:41 公開日:2021-07-06
# ランタノイド分子の化学結合と構造における軌道および磁気異方性の相対論的側面

Relativistic aspects of orbital and magnetic anisotropies in the chemical bonding and structure of lanthanide molecules ( http://arxiv.org/abs/2107.02676v1 )

ライセンス: Link先を確認
Eite Tiesinga, Jacek Klos, Ming Li, Alexander Petrov, and Svetlana Kotochigova(参考訳) 磁気ランタニド原子の電子構造は基本的な観点から興味深い。 それらは6sシェルの下の水没した4f殻に電子を持ち、強い相対論的相関を持ち、大きな磁気モーメントと大きな電子軌道角運動量をもたらす。 この大きな角運動量は強い異方性をもたらす。 e. 相互の相互作用における方向依存。 長い配列の分子異方性は、スピンベースの量子コンピュータで超低温のランタノイド原子を使用する提案、相関物質におけるエキゾチック状態の実現、磁気技術で見つかる軌道論のシミュレーションに不可欠である。 これらの原子種の短距離相互作用と結合形成は、今のところよく分かっていない。 効率的な相対論的計算が必要である。 ここでは, 重質ホモ核ランタニドer2およびtm2分子の電子状態およびロ振動状態を, 最先端の相対論的手法を用いて初めて理論的に決定する。 内部構造が複雑であるにもかかわらず、2つの基底状態原子に解離する91 Er2と36 Tm2の電子ポテンシャル間の信頼できるスピン軌道と相関による分裂を得ることができた。 テンソル解析は、将来の研究を単純化する7つのスピンスピンテンソル作用素の和を用いて原子間のポテンシャルを拡張することができる。 原子分離の関数としてのテンソル作用素の強度を示し、分散長範囲相互作用から導かれる強度間の関係を説明する。 最後に、結合チャネル計算を用いて低分解能のロ-振動エネルギーレベルを計算し、解析する。

The electronic structure of magnetic lanthanide atoms is fascinating from a fundamental perspective. They have electrons in a submerged open 4f shell lying beneath a filled 6s shell with strong relativistic correlations leading to a large magnetic moment and large electronic orbital angular momentum. This large angular momentum leads to strong anisotropies, i. e. orientation dependencies, in their mutual interactions. The long-ranged molecular anisotropies are crucial for proposals to use ultracold lanthanide atoms in spin-based quantum computers, the realization of exotic states in correlated matter, and the simulation of orbitronics found in magnetic technologies. Short-ranged interactions and bond formation among these atomic species have thus far not been well characterized. Efficient relativistic computations are required. Here, for the first time we theoretically determine the electronic and ro-vibrational states of heavy homonuclear lanthanide Er2 and Tm2 molecules by applying state-of-the-art relativistic methods. In spite of the complexity of their internal structure, we were able to obtain reliable spin-orbit and correlation-induced splittings between the 91 Er2 and 36 Tm2 electronic potentials dissociating to two ground-state atoms. A tensor analysis allows us to expand the potentials between the atoms in terms of a sum of seven spin-spin tensor operators simplifying future research. The strengths of the tensor operators as functions of atom separation are presented and relationships among the strengths, derived from the dispersive long-range interactions, are explained. Finally, low-lying spectroscopically relevant ro-vibrational energy levels are computed with coupled-channels calculations and analyzed.
翻訳日:2023-03-23 06:41:27 公開日:2021-07-06
# 放射崩壊を伴わないパーセル効果の探索:周波数領域と時間領域での教訓

Probing the Purcell effect without radiative decay: Lessons in the frequency and time domains ( http://arxiv.org/abs/2107.02647v1 )

ライセンス: Link先を確認
Frieder Lindel, Francesca Fabiana Settembrini, Robert Bennett, Stefan Yoshi Buhmann(参考訳) 量子真空ゆらぎの電気光学サンプリングの基礎となる微視的過程を考察し、仮想光子の交換の観点からこれらの実験の解釈を導いた。 このことを念頭に置いて、パーセル効果、すなわち量子真空上の空洞によって誘起される変化を直接周波数と時間領域で研究する方法が示されている。 これにより、量子真空の電気光学的サンプリングと幾何誘起真空効果とのリンクが形成される。

The microscopic processes underlying electro-optic sampling of quantum-vacuum fluctuations are discussed, leading to the interpretation of these experiments in terms of an exchange of virtual photons. With this in mind it is shown how one can directly study the Purcell effect, i.e. the changes induced by cavities upon the quantum vacuum, in the frequency and time domains. This forges a link between electro-optic sampling of the quantum vacuum and geometry-induced vacuum effects.
翻訳日:2023-03-23 06:39:34 公開日:2021-07-06
# F_4$を超える符号からの非有理ナラインCFT

Non-rational Narain CFTs from codes over $F_4$ ( http://arxiv.org/abs/2107.02816v1 )

ライセンス: Link先を確認
Anatoly Dymarsky and Adar Sharon(参考訳) F_4$以上の符号のクラスと非有理なナラインCFTの族の間の写像を構築する。 この構成は、最近導入された量子安定化符号と有理ナライン理論のクラスとの関係を補完するものである。 モジュラーブートストラップの観点からは、分割関数に対する多項式 ansatz を定式化し、モジュラー不変性を一握りの代数的易解制約に還元する。 中心電荷の特定の小さな値に対して、我々の構成は最適理論、すなわちスペクトルギャップの最大値を持つものを与える。

We construct a map between a class of codes over $F_4$ and a family of non-rational Narain CFTs. This construction is complementary to a recently introduced relation between quantum stabilizer codes and a class of rational Narain theories. From the modular bootstrap point of view we formulate a polynomial ansatz for the partition function which reduces modular invariance to a handful of algebraic easy-to-solve constraints. For certain small values of central charge our construction yields optimal theories, i.e. those with the largest value of the spectral gap.
翻訳日:2023-03-23 06:32:43 公開日:2021-07-06
# Bell-CHSHの不等式違反は、使用する記述によって異なる結論をもたらす

The violation of Bell-CHSH inequalities leads to different conclusions depending on the description used ( http://arxiv.org/abs/2107.02808v1 )

ライセンス: Link先を確認
Aldo F.G. Solis-Labastida, Melina Gastelum and Jorge G. Hirsch(参考訳) ベル-CHSH不等式違反の実験的観察以来、基礎系の非局所的・文脈的特徴について多くが語られている。 しかしベルの不等式が導出される仮説は、それらを書くために使われる確率空間によって異なる。 ベルの不等式違反は、隠れた変数が全く存在せず、あるいはそれらの値が同時に割り当てられることができない、あるいは値が割り当てられるが、合同確率は適切に定義できない、あるいは異なる文脈で取られた平均値が結合できないという仮定で説明できる。 以上はすべて有効な選択肢であり、それぞれの研究プログラムをサポートするために異なるコミュニティによって選択される。

Since the experimental observation of the violation of the Bell-CHSH inequalities, much has been said about the non-local and contextual character of the underlying system. But the hypothesis from which Bell's inequalities are derived differ according to the probability space used to write them. The violation of Bell's inequalities can, alternatively, be explained assuming that the hidden variables do not exist at all, or that they exist but their values cannot be simultaneously assigned, or that the values can be assigned but joint probabilities cannot be properly defined, or that averages taken in different contexts cannot be combined. All of the above are valid options, selected by different communities to provide support to their particular research program.
翻訳日:2023-03-23 06:32:31 公開日:2021-07-06
# アンダーソン不純物モデルを有限温度で焼成する:行列積状態を用いた絡み合いと浴槽力学

Quenching the Anderson impurity model at finite temperature: Entanglement and bath dynamics using matrix product states ( http://arxiv.org/abs/2107.02807v1 )

ライセンス: Link先を確認
Lucas Kohn and Giuseppe E. Santoro(参考訳) 有限温度におけるクエンチドアンダーソン模型の動力学を行列積状態を用いて研究する。 電子浴用チェーンマッピングを発明し、非ゼロ温度を扱うために用いられる熱場変換から生じる2つの鎖の様々な順序に対するMPSの絡み合い構造について検討した。 両鎖のマージは,ハミルトニアンの直観的近距離実装と比較して,有限温度での絡み合いを著しく低減できることを示した。 不純物と入浴のフルダイナミックスをシミュレートする際に可能な、自由風呂モードの個体数を分析することで、クエンチダイナミクスにおける近藤効果の明確な兆候を見出した。

We study the dynamics of the quenched Anderson model at finite temperature using matrix product states. Exploiting a chain mapping for the electron bath, we investigate the entanglement structure in the MPS for various orderings of the two chains, which emerge from the thermofield transformation employed to deal with nonzero temperature. We show that merging both chains can significantly lower the entanglement at finite temperatures as compared to an intuitive nearest-neighbor implementation of the Hamiltonian. Analyzing the population of the free bath modes -- possible when simulating the full dynamics of impurity plus bath -- we find clear signatures of the Kondo effect in the quench dynamics.
翻訳日:2023-03-23 06:32:18 公開日:2021-07-06
# 新型コロナウイルスパンデミック時の体験学習フレームワークに基づく遠隔実験の開発と提供

Developing and delivering a remote experiment based on the experiential learning framework during COVID-19 pandemic ( http://arxiv.org/abs/2107.02777v1 )

ライセンス: Link先を確認
W. D. Kularatne, Lasanthika H. Dissawa, T.M.S.S.K. Ekanayake, Janaka B. Ekanayake(参考訳) 工学の分野に通う学生は概念概念の理解を得るだけでなく、プロセッサや態度も得るべきである。 学生にとって認識可能な学習環境は,教室環境と実験室環境の2つである。 新型コロナウイルス(COVID-19)のパンデミックにより、両方の環境がオンライン環境に融合し、学生のプロセス開発や特徴的な態度に影響を与える。 本稿では,オンライン環境を通じてプロセスを計画,提供するための経験的学習に基づく理論的枠組みを提案する。 パワーファクタ補正実験に基づくケーススタディを行った。 3時間続く従来の実験は、ラボ前活動、シミュレーション演習、powerpointプレゼンテーション、遠隔実験室活動、経験的学習アプローチに基づく最終報告など、より小さなタスクに分割された。 オンライン・フレンドリーな経験的学習手法を用いて, 生徒の学習過程の反映を得るために, クローズドでオープンな質問を行った。 このアプローチを好んだ学生の大多数は、新型コロナウイルス(covid-19)の状況で新しい方法で実験を行う機会を提供したことで称賛された。

The students following Engineering disciplines should not only acquire the conceptual understanding of the concepts but also the processors and attitudes. There are two recognizable learning environments for students, namely, classroom environment and laboratory environment. With the COVID-19 pandemic, both environments merged to online environments, impacting students' development of processes and characteristic attitudes. This paper introduces a theoretical framework based on experiential learning to plan and deliver processes through an online environment. A case study based on the power factor correction experiment was presented. The traditional experiment that runs for 3 hours was broken into smaller tasks such as a pre-lab activity, a simulation exercise, a PowerPoint presentation, a remote laboratory activity, and a final report based on the experiential learning approach. A questionnaire that carries close and open-ended questions were administered to obtain students' reflections about developing the processes through an online-friendly experiential learning approach. The majority of the students like the approach followed and praise for providing them with an opportunity to perform the experiment in a novel way during the COVID-19 situation.
翻訳日:2023-03-23 06:31:30 公開日:2021-07-06
# ノイズプローブによる量子照明:非ガウスの条件的利点

Quantum illumination with noisy probes: Conditional advantages of non-Gaussianity ( http://arxiv.org/abs/2107.02774v1 )

ライセンス: Link先を確認
Rivu Gupta, Saptarshi Roy, Tamoghna Das, Aditi Sen De(参考訳) 2モード圧縮真空状態のような絡み合った状態は、熱背景に沈み込んだ弱反射ターゲットを検出する方法である照明プロトコルにおいて量子的に有利であることが知られている。 非ガウス光子付加および減算状態は、ノイズの有無の両方において単発量子照明のプローブとして用いる。 コヒーレント状態と等しい信号強度を持つ非ガウシアン状態との差に基づいて、光子を1つのモード(から)または(から)両方のモードに付加(減算)した場合に、非ガウシアン状態の性能を分類する。 本手法により得られたガウス状態と非ガウス状態の階層構造を強調する。 興味深いことに、このような階層構造はチャーンオフ境界のみを用いて比較を行う場合に異なる。 全分析は、欠陥のあるツインビーム発生装置、不完全光子付加または減光装置、およびノイズの多い非ガウスプローブ状態の存在下で行われる。

Entangled states like two-mode squeezed vacuum states are known to give quantum advantage in the illumination protocol, a method to detect a weakly reflecting target submerged in a thermal background. We use non-Gaussian photon-added and subtracted states as probes for the single-shot quantum illumination both in the presence and absence of noise. Based on the difference between the Chernoff bounds obtained with the coherent state and the non-Gaussian state having equal signal strengths, whose positive values are referred to as a quantum advantage in illumination, we classify the performance of non-Gaussian states, when photons are added (subtracted) in (from) a single mode or in (from) both the modes. We highlight the hierarchy among Gaussian and non-Gaussian states obtained via this method, which is compatible with correlations per unit signal strength. Interestingly, such hierarchy is different when comparisons are made only using the Chernoff bounds. The entire analysis is performed in presence of different noisy apparatus like faulty twin-beam generator, imperfect photon addition or subtraction as well as with noisy non-Gaussian probe states.
翻訳日:2023-03-23 06:31:10 公開日:2021-07-06
# ROPUST:フォトニックプロセッサと合成勾配による微細調整によるロバスト性向上

ROPUST: Improving Robustness through Fine-tuning with Photonic Processors and Synthetic Gradients ( http://arxiv.org/abs/2108.04217v1 )

ライセンス: Link先を確認
Alessandro Cappelli, Julien Launay, Laurent Meunier, Ruben Ohana and Iacopo Poli(参考訳) 敵の攻撃に対するロバスト性は、通常、プロジェクテッド・グラディエント・Descent を用いた高価な敵の訓練によって得られる。 ROPUSTは、頑健な事前学習モデルを活用し、その頑健さをさらに高め、自然精度を犠牲にすることなく、極めてシンプルで効率的な手法である。 本手法は光処理ユニット(OPU)、フォトニックコプロセッサ、および合成勾配学習スキームであるダイレクトフィードバックアライメント(Direct Feedback Alignment)を用いて行う微調整ステップに頼っている。 我々は,ロバストベンチの4つの攻撃に対して,9つの異なるモデルを用いて実験を行った。 防御の単一成分についてアブレーション研究を行い,パラメータの難読化と代替訓練法から頑健性が生ずることを示した。 また,我々の防御に対する攻撃者の脅威レベルを高めるために特別に設計されたフェーズ検索攻撃も導入する。 ROPUSTは,最先端の位相探索技術でも有効であることを示す。

Robustness to adversarial attacks is typically obtained through expensive adversarial training with Projected Gradient Descent. Here we introduce ROPUST, a remarkably simple and efficient method to leverage robust pre-trained models and further increase their robustness, at no cost in natural accuracy. Our technique relies on the use of an Optical Processing Unit (OPU), a photonic co-processor, and a fine-tuning step performed with Direct Feedback Alignment, a synthetic gradient training scheme. We test our method on nine different models against four attacks in RobustBench, consistently improving over state-of-the-art performance. We perform an ablation study on the single components of our defense, showing that robustness arises from parameter obfuscation and the alternative training method. We also introduce phase retrieval attacks, specifically designed to increase the threat level of attackers against our own defense. We show that even with state-of-the-art phase retrieval techniques, ROPUST remains an effective defense.
翻訳日:2023-03-23 06:23:11 公開日:2021-07-06
# $^{87}$Rbボースアインシュタイン凝縮体の光化学反応における構成量子干渉

Constructive Quantum Interference in a Photo-Chemical Reaction of $^{87}$Rb Bose Einstein Condensate ( http://arxiv.org/abs/2107.05441v1 )

ライセンス: Link先を確認
Sumit Suresh Kale, Yong P. Chen and Sabre Kais(参考訳) 複数の経路が共存して同じ結果に至ると干渉が発生する。 blasing氏と同僚の[prl 121(7):073202]による最近の研究では、反応スピン状態が複数の素スピン状態のコヒーレント重ね合わせで合成された時に、反応経路間の破壊的干渉を生じさせるラマンの服を着たスピン軌道の光結合反応が$^{87}$rb bose einstein condensateを結合させることが示されている。 本稿では,構成的量子干渉に繋がる反応スキームに関する理論的研究について述べる。 これは反応中の反応性散乱チャネルを変更することによって達成される。 コヒーレント制御の起源は波動関数のスピン部分に由来するため、重ね合わせ状態を達成するために高周波カップリングを用いるのに十分である。 以上の結果から, 干渉は光化学反応のコヒーレント制御の資源として利用できることがわかった。 アプローチは一般的であり、超低温状態における化学反応の幅広いスペクトルを研究するために用いられる。

Interferences emerge when multiple pathways coexist together leading towards the same result. A Recent study by Blasing and coworkers [PRL 121(7):073202] showed that in a photo-association reaction of Raman dressed spin orbit coupled $^{87}$Rb Bose Einstein Condensate when the reactant spin state is prepared in a coherent superposition of multiple bare spin states it leads to a destructive interference between reaction pathways. Here we report a theoretical study for a reaction scheme which leads to constructive quantum interference. This is achieved by changing the reactive scattering channel in the reaction. As the origin of coherent control comes from the spin part of the wavefunction it is sufficient to use radio frequency coupling to achieve the superposition state. Our results show that interferences can be used as a resource for the coherent control of photo-chemical reactions. The approach is general and can be employed to study a wide spectra of chemical reactions in the ultracold regime.
翻訳日:2023-03-23 06:22:54 公開日:2021-07-06
# QEDの有限次元モデルの化学修飾について

About chemical modifications of finite dimensional models of QED ( http://arxiv.org/abs/2107.04673v1 )

ライセンス: Link先を確認
Vitaliy Afanasyev, Zheng Keli, Alexei Kulagin, Hui-hui Miao, Yuri Ozhigov, Wanshun Lee, Nadezda Victorova(参考訳) 有限次元QEDモデルの修正の提案は、光学キャビティに置かれた量子ドット上の人工原子や分子の観点から化学反応を解釈するために提案される。 光子と原子の移動はキャビティ間で可能である。 量子干渉によりキャビティ間の原子の運動が不可能である二原子系の超暗状態を記述する。 2つの準位原子とラムダスペクトルを持つ3つの準位原子を持つ化学過程は、単一の量子マスター方程式をキャビティからの光子漏れとそれへの流入のリンドブラッド作用素で解き、スキーマ的にモデル化される。 例えば、精度を推定した多レベルtavis-cummings-hubbardモデルを用いて、原子から原子への電子の遷移を光学的に解釈する例がある。 多原子化学反応は正確なモデリングには複雑すぎる。 我々の粗い解釈法は、例えば暗黒状態や超暗黒状態のような試薬の定常状態の形式のような長期的な結果を得るのに役立ちます。

Suggestion of modifications of finite-dimensional QED models are proposed for interpreting chemical reactions in terms of artificial atoms and molecules on quantum dots placed in optical cavities. Moving both photons and atoms is possible between the cavities. Super dark states of diatomic systems are described, in which the motion of atoms between cavities is impossible due quantum interference. Chemical processes with two level atoms and three level atoms with lambda spectrum are schematically modeled by solving the single quantum master equation with the Lindblad operators of photon leakage from the cavity and influx into it; association and dissociation reactions then differ only in the initial states. An example is given of the optical interpretation of the transition of an electron from atom to atom in terms of the multilevel Tavis-Cummings-Hubbard model with an estimate of the accuracy. Polyatomic chemical reactions are too complex for accurate modeling. Our method of rough interpretation helps to obtain their long-term results, for example, the form of stationary states of reagents, such as dark and super dark states.
翻訳日:2023-03-23 06:22:32 公開日:2021-07-06
# サイバーセキュリティインシデント対応におけるセンスメイキング : 組織・技術・個人の交流

Sensemaking in Cybersecurity Incident Response: The Interplay of Organizations, Technology and Individuals ( http://arxiv.org/abs/2107.02941v1 )

ライセンス: Link先を確認
Ritu Lakshmi, Humza Naseer, Sean Maynard, Atif Ahmad(参考訳) センスメイキングは組織において重要な活動です。 個人が集団行動を促進するための基盤を形成する出来事に意味を割り当てる過程である。 しかし, 感覚形成過程における組織, 技術, 個人の役割とその相互作用は十分に解明されていない。 この新たな研究は、サイバーセキュリティインシデント対応のプロセスにおいて、組織、技術、個人間の相互作用がどのように意味を成すかを説明することによって、このギャップに対処しようとしている。 我々は,インシデント対応の実施,選択,保持活動(センスメイキング活動)を促進するために,組織,技術,個人がさまざまな方法で相互作用する重要な要素であることを提案する。 我々は、インシデント応答におけるセンスメイキングは、この相互作用の結果であると主張する。 このインタラクションにより、組織は包括的な方法でサイバーセキュリティインシデントに応答できる。

Sensemaking is a critical activity in organizations. It is a process through which individuals ascribe meanings to events which forms the basis to facilitate collective action. However, the role of organizations, technology and individuals and their interaction in the process of sensemaking has not been sufficiently explored. This novel study seeks to address this gap by proposing a framework that explains how the interplay among organizations, technology and individuals enables sensemaking in the process of cybersecurity incident response. We propose that Organizations, Technology, and Individuals are the key components that interact in various ways to facilitate enactment, selection and retention activities (Sensemaking activities) in Incident Response. We argue that sensemaking in Incident Response is the outcome of this interaction. This interaction allows organizations to respond to cybersecurity incidents in a comprehensive manner.
翻訳日:2023-03-23 06:21:46 公開日:2021-07-06
# 理論計算機科学におけるビジョン:TCS Visioning Workshop 2020参加報告

Visions in Theoretical Computer Science: A Report on the TCS Visioning Workshop 2020 ( http://arxiv.org/abs/2107.02846v1 )

ライセンス: Link先を確認
Shuchi Chawla, Jelani Nelson, Chris Umans, and David Woodruff(参考訳) 理論計算機科学(英: theoretical computer science、TCS)は、計算とアルゴリズムのプロセスと相互作用の数学的基礎を研究するコンピュータ科学の分野である。 この分野の仕事は数学の技術と厳密さに重きを置くことでしばしば認識される。 この分野の核心には、計算の性質に関する疑問がある。 計算可能なものは何か? 効率はどうでしょう? TCSコミュニティは10年ごとにビジョンワークショップに参加し、TCS分野における課題と最近の成果について議論する。 ワークショップと成果物は、tcsコミュニティへの反省と、興味のある投資パートナーのための原則の指導の両方を目的としています。 具体的には、ワークショップの出力は複数のナゲットで構成され、それぞれ特定の点を要約し、ホワイトペーパーの形で合成され、プロのグラフィックデザイナーによって作成されたグラフィック/スライドで図示される。 第2回TCSビジョンワークショップはSIGACT Committee for the Advancement of Theory Computer Scienceによって組織され、2020年7月20日に開催された。 カンファレンスは仮想だったにもかかわらず、76人以上の参加者が参加しており、その多くは米国出身だが、オンラインフォーマットのために参加できるヨーロッパとアジアの人たちもいた。 ワークショップ参加者は,(1)計算モデル,(2)データサイエンスの基礎,(3)暗号,(4)他の領域における理論計算機科学の3つの分野に区分した。 各グループは、下記のナゲットを生み出す一連の議論に参加した。

Theoretical computer science (TCS) is a subdiscipline of computer science that studies the mathematical foundations of computational and algorithmic processes and interactions. Work in this field is often recognized by its emphasis on mathematical technique and rigor. At the heart of the field are questions surrounding the nature of computation: What does it mean to compute? What is computable? And how efficiently? Every ten years or so the TCS community attends visioning workshops to discuss the challenges and recent accomplishments in the TCS field. The workshops and the outputs they produce are meant both as a reflection for the TCS community and as guiding principles for interested investment partners. Concretely, the workshop output consists of a number of nuggets, each summarizing a particular point, that are synthesized in the form of a white paper and illustrated with graphics/slides produced by a professional graphic designer. The second TCS Visioning Workshop was organized by the SIGACT Committee for the Advancement of Theoretical Computer Science and took place during the week of July 20, 2020. Despite the conference being virtual, there were over 76 participants, mostly from the United States, but also a few from Europe and Asia who were able to attend due to the online format. Workshop participants were divided into categories as reflected in the sections of this report: (1) models of computation; (2) foundations of data science; (3) cryptography; and (4) using theoretical computer science for other domains. Each group participated in a series of discussions that produced the nuggets below.
翻訳日:2023-03-23 06:21:02 公開日:2021-07-06
# 分数次グラフニューラルネットワーク

Fractional order graph neural network ( http://arxiv.org/abs/2001.04026v3 )

ライセンス: Link先を確認
Zijian Liu, Chunbo Luo, Shuai Li, Peng Ren and Geyong Min(参考訳) 本稿では,グラフのような非ユークリッドデータ上の学習課題を解決するために,連結ノードとその近傍の特徴行列からの情報収集に特化した古典グラフニューラルネットワークと分数グラフニューラルネットワークの局所最適化の課題に対処するために,近似戦略により最適化された分数次グラフニューラルネットワーク(FGNN)を提案する。 一方、分数次勾配の近似計算は、分数次微分の高い計算複雑性を克服する。 さらに、このような近似が実現可能であり、FGNNがグローバル最適化ソリューションに偏りがないことを証明している。 励振ネットワークに関する大規模な実験により、FGNNは適切な分数順を選択すると、ベースラインモデルよりも大きな優位性が得られることが示された。

This paper proposes fractional order graph neural networks (FGNNs), optimized by the approximation strategy to address the challenges of local optimum of classic and fractional graph neural networks which are specialised at aggregating information from the feature and adjacent matrices of connected nodes and their neighbours to solve learning tasks on non-Euclidean data such as graphs. Meanwhile the approximate calculation of fractional order gradients also overcomes the high computational complexity of fractional order derivations. We further prove that such an approximation is feasible and the FGNN is unbiased towards global optimization solution. Extensive experiments on citation networks show that FGNN achieves great advantage over baseline models when selected appropriate fractional order.
翻訳日:2023-01-14 07:51:37 公開日:2021-07-06
# ローカルプライベートグラフニューラルネットワーク

Locally Private Graph Neural Networks ( http://arxiv.org/abs/2006.05535v9 )

ライセンス: Link先を確認
Sina Sajadmanesh and Daniel Gatica-Perez(参考訳) グラフニューラルネットワーク(GNN)は,様々なグラフ推論タスクに対するノード表現の学習において,優れた性能を示す。 しかし、グラフデータの学習は、機密情報や個人情報を含む人や人間に関連する変数をノードが表現する場合、プライバシー上の懸念を引き起こす可能性がある。 非リレーショナルデータに対するプライバシ保存型ディープラーニングには,数多くのテクニックが提案されているが,グラフへのディープラーニングアルゴリズムの適用に関するプライバシ問題に対処する作業は少ない。 本稿では、グラフノードがプライベートに保持される可能性のある機密データを持つノードデータプライバシの問題について検討するが、グラフ上でgnnをトレーニングする中央サーバにとって有益である。 この問題に対処するため、我々は、局所微分プライバシー(LDP)に基づく正式なプライバシー保証付きプライバシー保護アーキテクチャに依存しないGNN学習アルゴリズムを開発した。 具体的には、サーバがグラフノードと通信し、データをプライベートに収集し、GNNの第1層を近似するLDPエンコーダと非バイアス整流器を提案する。 入射雑音の影響をさらに軽減するため,ノードの特徴をマルチホップアグリゲーション機構として機能するKPropと呼ばれる単純なグラフ畳み込み層をプリペイドすることを提案する。 最後に,雑音ラベルの存在下での推論精度を向上させるために,kpropの非正規化能力の恩恵を受けるロバストなトレーニングフレームワークを提案する。 実世界のデータセット上で行った広範囲な実験により,本手法は,プライバシの損失を少なく抑えながら,満足できるレベルの精度を維持できることが証明された。

Graph Neural Networks (GNNs) have demonstrated superior performance in learning node representations for various graph inference tasks. However, learning over graph data can raise privacy concerns when nodes represent people or human-related variables that involve sensitive or personal information. While numerous techniques have been proposed for privacy-preserving deep learning over non-relational data, there is less work addressing the privacy issues pertained to applying deep learning algorithms on graphs. In this paper, we study the problem of node data privacy, where graph nodes have potentially sensitive data that is kept private, but they could be beneficial for a central server for training a GNN over the graph. To address this problem, we develop a privacy-preserving, architecture-agnostic GNN learning algorithm with formal privacy guarantees based on Local Differential Privacy (LDP). Specifically, we propose an LDP encoder and an unbiased rectifier, by which the server can communicate with the graph nodes to privately collect their data and approximate the GNN's first layer. To further reduce the effect of the injected noise, we propose to prepend a simple graph convolution layer, called KProp, which is based on the multi-hop aggregation of the nodes' features acting as a denoising mechanism. Finally, we propose a robust training framework, in which we benefit from KProp's denoising capability to increase the accuracy of inference in the presence of noisy labels. Extensive experiments conducted over real-world datasets demonstrate that our method can maintain a satisfying level of accuracy with low privacy loss.
翻訳日:2022-11-23 14:36:53 公開日:2021-07-06
# ETHOS: オンラインヘイトスピーチ検出データセット

ETHOS: an Online Hate Speech Detection Dataset ( http://arxiv.org/abs/2006.08328v2 )

ライセンス: Link先を確認
Ioannis Mollas, Zoe Chrysopoulou, Stamatis Karlos, Grigorios Tsoumakas(参考訳) オンラインヘイトスピーチは、ソーシャルメディアプラットフォームを特徴付ける、対応する政権の脆弱性を活用することで、着実に成長している社会の最近の問題である。 この現象は、主にユーザインタラクション中またはポストされたマルチメディアコンテキストの形で、攻撃的なコメントによって育まれます。 現在、大企業は、何百万人ものユーザーが毎日ログインするプラットフォームを所有しており、対応する法律に準拠し、高いレベルのサービス品質を維持するためには、同様の現象への暴露から保護する必要がある。 関連コンテンツのアップロードを検知し防止するためのロバストで信頼性の高いシステムは、デジタル相互接続された社会に大きな影響を与えるだろう。 日常生活のいくつかの側面は、社会的プロフィールと不可避なつながりがあり、乱暴な行動に弱い。 その結果、正確なヘイトスピーチ検出機構の欠如は、ユーザー体験全体を著しく悪化させるが、誤った操作は多くの倫理的懸念を生じさせる。 本稿では,youtube と reddit のクラウドソーシングプラットフォームを用いて検証されたコメントに基づいて,バイナリとマルチラベルの2つの変種からなるテキストデータセットである 'ethos' を提案する。 さらに,本データセットの作成に使用されるアノテーションプロトコルについて述べる。 このような時間的消費過程から少量のラベル付きデータを得ることさえも、試験材料におけるヘイトスピーチの発生を保証できると仮定する。

Online hate speech is a recent problem in our society that is rising at a steady pace by leveraging the vulnerabilities of the corresponding regimes that characterise most social media platforms. This phenomenon is primarily fostered by offensive comments, either during user interaction or in the form of a posted multimedia context. Nowadays, giant corporations own platforms where millions of users log in every day, and protection from exposure to similar phenomena appears to be necessary in order to comply with the corresponding legislation and maintain a high level of service quality. A robust and reliable system for detecting and preventing the uploading of relevant content will have a significant impact on our digitally interconnected society. Several aspects of our daily lives are undeniably linked to our social profiles, making us vulnerable to abusive behaviours. As a result, the lack of accurate hate speech detection mechanisms would severely degrade the overall user experience, although its erroneous operation would pose many ethical concerns. In this paper, we present 'ETHOS', a textual dataset with two variants: binary and multi-label, based on YouTube and Reddit comments validated using the Figure-Eight crowdsourcing platform. Furthermore, we present the annotation protocol used to create this dataset: an active sampling procedure for balancing our data in relation to the various aspects defined. Our key assumption is that, even gaining a small amount of labelled data from such a time-consuming process, we can guarantee hate speech occurrences in the examined material.
翻訳日:2022-11-22 09:18:11 公開日:2021-07-06
# マルチエミッタMAP-エリート:異種エミッタ集合による品質,多様性,収束速度の向上

Multi-Emitter MAP-Elites: Improving quality, diversity and convergence speed with heterogeneous sets of emitters ( http://arxiv.org/abs/2007.05352v2 )

ライセンス: Link先を確認
Antoine Cully(参考訳) 品質多様性(QD)最適化は、多種多様な高性能なソリューションのコレクションを生成することを目的とした学習アルゴリズムの新たなファミリーである。 これらのアルゴリズムのうち、最近導入されたCovariance Matrix Adaptation MAP-Elites (CMA-ME)アルゴリズムは、事前に定義されたヒューリスティックを用いてアルゴリズムの探索を駆動するエミッタの概念を提案する。 このアルゴリズムは、多くのアプリケーションにおいて有望な結果を示す人気のQDアルゴリズムであるMAP-Elitesより優れていることを示した。 本稿では,CMA-MEを直接拡張し,その品質,多様性,データ効率を向上させるアルゴリズムであるMulti-Emitter MAP-Elites(ME-MAP-Elites)を紹介する。 これは異種エミッタの多様性を活用し、それぞれのエミッタタイプは異なる方法で最適化プロセスを改善する。 バンディットアルゴリズムは、現在の状況に応じて最適なエミッタの選択を動的に見つける。 我々は,標準的な最適化問題(100次元)からロボット工学における複雑な移動タスクまで,6つのタスクにおけるME-MAP-Elitesの性能を評価する。 CMA-MEとMAP-Elitesを比較すると,ME-MAP-Elitesはより多様で高性能なソリューションの集合を提供するのが速いことが分かる。 さらに、異なるエミッタ間で実りのない相乗効果が見つからない場合、ME-MAP-Elitesは比較アルゴリズムの最高値と等価である。

Quality-Diversity (QD) optimisation is a new family of learning algorithms that aims at generating collections of diverse and high-performing solutions. Among those algorithms, the recently introduced Covariance Matrix Adaptation MAP-Elites (CMA-ME) algorithm proposes the concept of emitters, which uses a predefined heuristic to drive the algorithm's exploration. This algorithm was shown to outperform MAP-Elites, a popular QD algorithm that has demonstrated promising results in numerous applications. In this paper, we introduce Multi-Emitter MAP-Elites (ME-MAP-Elites), an algorithm that directly extends CMA-ME and improves its quality, diversity and data efficiency. It leverages the diversity of a heterogeneous set of emitters, in which each emitter type improves the optimisation process in different ways. A bandit algorithm dynamically finds the best selection of emitters depending on the current situation. We evaluate the performance of ME-MAP-Elites on six tasks, ranging from standard optimisation problems (in 100 dimensions) to complex locomotion tasks in robotics. Our comparisons against CMA-ME and MAP-Elites show that ME-MAP-Elites is faster at providing collections of solutions that are significantly more diverse and higher performing. Moreover, in cases where no fruitful synergy can be found between the different emitters, ME-MAP-Elites is equivalent to the best of the compared algorithms.
翻訳日:2022-11-11 21:23:47 公開日:2021-07-06
# AE TextSpotter:曖昧なテキストスポッティングのための視覚と言語表現の学習

AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting ( http://arxiv.org/abs/2008.00714v5 )

ライセンス: Link先を確認
Wenhai Wang, Xuebo Liu, Xiaozhong Ji, Enze Xie, Ding Liang, Zhibo Yang, Tong Lu, Chunhua Shen, Ping Luo(参考訳) シーンテキストスポッティングは、自然画像中の複数の文字で単語や文全体を検出、認識することを目的としている。 文字間の間隔が大きい場合や、文字が複数の行や列に均等に広がる場合、曖昧さがしばしば発生し、文字の視覚的にもっともらしいグルーピング(例えば、図1(c)で「BERL」と「IN」と誤って検出される)が生じるため、依然として困難である。 テキスト検出に視覚的特徴を用いた従来の作品とは異なり、本研究では、テキスト検出におけるあいまいさを著しく低減するために視覚的特徴と言語的特徴の両方を学ぶ新しいテキストスポッターであるAmbiguity Elimination Text Spotter (AE TextSpotter)を提案する。 AE TextSpotterの提案には3つの重要な利点がある。 1) 言語表現は,フレームワーク内の視覚表現とともに学習される。 我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。 2) 念入りに設計した言語モジュールを用いて、誤ったテキスト行の検出信頼性を低減し、検出段階で容易に切断する。 3) 広範な実験により,aetextspotter は他の最先端手法よりも高いマージンを示した。 例えば、IC19-ReCTSデータセットから極めて曖昧なサンプルの検証セットを慎重に選択し、アプローチは他の手法を4%以上上回ります。 コードはhttps://github.com/whai362/ae_textspotterでリリースされた。 検証セットの画像リストと評価スクリプトがhttps://github.com/whai362/TDA-ReCTSでリリースされた。

Scene text spotting aims to detect and recognize the entire word or sentence with multiple characters in natural images. It is still challenging because ambiguity often occurs when the spacing between characters is large or the characters are evenly spread in multiple rows and columns, making many visually plausible groupings of the characters (e.g. "BERLIN" is incorrectly detected as "BERL" and "IN" in Fig. 1(c)). Unlike previous works that merely employed visual features for text detection, this work proposes a novel text spotter, named Ambiguity Eliminating Text Spotter (AE TextSpotter), which learns both visual and linguistic features to significantly reduce ambiguity in text detection. The proposed AE TextSpotter has three important benefits. 1) The linguistic representation is learned together with the visual representation in a framework. To our knowledge, it is the first time to improve text detection by using a language model. 2) A carefully designed language module is utilized to reduce the detection confidence of incorrect text lines, making them easily pruned in the detection stage. 3) Extensive experiments show that AE TextSpotter outperforms other state-of-the-art methods by a large margin. For example, we carefully select a validation set of extremely ambiguous samples from the IC19-ReCTS dataset, where our approach surpasses other methods by more than 4%. The code has been released at https://github.com/whai362/AE_TextSpotter. The image list and evaluation scripts of the validation set have been released at https://github.com/whai362/TDA-ReCTS.
翻訳日:2022-11-03 06:33:11 公開日:2021-07-06
# メモリベースのジッタ: メモリの多様性を考慮したロングテールデータにおける視覚認識の改善

Memory-based Jitter: Improving Visual Recognition on Long-tailed Data with Diversity In Memory ( http://arxiv.org/abs/2008.09809v6 )

ライセンス: Link先を確認
Jialun Liu, Jingwei Zhang, Yi yang, Wenhui Li, Chi Zhang and Yifan Sun(参考訳) 本稿では,ロングテールデータに対する深い視覚認識について検討する。 一般に、我々は2つの応用シナリオ、すなわち、深層分類と深部メートル法学習を考える。 長い尾のデータ分布の下では、大多数のクラス (\ie, tail class) が比較的少数のサンプルしか占めておらず、クラス内の多様性が欠如している。 急進的な解決策は、より多様性のある末尾クラスを強化することである。 この目的のために,メモリベースジッター (MBJ) と呼ばれるシンプルで信頼性の高い手法を提案する。 トレーニング中、深層モデルは反復毎にパラメータを常に変更し、emph{weight jitters}という現象が発生するのを観察した。 入力と同じイメージが与えられると、モデルの2つの歴史的なエディションが、深く埋め込まれた空間に2つの異なる特徴を生成し、結果として \emph{feature jitters} となる。 メモリバンクを使用して、これらの(モデルや機能)ジッタを複数のトレーニングイテレーションで収集し、いわゆるメモリベースのジッタを取得する。 蓄積されたジッタはテールクラスのクラス内多様性を高め、連続してロングテールの視覚認識を改善する。 mbjはわずかな修正で、2つの基本的なビジュアル認識タスク、すなわち、ディープイメージ分類とディープメトリック学習(ロングテールデータ)に適用できる。 5つのロングテール分類ベンチマークと2つのディープメトリック学習ベンチマークに関する広範な実験は、大幅な改善を示している。 さらに、達成されたパフォーマンスは、両方のタスクにおける最先端技術と同等です。

This paper considers deep visual recognition on long-tailed data. To be general, we consider two applied scenarios, \ie, deep classification and deep metric learning. Under the long-tailed data distribution, the majority classes (\ie, tail classes) only occupy relatively few samples and are prone to lack of within-class diversity. A radical solution is to augment the tail classes with higher diversity. To this end, we introduce a simple and reliable method named Memory-based Jitter (MBJ). We observe that during training, the deep model constantly changes its parameters after every iteration, yielding the phenomenon of \emph{weight jitters}. Consequentially, given a same image as the input, two historical editions of the model generate two different features in the deeply-embedded space, resulting in \emph{feature jitters}. Using a memory bank, we collect these (model or feature) jitters across multiple training iterations and get the so-called Memory-based Jitter. The accumulated jitters enhance the within-class diversity for the tail classes and consequentially improves long-tailed visual recognition. With slight modifications, MBJ is applicable for two fundamental visual recognition tasks, \emph{i.e.}, deep image classification and deep metric learning (on long-tailed data). Extensive experiments on five long-tailed classification benchmarks and two deep metric learning benchmarks demonstrate significant improvement. Moreover, the achieved performance are on par with the state of the art on both tasks.
翻訳日:2022-10-26 08:03:35 公開日:2021-07-06
# 知識蒸留による事前学習言語モデルを用いた放射線検査プロトコルの自動割り当て

Automatic Assignment of Radiology Examination Protocols Using Pre-trained Language Models with Knowledge Distillation ( http://arxiv.org/abs/2009.00694v3 )

ライセンス: Link先を確認
Wilson Lau, Laura Aaltonen, Martin Gunn, Meliha Yetisgen(参考訳) 放射線検査プロトコルの選択は反復的かつ時間のかかるプロセスである。 本稿では,領域固有のBERTモデル(BERT_{rad}$)を事前学習することで,コンピュータ断層撮影検査にプロトコルを自動的に割り当てる深層学習手法を提案する。 試験プロトコルにまたがる高いデータ不均衡に対処するために、我々はデータ拡張を通じてマイノリティクラスをサンプリングする知識蒸留アプローチを用いた。 提案手法の分類性能を,SVM(Support Vector Machine),GBM(Gradient Boosting Machine),RF(Random Forest)の分類器およびGoogleの$BERT_{base}$モデルを用いた統計的n-gramモデルと比較した。 SVM, GBM, RFは0.45, 0.45, 0.6であり, BERT_{base}$と$BERT_{rad}$は0.61, 0.63である。 知識蒸留はマイノリティクラス全体の性能を改善し、F1スコアは0.66である。

Selecting radiology examination protocol is a repetitive, and time-consuming process. In this paper, we present a deep learning approach to automatically assign protocols to computer tomography examinations, by pre-training a domain-specific BERT model ($BERT_{rad}$). To handle the high data imbalance across exam protocols, we used a knowledge distillation approach that up-sampled the minority classes through data augmentation. We compared classification performance of the described approach with the statistical n-gram models using Support Vector Machine (SVM), Gradient Boosting Machine (GBM), and Random Forest (RF) classifiers, as well as the Google's $BERT_{base}$ model. SVM, GBM and RF achieved macro-averaged F1 scores of 0.45, 0.45, and 0.6 while $BERT_{base}$ and $BERT_{rad}$ achieved 0.61 and 0.63. Knowledge distillation improved overall performance on the minority classes, achieving a F1 score of 0.66.
翻訳日:2022-10-23 01:11:36 公開日:2021-07-06
# 大気データモデリングと同定ダイナミクス--大気汚染物質の時間データ駆動モデリング

Modeling Atmospheric Data and Identifying Dynamics: Temporal Data-Driven Modeling of Air Pollutants ( http://arxiv.org/abs/2010.06538v2 )

ライセンス: Link先を確認
Javier Rubio-Herrero, Carlos Ortiz Marrero, Wai-Tong Louis Fan(参考訳) 大気モデルは最近、深層学習の出現とともに急上昇を経験した。 しかし、これらのモデルのほとんどは、行動や関係を規定する物理法則を隠蔽するデータ駆動のアプローチに従って、汚染物質濃度を予測する。 With the aid of real-world air quality data collected hourly in different stations throughout Madrid, we present an empirical approach using data-driven techniques with the following goals: (1) Find parsimonious systems of ordinary differential equations via sparse identification of nonlinear dynamics (SINDy) that model the concentration of pollutants and their changes over time; (2) assess the performance and limitations of our models using stability analysis; (3) reconstruct the time series of chemical pollutants not measured in certain stations using delay coordinate embedding results. 以上の結果から, 赤池の情報基準は, 最適部分回帰と連動して有効に機能し, 空間と適合の良さの均衡を見出すことができた。 また,研究中の化学システムの複雑さから,長期間にわたるシステムのダイナミクスの同定には,高いレベルのデータのフィルタリングと平滑化が必要であることも判明した。 再構成された常微分方程式(ODE)の安定性解析は、物理的に関係する臨界点の半分以上がサドル点であり、全ての環境条件が時間とともに一定であるという理想化された仮定の下でもシステムは不安定であることを示している。

Atmospheric modeling has recently experienced a surge with the advent of deep learning. Most of these models, however, predict concentrations of pollutants following a data-driven approach in which the physical laws that govern their behaviors and relationships remain hidden. With the aid of real-world air quality data collected hourly in different stations throughout Madrid, we present an empirical approach using data-driven techniques with the following goals: (1) Find parsimonious systems of ordinary differential equations via sparse identification of nonlinear dynamics (SINDy) that model the concentration of pollutants and their changes over time; (2) assess the performance and limitations of our models using stability analysis; (3) reconstruct the time series of chemical pollutants not measured in certain stations using delay coordinate embedding results. Our results show that Akaike's Information Criterion can work well in conjunction with best subset regression as to find an equilibrium between sparsity and goodness of fit. We also find that, due to the complexity of the chemical system under study, identifying the dynamics of this system over longer periods of time require higher levels of data filtering and smoothing. Stability analysis for the reconstructed ordinary differential equations (ODEs) reveals that more than half of the physically relevant critical points are saddle points, suggesting that the system is unstable even under the idealized assumption that all environmental conditions are constant over time.
翻訳日:2022-10-07 23:22:55 公開日:2021-07-06
# Twitterで噂の拡散を識別する: 弱々しい指導的学習アプローチ

Identifying Possible Rumor Spreaders on Twitter: A Weak Supervised Learning Approach ( http://arxiv.org/abs/2010.07647v2 )

ライセンス: Link先を確認
Shakshi Sharma and Rajesh Sharma(参考訳) Twitter、Facebookなどのオンラインソーシャルメディア(OSM)プラットフォームは、これらのプラットフォームのユーザーによって、(ミス)情報を素早く大観衆に広めるために広く利用されている。 この誤報が社会にパニック、恐怖、財政的損失をもたらすことが観察されている。 したがって、大衆に広まる前に、そのようなプラットフォームにおける誤情報を検出・制御することが重要である。 本研究では,偽情報の一種であるうわさ(フェイクニュースや嘘など)に焦点を当てる。 噂の拡散を制御する一つの方法は、噂の拡散者かもしれないユーザー、つまり、噂の拡散に関与しているユーザーを特定することである。 噂拡散者ラベル付きデータセット(高価なタスクである)の可用性が欠如しているため、噂と非噂のツイート情報を含む公開利用可能なphemeデータセットを使用し、そのphemeデータセットを噂拡散者データセットに変換するために、弱い教師付き学習アプローチを適用します。 我々は,教師あり学習手法を適用する前に,ユーザ,テキスト,エゴネットワークの3種類の機能を利用する。 特に、このデータセット(ユーザ-ユーザ応答グラフ)に固有のネットワーク特性を活用するために、グラフニューラルネットワーク(GNN)の一種であるグラフ畳み込みネットワーク(GCN)を探索する。 我々はGCNの結果をSVM,RF,LSTMといった他の手法と比較する。 また,f1-scoreの最大0.864値とauc-rocの0.720値を達成するためのsnowse spreadersデータセット上での広範な実験を行い,gcn手法を用いたsnowse spreadersの同定手法の有効性を示した。

Online Social Media (OSM) platforms such as Twitter, Facebook are extensively exploited by the users of these platforms for spreading the (mis)information to a large audience effortlessly at a rapid pace. It has been observed that the misinformation can cause panic, fear, and financial loss to society. Thus, it is important to detect and control the misinformation in such platforms before it spreads to the masses. In this work, we focus on rumors, which is one type of misinformation (other types are fake news, hoaxes, etc). One way to control the spread of the rumors is by identifying users who are possibly the rumor spreaders, that is, users who are often involved in spreading the rumors. Due to the lack of availability of rumor spreaders labeled dataset (which is an expensive task), we use publicly available PHEME dataset, which contains rumor and non-rumor tweets information, and then apply a weak supervised learning approach to transform the PHEME dataset into rumor spreaders dataset. We utilize three types of features, that is, user, text, and ego-network features, before applying various supervised learning approaches. In particular, to exploit the inherent network property in this dataset (user-user reply graph), we explore Graph Convolutional Network (GCN), a type of Graph Neural Network (GNN) technique. We compare GCN results with the other approaches: SVM, RF, and LSTM. Extensive experiments performed on the rumor spreaders dataset, where we achieve up to 0.864 value for F1-Score and 0.720 value for AUC-ROC, shows the effectiveness of our methodology for identifying possible rumor spreaders using the GCN technique.
翻訳日:2022-10-07 04:00:15 公開日:2021-07-06
# 視覚意味埋め込みのための最良のプール戦略を学ぶ

Learning the Best Pooling Strategy for Visual Semantic Embedding ( http://arxiv.org/abs/2011.04305v5 )

ライセンス: Link先を確認
Jiacheng Chen, Hexiang Hu, Hao Wu, Yuning Jiang, Changhu Wang(参考訳) 視覚的セマンティック・エンベディング (VSE) は視覚言語検索において支配的なアプローチであり、視覚的データがセマンティックテキストラベルや記述の近くに埋め込まれるように深い埋め込み空間を学習することを目的としている。 近年のVSEモデルは複雑な手法を用いて、マルチモーダルな特徴を総合的な埋め込みに分解する。 しかし、驚くほど単純な(しかし慎重に選択された)グローバルプーリング関数(例えば、maxプーリング)が、異なる機能抽出器でこれらの複雑なモデルよりも優れていることが分かりました。 その単純さと有効性にもかかわらず、異なるデータモダリティと特徴抽出器のための最高のプール機能を求めるのは、特に機能のサイズが変化する場合(例えば、テキスト、ビデオ)、費用がかかる。 そこで本稿では, 汎用プール演算子 (GPO) を提案し, 有効かつ効率的な手動チューニングを必要とせず, 異なる機能に対して最適なプール戦略に自動的に適応することを学ぶ。 提案した GPO を用いて VSE モデルを拡張し、VSE$\infty$ とする。 ベルとホイッスルがなければ、VSE$\infty$は、一般的な特徴抽出器をまたいだ画像テキスト検索ベンチマークにおいて、以前のVSEメソッドよりも大幅に優れている。 簡単な適応で、VSE$\infty$の変種は、2つのビデオテキスト検索データセット上で、その技術の新たな状態を達成することによって、その強みをさらに示す。 総合的な実験と可視化により、GPOが常に最高のプーリング戦略を発見し、標準VSEモデルのためのプラグイン・アンド・プレイ機能アグリゲーションモジュールになり得ることを確認した。 コードと事前学習されたモデルはhttps://vse-infty.github.ioで入手できる。

Visual Semantic Embedding (VSE) is a dominant approach for vision-language retrieval, which aims at learning a deep embedding space such that visual data are embedded close to their semantic text labels or descriptions. Recent VSE models use complex methods to better contextualize and aggregate multi-modal features into holistic embeddings. However, we discover that surprisingly simple (but carefully selected) global pooling functions (e.g., max pooling) outperform those complex models, across different feature extractors. Despite its simplicity and effectiveness, seeking the best pooling function for different data modality and feature extractor is costly and tedious, especially when the size of features varies (e.g., text, video). Therefore, we propose a Generalized Pooling Operator (GPO), which learns to automatically adapt itself to the best pooling strategy for different features, requiring no manual tuning while staying effective and efficient. We extend the VSE model using this proposed GPO and denote it as VSE$\infty$. Without bells and whistles, VSE$\infty$ outperforms previous VSE methods significantly on image-text retrieval benchmarks across popular feature extractors. With a simple adaptation, variants of VSE$\infty$ further demonstrate its strength by achieving the new state of the art on two video-text retrieval datasets. Comprehensive experiments and visualizations confirm that GPO always discovers the best pooling strategy and can be a plug-and-play feature aggregation module for standard VSE models. Code and pre-trained models are available at https://vse-infty.github.io.
翻訳日:2022-09-28 01:28:27 公開日:2021-07-06
# 予測最適化のためのコントラスト損失と解キャッシング

Contrastive Losses and Solution Caching for Predict-and-Optimize ( http://arxiv.org/abs/2011.05354v2 )

ライセンス: Link先を確認
Maxime Mulamba, Jayanta Mandi, Michelangelo Diligenti, Michele Lombardi, Victor Bucarey, Tias Guns(参考訳) 多くの意思決定プロセスは、歴史的データから推定できる不確実な入力で組合せ最適化問題を解くことを含む。 近年、このクラスの課題はエンドツーエンドの学習アプローチによって解決され、各トレーニングインスタンスの1つの最適化問題を解決することに依存している。 この文脈では、2つの異なる貢献があります。 まず,非最適解を負の例として見ることにより,サーロゲート損失関数の族をモチベーションするノイズコントラスト手法を用いる。 第2に,すべての予測最適化アプローチにおける大きなボトルネック,すなわち,トレーニング時に最適解を頻繁に再計算する必要があることに対処する。 これはソルバに依存しないソリューションキャッシュスキームを通じて行われ、最適化コールをソリューションキャッシュのルックアップに置き換える。 この方法は、実現可能な空間の内部近似を形式的にベースとし、キャッシュルックアップ戦略と組み合わせて、トレーニング時間と損失近似の精度との制御可能なトレードオフを提供する。 非常に遅い成長率でさえ、計算コストのごく一部で最先端の手法の質に匹敵するほどに十分であることを示す。

Many decision-making processes involve solving a combinatorial optimization problem with uncertain input that can be estimated from historic data. Recently, problems in this class have been successfully addressed via end-to-end learning approaches, which rely on solving one optimization problem for each training instance at every epoch. In this context, we provide two distinct contributions. First, we use a Noise Contrastive approach to motivate a family of surrogate loss functions, based on viewing non-optimal solutions as negative examples. Second, we address a major bottleneck of all predict-and-optimize approaches, i.e. the need to frequently recompute optimal solutions at training time. This is done via a solver-agnostic solution caching scheme, and by replacing optimization calls with a lookup in the solution cache. The method is formally based on an inner approximation of the feasible space and, combined with a cache lookup strategy, provides a controllable trade-off between training time and accuracy of the loss approximation. We empirically show that even a very slow growth rate is enough to match the quality of state-of-the-art methods, at a fraction of the computational cost.
翻訳日:2022-09-27 06:48:24 公開日:2021-07-06
# MPC対応ソフトマックス交換の有効性

Effectiveness of MPC-friendly Softmax Replacement ( http://arxiv.org/abs/2011.11202v2 )

ライセンス: Link先を確認
Marcel Keller and Ke Sun(参考訳) ソフトマックスは、ある表現を確率分布にマッピングするためにディープラーニングで広く使われている。 マルチパーティ計算において比較的高価な exp/log 関数に基づいているため、mohassel と zhang (2017) はセキュアな計算に使用するために relu に基づくよりシンプルな代替案を提案した。 しかし,完全連結層が3層あるmnistのトレーニングで報告した精度は再現できなかった。 後の作品(例: Wagh et al., 2019, 2021)では、出力確率分布の計算ではなく、バックプロパゲーションの勾配の近似にソフトマックスの置き換えが用いられた。 本研究では,マルチパーティ計算の精度とコストの両面で,置き換えの2つの用途を分析し,それらをsoftmaxと比較する。 置換は1層ネットワークにおいて重要なスピードアップしか提供しないのに対して、常に精度を低下させることがある。 したがって、その有用性は限られており、代わりに元のソフトマックス関数を使うべきである。

Softmax is widely used in deep learning to map some representation to a probability distribution. As it is based on exp/log functions that are relatively expensive in multi-party computation, Mohassel and Zhang (2017) proposed a simpler replacement based on ReLU to be used in secure computation. However, we could not reproduce the accuracy they reported for training on MNIST with three fully connected layers. Later works (e.g., Wagh et al., 2019 and 2021) used the softmax replacement not for computing the output probability distribution but for approximating the gradient in back-propagation. In this work, we analyze the two uses of the replacement and compare them to softmax, both in terms of accuracy and cost in multi-party computation. We found that the replacement only provides a significant speed-up for a one-layer network while it always reduces accuracy, sometimes significantly. Thus we conclude that its usefulness is limited and one should use the original softmax function instead.
翻訳日:2022-09-22 03:13:48 公開日:2021-07-06
# PhotoChat: 共同画像テキストモデリングのための写真共有行動付き人文対話データセット

PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling ( http://arxiv.org/abs/2108.01453v1 )

ライセンス: Link先を確認
Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong Chen(参考訳) そこで本研究では,onlinemessagingにおける写真共有行動に光をあてる最初のデータセットであるphotochatを提案する。 PhotoChatには12kの対話があり、それぞれが会話中に共有されるユーザー写真とペアリングされる。 本データセットでは,次の会話で写真を共有するかどうかを予測する写真共有意図予測タスクと,対話状況に応じて最も関連性の高い写真を検索する写真検索タスクという,画像テキストモデリングの研究を容易にする2つのタスクを提案する。 さらに,両タスクに最先端モデルを用いたベースラインモデルを提供し,ベンチマーク性能を報告する。 最高の画像検索モデルは10.4%のリコール@1(1000人の候補者のうち)を達成し、最高の写真意図予測モデルは58.1%のF1スコアを達成した。 私たちはPhotoChatをリリースし、コミュニティ間の将来の研究作業を促進します。

We present a new human-human dialogue dataset - PhotoChat, the first dataset that casts light on the photo sharing behavior in onlin emessaging. PhotoChat contains 12k dialogues, each of which is paired with a user photo that is shared during the conversation. Based on this dataset, we propose two tasks to facilitate research on image-text modeling: a photo-sharing intent prediction task that predicts whether one intends to share a photo in the next conversation turn, and a photo retrieval task that retrieves the most relevant photo according to the dialogue context. In addition, for both tasks, we provide baseline models using the state-of-the-art models and report their benchmark performances. The best image retrieval model achieves 10.4% recall@1 (out of 1000 candidates) and the best photo intent prediction model achieves 58.1% F1 score, indicating that the dataset presents interesting yet challenging real-world problems. We are releasing PhotoChat to facilitate future research work among the community.
翻訳日:2021-08-08 11:01:37 公開日:2021-07-06
# 原子炉設計のための非同期型マスター・ワーカーEAの調整に関するランドスケープビュー

A Fitness Landscape View on the Tuning of an Asynchronous Master-Worker EA for Nuclear Reactor Design ( http://arxiv.org/abs/2107.11201v1 )

ライセンス: Link先を確認
Mathieu Muniglia, S\'ebastien Verel (LISIC), Jean-Charles Le Pallec, Jean-Michel Do(参考訳) 断続的な再生可能エネルギーの導入の文脈において,原子力発電所の制御棒の主変数を最適化し,負荷追従能力を向上させることを提案する。 設計問題は、マルチフィジカルシミュレータに基づく高価な評価を伴うブラックボックス組合せ最適化問題である。 したがって、並列非同期マスタ-ワーカー進化アルゴリズムを用いて、1000台までの計算ユニットをスケールする。 主な問題は、アルゴリズムパラメータのチューニングである。 この高価な実世界の問題に対して、フィットネスランドスケープ分析を行い、フィットネスランドスケープの特徴を低コストで見積もって、変異パラメータを調整可能であることを示す。

In the context of the introduction of intermittent renewable energies, we propose to optimize the main variables of the control rods of a nuclear power plant to improve its capability to load-follow. The design problem is a black-box combinatorial optimization problem with expensive evaluation based on a multi-physics simulator. Therefore, we use a parallel asynchronous master-worker Evolutionary Algorithm scaling up to thousand computing units. One main issue is the tuning of the algorithm parameters. A fitness landscape analysis is conducted on this expensive real-world problem to show that it would be possible to tune the mutation parameters according to the low-cost estimation of the fitness landscape features.
翻訳日:2021-08-01 11:01:09 公開日:2021-07-06
# 商品の差別化としての形状:フォント市場分析に埋め込まれたニューラルネットワーク

Shapes as Product Differentiation: Neural Network Embedding in the Analysis of Markets for Fonts ( http://arxiv.org/abs/2107.02739v1 )

ライセンス: Link先を確認
Sukjin Han, Eric H. Schulman, Kristen Grauman, and Santhosh Ramakrishnan(参考訳) 多くの差別化された製品には、非構造化で高次元(例えば、設計、テキスト)のキー属性がある。 経済モデルにおいて、非構造化属性を観測不能として扱う代わりに、それらを定量化することは、興味深い経済問題に答えることが重要である。 本報告では, このタイプの製品について, 最もシンプルなデザイン製品であるフォントについて考察し, 世界最大のオンラインフォントマーケットプレースからのオリジナルデータセットを用いて, 統合と製品分化について検討する。 深層畳み込みニューラルネットワークから埋め込みを構成することでフォント形状を定量化する。 各埋め込みはフォントの形状を低次元ベクトルにマッピングする。 結果として得られる製品領域では、デザイナーはホテル型空間競技に参加すると仮定される。 画像埋め込みから、デザインの差別化の度合いを捉える2つの代替手段を構築する。 次に,合併の因果関係が合併企業の創造的意思決定に及ぼす影響を,合成制御法を用いて検討した。 合併により、合併会社はフォントデザインの視覚的多様性を増すことになる。 特に、構造化データから構築された製品提供(仕様や製品数など)の伝統的な尺度を使用する場合、このような効果は捉えられません。

Many differentiated products have key attributes that are unstructured and thus high-dimensional (e.g., design, text). Instead of treating unstructured attributes as unobservables in economic models, quantifying them can be important to answer interesting economic questions. To propose an analytical framework for this type of products, this paper considers one of the simplest design products -- fonts -- and investigates merger and product differentiation using an original dataset from the world's largest online marketplace for fonts. We quantify font shapes by constructing embeddings from a deep convolutional neural network. Each embedding maps a font's shape onto a low-dimensional vector. In the resulting product space, designers are assumed to engage in Hotelling-type spatial competition. From the image embeddings, we construct two alternative measures that capture the degree of design differentiation. We then study the causal effects of a merger on the merging firm's creative decisions using the constructed measures in a synthetic control method. We find that the merger causes the merging firm to increase the visual variety of font design. Notably, such effects are not captured when using traditional measures for product offerings (e.g., specifications and the number of products) constructed from structured data.
翻訳日:2021-07-25 11:55:01 公開日:2021-07-06
# (参考訳) 3相セマンティックwebマッチメーカ

A Three Phase Semantic Web Matchmaker ( http://arxiv.org/abs/2107.05368v1 )

ライセンス: CC BY 4.0
Golsa Heidari, Kamran Zamanifar(参考訳) サービス指向アーキテクチャに従って構築された環境を使うので、より効果的で動的なアプリケーションがあります。 セマンティックマッチングプロセスは、置換のための価値のあるサービス候補を見つけつつある。 これはセマンティックWebサービスを使う上で非常に重要な側面です。 提案アルゴリズムは,セマンティックWebサービスマッチングの入力記述と出力記述に基づいて,Webサービスのセマンティックマッチングを実行する。 この手法はグラフ構造とフローネットワークの利点を生かしている。 提案手法では,マッチメイキングスコアを入力のセマンティクスに割り当て,パラメータとその型を出力する。 エッジの重みをこれらのスコアとするフローネットワークを構築し,fordfulkersonアルゴリズムを用いて2つのwebサービスのマッチングレートを求める。 したがって、すべてのサービスは、同じオントロジーWeb言語で記述されるべきです。 これらの候補のうち、最も良い候補が実行失敗の場合の置換のために選ばれる。 提案手法では,両部マッチングに使用可能な他のすべての中で,実行時間が少ないアルゴリズムを用いる。 問題の重要性は、実システムでは、遅い応答によって多くの根本的な問題が発生することである。 したがって、Systemのサービスは常時オンでなければならないし、そのうちの1つがクラッシュしたら、すぐに置き換えられる。 semantic web matchmakerはこのプロセスを簡単にする。

Since using environments that are made according to the service oriented architecture, we have more effective and dynamic applications. Semantic matchmaking process is finding valuable service candidates for substitution. It is a very important aspect of using semantic Web Services. Our proposed matchmaker algorithm performs semantic matching of Web Services on the basis of input and output descriptions of semantic Web Services matching. This technique takes advantages from a graph structure and flow networks. Our novel approach is assigning matchmaking scores to semantics of the inputs and outputs parameters and their types. It makes a flow network in which the weights of the edges are these scores, using FordFulkerson algorithm, we find matching rate of two web services. So, all services should be described in the same Ontology Web Language. Among these candidates, best one is chosen for substitution in the case of an execution failure. Our approach uses the algorithm that has the least running time among all others that can be used for bipartite matching. The importance of problem is that in real systems, many fundamental problems will occur by late answering. So system`s service should always be on and if one of them crashes, it would be replaced fast. Semantic web matchmaker eases this process.
翻訳日:2021-07-18 14:24:50 公開日:2021-07-06
# (参考訳) セマンティックWebマッチングの新しいアプローチ

A New Approach for Semantic Web Matching ( http://arxiv.org/abs/2107.06083v1 )

ライセンス: CC BY 4.0
Kamran Zamanifar, Golsa Heidari, Naser Nematbakhsh, Farhad Mardookhi(参考訳) 本稿では,Web サービス置換の性能を向上させるために,セマンティック Web マッチングのための新しいアプローチを提案する。 自動システムでは、自己修復、自己設定、自己最適化、自己管理を確実にする必要があるので、すべてのサービスが常に利用可能で、そのうちの1つがクラッシュした場合、最も類似したものに置き換えるべきです。 候補サービスはUniversal Description, Discovery and Integration (UDDI)で、すべてWeb Ontology Language (OWL)で宣伝されている。 二部グラフの助けを借りて、クラッシュしたサービスと候補サービスとのマッチングを行いました。 そして、最高のサービスを選択しました。 実際、2つのサービス`の機能と能力を比較して、それらがどれだけ一致しているかを確認します。 2つのWebサービスをマッチングする最善の方法は、それらの機能を比較することです。

In this work we propose a new approach for semantic web matching to improve the performance of Web Service replacement. Because in automatic systems we should ensure the self-healing, self-configuration, self-optimization and self-management, all services should be always available and if one of them crashes, it should be replaced with the most similar one. Candidate services are advertised in Universal Description, Discovery and Integration (UDDI) all in Web Ontology Language (OWL). By the help of bipartite graph, we did the matching between the crashed service and a Candidate one. Then we chose the best service, which had the maximum rate of matching. In fact we compare two services` functionalities and capabilities to see how much they match. We found that the best way for matching two web services, is comparing the functionalities of them.
翻訳日:2021-07-18 14:12:07 公開日:2021-07-06
# (参考訳) 人工知能とcopulaを用いた風速予測モデル

Predictive models for wind speed using artificial intelligence and copula ( http://arxiv.org/abs/2107.06182v1 )

ライセンス: CC BY 4.0
Md Amimul Ehsan(参考訳) 化石燃料を燃やすことによる発電は地球温暖化の主な要因の1つである。 再生可能エネルギー源は、電力を生産し、電力産業からの排出を減らすための代替手段である。 これらのエネルギー源は、すべて異なる特性を持つ緑のエネルギーの構成要素である。 その有効性は地理的な場所やその他のパラメータによっても多様である。 実装コストの低さと世界中の分散可用性は、彼らの人気を指数関数的に高めている。 そのため、消費者が電気を現地で生産し、現場で使用する機会を開放し、中央集権企業への依存を減らした。 この研究は、風速予測と風力発電計画の簡素化と実現可能性研究の2つの主な目的を考察している。 第二に、複数の離れた場所の風速の依存性構造を理解する必要がある。 最初の目的に対処するために、12の人工知能アルゴリズムが、気象パラメータの収集から風速予測に使用された。 風速予測精度を決定するために, モデル性能を比較した。 その結果、長期記憶(LSTM)は97.8%の精度で他のモデルより優れていることが判明した。 多変量累積分布関数であるCopulaを用いて,2つ以上の風速の連成分布を推定し,その後にケーススタディを行った。 その結果, 適切なコプラ族とパラメータは, 距離によって異なることがわかった。 ケーススタディでは、Joe-Frank(BB8)コプラは標準誤差0.0094の風速対に適した効率的な関節分布を示す。 最後に,風速依存性の不確実性について考察した。

Electricity generation from burning fossil fuels is one of the major contributors to global warming. Renewable energy sources are a viable alternative to produce electrical energy and to reduce the emission from the power industry. These energy sources are the building blocks of green energy, which all have different characteristics. Their availabilities are also diverse, depending on geographical locations and other parameters. Low implementation cost and distributed availability all over the world uplifts their popularity exponentially. Therefore, it has unlocked opportunities for consumers to produce electricity locally and use it on-site, which reduces dependency on centralized utility companies. The research considers two main objectives: the prediction of wind speed that simplifies wind farm planning and feasibility study. Secondly, the need to understand the dependency structure of the wind speeds of multiple distant locations. To address the first objective, twelve artificial intelligence algorithms were used for wind speed prediction from collected meteorological parameters. The model performances were compared to determine the wind speed prediction accuracy. The results show a deep learning approach, long short-term memory (LSTM) outperforms other models with the highest accuracy of 97.8%. For dependency, a multivariate cumulative distribution function, Copula, was used to find the joint distribution of two or more distant location wind speeds, followed by a case study. We found that the appropriate copula family and the parameters vary based on the distance in between. For the case study, Joe-Frank (BB8) copula shows an efficient joint distribution fit for a wind speed pair with a standard error of 0.0094. Finally, some insights about the uncertainty aspects of wind speed dependency were addressed.
翻訳日:2021-07-18 14:07:22 公開日:2021-07-06
# (参考訳) 次元リダクションを用いたマイズショット学習における重要な特徴の探索

Finding Significant Features for Few-Shot Learning using Dimensionality Reduction ( http://arxiv.org/abs/2107.06992v1 )

ライセンス: CC BY 4.0
Mauricio Mendez-Ruiz, Ivan Garcia Jorge Gonzalez-Zapata, Gilberto Ochoa-Ruiz, Andres Mendez-Vazquez(参考訳) 少数ショット学習は、データ量が少ない問題に特化した、比較的新しいテクニックです。 これらの方法の目標は、これまで見たことのないカテゴリをほんの一握りのサンプルで分類することである。 計量学習のような最近のアプローチでは、エピソードなタスクがデータとクエリ(テスト)データのサポート(トレーニング)に適合するメタラーニング戦略を採用している。 メタラーニング手法は,類似度関数を学習して,サポートとクエリデータを比較することで,単純なモデルで優れた性能が得られることを示した。 しかしながら、与えられたメトリック学習アプローチによって学習される機能空間は、特定のマイナショットタスクによって与えられる情報を活用できないかもしれない。 そこで本研究では,課題に重要な特徴を見出す手法として,次元削減技術の利用について検討する。 クラス内およびクラス間距離に基づいてスコアを割り当て、異なるクラスのインスタンスが遠く、同じクラスのインスタンスが近くにある特徴量削減方法を選択することにより、削減された特徴量の性能を測定する。 このモジュールは、メトリック学習法によって与えられた類似度関数が分類のより識別的な特徴を持つようにすることで、精度を向上させるのに役立つ。 提案手法は,MiniImageNetデータセットにおけるメトリック学習ベースラインの精度を約2%向上させる。

Few-shot learning is a relatively new technique that specializes in problems where we have little amounts of data. The goal of these methods is to classify categories that have not been seen before with just a handful of samples. Recent approaches, such as metric learning, adopt the meta-learning strategy in which we have episodic tasks conformed by support (training) data and query (test) data. Metric learning methods have demonstrated that simple models can achieve good performance by learning a similarity function to compare the support and the query data. However, the feature space learned by a given metric learning approach may not exploit the information given by a specific few-shot task. In this work, we explore the use of dimension reduction techniques as a way to find task-significant features helping to make better predictions. We measure the performance of the reduced features by assigning a score based on the intra-class and inter-class distance, and selecting a feature reduction method in which instances of different classes are far away and instances of the same class are close. This module helps to improve the accuracy performance by allowing the similarity function, given by the metric learning method, to have more discriminative features for the classification. Our method outperforms the metric learning baselines in the miniImageNet dataset by around 2% in accuracy performance.
翻訳日:2021-07-18 14:05:58 公開日:2021-07-06
# (参考訳) インテリジェント取引に基づくクラスタリングとアテンションモデル

Clustering and attention model based for Intelligent Trading ( http://arxiv.org/abs/2107.06782v1 )

ライセンス: CC BY 4.0
Mimansa Rana, Nanxiang Mao, Ming Ao, Xiaohui Wu, Poning Liang and Matloob Khushi(参考訳) 外国為替市場は世界金融市場で重要な役割を担ってきた。 外国為替トレーディングは高利回りの機会を投資家にもたらす一方で、一定のリスクをもたらす。 20世紀に外国為替市場が成立して以来、為替レート予測は世界中の学者によって研究されているホットな問題となっている。 外国為替市場に影響を与える要因の複雑さと多さから、技術的分析は行政介入や予期せぬ出来事に対応できない。 当社のチームは、いくつかの対外通貨履歴データを選択し、2005年から2021年までの技術指標をデータセットとして導出し、オーバーsoldシナリオのイベント駆動価格予測のための異なる機械学習モデルを確立した。

The foreign exchange market has taken an important role in the global financial market. While foreign exchange trading brings high-yield opportunities to investors, it also brings certain risks. Since the establishment of the foreign exchange market in the 20th century, foreign exchange rate forecasting has become a hot issue studied by scholars from all over the world. Due to the complexity and number of factors affecting the foreign exchange market, technical analysis cannot respond to administrative intervention or unexpected events. Our team chose several pairs of foreign currency historical data and derived technical indicators from 2005 to 2021 as the dataset and established different machine learning models for event-driven price prediction for oversold scenario.
翻訳日:2021-07-18 13:57:06 公開日:2021-07-06
# (参考訳) 新興デバイス・インメモリ・ニューラル・アクセラレーターの不確実性モデリングとニューラル・アーキテクチャ・サーチへの応用

Uncertainty Modeling of Emerging Device-based Computing-in-Memory Neural Accelerators with Application to Neural Architecture Search ( http://arxiv.org/abs/2107.06871v1 )

ライセンス: CC BY-SA 4.0
Zheyu Yan, Da-Cheng Juan, Xiaobo Sharon Hu, Yiyu Shi(参考訳) 新興デバイスベースのコンピューティングインメモリ(CiM)は、高エネルギー効率ディープニューラルネットワーク(DNN)計算において有望な候補であることが証明されている。 しかし、殆どの新興デバイスは不確実性に苦しんでおり、実際のデータとそれが設計される重み値の差が生じている。 これにより、トレーニングされたモデルから実際にデプロイされたプラットフォームに精度が低下する。 本研究では,DNNモデルにおける不確実性による変化の影響を詳細に分析する。 デバイス不確実性の影響を低減するため,デバイス不確実性に対して正確かつ堅牢なDNNモデルを特定するための不確実性を考慮したニューラルネットワーク探索手法であるUAEを提案する。

Emerging device-based Computing-in-memory (CiM) has been proved to be a promising candidate for high-energy efficiency deep neural network (DNN) computations. However, most emerging devices suffer uncertainty issues, resulting in a difference between actual data stored and the weight value it is designed to be. This leads to an accuracy drop from trained models to actually deployed platforms. In this work, we offer a thorough analysis of the effect of such uncertainties-induced changes in DNN models. To reduce the impact of device uncertainties, we propose UAE, an uncertainty-aware Neural Architecture Search scheme to identify a DNN model that is both accurate and robust against device uncertainties.
翻訳日:2021-07-18 13:56:08 公開日:2021-07-06
# 信頼条件付き知識蒸留

Confidence Conditioned Knowledge Distillation ( http://arxiv.org/abs/2107.06993v1 )

ライセンス: Link先を確認
Sourav Mishra and Suresh Sundaram(参考訳) 本稿では,教師モデルから学生モデルへ知識を伝達するための新しい信頼性条件付き知識蒸留(CCKD)手法を提案する。 既存の最先端の手法では、この目的のために固定損失関数を使用し、異なるサンプルに転送する必要がある異なるレベルの情報を無視している。 加えて、これらの手法はデータ利用の点で非効率である。 CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに活用して、サンプル固有損失関数(CCKD-L)とターゲット(CCKD-T)を考案する。 さらに、CCKDは自己規制を用いて、学生モデルがより速く学習する蒸留プロセスに参加するのを防ぐことにより、データ効率を向上させる。 いくつかのベンチマークデータセットの実証評価では、CCKD法は、そのプロセスでデータ効率を保ちながら、他の最先端手法と同等以上の一般化性能を達成している。 CCKD法で訓練された学生モデルは、トレーニングセット上の教師モデルによって実行される誤分類の大部分を保持していない。 CCKD法による蒸留により,従来のKD法と比較して,生徒モデルの逆攻撃に対するレジリエンスが向上する。 実験では、MNISTとFashion MNISTデータセットの敵攻撃に対する少なくとも3%のパフォーマンスが増加し、CIFAR10データセットの少なくとも6%が増加した。

In this paper, a novel confidence conditioned knowledge distillation (CCKD) scheme for transferring the knowledge from a teacher model to a student model is proposed. Existing state-of-the-art methods employ fixed loss functions for this purpose and ignore the different levels of information that need to be transferred for different samples. In addition to that, these methods are also inefficient in terms of data usage. CCKD addresses these issues by leveraging the confidence assigned by the teacher model to the correct class to devise sample-specific loss functions (CCKD-L formulation) and targets (CCKD-T formulation). Further, CCKD improves the data efficiency by employing self-regulation to stop those samples from participating in the distillation process on which the student model learns faster. Empirical evaluations on several benchmark datasets show that CCKD methods achieve at least as much generalization performance levels as other state-of-the-art methods while being data efficient in the process. Student models trained through CCKD methods do not retain most of the misclassifications commited by the teacher model on the training set. Distillation through CCKD methods improves the resilience of the student models against adversarial attacks compared to the conventional KD method. Experiments show at least 3% increase in performance against adversarial attacks for the MNIST and the Fashion MNIST datasets, and at least 6% increase for the CIFAR10 dataset.
翻訳日:2021-07-18 12:35:22 公開日:2021-07-06
# 多レベル蒸留による組み込み機器の高精度ヒューマンアクティビティ認識のモデル化

Modeling Accurate Human Activity Recognition for Embedded Devices Using Multi-level Distillation ( http://arxiv.org/abs/2107.07331v1 )

ライセンス: Link先を確認
Runze Chen and Haiyong Luo and Fang Zhao and Xuechun Meng and Zhiqing Xie and Yida Zhu(参考訳) IMUセンサに基づくヒューマンアクティビティ認識(HAR)はユビキタスコンピューティングにおいて不可欠な分野である。 人工知能をIoTデバイスやスマートフォンにデプロイする傾向が改善されているため、より多くの研究者が組み込みデバイス用のHARモデルを設計している。 組込みデバイスをネイティブにサポートした深部畳み込み型HARモデルを構築するために,多層蒸留を用いたプラグアンドプレイHARモデリングパイプラインを提案する。 SMLDistは、深層モデルのすべての情報の流れをカバーする、ステージ蒸留、メモリ蒸留、ロジット蒸留からなる。 ステージ蒸留は中間的特徴の学習方向を制約する。 メモリ蒸留は、ホップフィールドネットワークに基づく高次元特徴間の内部関係の説明と保存方法を学生モデルに教える。 ロジット蒸留は、可算分布を維持し、ソフトターゲットの正確性を向上させるために、滑らかな条件規則で蒸留ロジットを構成する。 SMLDistによって構築されたMobileNet V3モデルを用いて,様々な最先端HARフレームワークの組込みプラットフォームにおける精度,F1マクロスコア,エネルギーコストを比較した。 生成したモデルは、堅牢性、効率、精度とのバランスが良好である。 SMLDistは、7つの公開データセット上の他の最先端知識蒸留法と同等な圧縮速度で、小さな性能損失でモデルを圧縮することもできる。

Human activity recognition (HAR) based on IMU sensors is an essential domain in ubiquitous computing. Because of the improving trend to deploy artificial intelligence into IoT devices or smartphones, more researchers design the HAR models for embedded devices. We propose a plug-and-play HAR modeling pipeline with multi-level distillation to build deep convolutional HAR models with native support of embedded devices. SMLDist consists of stage distillation, memory distillation, and logits distillation, which covers all the information flow of the deep models. Stage distillation constrains the learning direction of the intermediate features. Memory distillation teaches the student models how to explain and store the inner relationship between high-dimensional features based on Hopfield networks. Logits distillation constructs distilled logits by a smoothed conditional rule to keep the probable distribution and improve the correctness of the soft target. We compare the performance of accuracy, F1 macro score, and energy cost on the embedded platform of various state-of-the-art HAR frameworks with a MobileNet V3 model built by SMLDist. The produced model has well balance with robustness, efficiency, and accuracy. SMLDist can also compress the models with minor performance loss in an equal compression rate than other state-of-the-art knowledge distillation methods on seven public datasets.
翻訳日:2021-07-18 12:33:17 公開日:2021-07-06
# sangrahaka: ナレッジグラフの注釈とクエリを行うツール

Sangrahaka: A Tool for Annotating and Querying Knowledge Graphs ( http://arxiv.org/abs/2107.02782v1 )

ライセンス: Link先を確認
Hrishikesh Terdalkar, Arnab Bhattacharya(参考訳) 本研究では,WebベースのアノテーションとクエリツールSangrahakaを紹介する。 テキストコーパスからエンティティや関係を注釈し、知識グラフ(KG)を構築する。 kgはテンパライズド自然言語クエリを用いてクエリされる。 アプリケーションは言語やコーパスに依存しないが、特定の言語やコーパスの特別なニーズに合わせて調整することができる。 フレームワークのカスタマイズバージョンは2つのアノテーションタスクで使用されている。 アプリケーションはダウンロードとインストールが可能だ。 ユーザフレンドリなインターフェースを持つだけでなく、高速で、カスタマイズをサポートし、クライアントとサーバの両方でフォールトトレラントである。 コードはhttps://github.com/hrishikeshrt/sangrahakaで、デモ付きプレゼンテーションはhttps://youtu.be/nw9GFLVZMMoで公開されている。

In this work, we present a web-based annotation and querying tool Sangrahaka. It annotates entities and relationships from text corpora and constructs a knowledge graph (KG). The KG is queried using templatized natural language queries. The application is language and corpus agnostic, but can be tuned for special needs of a specific language or a corpus. A customized version of the framework has been used in two annotation tasks. The application is available for download and installation. Besides having a user-friendly interface, it is fast, supports customization, and is fault tolerant on both client and server side. The code is available at https://github.com/hrishikeshrt/sangrahaka and the presentation with a demo is available at https://youtu.be/nw9GFLVZMMo.
翻訳日:2021-07-18 12:32:25 公開日:2021-07-06
# フォークリフトリチウムイオン電池パックの健康時系列予測のための7つの方法の比較

Comparing seven methods for state-of-health time series prediction for the lithium-ion battery packs of forklifts ( http://arxiv.org/abs/2107.05489v1 )

ライセンス: Link先を確認
Matti Huotari, Shashank Arora, Avleen Malhi, Kary Fr\"amling(参考訳) フォークリフトの重要な側面は、故障しない電源の安全性と信頼性を確保するための健康状態評価(SoH)である。 電池SoH井戸の予測は、予防メンテナンスを可能にするために必須であり、したがってコストを低減させる。 本稿では,電池に関する事前情報が少ない状況下でのsoh時系列予測のための勾配昇降回帰の能力を示す。 勾配ブースティング法を,光勾配ブースティング,余分な木,極端な勾配ブースティング,ランダム森林,長期短期記憶ネットワーク,畳み込みニューラルネットワークと長期短期記憶ネットワークの併用法と比較した。 複数の予測器と遅延目標信号分解結果を追加予測器として使用し,得られた予測結果を各予測器の異なるセットと比較した。 この研究のために私たちは、データに大きなバリエーションを持つ45個のリチウムイオンバッテリーパックのユニークなデータセットを所有しています。 提案手法は,予測のためのポイントワイズ信頼区間を計算する新しいウォークフォワードアルゴリズムによって検証され,予測のための合理的な予測と信頼区間が得られた。 さらに,このモデルを他のリチウムイオン電池パック5台に対して検証した。 最終モデルに関する結果から,先行したモデルに関して結果が向上したことが示唆された。 さらに, 市販ニッケルコバルトマンガン(nmc)セルのサイクル寿命に相当する10年周期で3000サイクル程度の電池パックを完成させ, 新たなフォークリフトのデータを用いて, これまでの研究で提示されたサイクル数を抽出するモデルをさらに検証した。

A key aspect for the forklifts is the state-of-health (SoH) assessment to ensure the safety and the reliability of uninterrupted power source. Forecasting the battery SoH well is imperative to enable preventive maintenance and hence to reduce the costs. This paper demonstrates the capabilities of gradient boosting regression for predicting the SoH timeseries under circumstances when there is little prior information available about the batteries. We compared the gradient boosting method with light gradient boosting, extra trees, extreme gradient boosting, random forests, long short-term memory networks and with combined convolutional neural network and long short-term memory networks methods. We used multiple predictors and lagged target signal decomposition results as additional predictors and compared the yielded prediction results with different sets of predictors for each method. For this work, we are in possession of a unique data set of 45 lithium-ion battery packs with large variation in the data. The best model that we derived was validated by a novel walk-forward algorithm that also calculates point-wise confidence intervals for the predictions; we yielded reasonable predictions and confidence intervals for the predictions. Furthermore, we verified this model against five other lithium-ion battery packs; the best model generalised to greater extent to this set of battery packs. The results about the final model suggest that we were able to enhance the results in respect to previously developed models. Moreover, we further validated the model for extracting cycle counts presented in our previous work with data from new forklifts; their battery packs completed around 3000 cycles in a 10-year service period, which corresponds to the cycle life for commercial Nickel-Cobalt-Manganese (NMC) cells.
翻訳日:2021-07-18 12:31:35 公開日:2021-07-06
# HCGR:セッションベース推薦のためのハイパーボリックコントラストグラフ表現学習

HCGR: Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation ( http://arxiv.org/abs/2107.05366v1 )

ライセンス: Link先を確認
Naicheng Guo and Xiaolei Liu and Shaoshuai Li and Qiongxu Ma and Yunan Zhao and Bing Han and Lin Zheng and Kaixin Gao and Xiaobo Guo(参考訳) セッションベースレコメンデーション(SBR)は、ユーザの行動の進化から短期的および連続的なパターンをキャプチャすることで、ユーザの好みを学習する。 SBR分野の研究の中で、グラフベースのアプローチは比較的強力な方法であり、一般にユークリッド空間の下でのメッセージアグリゲーションによってアイテム情報を抽出する。 しかし,このような手法は,ユーザの嗜好を表現する上で重要であるセッションの連続項目に含まれる階層情報を効果的に抽出することはできない。 本稿では,ローレンツ双曲空間を包含するセッションベース推薦フレームワークである,双曲型コントラストグラフ推薦器(HCGR)について述べる。 このフレームワークでは,各ユーザの好みのグラフメッセージをセッションベースの行動系列に集約するために,適応的双曲的注意計算を新たに設計する。 さらに,双曲空間における正と負のサンプル間の測地距離を考慮し,項目表現の最適化にコントラスト学習を利用する。 4つの実世界のデータセットに対する大規模な実験によると、HCGRは、HitRate$、$NDCG$、$MRR$という観点で、最先端のベースラインを一貫して0.43$\%$-28.84$\%$で上回る。

Session-based recommendation (SBR) learns users' preferences by capturing the short-term and sequential patterns from the evolution of user behaviors. Among the studies in the SBR field, graph-based approaches are a relatively powerful kind of way, which generally extract item information by message aggregation under Euclidean space. However, such methods can't effectively extract the hierarchical information contained among consecutive items in a session, which is critical to represent users' preferences. In this paper, we present a hyperbolic contrastive graph recommender (HCGR), a principled session-based recommendation framework involving Lorentz hyperbolic space to adequately capture the coherence and hierarchical representations of the items. Within this framework, we design a novel adaptive hyperbolic attention computation to aggregate the graph message of each user's preference in a session-based behavior sequence. In addition, contrastive learning is leveraged to optimize the item representation by considering the geodesic distance between positive and negative samples in hyperbolic space. Extensive experiments on four real-world datasets demonstrate that HCGR consistently outperforms state-of-the-art baselines by 0.43$\%$-28.84$\%$ in terms of $HitRate$, $NDCG$ and $MRR$.
翻訳日:2021-07-18 12:30:06 公開日:2021-07-06
# AIイノベーションのドライバシートに放射線科医を配置するオーケストレーションプラットフォーム:方法論的アプローチ

An Orchestration Platform that Puts Radiologists in the Driver's Seat of AI Innovation: A Methodological Approach ( http://arxiv.org/abs/2107.04409v1 )

ライセンス: Link先を確認
Raphael Y. Cohen, Aaron D. Sodickson(参考訳) 放射線学における現在のAI駆動の研究は、しばしば小規模で資源に制限された研究室にアクセスできないリソースと専門知識を必要とする。 AI研究に参加することができる臨床医は、しばしば資金が豊富で、資金が潤沢で、AIやコンピューティングで重要な経験を持つか、同僚や施設にアクセスすることができる。 現在の画像データは臨床向きであり、機械学習のイニシアチブに容易に適応できないため、データエンジニアや機械学習科学者の乗組員に依存する非効率、時間的消費、コストのかかる努力が生まれ、放射線科医がai研究やイノベーションを推進することを妨げることが多い。 インフラやプラットフォームのニーズに対応するために開発したシステムや方法論について述べるとともに、導入する人員やリソースの障壁を減らす。 我々は、AI開発とデプロイメントプロセスを合理化しつつ、新しいAIイノベーションの原動力となるように、放射線学者に効率的で親しみやすいインターフェースを提供する、データファーストでモジュラーなアプローチを強調します。

Current AI-driven research in radiology requires resources and expertise that are often inaccessible to small and resource-limited labs. The clinicians who are able to participate in AI research are frequently well-funded, well-staffed, and either have significant experience with AI and computing, or have access to colleagues or facilities that do. Current imaging data is clinician-oriented and is not easily amenable to machine learning initiatives, resulting in inefficient, time consuming, and costly efforts that rely upon a crew of data engineers and machine learning scientists, and all too often preclude radiologists from driving AI research and innovation. We present the system and methodology we have developed to address infrastructure and platform needs, while reducing the staffing and resource barriers to entry. We emphasize a data-first and modular approach that streamlines the AI development and deployment process while providing efficient and familiar interfaces for radiologists, such that they can be the drivers of new AI innovations.
翻訳日:2021-07-18 12:29:11 公開日:2021-07-06
# IGrow: 自律的な温室管理のためのスマート農業ソリューション

IGrow: A Smart Agriculture Solution to Autonomous Greenhouse Control ( http://arxiv.org/abs/2107.05464v1 )

ライセンス: Link先を確認
Xiaoyan Cao, Yao Yao, Lanqing Li, Wanpeng Zhang, Zhicheng An, Zhong Zhang, Shihui Guo, Li Xiao, Xiaoyu Cao, and Dijun Luo(参考訳) 農業は人類文明の基礎である。 しかし、世界人口の急速な増加と高齢化は、健康で新鮮な食品を求めることで、この基盤に課題をもたらす。 モノのインターネット(IoT)技術は、現代の自律型温室を食料生産の実用的で信頼性の高いエンジンにする。 しかし、ハイテクな温室を監督できる教育と熟練の労働力は乏しい。 人工知能(AI)とクラウドコンピューティング技術は、これらの制御環境での精度制御と高効率生産のための有望なソリューションである。 In this paper, we propose a smart agriculture solution, namely iGrow: (1) we use IoT and cloud computing technologies to measure, collect, and manage growing data, to support iteration of our decision-making AI module, which consists of an incremental model and an optimization algorithm; (2) we propose a three-stage incremental model based on accumulating data, enabling growers/central computers to schedule control strategies conveniently and at low cost; (3) we propose a model-based iterative optimization algorithm, which can dynamically optimize the greenhouse control strategy in real-time production. シミュレーション実験では, インクリメンタルモデルの精度は高度トマトシミュレータに匹敵するが, 最適化アルゴリズムは第2回自律温室チャレンジのチャンピオンを破ることができる。 実地温室におけるA/B試験の結果, 生産量(商業販売可能な果実)が10.15%以上, 純利益が87.07%以上であり, 植林専門家と比較して統計的に有意な増加が見られた。

Agriculture is the foundation of human civilization. However, the rapid increase and aging of the global population pose challenges on this cornerstone by demanding more healthy and fresh food. Internet of Things (IoT) technology makes modern autonomous greenhouse a viable and reliable engine of food production. However, the educated and skilled labor capable of overseeing high-tech greenhouses is scarce. Artificial intelligence (AI) and cloud computing technologies are promising solutions for precision control and high-efficiency production in such controlled environments. In this paper, we propose a smart agriculture solution, namely iGrow: (1) we use IoT and cloud computing technologies to measure, collect, and manage growing data, to support iteration of our decision-making AI module, which consists of an incremental model and an optimization algorithm; (2) we propose a three-stage incremental model based on accumulating data, enabling growers/central computers to schedule control strategies conveniently and at low cost; (3) we propose a model-based iterative optimization algorithm, which can dynamically optimize the greenhouse control strategy in real-time production. In the simulated experiment, evaluation results show the accuracy of our incremental model is comparable to an advanced tomato simulator, while our optimization algorithms can beat the champion of the 2nd Autonomous Greenhouse Challenge. Compelling results from the A/B test in real greenhouses demonstrate that our solution significantly increases production (commercially sellable fruits) (+ 10.15%) and net profit (+ 87.07%) with statistical significance compared to planting experts.
翻訳日:2021-07-18 12:28:52 公開日:2021-07-06
# 記号回帰を用いた力学系の同定

Identification of Dynamical Systems using Symbolic Regression ( http://arxiv.org/abs/2107.06131v1 )

ライセンス: Link先を確認
Gabriel Kronberger, Lukas Kammerer, Michael Kommenda(参考訳) 本稿では,観測データから動的システムのモデルを特定する手法について述べる。 この手法は記号回帰の概念に基づいており、遺伝的プログラミングを用いて常微分方程式(ODE)の体系を進化させる。 新しくなったのは、ODEパラメータの勾配に基づく最適化のステップを追加することです。 本研究では,初期値問題(IVP)に対する解の感度を自動微分を用いて算出する。 提案手法は,シミュレーションシステムからのデータセットと機械システムから取得したデータセットを含む,文献から取られた19の問題インスタンスのセットで検証した。 パラメータの勾配に基づく最適化はモデルの予測精度を向上させる。 その結果、まず個々の方程式を数値差に適合させ、次にIPP解を観測変数値に適合させてパラメータ値を微調整すると、最もよい結果が得られる。

We describe a method for the identification of models for dynamical systems from observational data. The method is based on the concept of symbolic regression and uses genetic programming to evolve a system of ordinary differential equations (ODE). The novelty is that we add a step of gradient-based optimization of the ODE parameters. For this we calculate the sensitivities of the solution to the initial value problem (IVP) using automatic differentiation. The proposed approach is tested on a set of 19 problem instances taken from the literature which includes datasets from simulated systems as well as datasets captured from mechanical systems. We find that gradient-based optimization of parameters improves predictive accuracy of the models. The best results are obtained when we first fit the individual equations to the numeric differences and then subsequently fine-tune the identified parameter values by fitting the IVP solution to the observed variable values.
翻訳日:2021-07-18 12:28:30 公開日:2021-07-06
# 因果的仮定に基づく実世界のジェノタイピングデータからの抗菌抵抗の予測における推定バイアスの評価

Assessing putative bias in prediction of anti-microbial resistance from real-world genotyping data under explicit causal assumptions ( http://arxiv.org/abs/2107.03383v1 )

ライセンス: Link先を確認
Mattia Prosperi, Simone Marini, Christina Boucher, Jiang Bian(参考訳) ゲノムシークエンシング(WGS)は、抵抗性や病原体の移動を誘導する遺伝子やメカニズムに関する高分解能情報を得る能力から、抗生物質耐性(AMR)を識別するための慣習的な手段となりつつある。 対照的に、従来の表現型(アンチバイオグラム)検査はそのような情報を容易に解明できない。 しかし、サンプリングが非ランダム化されているため、ジェノタイプフェノタイプデータからのAMR予測ツールの開発には偏りがある。 サンプルの出芽、採集期間、種表象は、遺伝形質とAMRの関連を解明することができる。 このように、予測モデルはサンプリング分布シフトを伴う新しいデータに対して不適切な処理を行うことができる。 本研究では,PATRIC(Pathosystems Resource Integration Center, PATRIC)の遺伝子型AMRデータを用いたAMR予測において, 相対性に基づく再バランスと整合性調整の有効性を評価する。 細菌の遺伝子型(k-merシグネチャとしてコードされる)を選択する。 長さkのdna断片)、国、年、種、amrの表現型(テトラサイクリン系薬物の分類)は、1つの国からの最近のゲノムでテストデータを準備する。 偏りを伴わずに,ロジスティック回帰(BLR)とランダム森林(RF)を試験した。 10,936例において,AMR表現型に対する種,位置,年不均衡の証拠が発見された。 amrに対する遺伝的シグネチャの効果の粗さとバイアス調整による変化は、適度にしか変化しない(4000万以上のk-merのうち上位2万が選択される)。 RF(0.95)の受信動作特性(AUROC)の下の領域は、ブートストラップと外部テスト(n=1,085)の両方でBLR(0.94)と同等であり、AUROCは減少しない。 遺伝的シグネチャの単独使用と比較して,AUROCの1%-5%の利得をバイアスハンドリングで観察した。 ...

Whole genome sequencing (WGS) is quickly becoming the customary means for identification of antimicrobial resistance (AMR) due to its ability to obtain high resolution information about the genes and mechanisms that are causing resistance and driving pathogen mobility. By contrast, traditional phenotypic (antibiogram) testing cannot easily elucidate such information. Yet development of AMR prediction tools from genotype-phenotype data can be biased, since sampling is non-randomized. Sample provenience, period of collection, and species representation can confound the association of genetic traits with AMR. Thus, prediction models can perform poorly on new data with sampling distribution shifts. In this work -- under an explicit set of causal assumptions -- we evaluate the effectiveness of propensity-based rebalancing and confounding adjustment on AMR prediction using genotype-phenotype AMR data from the Pathosystems Resource Integration Center (PATRIC). We select bacterial genotypes (encoded as k-mer signatures, i.e. DNA fragments of length k), country, year, species, and AMR phenotypes for the tetracycline drug class, preparing test data with recent genomes coming from a single country. We test boosted logistic regression (BLR) and random forests (RF) with/without bias-handling. On 10,936 instances, we find evidence of species, location and year imbalance with respect to the AMR phenotype. The crude versus bias-adjusted change in effect of genetic signatures on AMR varies but only moderately (selecting the top 20,000 out of 40+ million k-mers). The area under the receiver operating characteristic (AUROC) of the RF (0.95) is comparable to that of BLR (0.94) on both out-of-bag samples from bootstrap and the external test (n=1,085), where AUROCs do not decrease. We observe a 1%-5% gain in AUROC with bias-handling compared to the sole use of genetic signatures. ...
翻訳日:2021-07-09 13:23:47 公開日:2021-07-06
# (参考訳) 知識蒸留のための等速データ拡張

Isotonic Data Augmentation for Knowledge Distillation ( http://arxiv.org/abs/2107.01412v2 )

ライセンス: CC BY 4.0
Wanyun Cui, Sen Yan(参考訳) 知識蒸留は教師モデルによって予測される本物のハードラベルとソフトラベルの両方を監督する。 直感的には、ソフトラベルとハードラベルはw.r.t.と一致している。 確率の命令だ しかし,拡張サンプルでは,ハードラベルとソフトラベルの臨界順序違反が確認された。 例えば、$x=0.7*panda+0.3*cat$の場合、意味のあるソフトラベルの順序は$P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$と期待する。 しかし、実際のソフトレーベルは通常、注文に違反する。 P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$ これは教師の満足のいく一般化能力に起因し、強化サンプルの予測誤差につながる。 経験的に、違反は一般的であり、知識伝達を損なうことがわかりました。 本稿では,isotonic data augmentation (ida) と表記される知識蒸留のためのデータ拡張に関する順序制限を導入する。 isotonic regression (ir) -- 統計学の古典的なテクニック -- を使用して、順序違反を排除します。 IDAは木構造IR問題としてモデル化可能であることを示す。 したがって、従来のIRT-BINアルゴリズムを$O(c \log c)$時間複雑性の最適解に適用し、$c$はラベルの数である。 時間複雑性をさらに低減するために,線形時間複雑性を持つGPUフレンドリな近似も提案する。 提案するidaアルゴリズムが, ランク違反を除去し, 知識蒸留の精度を効果的に向上させることを示す, 変種データセットとデータ拡張手法について検証した。

Knowledge distillation uses both real hard labels and soft labels predicted by teacher models as supervision. Intuitively, we expect the soft labels and hard labels to be concordant w.r.t. their orders of probabilities. However, we found critical order violations between hard labels and soft labels in augmented samples. For example, for an augmented sample $x=0.7*panda+0.3*cat$, we expect the order of meaningful soft labels to be $P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$. But real soft labels usually violate the order, e.g. $P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$. We attribute this to the unsatisfactory generalization ability of the teacher, which leads to the prediction error of augmented samples. Empirically, we found the violations are common and injure the knowledge transfer. In this paper, we introduce order restrictions to data augmentation for knowledge distillation, which is denoted as isotonic data augmentation (IDA). We use isotonic regression (IR) -- a classic technique from statistics -- to eliminate the order violations. We show that IDA can be modeled as a tree-structured IR problem. We thereby adapt the classical IRT-BIN algorithm for optimal solutions with $O(c \log c)$ time complexity, where $c$ is the number of labels. In order to further reduce the time complexity, we also propose a GPU-friendly approximation with linear time complexity. We have verified on variant datasets and data augmentation techniques that our proposed IDA algorithms effectively increases the accuracy of knowledge distillation by eliminating the rank violations.
翻訳日:2021-07-09 06:08:37 公開日:2021-07-06
# (参考訳) 絡み合いとニューラルネットワークの飛躍:量子サーベイ

A Leap among Entanglement and Neural Networks: A Quantum Survey ( http://arxiv.org/abs/2107.03313v1 )

ライセンス: CC BY 4.0
Fabio Valerio Massoli, Lucia Vadicamo, Giuseppe Amato, Fabrizio Falchi(参考訳) 近年、Quantum Computingはリソースの可用性とアルゴリズム開発の両面で大幅な改善をみせた。 量子現象を利用して計算問題を解決する能力は、80年代後半から科学界の関心を引き起こしてきた長年の夢である。 このような状況において、私たちは貢献します。 まず,量子計算に関する基本概念を紹介し,ゲートモデルとアディアバティック量子コンピューティングのパラダイムを実装した技術の中核機能について説明する。 最後に、量子パーセプトロンと量子ニューラルネットワークの実装に関する現状を収集、比較、分析する。

In recent years, Quantum Computing witnessed massive improvements both in terms of resources availability and algorithms development. The ability to harness quantum phenomena to solve computational problems is a long-standing dream that has drawn the scientific community's interest since the late '80s. In such a context, we pose our contribution. First, we introduce basic concepts related to quantum computations, and then we explain the core functionalities of technologies that implement the Gate Model and Adiabatic Quantum Computing paradigms. Finally, we gather, compare and analyze the current state-of-the-art concerning Quantum Perceptrons and Quantum Neural Networks implementations.
翻訳日:2021-07-09 05:08:55 公開日:2021-07-06
# (参考訳) Plot2Spectra:自動スペクトル抽出ツール

Plot2Spectra: an Automatic Spectra Extraction Tool ( http://arxiv.org/abs/2107.02827v1 )

ライセンス: CC BY 4.0
Weixin Jiang, Eric Schwenker, Trevor Spreadbury, Kai Li, Maria K.Y. Chan, Oliver Cossairt(参考訳) XANES (X-ray absorption near edge structure) やラマン分光法 (Raman spectroscopy) のような様々な種類の分光学は、異なる物質の特性を分析する上で非常に重要な役割を果たす。 科学文献では、xanes/ramanデータは、通常は線グラフにプロットされるが、これは、エンドユーザーが人間の読み手であるときに情報を視覚的に適切な方法で表現する。 しかし、そのようなグラフは自動ツールの欠如のため、直接プログラム解析には向いていない。 本稿では,Plot2Spectraというプロットデジタイザを開発し,分光グラフ画像からデータポイントを自動抽出し,大規模データ取得と解析を可能にする。 具体的には、プロットデジタイザは2段階のフレームワークである。 第1軸アライメント段階では、プロット領域を検出するためにアンカーフリー検出器を採用し、検出された境界ボックスをエッジベースの制約で洗練し、2つの軸の位置を特定する。 また,シーンテキスト検出器を用いて,x軸下の全てのダニ情報を抽出・解釈する。 第2プロットデータ抽出段階では、まず、背景からプロット線に属する画素を分離するためにセマンティックセグメンテーションを使用し、そこからプロット線に光フロー制約を加えて、それらを符号化した適切な線(データ例)に割り当てる。 提案するプロットデジタイザの有効性を検証するために広範な実験が行われ、そのようなツールが材料特性の発見と機械学習の促進に役立つことを示した。

Different types of spectroscopies, such as X-ray absorption near edge structure (XANES) and Raman spectroscopy, play a very important role in analyzing the characteristics of different materials. In scientific literature, XANES/Raman data are usually plotted in line graphs which is a visually appropriate way to represent the information when the end-user is a human reader. However, such graphs are not conducive to direct programmatic analysis due to the lack of automatic tools. In this paper, we develop a plot digitizer, named Plot2Spectra, to extract data points from spectroscopy graph images in an automatic fashion, which makes it possible for large scale data acquisition and analysis. Specifically, the plot digitizer is a two-stage framework. In the first axis alignment stage, we adopt an anchor-free detector to detect the plot region and then refine the detected bounding boxes with an edge-based constraint to locate the position of two axes. We also apply scene text detector to extract and interpret all tick information below the x-axis. In the second plot data extraction stage, we first employ semantic segmentation to separate pixels belonging to plot lines from the background, and from there, incorporate optical flow constraints to the plot line pixels to assign them to the appropriate line (data instance) they encode. Extensive experiments are conducted to validate the effectiveness of the proposed plot digitizer, which shows that such a tool could help accelerate the discovery and machine learning of materials properties.
翻訳日:2021-07-09 05:07:46 公開日:2021-07-06
# (参考訳) 分類におけるロジットに基づく不確実性測定

Logit-based Uncertainty Measure in Classification ( http://arxiv.org/abs/2107.02845v1 )

ライセンス: CC BY 4.0
Huiyu Wu and Diego Klabjan(参考訳) 我々は,ロジット不確実性と呼ばれる分類タスクに対して,新たに信頼性の高い不確実性尺度を導入する。 これはニューラルネットワークのロジット出力に基づいている。 特に, この新たな不確実性尺度は, サンプル検出や誤予測など, 様々なタスクにおける既存の不確実性対策に比べ, 優れた性能を示すことを示す。 測定の理論的基礎を分析し,高密度領域との関係を探究する。 また、生成的対向ネットワークのトレーニングにおいて中間出力を用いて不確実性をテストする方法を示す。 実世界のアプリケーションにおいてロジットに基づく不確実性を利用するための2つの潜在的方法を提案する。

We introduce a new, reliable, and agnostic uncertainty measure for classification tasks called logit uncertainty. It is based on logit outputs of neural networks. We in particular show that this new uncertainty measure yields a superior performance compared to existing uncertainty measures on different tasks, including out of sample detection and finding erroneous predictions. We analyze theoretical foundations of the measure and explore a relationship with high density regions. We also demonstrate how to test uncertainty using intermediate outputs in training of generative adversarial networks. We propose two potential ways to utilize logit-based uncertainty in real world applications, and show that the uncertainty measure outperforms.
翻訳日:2021-07-09 04:55:02 公開日:2021-07-06
# (参考訳) ニューラルネットワーク翻訳とエンティティリンクによる知識グラフに関する質問応答

Question Answering over Knowledge Graphs with Neural Machine Translation and Entity Linking ( http://arxiv.org/abs/2107.02865v1 )

ライセンス: CC BY 4.0
Daniel Diomedi, Aidan Hogan(参考訳) 知識グラフに関する質問回答(KGQA)の目的は、知識グラフ上の自然言語質問に対する回答を見つけることである。 最近のKGQAアプローチでは、自然言語質問を構造化クエリ言語に変換するニューラルネットワーク翻訳(NMT)アプローチを採用している。 しかし、NMTは語彙外問題に悩まされており、ある質問の語句は訓練中に見られず、翻訳を妨げている。 この問題は、大きな知識グラフが記述する数百万のエンティティにとって特に問題となる。 我々はむしろ、エンティティの処理をエンティティリンク(el)システムに委譲するkgqaアプローチを提案する。 NMTは、ELフェーズで識別されたエンティティで満たされたプレースホルダーによるクエリテンプレートを作成するために使用される。 スロット充填は、どのエンティティがどのプレースホルダーを満たしているかを決定するために使用される。 Wikidata上のQA実験では、我々のアプローチは純粋なNMTよりも優れており、トレーニング中に類似したクエリテンプレートを見たことへの強い依存はありますが、エンティティに関するエラーは大幅に減少しています。

The goal of Question Answering over Knowledge Graphs (KGQA) is to find answers for natural language questions over a knowledge graph. Recent KGQA approaches adopt a neural machine translation (NMT) approach, where the natural language question is translated into a structured query language. However, NMT suffers from the out-of-vocabulary problem, where terms in a question may not have been seen during training, impeding their translation. This issue is particularly problematic for the millions of entities that large knowledge graphs describe. We rather propose a KGQA approach that delegates the processing of entities to entity linking (EL) systems. NMT is then used to create a query template with placeholders that are filled by entities identified in an EL phase. Slot filling is used to decide which entity fills which placeholder. Experiments for QA over Wikidata show that our approach outperforms pure NMT: while there remains a strong dependence on having seen similar query templates during training, errors relating to entities are greatly reduced.
翻訳日:2021-07-09 04:42:11 公開日:2021-07-06
# (参考訳) Kosp2e:韓国語から英訳へ

Kosp2e: Korean Speech to English Translation Corpus ( http://arxiv.org/abs/2107.02875v1 )

ライセンス: CC BY-SA 4.0
Won Ik Cho, Seok Min Kim, Hyunchang Cho, Nam Soo Kim(参考訳) ほとんどのS2T翻訳研究は英語を情報源として利用しており、非英語話者がS2T技術を利用するのが困難である。 一部の言語では、この問題はコーパスの構築を通じて取り組まれていたが、言語的に英語から遠ざかるほど、その不足と表現不足はより重要になる。 本稿では,韓国語をエンドツーエンドで英文に翻訳可能なコーパスであるkosp2e(kospi)を紹介する。 我々は、オープンライセンス音声認識コーパス、翻訳コーパス、音声言語コーパスを採用し、データセットを自由に公開し、パイプラインおよびトレーニングベースのアプローチでパフォーマンスを確認する。 パイプラインと様々なエンドツーエンドスキームを用いて、英語の仮説に基づいてそれぞれ21.3と18.0の最高BLEUを取得し、データの有効性を検証する。 今後,コミュニティからのコントリビューションを通じて,他のターゲット言語へのアノテーションを補完する予定です。

Most speech-to-text (S2T) translation studies use English speech as a source, which makes it difficult for non-English speakers to take advantage of the S2T technologies. For some languages, this problem was tackled through corpus construction, but the farther linguistically from English or the more under-resourced, this deficiency and underrepresentedness becomes more significant. In this paper, we introduce kosp2e (read as `kospi'), a corpus that allows Korean speech to be translated into English text in an end-to-end manner. We adopt open license speech recognition corpus, translation corpus, and spoken language corpora to make our dataset freely available to the public, and check the performance through the pipeline and training-based approaches. Using pipeline and various end-to-end schemes, we obtain the highest BLEU of 21.3 and 18.0 for each based on the English hypothesis, validating the feasibility of our data. We plan to supplement annotations for other target languages through community contributions in the future.
翻訳日:2021-07-09 04:21:56 公開日:2021-07-06
# (参考訳) 連続時間マルコフ連鎖のスケールアップは、アンダーシグメンテーションの解決に役立つ

Scaling up Continuous-Time Markov Chains Helps Resolve Underspecification ( http://arxiv.org/abs/2107.02911v1 )

ライセンス: CC BY 4.0
Alkis Gotovos, Rebekka Burkholz, John Quackenbush, and Stefanie Jegelka(参考訳) 離散的な項目集合(例えば遺伝子変異)の時間発展のモデル化は、多くの生物医学的応用において根本的な問題である。 我々は, 連続時間マルコフ連鎖のレンズを通してこの問題にアプローチし, 学習課題が通常, 横断的データの設定において過小評価されていることを示す。 他にも多くの独立した項目が加わり、時間順の決定に役立ち、したがって過度な指定の解消に役立ちます。 これは、分析を関連する項目の小さなサブセットに限定するという一般的な慣習とは対照的であり、これは主に既存のメソッドのスケーリングが不十分なためである。 理論的な考察を実践するために,我々は,数百項目までスケール可能で,従来の手法よりも桁違いに高速である連続時間マルコフ連鎖を学習するための近似的最大化法を開発した。 合成および実がんデータに対するアプローチの有効性を実証する。

Modeling the time evolution of discrete sets of items (e.g., genetic mutations) is a fundamental problem in many biomedical applications. We approach this problem through the lens of continuous-time Markov chains, and show that the resulting learning task is generally underspecified in the usual setting of cross-sectional data. We explore a perhaps surprising remedy: including a number of additional independent items can help determine time order, and hence resolve underspecification. This is in sharp contrast to the common practice of limiting the analysis to a small subset of relevant items, which is followed largely due to poor scaling of existing methods. To put our theoretical insight into practice, we develop an approximate likelihood maximization method for learning continuous-time Markov chains, which can scale to hundreds of items and is orders of magnitude faster than previous methods. We demonstrate the effectiveness of our approach on synthetic and real cancer data.
翻訳日:2021-07-09 04:09:58 公開日:2021-07-06
# (参考訳) 深い生成優先を伴う物理ベースのベイズ逆問題の解法

Solution of Physics-based Bayesian Inverse Problems with Deep Generative Priors ( http://arxiv.org/abs/2107.02926v1 )

ライセンス: CC BY 4.0
Dhruv V Patel, Deep Ray, Assad A Oberai(参考訳) 逆問題は非常に解決が難しいのは、解がない、複数の解がある、あるいは測定の小さな摂動に応答して大きく変化する解があるからである。 確率的推論問題として逆問題を引き起こすベイズ推論は、これらの困難に対処し、推論された場と関連する不確実性の定量的推定を提供する。 しかし、大きな次元のベクトルを推測する場合や、以前に取得したサンプルから事前情報が得られる場合、利用は困難である。 本稿では,ベイズ推定における先行分布を表現し,これらの課題を克服するために,深層生成逆数ネットワークをどのように利用できるかを説明する。 これらの概念を,物理原理,事前知識の源泉,測定の種類,測定ノイズに関する利用可能な情報量といった観点で多様な逆問題に適用する。 いずれの場合においても,提案手法を適用し,不確実性の最も可能性の高い解と定量的な推定を行う。

Inverse problems are notoriously difficult to solve because they can have no solutions, multiple solutions, or have solutions that vary significantly in response to small perturbations in measurements. Bayesian inference, which poses an inverse problem as a stochastic inference problem, addresses these difficulties and provides quantitative estimates of the inferred field and the associated uncertainty. However, it is difficult to employ when inferring vectors of large dimensions, and/or when prior information is available through previously acquired samples. In this paper, we describe how deep generative adversarial networks can be used to represent the prior distribution in Bayesian inference and overcome these challenges. We apply these ideas to inverse problems that are diverse in terms of the governing physical principles, sources of prior knowledge, type of measurement, and the extent of available information about measurement noise. In each case we apply the proposed approach to infer the most likely solution and quantitative estimates of uncertainty.
翻訳日:2021-07-09 03:47:29 公開日:2021-07-06
# (参考訳) 医用画像分割のための画像複雑性誘導ネットワーク圧縮

Image Complexity Guided Network Compression for Biomedical Image Segmentation ( http://arxiv.org/abs/2107.02927v1 )

ライセンス: CC BY 4.0
Suraj Mishra, Danny Z. Chen, X. Sharon Hu(参考訳) 圧縮は、畳み込みニューラルネットワーク(CNN)を特定のコンピューティングリソース制約に準拠させる標準的な手順である。 しかしながら、圧縮アーキテクチャの探索は通常、ネットワークサイズとパフォーマンスの正確さのよい妥協点を決定するために、一連の時間を要するトレーニング/検証実験を伴う。 そこで本研究では,バイオメディカルイメージセグメンテーションのための画像複雑化誘導型ネットワーク圧縮手法を提案する。 リソースの制約を考慮に入れれば、我々のフレームワークはデータ複雑性とネットワークアーキテクチャを利用して、ネットワークトレーニングを必要としない圧縮モデルを素早く見積もる。 具体的には、データセットの複雑さを圧縮によるターゲットネットワークの精度劣化にマップする。 このようなマッピングにより、計算されたデータセットの複雑さに基づいて、異なるネットワークサイズの最終的な精度を予測することができる。 したがって、ネットワークサイズとセグメンテーション精度の要件の両方を満たすソリューションを選択することができる。 最後に、このマッピングを用いて、圧縮ネットワークを生成する畳み込み層ワイド乗算因子を決定する。 5つのデータセットを用いて実験を行い,生体画像セグメンテーションのための3種類のcnnアーキテクチャを代表ネットワークとして用いた。 提案手法は,圧縮セグメンテーションネットワークの生成に有効であり,フルサイズのネットワークセグメンテーション精度を最大$\approx 95\%,フルサイズのネットワークのトレーニング可能な重量(平均減量)を$$\approx 32x$に抑えることができる。

Compression is a standard procedure for making convolutional neural networks (CNNs) adhere to some specific computing resource constraints. However, searching for a compressed architecture typically involves a series of time-consuming training/validation experiments to determine a good compromise between network size and performance accuracy. To address this, we propose an image complexity-guided network compression technique for biomedical image segmentation. Given any resource constraints, our framework utilizes data complexity and network architecture to quickly estimate a compressed model which does not require network training. Specifically, we map the dataset complexity to the target network accuracy degradation caused by compression. Such mapping enables us to predict the final accuracy for different network sizes, based on the computed dataset complexity. Thus, one may choose a solution that meets both the network size and segmentation accuracy requirements. Finally, the mapping is used to determine the convolutional layer-wise multiplicative factor for generating a compressed network. We conduct experiments using 5 datasets, employing 3 commonly-used CNN architectures for biomedical image segmentation as representative networks. Our proposed framework is shown to be effective for generating compressed segmentation networks, retaining up to $\approx 95\%$ of the full-sized network segmentation accuracy, and at the same time, utilizing $\approx 32x$ fewer network trainable weights (average reduction) of the full-sized networks.
翻訳日:2021-07-09 03:44:20 公開日:2021-07-06
# 情報基準に基づく特徴選択における伝達学習

Transfer Learning in Information Criteria-based Feature Selection ( http://arxiv.org/abs/2107.02847v1 )

ライセンス: Link先を確認
Shaohan Chen, Nikolaos V. Sahinidis and Chuanhou Gao(参考訳) 本稿では,MallowsのCpに基づく移動学習の有効性について検討する。 本稿では,伝達学習をMallowsのCp(TLCp)と組み合わせることで,従来のMallowsのCp基準よりも精度と安定性が高いことを示す手法を提案する。 理論的には, 対象領域の任意のサンプルサイズに対して, 提案したTLCp推定器は, 直交予測器の場合の平均二乗誤差(MSE)メートル法によりCp推定器よりも優れており, ソース領域と対象領域とのタスクの相似性が小さく, 手順パラメータ(複素性ペナルティ)が一定の規則に従って調整されていることを示唆している。 さらに,我々のトランスファー学習フレームワークは,ベイズ情報基準などの他の特徴選択基準にも拡張可能であることを示す。 直交化されたCpの解を解析することにより、非直交予測器の場合のCp基準の解を漸近的に近似する推定器を同定する。 非直交性TLCpについても同様の結果が得られた。 最後に,実データを用いたシミュレーション研究と応用により,tlcpの有用性が示された。

This paper investigates the effectiveness of transfer learning based on Mallows' Cp. We propose a procedure that combines transfer learning with Mallows' Cp (TLCp) and prove that it outperforms the conventional Mallows' Cp criterion in terms of accuracy and stability. Our theoretical results indicate that, for any sample size in the target domain, the proposed TLCp estimator performs better than the Cp estimator by the mean squared error (MSE) metric in the case of orthogonal predictors, provided that i) the dissimilarity between the tasks from source domain and target domain is small, and ii) the procedure parameters (complexity penalties) are tuned according to certain explicit rules. Moreover, we show that our transfer learning framework can be extended to other feature selection criteria, such as the Bayesian information criterion. By analyzing the solution of the orthogonalized Cp, we identify an estimator that asymptotically approximates the solution of the Cp criterion in the case of non-orthogonal predictors. Similar results are obtained for the non-orthogonal TLCp. Finally, simulation studies and applications with real data demonstrate the usefulness of the TLCp scheme.
翻訳日:2021-07-08 14:14:24 公開日:2021-07-06
# AI/MLモデルの性能とロバスト性評価の原則

Principles for Evaluation of AI/ML Model Performance and Robustness ( http://arxiv.org/abs/2107.02868v1 )

ライセンス: Link先を確認
Olivia Brown, Andrew Curtis, Justin Goodwin(参考訳) 国防総省(DoD)は、国家安全保障のニーズに対処する人工知能と機械学習(AI/ML)の能力の設計、評価、展開への投資を大幅に増やした。 学術分野や商業分野ではAI/MLの成功は多いが、これらのシステムの多くは脆く非破壊的であることも示されている。 複雑で絶え間なく変化する国家安全保障環境では、これらの新しい機能がフィールドにデプロイされる前に、ai/mlモデルのパフォーマンスと堅牢性を評価するための健全で方法論的なプロセスを確立することが不可欠である。 本稿では、AI/ML開発プロセスをレビューし、AI/MLモデル評価の一般的なベストプラクティスを強調し、国家のセキュリティニーズに対する堅牢なAI/ML機能のデプロイを保証するため、DoD評価者に推奨する。

The Department of Defense (DoD) has significantly increased its investment in the design, evaluation, and deployment of Artificial Intelligence and Machine Learning (AI/ML) capabilities to address national security needs. While there are numerous AI/ML successes in the academic and commercial sectors, many of these systems have also been shown to be brittle and nonrobust. In a complex and ever-changing national security environment, it is vital that the DoD establish a sound and methodical process to evaluate the performance and robustness of AI/ML models before these new capabilities are deployed to the field. This paper reviews the AI/ML development process, highlights common best practices for AI/ML model evaluation, and makes recommendations to DoD evaluators to ensure the deployment of robust AI/ML capabilities for national security needs.
翻訳日:2021-07-08 14:14:03 公開日:2021-07-06
# デモによるベイズ仕様の教師付き推論

Supervised Bayesian Specification Inference from Demonstrations ( http://arxiv.org/abs/2107.02912v1 )

ライセンス: Link先を確認
Ankit Shah, Pritish Kamath, Shen Li, Patrick Craven, Kevin Landers, Kevin Oden, Julie Shah(参考訳) タスクのデモンストレーションを観察する際、人間の見習いは、そのタスクを実際に実行する専門知識を得る前に、与えられたタスクが正しく実行されるかどうかを特定できる。 実証から学ぶこと(LfD)に関する以前の研究は、タスクの実行の受け入れ可能性というこの概念を捉えられなかったが、一方で時間論理はタスク仕様を表現するための柔軟な言語を提供する。 そこで本研究では,タスク仕様を時相論理式として推定する確率モデルであるベイズ仕様推論を提案する。 我々は,確率的プログラミングの手法を事前定義に取り入れ,サンプリングに基づく推論を可能にするために,ドメインに依存しない確率関数を組み込んだ。 提案手法は,合成領域内と実世界のテーブル設定タスク中の両方において,推論された仕様と基礎的真理との間に90%以上の類似性が観察された仕様を推定するためのモデルの有効性を示す。

When observing task demonstrations, human apprentices are able to identify whether a given task is executed correctly long before they gain expertise in actually performing that task. Prior research into learning from demonstrations (LfD) has failed to capture this notion of the acceptability of a task's execution; meanwhile, temporal logics provide a flexible language for expressing task specifications. Inspired by this, we present Bayesian specification inference, a probabilistic model for inferring task specification as a temporal logic formula. We incorporate methods from probabilistic programming to define our priors, along with a domain-independent likelihood function to enable sampling-based inference. We demonstrate the efficacy of our model for inferring specifications, with over 90% similarity observed between the inferred specification and the ground truth, both within a synthetic domain and during a real-world table setting task.
翻訳日:2021-07-08 14:11:48 公開日:2021-07-06
# 基礎物理学からの集団異常検出のための新しい手法とデータセット

New Methods and Datasets for Group Anomaly Detection From Fundamental Physics ( http://arxiv.org/abs/2107.02821v1 )

ライセンス: Link先を確認
Gregor Kasieczka, Benjamin Nachman, David Shih(参考訳) グループや集合的異常検出など、データ内の異常過剰度を識別することは、多数の実世界の応用において豊富な問題である。 しかし、より広範なMLコミュニティでは、ポイント異常やその他のタイプの単一インスタンスの異常値と比較して、あまり注目されていない。 この理由のひとつは、強力なベンチマークデータセットがないことだ。 本稿では, ノーベル賞を受賞したヒッグス粒子の発見後, 教師なし群異常検出が基礎物理学の新たなフロンティア(新たな粒子と力の発見が動機である)となったことを最初に説明した。 次に,グループ異常検出アルゴリズムの開発のために,現実的な合成ベンチマークデータセット(lhco2020)を提案する。 最後に,教師なし群異常検出のための既存の統計学的手法をいくつか比較し,lhco2020データセット上での性能を示す。

The identification of anomalous overdensities in data - group or collective anomaly detection - is a rich problem with a large number of real world applications. However, it has received relatively little attention in the broader ML community, as compared to point anomalies or other types of single instance outliers. One reason for this is the lack of powerful benchmark datasets. In this paper, we first explain how, after the Nobel-prize winning discovery of the Higgs boson, unsupervised group anomaly detection has become a new frontier of fundamental physics (where the motivation is to find new particles and forces). Then we propose a realistic synthetic benchmark dataset (LHCO2020) for the development of group anomaly detection algorithms. Finally, we compare several existing statistically-sound techniques for unsupervised group anomaly detection, and demonstrate their performance on the LHCO2020 dataset.
翻訳日:2021-07-08 14:11:24 公開日:2021-07-06
# ヴォイニヒ写本における話題モデリング

Topic Modeling in the Voynich Manuscript ( http://arxiv.org/abs/2107.02858v1 )

ライセンス: Link先を確認
Rachel Sterneck, Annie Polish, Claire Bowern(参考訳) 本稿では,Voynich Manuscript(Beinecke MS408)のトピックモデリングによる調査結果について述べる。 トピックモデリング(英: Topic Modeling)は、テキスト内の対象のクラスタを識別する計算手法の集合である。 我々は,voynich ページを ‘topics' に分類するために,潜在ディリクレ割り当て,潜在意味解析,非負行列分解を用いる。 次に,計算モデルから得られたトピックを,ヴォイニッヒの挿絵と古図解析から得られたクラスターと比較する。 計算によって導出されたクラスターは、(図面によれば)書式と主題の結合と密接に一致し、ヴォイニッヒ写本が意味のあるテキストを含んでいるというさらなる証拠を与える。

This article presents the results of investigations using topic modeling of the Voynich Manuscript (Beinecke MS408). Topic modeling is a set of computational methods which are used to identify clusters of subjects within text. We use latent dirichlet allocation, latent semantic analysis, and nonnegative matrix factorization to cluster Voynich pages into `topics'. We then compare the topics derived from the computational models to clusters derived from the Voynich illustrations and from paleographic analysis. We find that computationally derived clusters match closely to a conjunction of scribe and subject matter (as per the illustrations), providing further evidence that the Voynich Manuscript contains meaningful text.
翻訳日:2021-07-08 14:09:33 公開日:2021-07-06
# ポリNL-リニア複素非局所層とポリノミアル

Poly-NL: Linear Complexity Non-local Layers with Polynomials ( http://arxiv.org/abs/2107.02859v1 )

ライセンス: Link先を確認
Francesca Babiloni, Ioannis Marras, Filippos Kokkinos, Jiankang Deng, Grigorios Chrysos, Stefanos Zafeiriou(参考訳) 空間的自己注意層は、非局所ブロックの形で、あらゆる可能な位置のペアの類似性を計算することによって、畳み込みニューラルネットワークに長距離依存を導入する。 このようなペアワイズ関数は非局所層の有効性を裏付けるだけでなく、空間と時間の両方で入力サイズに関して二次的にスケールする複雑性も決定する。 これは、局所的でないブロックが中程度の大きさの入力に適用できることを事実上阻害する深刻な制限要因である。 従来の研究は、基礎となる行列操作を変更することで複雑さを減らすことに重点を置いていたが、本研究では、複雑性を線形に保ちながら非局所層の完全な表現性を維持することを目的としている。 3次多項式関数の特別な場合とすることで、非局所ブロックの効率限界を克服する。 この事実により、ペアワイズ類似性の直接計算を要素ワイズ乗算に置き換えることで、新しい高速非局所ブロックを定式化し、性能を損なうことなく二次から線形への複雑さを低減できる。 提案手法は「poly-nl」と呼ばれ,画像認識,インスタンスセグメンテーション,顔検出タスクにおける最先端の性能と競合するが,計算オーバーヘッドは極めて少ない。

Spatial self-attention layers, in the form of Non-Local blocks, introduce long-range dependencies in Convolutional Neural Networks by computing pairwise similarities among all possible positions. Such pairwise functions underpin the effectiveness of non-local layers, but also determine a complexity that scales quadratically with respect to the input size both in space and time. This is a severely limiting factor that practically hinders the applicability of non-local blocks to even moderately sized inputs. Previous works focused on reducing the complexity by modifying the underlying matrix operations, however in this work we aim to retain full expressiveness of non-local layers while keeping complexity linear. We overcome the efficiency limitation of non-local blocks by framing them as special cases of 3rd order polynomial functions. This fact enables us to formulate novel fast Non-Local blocks, capable of reducing the complexity from quadratic to linear with no loss in performance, by replacing any direct computation of pairwise similarities with element-wise multiplications. The proposed method, which we dub as "Poly-NL", is competitive with state-of-the-art performance across image recognition, instance segmentation, and face detection tasks, while having considerably less computational overhead.
翻訳日:2021-07-08 14:08:36 公開日:2021-07-06
# 単音長形音声における話者分布型asrのモジュラーとジョイントアプローチの比較検討

A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio ( http://arxiv.org/abs/2107.02852v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Xiong Xiao, Jian Wu, Tianyan Zhou, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka(参考訳) 話者属性自動音声認識(sa-asr)は、マルチトーク録音から「誰が何を話したか」を認識するタスクである。 SA-ASRシステムは通常、音声分離、話者ダイアリゼーション、ASRなどの複数のモジュールで構成される。 一方, 共同最適化を考えると, シミュレーションデータに有望な結果をもたらすエンドツーエンドSA-ASRモデルが最近提案されている。 本稿では,SA-ASRへのモジュラーとジョイントのアプローチの比較を,実際のモノラル録音で行った最近の研究について述べる。 7万時間のasrトレーニングデータとvoxcelebコーパスを含む大規模トレーニングデータを活用して,モジュラとジョイントの両方のアプローチのための最先端のsa-asrシステムを開発した。 また,話者クラスタリング後にE2E SA-ASRモデルを実行する新しいパイプラインを提案する。 AMI会議コーパスの評価では,小型実データを用いて微調整を行った後,優れたモジュールシステムに比べて9.2~29.4%精度が向上し,モジュールシステムはこのような微調整よりも優れていた。 また,モナウラルSA-ASRの残りの問題を示すために,様々な誤り解析を行った。

Speaker-attributed automatic speech recognition (SA-ASR) is a task to recognize "who spoke what" from multi-talker recordings. An SA-ASR system usually consists of multiple modules such as speech separation, speaker diarization and ASR. On the other hand, considering the joint optimization, an end-to-end (E2E) SA-ASR model has recently been proposed with promising results on simulation data. In this paper, we present our recent study on the comparison of such modular and joint approaches towards SA-ASR on real monaural recordings. We develop state-of-the-art SA-ASR systems for both modular and joint approaches by leveraging large-scale training data, including 75 thousand hours of ASR training data and the VoxCeleb corpus for speaker representation learning. We also propose a new pipeline that performs the E2E SA-ASR model after speaker clustering. Our evaluation on the AMI meeting corpus reveals that after fine-tuning with a small real data, the joint system performs 9.2--29.4% better in accuracy compared to the best modular system while the modular system performs better before such fine-tuning. We also conduct various error analyses to show the remaining issues for the monaural SA-ASR.
翻訳日:2021-07-08 13:57:35 公開日:2021-07-06
# 深層学習に基づくマイクロ表現認識:調査

Deep Learning based Micro-expression Recognition: A Survey ( http://arxiv.org/abs/2107.02823v1 )

ライセンス: Link先を確認
Yante Li, Jinsheng Wei, Seyednavid Mohammadifoumani, Yang Liu, Guoying Zhao(参考訳) マイクロ・エクスプレッション(ME)は、高い状況下で人々の隠れた感情を明らかにする不随意の顔の動きであり、医療、国家安全保障、尋問、そして多くの人間とコンピュータのインタラクションシステムにおいて実践的に重要である。 MERの初期の手法は主に伝統的な外観と幾何学的特徴に基づいている。 近年,様々な分野におけるディープラーニング(DL)の成功により,ニューラルネットワークはMERへの関心が高まっている。 マクロ表現とは異なり、MEは自然的、微妙で、迅速な顔の動きであり、データ収集が難しいため、小規模なデータセットを持つ。 DLベースのMERは、上述のME文字によって困難になる。 データには、ME問題の解決とMERの性能向上のために様々なDLアプローチが提案されている。 本稿では、データセット、深部MERパイプライン、最も影響力のある手法のベンチマーキングを含む、深部MER(Deep Micro-Expression Recognition)の総合的なレビューを行う。 本調査は, DLに基づくMERのすべての側面を含む, この分野の新しい分類法を定義する。 各側面について、基本的アプローチと先進的な展開を要約し、議論する。 さらに,頑健な深層MERシステムの設計における課題と今後の方向性について述べる。 私たちの知る限りでは、これはdeep merメソッドに関する最初の調査であり、この調査は将来のmer研究の参照ポイントとなり得る。

Micro-expressions (MEs) are involuntary facial movements revealing people's hidden feelings in high-stake situations and have practical importance in medical treatment, national security, interrogations and many human-computer interaction systems. Early methods for MER mainly based on traditional appearance and geometry features. Recently, with the success of deep learning (DL) in various fields, neural networks have received increasing interests in MER. Different from macro-expressions, MEs are spontaneous, subtle, and rapid facial movements, leading to difficult data collection, thus have small-scale datasets. DL based MER becomes challenging due to above ME characters. To data, various DL approaches have been proposed to solve the ME issues and improve MER performance. In this survey, we provide a comprehensive review of deep micro-expression recognition (MER), including datasets, deep MER pipeline, and the bench-marking of most influential methods. This survey defines a new taxonomy for the field, encompassing all aspects of MER based on DL. For each aspect, the basic approaches and advanced developments are summarized and discussed. In addition, we conclude the remaining challenges and and potential directions for the design of robust deep MER systems. To the best of our knowledge, this is the first survey of deep MER methods, and this survey can serve as a reference point for future MER research.
翻訳日:2021-07-08 13:56:19 公開日:2021-07-06
# 遅延が大きい分散確率最適化

Distributed stochastic optimization with large delays ( http://arxiv.org/abs/2107.02919v1 )

ライセンス: Link先を確認
Zhengyuan Zhou and Panayotis Mertikopoulos and Nicholas Bambos and Peter W. Glynn and Yinyu Ye(参考訳) 大規模確率的最適化問題を解決する最も広く用いられている方法の1つは分散非同期確率的勾配降下 (dasgd) である。 しかし、DASGDの効率的な実装における重要な障害は遅延の問題である: 計算ノードが勾配更新に寄与する場合、グローバルモデルパラメータは、既に数回にわたって他のノードによって更新されているため、この勾配情報が陳腐化している。 これらの遅延は、ノードの計算スループットが飽和している場合、すぐに増加するので、DASGDの収束は大きな遅延が存在する場合に妥協される。 最初の貢献は、アルゴリズムのステップサイズを慎重に調整することで、多項式速度で遅延が無拘束に成長しても、臨界集合への収束は平均二乗で達成されるということである。 また,構造最適化問題(変分コヒーレントと呼ばれる)においてより詳細な結果を定め,dasgdが同じ遅延条件下で1ドルの確率でグローバル最適に収束することを示す。 これらの結果は,最先端の理論的保証とアルゴリズム設計への洞察を提供することにより,大規模非凸確率最適化の広範な展望に寄与する。

One of the most widely used methods for solving large-scale stochastic optimization problems is distributed asynchronous stochastic gradient descent (DASGD), a family of algorithms that result from parallelizing stochastic gradient descent on distributed computing architectures (possibly) asychronously. However, a key obstacle in the efficient implementation of DASGD is the issue of delays: when a computing node contributes a gradient update, the global model parameter may have already been updated by other nodes several times over, thereby rendering this gradient information stale. These delays can quickly add up if the computational throughput of a node is saturated, so the convergence of DASGD may be compromised in the presence of large delays. Our first contribution is that, by carefully tuning the algorithm's step-size, convergence to the critical set is still achieved in mean square, even if the delays grow unbounded at a polynomial rate. We also establish finer results in a broad class of structured optimization problems (called variationally coherent), where we show that DASGD converges to a global optimum with probability $1$ under the same delay assumptions. Together, these results contribute to the broad landscape of large-scale non-convex stochastic optimization by offering state-of-the-art theoretical guarantees and providing insights for algorithm design.
翻訳日:2021-07-08 13:53:54 公開日:2021-07-06
# 勾配型正規化ニューラルネットワークの一般化誤差解析

Generalization Error Analysis of Neural networks with Gradient Based Regularization ( http://arxiv.org/abs/2107.02797v1 )

ライセンス: Link先を確認
Lingfeng Li and Xue-Cheng Tai and Jiang Yang(参考訳) ニューラルネットワークの勾配に基づく正規化法について検討する。 主に、全変分法とチコノフ正則化の2つの正則化法に焦点を当てる。 これらの手法を適用することは、ニューラルネットワークを用いて偏微分方程式を解くことと等価である。 本稿では,正規化ネットワークの一般化誤差を分析する汎用フレームワークを提案する。 誤差推定は近似誤差と二次誤差の2つの仮定に依存する。 さらに,画像分類タスクについて実験を行い,勾配に基づく手法がニューラルネットワークの一般化能力と逆ロバスト性を大幅に向上できることを示す。 勾配に基づく手法のグラフィカルな拡張も実験で検討されている。

We study gradient-based regularization methods for neural networks. We mainly focus on two regularization methods: the total variation and the Tikhonov regularization. Applying these methods is equivalent to using neural networks to solve some partial differential equations, mostly in high dimensions in practical applications. In this work, we introduce a general framework to analyze the generalization error of regularized networks. The error estimate relies on two assumptions on the approximation error and the quadrature error. Moreover, we conduct some experiments on the image classification tasks to show that gradient-based methods can significantly improve the generalization ability and adversarial robustness of neural networks. A graphical extension of the gradient-based methods are also considered in the experiments.
翻訳日:2021-07-08 13:51:21 公開日:2021-07-06
# ゼロからヒーローへ:群衆労働者のための協調的市場認識推薦システム

From Zero to The Hero: A Collaborative Market Aware Recommendation System for Crowd Workers ( http://arxiv.org/abs/2107.02890v1 )

ライセンス: Link先を確認
Hamid Shamszare, Razieh Saremi, Sanam Jena(参考訳) ソフトウェアクラウドソーシングの成功は、アクティブで信頼できる労働者供給プールに依存する。 群衆労働者の行動の不確実性は、労働者の成功と計画の予測を困難にしている。 競争力のあるクラウドソーシング市場において、共有タスクに対する成功のための競争は、クラウドワーカーの意思決定プロセスに別の不確実性をもたらす。 ソフトウェア労働者の行動に関する予備分析によると、タスクの低下率は82.9%である。 これらの要因は、競争における成功の可視性と予測可能性を改善するために、CDDワーカーのための自動レコメンデーションシステムの必要性につながる。 そこで本研究では,クラウドワーカーのための協調推薦システムを提案する。 提案手法では, プール内の作業者のコラボレーション履歴に基づく5つの入力指標, 入賞・継続時間, 作業者の専門性, 作業者の習熟度, 作業者の習熟度などを用いた。 提案手法は,作業者の作業成功確率に基づいて,作業者が最も適したタスクを競うことを推奨する。 260人のアクティブ・クラウド・ワーカーの実験結果は、タスク・レコメンデーションの上位3つの成功確率に従って、最大86%の成功を達成できることを示している。

The success of software crowdsourcing depends on active and trustworthy pool of worker supply. The uncertainty of crowd workers' behaviors makes it challenging to predict workers' success and plan accordingly. In a competitive crowdsourcing marketplace, competition for success over shared tasks adds another layer of uncertainty in crowd workers' decision-making process. Preliminary analysis on software worker behaviors reveals an alarming task dropping rate of 82.9%. These factors lead to the need for an automated recommendation system for CSD workers to improve the visibility and predictability of their success in the competition. To that end, this paper proposes a collaborative recommendation system for crowd workers. The proposed recommendation system method uses five input metrics based on workers' collaboration history in the pool, workers' preferences in taking tasks in terms of monetary prize and duration, workers' specialty, and workers' proficiency. The proposed method then recommends the most suitable tasks for a worker to compete on based on workers' probability of success in the task. Experimental results on 260 active crowd workers demonstrate that just following the top three success probabilities of task recommendations, workers can achieve success up to 86%
翻訳日:2021-07-08 13:51:11 公開日:2021-07-06
# (参考訳) BAGUA: システムの緩和による分散学習のスケールアップ

BAGUA: Scaling up Distributed Learning with System Relaxations ( http://arxiv.org/abs/2107.01499v2 )

ライセンス: CC BY-SA 4.0
Shaoduo Gan, Xiangru Lian, Rui Wang, Jianbin Chang, Chengjun Liu, Hongmei Shi, Shengzhuo Zhang, Xianghong Li, Tengxu Sun, Jiawei Jiang, Binhang Yuan, Sen Yang, Ji Liu, Ce Zhang(参考訳) 近年、分散データ並列トレーニングのためのシステムのリストが増えている。 既存のシステムはパラメータサーバとMPIスタイルの集合演算という2つのパラダイムに大きく適合する。 アルゴリズムの面では、量子化、分散化、通信遅延といった、システム緩和による通信の低減のための幅広い技術が研究者によって提案されている。 しかし、すべてではないにしても、既存のシステムは標準の同期および非同期確率勾配(SG)ベースの最適化にのみ依存しているため、機械学習コミュニティが最近開発してきたすべての最適化を活用できない。 システムと理論の現況の新たなギャップを考えると、分散トレーニングの最先端システム緩和技術をサポートするために、フレキシブルかつモジュール化されたシステム抽象化を提供することを設計目標とする通信フレームワークであるBAGUAを構築します。 新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。 最大16台のマシン(128GPU)を持つプロダクションクラスタでは、BAGUAはPyTorch-DDP、Horovod、BytePSを、さまざまなタスクでかなりの差(最大1.95倍)でエンドツーエンドのトレーニング時間で上回ることができる。 さらに、異なるアルゴリズムとシステム緩和が異なるネットワーク条件に対して最高の性能を達成することを示す厳密なトレードオフ探索を行う。

Recent years have witnessed a growing list of systems for distributed data-parallel training. Existing systems largely fit into two paradigms, i.e., parameter server and MPI-style collective operations. On the algorithmic side, researchers have proposed a wide range of techniques to lower the communication via system relaxations: quantization, decentralization, and communication delay. However, most, if not all, existing systems only rely on standard synchronous and asynchronous stochastic gradient (SG) based optimization, therefore, cannot take advantage of all possible optimizations that the machine learning community has been developing recently. Given this emerging gap between the current landscapes of systems and theory, we build BAGUA, a communication framework whose design goal is to provide a system abstraction that is both flexible and modular to support state-of-the-art system relaxation techniques of distributed training. Powered by the new system design, BAGUA has a great ability to implement and extend various state-of-the-art distributed learning algorithms. In a production cluster with up to 16 machines (128 GPUs), BAGUA can outperform PyTorch-DDP, Horovod and BytePS in the end-to-end training time by a significant margin (up to 1.95 times) across a diverse range of tasks. Moreover, we conduct a rigorous tradeoff exploration showing that different algorithms and system relaxations achieve the best performance over different network conditions.
翻訳日:2021-07-08 13:43:59 公開日:2021-07-06
# (参考訳) 3次元セマンティクスセグメンテーションのための類似性アウェア・フュージョンネットワーク

Similarity-Aware Fusion Network for 3D Semantic Segmentation ( http://arxiv.org/abs/2107.01579v2 )

ライセンス: CC BY-SA 4.0
Linqing Zhao, Jiwen Lu and Jie Zhou(参考訳) 本稿では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。 既存の融合法は、複数のモーダルからの情報を統合することで優れた性能を達成する。 しかし、2Dピクセルと3Dポイントの対応をプロジェクションによって大きく依存しており、情報融合のみを一定の方法で行うことができるため、収集したデータに厳密なペアワイズ機能がないような現実的なシナリオに容易に移行することはできない。 そこで我々は,入力とバックプロジェクション(2dピクセルから)点雲の幾何学的・文脈的類似性を学習し,これらを用いて2つのモーダルの融合を導くことで,補完的情報を活用する。 具体的には、幾何学的類似度モジュール(GSM)を用いて、対の3次元近傍の空間座標分布を直接比較し、文脈類似度モジュール(CSM)を用いて対応する中心点の空間座標情報を集約・比較する。 提案された2つのモジュールは、画像特徴が予測にどの程度役立つかを効果的に測定することができ、ネットワークが各ポイントの最終予測に対する2つのモダリティの寄与を適応的に調整することができる。 ScanNetV2ベンチマークの実験結果は、SAFNetが様々なデータ完全性にわたって既存の最先端の融合ベースのアプローチを著しく上回っていることを示している。

In this paper, we propose a similarity-aware fusion network (SAFNet) to adaptively fuse 2D images and 3D point clouds for 3D semantic segmentation. Existing fusion-based methods achieve remarkable performances by integrating information from multiple modalities. However, they heavily rely on the correspondence between 2D pixels and 3D points by projection and can only perform the information fusion in a fixed manner, and thus their performances cannot be easily migrated to a more realistic scenario where the collected data often lack strict pair-wise features for prediction. To address this, we employ a late fusion strategy where we first learn the geometric and contextual similarities between the input and back-projected (from 2D pixels) point clouds and utilize them to guide the fusion of two modalities to further exploit complementary information. Specifically, we employ a geometric similarity module (GSM) to directly compare the spatial coordinate distributions of pair-wise 3D neighborhoods, and a contextual similarity module (CSM) to aggregate and compare spatial contextual information of corresponding central points. The two proposed modules can effectively measure how much image features can help predictions, enabling the network to adaptively adjust the contributions of two modalities to the final prediction of each point. Experimental results on the ScanNetV2 benchmark demonstrate that SAFNet significantly outperforms existing state-of-the-art fusion-based approaches across various data integrity.
翻訳日:2021-07-08 10:11:06 公開日:2021-07-06
# (参考訳) 活性化関数の異なるフィードフォワードニューラルネットワークのデータ駆動学習

Data-Driven Learning of Feedforward Neural Networks with Different Activation Functions ( http://arxiv.org/abs/2107.01702v2 )

ライセンス: CC BY 4.0
Grzegorz Dudek(参考訳) この研究は、フィードフォワードニューラルネットワーク(FNN)学習の新しいデータ駆動手法(D-DM)の開発に寄与する。 近年,ネットワークパラメータを対象関数の変動に調整することにより,FNNのランダム化学習を改善する手法として提案されている。 この方法は隠れノードに対してロジスティックシグモイド活性化関数を用いる。 本研究では,双極性シグミド,正弦関数,飽和線形関数,reLU,ソフトプラスなどの他の活性化関数を紹介する。 我々はそれらのパラメータ、すなわち、公式を導出する。 重みとバイアス。 本研究では,FNNデータ駆動学習の性能を,異なるアクティベーション関数で評価する。 その結果,シグモイド活性化関数は複雑な変動対象関数の近似において,他の関数よりも優れていた。

This work contributes to the development of a new data-driven method (D-DM) of feedforward neural networks (FNNs) learning. This method was proposed recently as a way of improving randomized learning of FNNs by adjusting the network parameters to the target function fluctuations. The method employs logistic sigmoid activation functions for hidden nodes. In this study, we introduce other activation functions, such as bipolar sigmoid, sine function, saturating linear functions, reLU, and softplus. We derive formulas for their parameters, i.e. weights and biases. In the simulation study, we evaluate the performance of FNN data-driven learning with different activation functions. The results indicate that the sigmoid activation functions perform much better than others in the approximation of complex, fluctuated target functions.
翻訳日:2021-07-08 09:53:47 公開日:2021-07-06
# (参考訳) 画像分類のための連続コントラスト型自己教師型学習

Continual Contrastive Self-supervised Learning for Image Classification ( http://arxiv.org/abs/2107.01776v2 )

ライセンス: CC BY 4.0
Zhiwei Lin, Yongtao Wang and Hongxiang Lin(参考訳) 人工知能システムでは,データストリームからの時間経過による継続的学習が不可欠である。 教師なし連続学習の研究は大きな進歩を遂げ、教師なし学習における破滅的な忘れ込みの研究はいまだに空白である。 教師なし学習手法の中で、自己監督学習法は、大規模にラベル付けされたデータを持たない視覚表現に大きな可能性を示す。 自己教師あり学習の視覚的表現を改善するためには,より大きく,より多様なデータが必要である。 現実世界では、ラベルのないデータが常に生成される。 この状況は、自己教師付き手法の学習に大きな利点をもたらす。 しかし、現在のパラダイムでは、以前のデータと現在のデータをまとめて、再度トレーニングすることは時間とリソースの無駄です。 したがって、継続的な自己教師付き学習方法が必要となる。 本稿では,過去のデータからいくつかの例を取り出すリハーサル手法を提案することで,コントラスト的自己教師付き学習を実現するための最初の試みを行う。 学習のための現在のデータセットと保存されたエクソンプラを直接組み合わせるのではなく、従来のネットワークで推定される類似度スコア分布を模倣して、過去のデータ間のコントラスト情報を現在のネットワークに転送するために自己教師付き知識蒸留を利用する。 さらに,過去のデータと現在のデータを区別し,自己の特徴表現を学習しながら相互干渉を防止するために,追加のサンプルキューを構築する。 実験の結果,CIFAR100とImageNet-Subでは良好な性能を示した。 手法を取らない学習タスクのベースラインと比較すると,cifar100では1.60%,imagenet-subでは2.86%,imagenet-fullでは1.29%,インクリメンタルなステップ設定では1.29%向上した。

For artificial learning systems, continual learning over time from a stream of data is essential. The burgeoning studies on supervised continual learning have achieved great progress, while the study of catastrophic forgetting in unsupervised learning is still blank. Among unsupervised learning methods, self-supervise learning method shows tremendous potential on visual representation without any labeled data at scale. To improve the visual representation of self-supervised learning, larger and more varied data is needed. In the real world, unlabeled data is generated at all times. This circumstance provides a huge advantage for the learning of the self-supervised method. However, in the current paradigm, packing previous data and current data together and training it again is a waste of time and resources. Thus, a continual self-supervised learning method is badly needed. In this paper, we make the first attempt to implement the continual contrastive self-supervised learning by proposing a rehearsal method, which keeps a few exemplars from the previous data. Instead of directly combining saved exemplars with the current data set for training, we leverage self-supervised knowledge distillation to transfer contrastive information among previous data to the current network by mimicking similarity score distribution inferred by the old network over a set of saved exemplars. Moreover, we build an extra sample queue to assist the network to distinguish between previous and current data and prevent mutual interference while learning their own feature representation. Experimental results show that our method performs well on CIFAR100 and ImageNet-Sub. Compared with the baselines, which learning tasks without taking any technique, we improve the image classification top-1 accuracy by 1.60% on CIFAR100, 2.86% on ImageNet-Sub and 1.29% on ImageNet-Full under 10 incremental steps setting.
翻訳日:2021-07-08 09:32:04 公開日:2021-07-06
# (参考訳) 高精度RGB-D能動物体検出のための深さ品質を考慮した特徴マニピュレーション

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection ( http://arxiv.org/abs/2107.01779v2 )

ライセンス: CC BY 4.0
Wenbo Zhang, Ge-Peng Ji, Zhuo Wang, Keren Fu, Qijun Zhao(参考訳) rgb-d salient object detection (sod) は、従来のrgb sodに余分な奥行き情報を与えることで、研究の関心が高まっている。 しかし、既存のRGB-D SODモデルは効率と精度の両面でうまく機能しないことが多く、モバイルデバイスや現実世界の問題を妨げている。 根本的な課題は、モデルがほとんどパラメータを持たないように単純化されると、モデル精度が低下することです。 このジレンマに対処し,また深さ品質が精度に影響を与える重要な要因であるという事実にインスパイアされた上で,我々は,深度品質に触発された特徴操作(dqfm)プロセスを提案する。 dqfmは、低レベルのrgbと深度の特徴のアラインメントと、深度ストリームの全体的注意を利用して、クロスモーダル融合を明示的に制御し強化する。 DQFMを組み込み、DFM-Netと呼ばれる効率的な軽量モデルを得る。 我々のDFM-Netは、既存の非効率モデルと比較すると最先端の精度を達成し、一方CPU上では140ms(2.2$\times$以前の最速の高速モデルより高速)で、モデルサイズはわずか$\sim$8.5Mb(14.9%)である。 私たちのコードはhttps://github.com/zwbx/dfm-netで利用可能です。

RGB-D salient object detection (SOD) recently has attracted increasing research interest by benefiting conventional RGB SOD with extra depth information. However, existing RGB-D SOD models often fail to perform well in terms of both efficiency and accuracy, which hinders their potential applications on mobile devices and real-world problems. An underlying challenge is that the model accuracy usually degrades when the model is simplified to have few parameters. To tackle this dilemma and also inspired by the fact that depth quality is a key factor influencing the accuracy, we propose a novel depth quality-inspired feature manipulation (DQFM) process, which is efficient itself and can serve as a gating mechanism for filtering depth features to greatly boost the accuracy. DQFM resorts to the alignment of low-level RGB and depth features, as well as holistic attention of the depth stream to explicitly control and enhance cross-modal fusion. We embed DQFM to obtain an efficient light-weight model called DFM-Net, where we also design a tailored depth backbone and a two-stage decoder for further efficiency consideration. Extensive experimental results demonstrate that our DFM-Net achieves state-of-the-art accuracy when comparing to existing non-efficient models, and meanwhile runs at 140ms on CPU (2.2$\times$ faster than the prior fastest efficient model) with only $\sim$8.5Mb model size (14.9% of the prior lightest). Our code will be available at https://github.com/zwbx/DFM-Net.
翻訳日:2021-07-08 09:19:06 公開日:2021-07-06
# (参考訳) 機械学習の最前線における論理ロック:開発と機会に関する調査

Logic Locking at the Frontiers of Machine Learning: A Survey on Developments and Opportunities ( http://arxiv.org/abs/2107.01915v2 )

ライセンス: CC BY 4.0
Dominik Sisejkovic, Lennart M. Reimann, Elmira Moussavi, Farhad Merchant, Rainer Leupers(参考訳) 過去10年間、論理ロックの設計と評価において、エレクトロニクスサプライチェーン全体の集積回路の完全性を保護するための最重要技術として、多くの進歩があった。 しかし、機械学習の普及により、論理ロック方式を評価する新たな経路が最近導入された。 本稿では,現代機械学習モデルのフロンティアにおける論理ロック攻撃と対策の最近の展開を要約する。 提示された作業に基づいて、鍵となる取り組み、機会、課題が強調され、次世代ロジックロックの設計のための推奨事項が提供される。

In the past decade, a lot of progress has been made in the design and evaluation of logic locking; a premier technique to safeguard the integrity of integrated circuits throughout the electronics supply chain. However, the widespread proliferation of machine learning has recently introduced a new pathway to evaluating logic locking schemes. This paper summarizes the recent developments in logic locking attacks and countermeasures at the frontiers of contemporary machine learning models. Based on the presented work, the key takeaways, opportunities, and challenges are highlighted to offer recommendations for the design of next-generation logic locking.
翻訳日:2021-07-08 08:52:32 公開日:2021-07-06
# (参考訳) 気を付けろ! 視覚質問応答のアクティブラーニングにおける異常値の影響の検討

Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering ( http://arxiv.org/abs/2107.02331v1 )

ライセンス: CC BY 4.0
Siddharth Karamcheti, Ranjay Krishna, Li Fei-Fei, Christopher D. Manning(参考訳) アクティブな学習は、教師付き機械学習の膨大なデータニーズを軽減することを約束する。トピック分類やオブジェクト認識といった従来のタスクにおいて、サンプル効率を桁違いに向上させることに成功した。 5つのモデルと4つのデータセットにまたがって、視覚的な質問に答えるタスクでは、さまざまなアクティブラーニングアプローチがランダムな選択を上回ってはいません。 この相違を理解するために,本研究では,8つのアクティブな学習手法を例示し,その問題を集合的なアウトリーチとして同定する。 系統的アブレーション実験と定性的可視化により,プール型アクティブラーニングの劣化の原因は集団的外れ値であることを確認した。 特に,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。 今後の研究におけるこれらの外れ値の影響を緩和するための議論と規範的な勧告で締めくくります。

Active learning promises to alleviate the massive data needs of supervised machine learning: it has successfully improved sample efficiency by an order of magnitude on traditional tasks like topic classification and object recognition. However, we uncover a striking contrast to this promise: across 5 models and 4 datasets on the task of visual question answering, a wide variety of active learning approaches fail to outperform random selection. To understand this discrepancy, we profile 8 active learning methods on a per-example basis, and identify the problem as collective outliers -- groups of examples that active learning methods prefer to acquire but models fail to learn (e.g., questions that ask about text in images or require external knowledge). Through systematic ablation experiments and qualitative visualizations, we verify that collective outliers are a general phenomenon responsible for degrading pool-based active learning. Notably, we show that active learning sample efficiency increases significantly as the number of collective outliers in the active learning pool decreases. We conclude with a discussion and prescriptive recommendations for mitigating the effects of these outliers in future work.
翻訳日:2021-07-08 03:19:04 公開日:2021-07-06
# (参考訳) 頑健な自己監督型深層強化学習のためのマルチモーダル相互情報(MuMMI)トレーニング

Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning ( http://arxiv.org/abs/2107.02339v1 )

ライセンス: CC BY 4.0
Kaiqi Chen, Yong Lee, Harold Soh(参考訳) この研究は、複数の、信頼性の低いセンサーを使って、有用で堅牢な深層世界のモデルを学ぶことに焦点を当てている。 現在の手法はモダリティ間の共有表現を十分に促進しないため、ダウンストリームタスクのパフォーマンスが低下し、特定のセンサに過度に依存する可能性がある。 解決策として,相互情報を低バウンドでトレーニングした多モード深層状態空間モデルを提案する。 鍵となる革新は、各モードの潜在符号間の一貫性を促進する特別に設計された密度比推定器である。 我々は,マルチモーダルなNatural MuJoCoベンチマークとテーブルワイピングタスクにおいて,ポリシーを(自己指導的な方法で)学習する作業を行った。 実験により,本手法は最先端の深部強化学習法,特に観察不足の有無において著しく優れていた。

This work focuses on learning useful and robust deep world models using multiple, possibly unreliable, sensors. We find that current methods do not sufficiently encourage a shared representation between modalities; this can cause poor performance on downstream tasks and over-reliance on specific sensors. As a solution, we contribute a new multi-modal deep latent state-space model, trained using a mutual information lower-bound. The key innovation is a specially-designed density ratio estimator that encourages consistency between the latent codes of each modality. We tasked our method to learn policies (in a self-supervised manner) on multi-modal Natural MuJoCo benchmarks and a challenging Table Wiping task. Experiments show our method significantly outperforms state-of-the-art deep reinforcement learning methods, particularly in the presence of missing observations.
翻訳日:2021-07-08 02:54:23 公開日:2021-07-06
# (参考訳) CDSATにおける証明生成

Proof Generation in CDSAT ( http://arxiv.org/abs/2107.02351v1 )

ライセンス: CC BY 4.0
Maria Paola Bonacina (Universit\`a degli Studi di Verona, Italy)(参考訳) SMTのCDSAT (Conflict-Driven Satisfiability) フレームワークの主な考え方は要約され、CDSATにおける証明生成へのアプローチにつながっている。

The main ideas in the CDSAT (Conflict-Driven Satisfiability) framework for SMT are summarized, leading to approaches to proof generation in CDSAT.
翻訳日:2021-07-08 02:37:42 公開日:2021-07-06
# (参考訳) ディープニューラルネットワークのインメモリ・アクセラレーションに及ぼすオンチップ・インターコネクトの影響

Impact of On-Chip Interconnect on In-Memory Acceleration of Deep Neural Networks ( http://arxiv.org/abs/2107.02358v1 )

ライセンス: CC BY 4.0
Gokul Krishnan, Sumit K. Mandal, Chaitali Chakrabarti, Jae-sun Seo, Umit Y. Ogras, Yu Cao(参考訳) ディープニューラルネットワーク(DNN)の普及に伴い、機械学習アルゴリズムは2つの異なる方向に進化してきた。 接続密度の増加はチップ上のデータ移動を増大させ、効率的なオンチップ通信をDNNアクセラレータの重要な機能にする。 この作品の貢献は3倍である。 まず,P2P(point-to-point)ベースの相互接続は,DNNに対して大量のオンチップデータ移動を処理できないことを示す。 第2に、SRAMおよびReRAMベースのインメモリコンピューティング(IMC)アーキテクチャにおけるP2Pとネットワークオンチップ(NoC)相互接続(メッシュなどの正規トポロジ)を、様々なDNNに対して評価する。 この分析は,IMC DNN加速器の最適相互接続選択の必要性を示している。 最後に、異なるDNNに対して実験的な評価を行い、NOC-treeとNoC-meshの両方を用いてIMCアーキテクチャの性能を実証的に取得する。 タイルレベルでは、NoC-treeはエッジで使用されるコンパクトDNNに適しており、接続密度の高いDNNを加速するためにはNoC-meshが必要であると結論付けている。 さらに,任意のDNNに対して相互接続の最適選択を決定する手法を提案する。 本手法では,任意のDNNの終端通信遅延を評価するために,NoCの解析モデルを用いる。 IMCアーキテクチャにおける相互接続最適化は、最先端のReRAMベースのIMCアーキテクチャと比較して、VGG-19推論におけるエネルギー遅延面積の最大6$\times$の改善をもたらすことを示す。

With the widespread use of Deep Neural Networks (DNNs), machine learning algorithms have evolved in two diverse directions -- one with ever-increasing connection density for better accuracy and the other with more compact sizing for energy efficiency. The increase in connection density increases on-chip data movement, which makes efficient on-chip communication a critical function of the DNN accelerator. The contribution of this work is threefold. First, we illustrate that the point-to-point (P2P)-based interconnect is incapable of handling a high volume of on-chip data movement for DNNs. Second, we evaluate P2P and network-on-chip (NoC) interconnect (with a regular topology such as a mesh) for SRAM- and ReRAM-based in-memory computing (IMC) architectures for a range of DNNs. This analysis shows the necessity for the optimal interconnect choice for an IMC DNN accelerator. Finally, we perform an experimental evaluation for different DNNs to empirically obtain the performance of the IMC architecture with both NoC-tree and NoC-mesh. We conclude that, at the tile level, NoC-tree is appropriate for compact DNNs employed at the edge, and NoC-mesh is necessary to accelerate DNNs with high connection density. Furthermore, we propose a technique to determine the optimal choice of interconnect for any given DNN. In this technique, we use analytical models of NoC to evaluate end-to-end communication latency of any given DNN. We demonstrate that the interconnect optimization in the IMC architecture results in up to 6$\times$ improvement in energy-delay-area product for VGG-19 inference compared to the state-of-the-art ReRAM-based IMC architectures.
翻訳日:2021-07-08 02:31:35 公開日:2021-07-06
# (参考訳) ユーザ中心の説明可能性のための臨床コンテキストの活用--糖尿病患者を例として

Leveraging Clinical Context for User-Centered Explainability: A Diabetes Use Case ( http://arxiv.org/abs/2107.02359v1 )

ライセンス: CC BY 4.0
Shruthi Chari, Prithwish Chakraborty, Mohamed Ghalwash, Oshani Seneviratne, Elif K. Eyigoz, Daniel M. Gruen, Ching-Hua Chen, Pablo Meyer Rojas, Deborah L. McGuinness(参考訳) 医療のような高精度領域におけるAIモデルの学術的進歩は、現実世界の採用を促進するために説明可能である必要がある。 我々の過去の研究と継続的な相互作用は、患者に関するモデル推論を、使用状況に結びついた説明に結びつける方法があれば、医療専門家がより信頼できるAIシステムを使うことを示唆している。 特に、リスク予測は、診断と介入の重要性の複雑な問題であり、意思決定のために異なるソースを相談する。 実際にAIリスク予測モデルの改善を実現するために、我々は、患者の臨床状態、合併症のリスクに関するAI予測、予測をサポートするアルゴリズム的な説明の3つの側面に沿って、そのようなモデルを文脈化するための技術を探り始めた。 慢性腎臓病 (CKD) のリスクを評価する2型糖尿病 (T2DM) の症例において, 概念実証 (POC) を導入することで, これらの次元の重要性を検証した。 POCには、CKDのリスク予測モデル、予測のポストホック説明器、ドメイン知識とCPGを運用してコンテキストを提供する自然言語モジュールが含まれています。 本論文では,プライマリ・ケア・ドクター(PCP)をエンドユーザとして,最初の結果と臨床医からのフィードバックを紹介する。 我々のPOCアプローチは、複数の知識ソースと臨床シナリオをカバーし、データと予測をPCPに説明するために知識をブレンドし、医療専門家から熱心に反応した。

Academic advances of AI models in high-precision domains, like healthcare, need to be made explainable in order to enhance real-world adoption. Our past studies and ongoing interactions indicate that medical experts can use AI systems with greater trust if there are ways to connect the model inferences about patients to explanations that are tied back to the context of use. Specifically, risk prediction is a complex problem of diagnostic and interventional importance to clinicians wherein they consult different sources to make decisions. To enable the adoption of the ever improving AI risk prediction models in practice, we have begun to explore techniques to contextualize such models along three dimensions of interest: the patients' clinical state, AI predictions about their risk of complications, and algorithmic explanations supporting the predictions. We validate the importance of these dimensions by implementing a proof-of-concept (POC) in type-2 diabetes (T2DM) use case where we assess the risk of chronic kidney disease (CKD) - a common T2DM comorbidity. Within the POC, we include risk prediction models for CKD, post-hoc explainers of the predictions, and other natural-language modules which operationalize domain knowledge and CPGs to provide context. With primary care physicians (PCP) as our end-users, we present our initial results and clinician feedback in this paper. Our POC approach covers multiple knowledge sources and clinical scenarios, blends knowledge to explain data and predictions to PCPs, and received an enthusiastic response from our medical expert.
翻訳日:2021-07-08 02:11:35 公開日:2021-07-06
# (参考訳) 離散値ニューラル通信

Discrete-Valued Neural Communication ( http://arxiv.org/abs/2107.02367v1 )

ライセンス: CC BY 4.0
Dianbo Liu Dianbo_Liu, Alex Lamb, Kenji Kawaguchi, Anirudh Goyal, Chen Sun, Michael Curtis Mozer, Yoshua Bengio(参考訳) ディープラーニングは、完全に接続されたアーキテクチャから、位置要素で構成されるトランスフォーマ、スロットに分割されたモジュラアーキテクチャ、ノードで構成されるグラフニューラルネットなど、コンポーネント化された構造化モデルへと進化した。 構造化モデルでは、異なるコンポーネント間で動的かつおそらくスパースな通信を行う方法が興味深い質問である。 本稿では,成分間の伝達情報を離散表現に制限することが有効なボトルネックであるとする仮説を考察する。 動機づけ直観は、コミュニケーションが個別のシンボルを通して起こる人間の言語である。 個人は ``"cat" が自分の特定の経験に基づいて何であるかについて異なる理解を持っているが、共有された離散トークンにより、個人間のコミュニケーションは内部表現の個人差によって影響を受けない。 特殊コンポーネント間で動的に伝達される概念の値を識別するために、量子化機構をベクトル量子化変分オートエンコーダから共有符号ブックによる多頭部離散化に拡張し、離散値ニューラルネットワーク(DVNC)に使用する。 我々の実験によると、DVNCはトランスフォーマー、モジュラーアーキテクチャ、グラフニューラルネットワークなど、さまざまなアーキテクチャにおける体系的な一般化を大幅に改善する。 また、DVNCはハイパーパラメータの選択に頑健であり、実際に非常に有用であることを示す。 さらに、離散化過程の理論的正当性を確立し、ノイズロバスト性を高め、モデルの基礎となる次元性を低減できることを示した。

Deep learning has advanced from fully connected architectures to structured models organized into components, e.g., the transformer composed of positional elements, modular architectures divided into slots, and graph neural nets made up of nodes. In structured models, an interesting question is how to conduct dynamic and possibly sparse communication among the separate components. Here, we explore the hypothesis that restricting the transmitted information among components to discrete representations is a beneficial bottleneck. The motivating intuition is human language in which communication occurs through discrete symbols. Even though individuals have different understandings of what a ``"cat" is based on their specific experiences, the shared discrete token makes it possible for communication among individuals to be unimpeded by individual differences in internal representation. To discretize the values of concepts dynamically communicated among specialist components, we extend the quantization mechanism from the Vector-Quantized Variational Autoencoder to multi-headed discretization with shared codebooks and use it for discrete-valued neural communication (DVNC). Our experiments show that DVNC substantially improves systematic generalization in a variety of architectures -- transformers, modular architectures, and graph neural networks. We also show that the DVNC is robust to the choice of hyperparameters, making the method very useful in practice. Moreover, we establish a theoretical justification of our discretization process, proving that it has the ability to increase noise robustness and reduce the underlying dimensionality of the model.
翻訳日:2021-07-08 01:59:46 公開日:2021-07-06
# (参考訳) タスクに規定された明示的ハイパーパラメータ予測ポリシーの学習

Learning an Explicit Hyperparameter Prediction Policy Conditioned on Tasks ( http://arxiv.org/abs/2107.02378v1 )

ライセンス: CC BY 4.0
Jun Shu, Deyu Meng, Zongben Xu(参考訳) メタ学習は最近、機械学習コミュニティで注目を集めている。 新しいクエリデータのためのラベルを予測するために固有の予測ルールを学習する従来の機械学習とは対照的に、メタ学習は、観察したタスクから機械学習の学習方法論を学習することを目的としており、メタ学習学習手法を利用して新しいクエリタスクを一般化する。 本研究では,これらの学習手法を,すべての学習課題で共有される明示的なハイパーパラメータ予測ポリシーの学習として解釈する。 具体的には、メタラーナーと呼ばれるパラメータ化関数として表現され、トレーニング/テストタスクから適切なハイパーパラメータ設定にマッピングされ、メタ学習マシンと呼ばれる事前に指定された関数セットから抽出される。 このような設定により、メタ学習学習手法は、現在の多くのメタ学習手法によって固定されたハイパーパラメータを得る代わりに、様々なクエリタスクを柔軟に適合させることができる。 このようなメタ学習の理解は、一般的な損失/タスク/モデルで一般化境界を分析する従来の学習理論から容易に成功する。 この理論は自然に、抽出されたメタリーナーの品質を改善するための実現可能な制御戦略を導いており、少数ショット回帰、少数ショット分類、ドメイン一般化など、いくつかの典型的なメタ学習アプリケーションにおいて、その一般化能力を微妙に改善できることが証明されている。

Meta learning has attracted much attention recently in machine learning community. Contrary to conventional machine learning aiming to learn inherent prediction rules to predict labels for new query data, meta learning aims to learn the learning methodology for machine learning from observed tasks, so as to generalize to new query tasks by leveraging the meta-learned learning methodology. In this study, we interpret such learning methodology as learning an explicit hyperparameter prediction policy shared by all training tasks. Specifically, this policy is represented as a parameterized function called meta-learner, mapping from a training/test task to its suitable hyperparameter setting, extracted from a pre-specified function set called meta learning machine. Such setting guarantees that the meta-learned learning methodology is able to flexibly fit diverse query tasks, instead of only obtaining fixed hyperparameters by many current meta learning methods, with less adaptability to query task's variations. Such understanding of meta learning also makes it easily succeed from traditional learning theory for analyzing its generalization bounds with general losses/tasks/models. The theory naturally leads to some feasible controlling strategies for ameliorating the quality of the extracted meta-learner, verified to be able to finely ameliorate its generalization capability in some typical meta learning applications, including few-shot regression, few-shot classification and domain generalization.
翻訳日:2021-07-08 01:11:03 公開日:2021-07-06
# (参考訳) 人物再同定のためのトランスフォーマによる非交叉表現の学習

Learning Disentangled Representation Implicitly via Transformer for Occluded Person Re-Identification ( http://arxiv.org/abs/2107.02380v1 )

ライセンス: CC BY 4.0
Mengxi Jia, Xinhua Cheng, Shijian Lu and Jian Zhang(参考訳) 様々な咬合下での人物再同定(re-id)は、異なる咬合形態の人物画像が画像マッチングやランキングの誤認に苦しむため、長年の課題であった。 既存の手法の多くは、外部の意味的手がかりや特徴的類似性に応じて身体部位の空間的特徴を調整することでこの課題に取り組むが、このアライメントアプローチは複雑でノイズに敏感である。 我々は、厳密な人物像のアライメントや追加の監督を必要とせず、隠蔽されたre-IDを処理する非絡み合った表現学習ネットワークDRL-Netを設計する。 DRL-Netはトランスフォーマーアーキテクチャを活用することで、隠蔽された人物画像の局所的特徴のグローバルな推論を通じてアライメントフリーなre-IDを実現する。 変換器内のセマンティック・プライオリティ・オブジェクト・クエリーのガイダンスの下で、人間の体の一部や障害などの未定義のセマンティック・コンポーネントの表現を自動的に切り離すことによって画像の類似度を測定する。 さらに,変換器デコーダのデコリレーション制約を設計し,オブジェクトクエリにデコリレーションを課し,異なるセマンティックコンポーネントにもっと焦点を当てる。 咬合の干渉を効果的に除去するために,咬合特徴と識別ID特徴の分離を改善するコントラスト特徴学習技術(CFL)を設計する。 Occluded-DukeMTMC、Market1501、DukeMTMCといった包括的かつ包括的なre-IDベンチマークに対する大規模な実験は、DRL-Netが優れたre-ID性能を一貫して達成し、Occluded-DukeMTMCに対する大きなマージンによって最先端の状態を上回っていることを示している。

Person re-identification (re-ID) under various occlusions has been a long-standing challenge as person images with different types of occlusions often suffer from misalignment in image matching and ranking. Most existing methods tackle this challenge by aligning spatial features of body parts according to external semantic cues or feature similarities but this alignment approach is complicated and sensitive to noises. We design DRL-Net, a disentangled representation learning network that handles occluded re-ID without requiring strict person image alignment or any additional supervision. Leveraging transformer architectures, DRL-Net achieves alignment-free re-ID via global reasoning of local features of occluded person images. It measures image similarity by automatically disentangling the representation of undefined semantic components, e.g., human body parts or obstacles, under the guidance of semantic preference object queries in the transformer. In addition, we design a decorrelation constraint in the transformer decoder and impose it over object queries for better focus on different semantic components. To better eliminate interference from occlusions, we design a contrast feature learning technique (CFL) for better separation of occlusion features and discriminative ID features. Extensive experiments over occluded and holistic re-ID benchmarks (Occluded-DukeMTMC, Market1501 and DukeMTMC) show that the DRL-Net achieves superior re-ID performance consistently and outperforms the state-of-the-art by large margins for Occluded-DukeMTMC.
翻訳日:2021-07-08 01:09:36 公開日:2021-07-06
# (参考訳) 線形回帰と整数計画に基づく逆QSAR法

An Inverse QSAR Method Based on Linear Regression and Integer Programming ( http://arxiv.org/abs/2107.02381v1 )

ライセンス: CC BY 4.0
Jianshen Zhu, Naveed Ahmed Azam, Kazuya Haraguchi, Liang Zhao, Hiroshi Nagamochi and Tatsuya Akutsu(参考訳) 近年, ニューラルネットワーク(ANN)と混合整数線形計画(MILP)の両方を用いて, 化合物の分子構造を設計するための新しい枠組みが提案されている。 このフレームワークでは、まず化学グラフ $c$ の特徴ベクトル $f(c)$ を定義し、$x=f(c)$ を予測値 $\eta(x)$ の化学プロパティ $\pi$ から $c$ に写す ann を構築する。 その後、$c$から$f(c)$、$x$から$\eta(x)$の計算プロセスをシミュレートするmilpを定式化する。 化学特性 $\pi$ の目標値 $y^*$ が与えられると、milp を解くことで $\eta(f(c^\dagger))=y^*$ となる化学グラフ $c^\dagger$ を推測する。 本稿では,線形回帰を用いてANNの代わりに予測関数$\eta$を構築する。 そこで我々は,線形回帰による予測関数の計算過程をシミュレートするMILP式を導出した。 計算実験の結果,50個の非水素原子の化学グラフを推定できることが示唆された。

Recently a novel framework has been proposed for designing the molecular structure of chemical compounds using both artificial neural networks (ANNs) and mixed integer linear programming (MILP). In the framework, we first define a feature vector $f(C)$ of a chemical graph $C$ and construct an ANN that maps $x=f(C)$ to a predicted value $\eta(x)$ of a chemical property $\pi$ to $C$. After this, we formulate an MILP that simulates the computation process of $f(C)$ from $C$ and that of $\eta(x)$ from $x$. Given a target value $y^*$ of the chemical property $\pi$, we infer a chemical graph $C^\dagger$ such that $\eta(f(C^\dagger))=y^*$ by solving the MILP. In this paper, we use linear regression to construct a prediction function $\eta$ instead of ANNs. For this, we derive an MILP formulation that simulates the computation process of a prediction function by linear regression. The results of computational experiments suggest our method can infer chemical graphs with around up to 50 non-hydrogen atoms.
翻訳日:2021-07-08 00:44:26 公開日:2021-07-06
# (参考訳) Semi-TCL: 半教師付きトラックコントラスト表現学習

Semi-TCL: Semi-Supervised Track Contrastive Representation Learning ( http://arxiv.org/abs/2107.02396v1 )

ライセンス: CC BY 4.0
Wei Li, Yuanjun Xiong, Shuo Yang, Mingze Xu, Yongxin Wang, Wei Xia(参考訳) ビデオ内の複数のオブジェクトのオンライントラッキングには、モデリングとオブジェクトの出現のマッチングが不可欠である。 見た目の埋め込みを学習する以前の方法は、ビデオの時間的連続性を考慮せずにインスタンスレベルのマッチングに依存することが多い。 提案手法は,検出候補とトラッカーに残留するトラックの組込みを比較検討し,その組込みを学習するための新しいインスタンス間マッチング対象を設計する。 これにより、完全なトラックでラベル付けされたビデオだけでなく、ラベル付きまたは部分的にラベル付けされたビデオからも学習できます。 我々は,この学習目標を拘束的損失の精神に従って統一した形で実現する。 複数のオブジェクト追跡データセットに対する実験により,本手法は半教師付き手法による識別的外見埋め込みを効果的に学習し,代表的ベンチマーク上での芸術手法の性能向上を実証した。

Online tracking of multiple objects in videos requires strong capacity of modeling and matching object appearances. Previous methods for learning appearance embedding mostly rely on instance-level matching without considering the temporal continuity provided by videos. We design a new instance-to-track matching objective to learn appearance embedding that compares a candidate detection to the embedding of the tracks persisted in the tracker. It enables us to learn not only from videos labeled with complete tracks, but also unlabeled or partially labeled videos. We implement this learning objective in a unified form following the spirit of constrastive loss. Experiments on multiple object tracking datasets demonstrate that our method can effectively learning discriminative appearance embeddings in a semi-supervised fashion and outperform state of the art methods on representative benchmarks.
翻訳日:2021-07-08 00:43:05 公開日:2021-07-06
# (参考訳) 一般から特定へ - Blind Super-Resolutionのオンライン更新

From General to Specific: Online Updating for Blind Super-Resolution ( http://arxiv.org/abs/2107.02398v1 )

ライセンス: CC BY 4.0
Shang Li, Guixuan Zhang, Zhengxiong Luo, Jie Liu, Zhi Zeng, Shuwu Zhang(参考訳) 深層学習に基づくスーパーレゾリューション(sr)の手法の多くは、画像固有のものではない: 1) テスト画像のドメインギャップに関係なく、事前定義されたぼかしカーネル(\eg bicubic)によって合成されたデータセット上で徹底的にトレーニングされる。 2) モデル重みは試験中に固定されるため, 様々な劣化のあるテスト画像は同じ重みで超解像される。 しかし、実際の画像の劣化は様々であり、未知である(\ie blind SR)。 ひとつのモデルがすべてのケースでうまく機能するのは困難です。 これらの問題を解決するために,オンライン超解像法(ONSR)を提案する。 事前に定義されたぼやけたカーネルに依存しず、テストイメージの劣化に応じてモデルの重みを更新できる。 具体的には、ONSRは2つのブランチ、すなわち、内部ブランチ(IB)と外部ブランチ(EB)から構成される。 IBは与えられた試験LR画像の特定の劣化を学習することができ、EBは学習した劣化によって劣化した画像の超解像を学習することができた。 このように、ONSRはテスト画像ごとに特定のモデルをカスタマイズできるため、実際のアプリケーションの様々な劣化に対してより寛容になる可能性がある。 合成画像と実世界の画像の広汎な実験により、ONSRはより視覚的に好ましいSR結果を生成し、ブラインドSRにおける最先端のパフォーマンスを達成できることが示された。

Most deep learning-based super-resolution (SR) methods are not image-specific: 1) They are exhaustively trained on datasets synthesized by predefined blur kernels (\eg bicubic), regardless of the domain gap with test images. 2) Their model weights are fixed during testing, which means that test images with various degradations are super-resolved by the same set of weights. However, degradations of real images are various and unknown (\ie blind SR). It is hard for a single model to perform well in all cases. To address these issues, we propose an online super-resolution (ONSR) method. It does not rely on predefined blur kernels and allows the model weights to be updated according to the degradation of the test image. Specifically, ONSR consists of two branches, namely internal branch (IB) and external branch (EB). IB could learn the specific degradation of the given test LR image, and EB could learn to super resolve images degraded by the learned degradation. In this way, ONSR could customize a specific model for each test image, and thus could be more tolerant with various degradations in real applications. Extensive experiments on both synthesized and real-world images show that ONSR can generate more visually favorable SR results and achieve state-of-the-art performance in blind SR.
翻訳日:2021-07-08 00:28:12 公開日:2021-07-06
# (参考訳) nrst:単眼ビデオによる非剛性表面追跡

NRST: Non-rigid Surface Tracking from Monocular Video ( http://arxiv.org/abs/2107.02407v1 )

ライセンス: CC BY 4.0
Marc Habermann, Weipeng Xu, Helge Rhodin, Michael Zollhoefer, Gerard Pons-Moll, Christian Theobalt(参考訳) モノクロRGBビデオからの非剛性表面追跡の効率的な手法を提案する。 ビデオとテンプレートメッシュが与えられた場合、我々のアルゴリズムはテンプレートをフレームごとに逐次登録する。 ファブリックの規則的なマイクロ構造パターンなど,均一なテクスチャと微細な構造を持つ物体を追跡するための新しいテクスチャ用語を含む最適化問題としてフレーム単位の登録を定式化する。 我々のテクスチャ用語は、例えば織物の糸パターンのようなオブジェクトの微細構造における配向情報を利用する。 これにより、このような高周波のマイクロ構造を持つ均一な色の物質を正確に追跡することができる。 その結果,本手法が汎用テクスチャ非剛体および単色織物に与える影響が示された。

We propose an efficient method for non-rigid surface tracking from monocular RGB videos. Given a video and a template mesh, our algorithm sequentially registers the template non-rigidly to each frame. We formulate the per-frame registration as an optimization problem that includes a novel texture term specifically tailored towards tracking objects with uniform texture but fine-scale structure, such as the regular micro-structural patterns of fabric. Our texture term exploits the orientation information in the micro-structures of the objects, e.g., the yarn patterns of fabrics. This enables us to accurately track uniformly colored materials that have these high frequency micro-structures, for which traditional photometric terms are usually less effective. The results demonstrate the effectiveness of our method on both general textured non-rigid objects and monochromatic fabrics.
翻訳日:2021-07-08 00:08:35 公開日:2021-07-06
# (参考訳) 深部視覚注意に基づく伝達クラスタリング

Deep Visual Attention-Based Transfer Clustering ( http://arxiv.org/abs/2107.02415v1 )

ライセンス: CC BY 4.0
Akshaykumar Gunari, Shashidhar Veerappa Kudari, Sukanya Nadagadalli, Keerthi Goudnaik, Ramesh Ashok Tabib, Uma Mudenagudi, and Adarsh Jamadandi(参考訳) 本稿では,低変量データ分布に適用した場合に,Deep Transfer Clustering (DTC) の手法を即興的に改善する手法を提案する。 クラスタリングは、教師なし学習の最も重要な問題と見なすことができる。 単純なクラスタリングの定義は「何らかの方法でメンバーが類似しているグループにオブジェクトを整理するプロセス」と表現できる。 イメージクラスタリングは、ドメイン機械学習とコンピュータビジョンにおいて不可欠だが難しい課題である。 我々は,データのばらつきが少ないデータ収集のクラスタリングについて検討した。 深層移動クラスタリングにおける特徴抽出器として,通常の分類器ではなく注意に基づく分類器を用いて改善を議論した。 我々は、背景を考慮していない特徴を識別可能かつ堅牢にするために、画像に対する必要な領域のみを学習するようにモデルを強制した。 本稿では,既存のデータ分散のためのディープ転送クラスタリングの改善について述べる。

In this paper, we propose a methodology to improvise the technique of deep transfer clustering (DTC) when applied to the less variant data distribution. Clustering can be considered as the most important unsupervised learning problem. A simple definition of clustering can be stated as "the process of organizing objects into groups, whose members are similar in some way". Image clustering is a crucial but challenging task in the domain machine learning and computer vision. We have discussed the clustering of the data collection where the data is less variant. We have discussed the improvement by using attention-based classifiers rather than regular classifiers as the initial feature extractors in the deep transfer clustering. We have enforced the model to learn only the required region of interest in the images to get the differentiable and robust features that do not take into account the background. This paper is the improvement of the existing deep transfer clustering for less variant data distribution.
翻訳日:2021-07-07 23:55:38 公開日:2021-07-06
# (参考訳) 埋め込みの自動連結による拡張ユニバーサル依存性解析

Enhanced Universal Dependency Parsing with Automated Concatenation of Embeddings ( http://arxiv.org/abs/2107.02416v1 )

ライセンス: CC BY-SA 4.0
Xinyu Wang, Zixia Jia, Yong Jiang, Kewei Tu(参考訳) 本稿では,SHANGHAITECH チームから IWPT 2021 Shared Task に提出したシステムについて述べる。 本システムは,組込みの自動連結(ACE)技術を用いたグラフ解析システムである。 最近の研究で、異なる種類の埋め込みを結合することでより良い単語表現が得られることが分かったので、aceを使って拡張された普遍的な依存関係のタスクに対する埋め込みのより良い結合を見つけることができる。 公式の17言語の平均結果によると、私たちのシステムは9チーム中2位です。

This paper describes the system used in submission from SHANGHAITECH team to the IWPT 2021 Shared Task. Our system is a graph-based parser with the technique of Automated Concatenation of Embeddings (ACE). Because recent work found that better word representations can be obtained by concatenating different types of embeddings, we use ACE to automatically find the better concatenation of embeddings for the task of enhanced universal dependencies. According to official results averaged on 17 languages, our system ranks 2nd over 9 teams.
翻訳日:2021-07-07 23:49:24 公開日:2021-07-06
# (参考訳) 法律専門家システムのためのnlgパイプライン:進行中の作業

An NLG pipeline for a legal expert system: a work in progress ( http://arxiv.org/abs/2107.02421v1 )

ライセンス: CC BY-SA 4.0
Inari Listenmaa, Jason Morris, Alfred Ang, Maryam Hanafiah, Regina Cheong(参考訳) 法律や契約書作成のためのドメイン固有言語 (DSL) のプロトタイプである L4 の NLG コンポーネントについて述べる。 具体的なユースケースとして,l4コードから作成した法律専門家システムのパイプラインについて述べる。 NLGコンポーネントは2つのステップで使用される。 最初のステップは、自動推論のために回答をクエリとして処理するインタビューを作成することです。 第2のステップは、自然言語で推論者の回答を描画することだ。

We present the NLG component for L4, a prototype domain-specific language (DSL) for drafting laws and contracts. As a concrete use case, we describe a pipeline for a legal expert system created from L4 code. The NLG component is used in two steps. The first step is to create an interview, whose answers are processed into a query for an automated reasoner. The second step is to render the answers of the reasoner in natural language.
翻訳日:2021-07-07 23:38:51 公開日:2021-07-06
# (参考訳) コントラスト学習によるテキスト・画像合成の改善

Improving Text-to-Image Synthesis Using Contrastive Learning ( http://arxiv.org/abs/2107.02423v1 )

ライセンス: CC BY 4.0
Hui Ye, Xiulong Yang, Martin Takac, Rajshekhar Sunderraman, Shihao Ji(参考訳) テキスト対画像合成の目標は、所定のテキスト記述にマッチする視覚的な画像を生成することである。 実際には、同じ画像に対して人間が注釈を付けるキャプションは、内容と単語の選択の点で大きなばらつきがある。 同一画像の字幕間の言語的な相違は、基礎的な真実から逸脱した合成画像につながる。 そこで本研究では,合成画像の品質向上とセマンティック一貫性向上のためのコントラスト学習手法を提案する。 事前学習段階では、コントラスト学習アプローチを用いて、同じ画像に対応するキャプションに対する一貫したテキスト表現を学習する。 さらに、GANトレーニングの次の段階において、同一画像に関連するキャプションから生成された画像間の一貫性を高めるために、コントラスト学習法を用いる。 CUBとCOCOのデータセット上で,2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価した。 実験の結果,IS,FID,R-精度の3つの指標を用いて,合成画像の品質を効果的に向上できることがわかった。 特に、挑戦的なCOCOデータセットでは、我々のアプローチは、AttnGAnよりも29.60%、DM-GANより21.96%、FIDを著しく向上させる。

The goal of text-to-image synthesis is to generate a visually realistic image that matches a given text description. In practice, the captions annotated by humans for the same image have large variance in terms of contents and the choice of words. The linguistic discrepancy between the captions of the identical image leads to the synthetic images deviating from the ground truth. To address this issue, we propose a contrastive learning approach to improve the quality and enhance the semantic consistency of synthetic images. In the pre-training stage, we utilize the contrastive learning approach to learn the consistent textual representations for the captions corresponding to the same image. Furthermore, in the following stage of GAN training, we employ the contrastive learning method to enhance the consistency between the generated images from the captions related to the same image. We evaluate our approach over two popular text-to-image synthesis models, AttnGAN and DM-GAN, on datasets CUB and COCO, respectively. Experimental results have shown that our approach can effectively improve the quality of synthetic images in terms of three metrics: IS, FID and R-precision. Especially, on the challenging COCO dataset, our approach boosts the FID significantly by 29.60% over AttnGAn and by 21.96% over DM-GAN.
翻訳日:2021-07-07 23:33:30 公開日:2021-07-06
# (参考訳) LTE-LAAとWi-Fi共存におけるモデルフリー強化学習のためのベイズ非パラメトリックモデリング

Bayesian Nonparametric Modelling for Model-Free Reinforcement Learning in LTE-LAA and Wi-Fi Coexistence ( http://arxiv.org/abs/2107.02431v1 )

ライセンス: CC BY 4.0
Po-Kan Shih, Bahman Moraffah(参考訳) 次世代無線通信の登場により、モノのインターネット、自動運転システム、ドローンといった新しいアプリケーションが、ライセンスされていない領域に群がっている。 長期進化(LTE)のようなライセンスネットワークは、低コストで高容量のコンテンツを提供するために、ライセンスされていないスペクトルにもたらされる。 しかし、LTEはリソースを他人と共有するように設計されていない。 従来のソリューションは通常、固定シナリオで動作する。 この研究は、Wi-FiとLTEライセンスアクセス(LTE-LAA)エージェントの5GHz帯の共存に対処する非パラメトリックベイズ強化学習アルゴリズムを特徴とする。 共存問題は分散部分観測可能なマルコフ決定過程(dec-pomdp)としてモデル化され、異なるエージェントに対する政策の不確実性に対応するために、非パラメトリックな政策学習にベイズ推論が採用される。 報酬関数に公正度尺度を導入し、エージェント間の公平な共有を促進する。 後続モデル近似の変分推論はアルゴリズムを計算効率良くすると考えられる。 シミュレーションの結果、このアルゴリズムは、少ない学習イテレーションで、コンパクトなポリシー表現で高い値に達することが示されている。

With the arrival of next generation wireless communication, a growing number of new applications like internet of things, autonomous driving systems, and drone are crowding the unlicensed spectrum. Licensed network such as the long-term evolution (LTE) also comes to the unlicensed spectrum for better providing high-capacity contents with low cost. However, LTE was not designed to share resources with others. Previous solutions usually work on fixed scenarios. This work features a Nonparametric Bayesian reinforcement learning algorithm to cope with the coexistence between Wi-Fi and LTE licensed assisted access (LTE-LAA) agents in 5 GHz unlicensed spectrum. The coexistence problem is modeled as a decentralized partially-observable Markov decision process (Dec-POMDP) and Bayesian inference is adopted for policy learning with nonparametric prior to accommodate the uncertainty of policy for different agents. A fairness measure is introduced in the reward function to encourage fair sharing between agents. Variational inference for posterior model approximation is considered to make the algorithm computationally efficient. Simulation results demonstrate that this algorithm can reach high value with compact policy representations in few learning iterations.
翻訳日:2021-07-07 23:17:49 公開日:2021-07-06
# (参考訳) シェル言語処理: 機械学習のためのunixコマンド解析

Shell Language Processing: Unix command parsing for Machine Learning ( http://arxiv.org/abs/2107.02438v1 )

ライセンス: CC BY 4.0
Dmitrijs Trizna(参考訳) 本稿では,unix と linux のシェルコマンドの構文解析を指向したトークン化とエンコーディングを実装した shell language preprocessing (slp) ライブラリを提案する。 従来の自然言語処理(NLP)パイプラインが故障した場合の具体的な例で,新しいアプローチの必要性の根拠を説明する。 さらに、広く受け入れられている情報通信技術(ICT)のトークン化技術に対するセキュリティ分類タスクの評価を行い、0.392から0.874までのF1スコアを大幅に改善した。

In this article, we present a Shell Language Preprocessing (SLP) library, which implements tokenization and encoding directed on the parsing of Unix and Linux shell commands. We describe the rationale behind the need for a new approach with specific examples when conventional Natural Language Processing (NLP) pipelines fail. Furthermore, we evaluate our methodology on a security classification task against widely accepted information and communications technology (ICT) tokenization techniques and achieve significant improvement of an F1-score from 0.392 to 0.874.
翻訳日:2021-07-07 23:16:44 公開日:2021-07-06
# (参考訳) floorlevel-net:高度誘導マルチタスク学習によるフロアレベルライン認識

FloorLevel-Net: Recognizing Floor-Level Lines with Height-Attention-Guided Multi-task Learning ( http://arxiv.org/abs/2107.02462v1 )

ライセンス: CC BY 4.0
Mengyang Wu, Wei Zeng, Chi-Wing Fu(参考訳) 隣接する建物の床を分割するフロアレベルラインの位置と順序を認識する能力は、都市拡張現実(AR)など、多くの応用に有用である。 本研究は, 教師付き深層学習手法を用いて, ストリートビュー画像中のフロアレベル線の位置を求める問題に対処する。 残念なことに、現在のストリートビューデータセットの$-$は、幾何学的属性を持たないセマンティックアノテーションを含むネットワークや、パースペクティブを含まない修正ファサードといったトレーニング用のデータはほとんどありません。 この問題に対処するため,我々はまず,新しいデータセットをコンパイルし,既存のファサードの豊富な意味を嫌がらせ(i)し,(ii)多様な街並みの建築物の視点からトレーニングサンプルを合成する新しいデータ拡張手法を開発した。 次にFloorLevel-Netを設計する。FloorLevel-Netは、ファサードと暗黙のフロアレベルラインの明示的な特徴と、フロアレベルラインの垂直順序を強制するハイトアテンション機構を関連付けるマルチタスク学習ネットワークである。 生成されたセグメンテーションは第2段階の幾何後処理に渡され、フロアレベルラインの可塑性かつ一貫した再構築のために自己制約付き幾何前処理を利用する。 既存のデータセットのファサードとgoogleのストリートビューで行った定量的・質的評価は、このアプローチの有効性を示しています。 また、文脈対応画像オーバーレイ結果を示し、AR関連アプリケーションの強化におけるアプローチの可能性を示す。

The ability to recognize the position and order of the floor-level lines that divide adjacent building floors can benefit many applications, for example, urban augmented reality (AR). This work tackles the problem of locating floor-level lines in street-view images, using a supervised deep learning approach. Unfortunately, very little data is available for training such a network $-$ current street-view datasets contain either semantic annotations that lack geometric attributes, or rectified facades without perspective priors. To address this issue, we first compile a new dataset and develop a new data augmentation scheme to synthesize training samples by harassing (i) the rich semantics of existing rectified facades and (ii) perspective priors of buildings in diverse street views. Next, we design FloorLevel-Net, a multi-task learning network that associates explicit features of building facades and implicit floor-level lines, along with a height-attention mechanism to help enforce a vertical ordering of floor-level lines. The generated segmentations are then passed to a second-stage geometry post-processing to exploit self-constrained geometric priors for plausible and consistent reconstruction of floor-level lines. Quantitative and qualitative evaluations conducted on assorted facades in existing datasets and street views from Google demonstrate the effectiveness of our approach. Also, we present context-aware image overlay results and show the potentials of our approach in enriching AR-related applications.
翻訳日:2021-07-07 23:12:44 公開日:2021-07-06
# (参考訳) EVARS-GPR: 季節データに対するガウス過程回帰の漸進的改善

EVARS-GPR: EVent-triggered Augmented Refitting of Gaussian Process Regression for Seasonal Data ( http://arxiv.org/abs/2107.02463v1 )

ライセンス: CC BY 4.0
Florian Haselbeck and Dominik G. Grimm(参考訳) 時系列予測は、様々なアプリケーションで成長する領域である。 しかし、内部または外部の影響によるシステム行動の変化は困難である。 したがって、既に学習したフォアキャスティングモデルの予測はもはや役に立たないかもしれない。 本稿では,季節データを対象としたEVARS-GPR(EVent-Triggered Augmented Refitting of Gaussian Process Regression for Seasonal Data)を提案する。 この目的のために、EVARS-GPRは、オンライン変更点検出と、変更点に先立ってサンプルのデータ拡張を用いた予測モデルの再構成を併用する。 シミュレーションデータを用いた実験により,EVARS-GPRは幅広い出力スケール変化に適用可能であることが示された。 EVARS-GPRは、類似の計算資源消費法と比較して、異なる実世界のデータセット上で平均20.8%低いRMSEを持つ。 さらに,本アルゴリズムは,すべての比較パートナーと定期的な再実行戦略との関係から,平均ランタイムを6倍削減することを示した。 本稿では,対象変数の変動を伴う季節時系列の計算効率の高いオンラインフォアキャスティングアルゴリズムを提案するとともに,実世界データだけでなくシミュレーションデータにもその機能を示す。 すべてのコードはGitHubで公開されている。

Time series forecasting is a growing domain with diverse applications. However, changes of the system behavior over time due to internal or external influences are challenging. Therefore, predictions of a previously learned fore-casting model might not be useful anymore. In this paper, we present EVent-triggered Augmented Refitting of Gaussian Process Regression for Seasonal Data (EVARS-GPR), a novel online algorithm that is able to handle sudden shifts in the target variable scale of seasonal data. For this purpose, EVARS-GPR com-bines online change point detection with a refitting of the prediction model using data augmentation for samples prior to a change point. Our experiments on sim-ulated data show that EVARS-GPR is applicable for a wide range of output scale changes. EVARS-GPR has on average a 20.8 % lower RMSE on different real-world datasets compared to methods with a similar computational resource con-sumption. Furthermore, we show that our algorithm leads to a six-fold reduction of the averaged runtime in relation to all comparison partners with a periodical refitting strategy. In summary, we present a computationally efficient online fore-casting algorithm for seasonal time series with changes of the target variable scale and demonstrate its functionality on simulated as well as real-world data. All code is publicly available on GitHub: https://github.com/grimmlab/evars-gpr.
翻訳日:2021-07-07 22:49:16 公開日:2021-07-06
# (参考訳) 深層学習ネットワークを用いた前立腺セグメンテーションのための新しいスマートクロッピングパイプライン

A new smart-cropping pipeline for prostate segmentation using deep learning networks ( http://arxiv.org/abs/2107.02476v1 )

ライセンス: CC BY 4.0
Dimitrios G. Zaridis, Eugenia Mylona, Kostas Marias, Nikolaos Papanikolaou, Nikolaos S. Tachos, Dimitrios I. Fotiadis(参考訳) MRI(MRI)による前立腺の分節化は難しい課題である。 近年、このプロセスを自動化し、手動アノテーションの負担を軽減するために、いくつかのネットワークアーキテクチャが提案されている。 これらのモデルの性能は有望な結果を得たが、これらのモデルが安全かつ効果的に臨床で使用できるまでには改善の余地がある。 前立腺mr画像分割における大きな課題の1つは、背景画素が前立腺を支配する画像ラベルにおけるクラス不均衡の存在である。 本研究では,MRI画像から前立腺周辺の領域を抽出し,前景画素(前立腺)と背景画素のよりバランスのとれた分布を生成し,セグメンテーション精度を向上させるためのDLベースのパイプラインを提案する。 U-net、U-net+、Res Unet++、Bridge U-net、Dense U-netの5つの有名なDLネットワークを用いて、DL-croppingによるセグメンテーション性能の向上効果を評価する。 提案したスマートクロッピングは、評価された前立腺区分けネットワークのセグメンテーション精度の観点から、標準中心収量よりも優れていた。 Diceのスコアでは、それぞれ8.9%と8%に対応するU-net+とResU-net++アーキテクチャで最高の改善が達成された。

Prostate segmentation from magnetic resonance imaging (MRI) is a challenging task. In recent years, several network architectures have been proposed to automate this process and alleviate the burden of manual annotation. Although the performance of these models has achieved promising results, there is still room for improvement before these models can be used safely and effectively in clinical practice. One of the major challenges in prostate MR image segmentation is the presence of class imbalance in the image labels where the background pixels dominate over the prostate. In the present work we propose a DL-based pipeline for cropping the region around the prostate from MRI images to produce a more balanced distribution of the foreground pixels (prostate) and the background pixels and improve segmentation accuracy. The effect of DL-cropping for improving the segmentation performance compared to standard center-cropping is assessed using five popular DL networks for prostate segmentation, namely U-net, U-net+, Res Unet++, Bridge U-net and Dense U-net. The proposed smart-cropping outperformed the standard center cropping in terms of segmentation accuracy for all the evaluated prostate segmentation networks. In terms of Dice score, the highest improvement was achieved for the U-net+ and ResU-net++ architectures corresponding to 8.9% and 8%, respectively.
翻訳日:2021-07-07 22:32:27 公開日:2021-07-06
# (参考訳) 顔クラスタリングと不均衡データセットのGCNに基づくリンク予測:実証的研究

GCN-Based Linkage Prediction for Face Clusteringon Imbalanced Datasets: An Empirical Study ( http://arxiv.org/abs/2107.02477v1 )

ライセンス: CC BY 4.0
Huafeng Yang, Xingjian Chen, Fangyi Zhang, Guangyue Hei, Yunjie Wang and Rong Du(参考訳) 近年、グラフ畳み込みネットワーク(GCN)の表現力の恩恵を受け、顔クラスタリングにおいて重要なブレークスルーが達成されている。 しかし、GCNベースのクラスタリングには、不均衡なデータに注意が払われている。 不均衡問題は広く研究されているが、GCNベースのリンク予測タスクにおける不均衡データの影響は、不均衡なリンクラベルとバイアス付きグラフ再試行の2つの側面で問題を引き起こす。 画像分類タスクに類似した不均衡なリンケージラベシスの問題は、リンケージ予測によるGCNベースのclus-teringにおいて特に問題である。 トレーニングにおける有意なバイアスドグラフ表現は、gcnモデルのカタストロフィックな過剰フィットを引き起こす可能性がある。 これらの問題に対処するために,広範に実験されたグラフ上の不均衡な画像分類問題に対する既存手法の有効性を評価するとともに,Reverse-Im Balance Weighted Sam-pling (RIWS) 戦略を用いて,不均衡なラベルとグラフ表現を緩和する新たな手法を提案する。 MS-Celeb-1MとDeepFashionから合成された一連の不均衡ベンチマークデータセットが公開されている。

In recent years, benefiting from the expressivepower of Graph Convolutional Networks (GCNs),significant breakthroughs have been made in faceclustering. However, rare attention has been paidto GCN-based clustering on imbalanced data. Al-though imbalance problem has been extensivelystudied, the impact of imbalanced data on GCN-based linkage prediction task is quite different,which would cause problems in two aspects: im-balanced linkage labels and biased graph represen-tations. The problem of imbalanced linkage labelsis similar to that in image classification task, but thelatter is a particular problem in GCN-based clus-tering via linkage prediction. Significantly biasedgraph representations in training can cause catas-trophic overfitting of a GCN model. To tacklethese problems, we evaluate the feasibility of thoseexisting methods for imbalanced image classifica-tion problem on graphs with extensive experiments,and present a new method to alleviate the imbal-anced labels and also augment graph representa-tions using a Reverse-Imbalance Weighted Sam-pling (RIWS) strategy, followed with insightfulanalyses and discussions. A series of imbalancedbenchmark datasets synthesized from MS-Celeb-1M and DeepFashion will be openly available.
翻訳日:2021-07-07 22:17:56 公開日:2021-07-06
# (参考訳) Midwifery Learning and Forecasting: ユーザ生成ログによるコンテンツ需要予測

Midwifery Learning and Forecasting: Predicting Content Demand with User-Generated Logs ( http://arxiv.org/abs/2107.02480v1 )

ライセンス: CC BY 4.0
Anna Guitart, Ana Fern\'andez del R\'io and \'Africa Peri\'a\~nez(参考訳) 毎日800人の女性と6700人の新生児が妊娠や出産に関連する合併症で死亡している。 十分に訓練された助産婦は、これらの母子および新生児の死亡をほとんど防げる。 データサイエンスモデルと、助産婦向けのオンライン学習アプリケーションのユーザが生成したログは、学習能力の向上に役立つ。 目標は、これらのリッチな行動データを使用して、デジタル学習をパーソナライズされたコンテンツへと押し上げ、適応的な学習旅行を提供することだ。 本研究では,アプリ内で利用可能なさまざまな種類のコンテンツに対して,将来的な利用者の興味を判断するための各種予測手法の評価を行う。

Every day, 800 women and 6,700 newborns die from complications related to pregnancy or childbirth. A well-trained midwife can prevent most of these maternal and newborn deaths. Data science models together with logs generated by users of online learning applications for midwives can help to improve their learning competencies. The goal is to use these rich behavioral data to push digital learning towards personalized content and to provide an adaptive learning journey. In this work, we evaluate various forecasting methods to determine the interest of future users on the different kind of contents available in the app, broken down by profession and region.
翻訳日:2021-07-07 22:06:24 公開日:2021-07-06
# (参考訳) ロシア感覚データセットにおける伝達学習による結果改善

Transfer Learning for Improving Results on Russian Sentiment Datasets ( http://arxiv.org/abs/2107.02499v1 )

ライセンス: CC BY 4.0
Anton Golubev and Natalia Loukachevitch(参考訳) 本研究では,遠距離監視技術を用いて作成した追加の列車サンプルを用いて,ロシアの感情ベンチマークデータセットの転送学習手法をテストする。 追加データとベンチマークトレインのサンプルを組み合わせるいくつかの変種を比較した。 最善の結果は, 一般, テーマ, オリジナルの列車サンプルの逐次訓練による3段階のアプローチで得られた。 ほとんどのデータセットでは、現在の最先端の手法よりも3%以上改善された。 感情分類問題を自然言語推論タスクとして扱うBERT-NLIモデルは、データセットの1つで人間の感情分析レベルに達した。

In this study, we test transfer learning approach on Russian sentiment benchmark datasets using additional train sample created with distant supervision technique. We compare several variants of combining additional data with benchmark train samples. The best results were achieved using three-step approach of sequential training on general, thematic and original train samples. For most datasets, the results were improved by more than 3% to the current state-of-the-art methods. The BERT-NLI model treating sentiment classification problem as a natural language inference task reached the human level of sentiment analysis on one of the datasets.
翻訳日:2021-07-07 21:59:02 公開日:2021-07-06
# (参考訳) 感情分析法を用いたソーシャルメディアテキストコーパスからの否定的要因の同定

Identifying negativity factors from social media text corpus using sentiment analysis method ( http://arxiv.org/abs/2107.02175v1 )

ライセンス: CC BY 4.0
Mohammad Aimal, Maheen Bakhtyar, Junaid Baber, Sadia Lakho, Umar Mohammad, Warda Ahmed, Jahanvash Karim(参考訳) 自動感情分析は意思決定において重要な役割を果たす。 多くの組織は、フィードバックや投稿やツイートを手作業で見渡すことで顧客満足度を理解するために多くの予算を費やしています。 自動感情分析は、あらゆるイベント、製品、活動に対して受け取ったコメントの全体像を与えることができる。 通常、コメント/ツイートは2つの主要なクラスに分類される。 しかし、否定的なコメントは、基本的な理由や文脈を理解するには抽象的すぎる。 組織は否定の正確な理由を 特定することに興味があります 本研究では,否定的なコメントを階層的に分類し,さらに多くのクラスにリンクする。 ツイートはTwitterやFacebookなどのソーシャルメディアサイトから抽出される。 感情分析が任意のツイートを負のクラスに分類すると、その否定的なコメントとより可能な負のクラスを関連付けようとする。 専門家の意見に基づいて、ネガティブコメント/ツイートはさらに8つのクラスに分類される。 異なる機械学習アルゴリズムを評価し、その精度を報告する。

Automatic sentiment analysis play vital role in decision making. Many organizations spend a lot of budget to understand their customer satisfaction by manually going over their feedback/comments or tweets. Automatic sentiment analysis can give overall picture of the comments received against any event, product, or activity. Usually, the comments/tweets are classified into two main classes that are negative or positive. However, the negative comments are too abstract to understand the basic reason or the context. organizations are interested to identify the exact reason for the negativity. In this research study, we hierarchically goes down into negative comments, and link them with more classes. Tweets are extracted from social media sites such as Twitter and Facebook. If the sentiment analysis classifies any tweet into negative class, then we further try to associates that negative comments with more possible negative classes. Based on expert opinions, the negative comments/tweets are further classified into 8 classes. Different machine learning algorithms are evaluated and their accuracy are reported.
翻訳日:2021-07-07 21:50:38 公開日:2021-07-06
# (参考訳) 位置, 位置: 素早い韻律転写パラダイムを用いたテキスト音声合成の評価の強化

Location, Location: Enhancing the Evaluation of Text-to-Speech Synthesis Using the Rapid Prosody Transcription Paradigm ( http://arxiv.org/abs/2107.02527v1 )

ライセンス: CC BY 4.0
Elijah Gutierrez, Pilar Oplustil-Gallegos, Catherine Lai(参考訳) テキストから音声への合成システムは、平均世論スコア(mos)テストを用いて一般的に評価され、リスナーはlikertスケールで合成音声のサンプルをスコアする。 MOSテストの大きな欠点は、それらが全体的な品質、すなわち発話の自然な性質の一般的な尺度しか提供していないことである。 これにより、発話における韻律変化の適切性を評価することができる。 そこで本研究では,高速な韻律転写パラダイムに基づく新しい評価手法を提案する。 これによりリスナーは、発話中のエラーの位置をリアルタイムでマークすることができ、合成信号で発生する知覚的エラーの確率的表現を提供する。 我々は, 細粒度評価が標準mosテストのシステムランキングにマッピング可能であることを確認する実験を行うが, 誤差マーキングは合成韻律をより包括的に評価する。 特に、標準オーディオブックテストセットのサンプルでは、句読点で示される主要な韻律境界で、エラーマークが一貫して単語の周りに集まります。 しかし,情報構造を制御する質問応答型刺激では,文脈に適合した韻律プロミネンスを生成する神経ttsシステムの能力に差が現れる。

Text-to-Speech synthesis systems are generally evaluated using Mean Opinion Score (MOS) tests, where listeners score samples of synthetic speech on a Likert scale. A major drawback of MOS tests is that they only offer a general measure of overall quality-i.e., the naturalness of an utterance-and so cannot tell us where exactly synthesis errors occur. This can make evaluation of the appropriateness of prosodic variation within utterances inconclusive. To address this, we propose a novel evaluation method based on the Rapid Prosody Transcription paradigm. This allows listeners to mark the locations of errors in an utterance in real-time, providing a probabilistic representation of the perceptual errors that occur in the synthetic signal. We conduct experiments that confirm that the fine-grained evaluation can be mapped to system rankings of standard MOS tests, but the error marking gives a much more comprehensive assessment of synthesized prosody. In particular, for standard audiobook test set samples, we see that error marks consistently cluster around words at major prosodic boundaries indicated by punctuation. However, for question-answer based stimuli, where we control information structure, we see differences emerge in the ability of neural TTS systems to generate context-appropriate prosodic prominence.
翻訳日:2021-07-07 21:42:27 公開日:2021-07-06
# (参考訳) AdaSpeech 3:自発スタイルの音声への適応テキスト

AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style ( http://arxiv.org/abs/2107.02530v1 )

ライセンス: CC BY 4.0
Yuzi Yan, Xu Tan, Bohan Li, Guangyan Zhang, Tao Qin, Sheng Zhao, Yuan Shen, Wei-Qiang Zhang, Tie-Yan Liu(参考訳) 最近のテキスト・ツー・スピーチ(tts)モデルは、読み方(例えば、オーディオブック)の音声合成において非常によく機能するが、主に2つの理由から、自発的な音声(例えば、ポッドキャストや会話)を合成することは依然として困難である。 本稿では,自発的音声の読み上げ型ttsモデルを微調整した適応型ttsシステムadaspeech 3を開発した。 Specifically, 1) to insert filled pauses (FP) in the text sequence appropriately, we introduce an FP predictor to the TTS model; 2) to model the varying rhythms, we introduce a duration predictor based on mixture of experts (MoE), which contains three experts responsible for the generation of fast, medium and slow speech respectively, and fine-tune it as well as the pitch predictor for rhythm adaptation; 3) to adapt to other speaker timbre, we fine-tune some parameters in the decoder with few speech data. 学習データ不足の課題に対処するため,本研究を支援するために,自発音声データセットをマイニングし,将来的なTTS研究を促進する。 実験により、AdaSpeech 3は自然なFPとリズムを自然のスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSのスコアを得ることが示された。

While recent text to speech (TTS) models perform very well in synthesizing reading-style (e.g., audiobook) speech, it is still challenging to synthesize spontaneous-style speech (e.g., podcast or conversation), mainly because of two reasons: 1) the lack of training data for spontaneous speech; 2) the difficulty in modeling the filled pauses (um and uh) and diverse rhythms in spontaneous speech. In this paper, we develop AdaSpeech 3, an adaptive TTS system that fine-tunes a well-trained reading-style TTS model for spontaneous-style speech. Specifically, 1) to insert filled pauses (FP) in the text sequence appropriately, we introduce an FP predictor to the TTS model; 2) to model the varying rhythms, we introduce a duration predictor based on mixture of experts (MoE), which contains three experts responsible for the generation of fast, medium and slow speech respectively, and fine-tune it as well as the pitch predictor for rhythm adaptation; 3) to adapt to other speaker timbre, we fine-tune some parameters in the decoder with few speech data. To address the challenge of lack of training data, we mine a spontaneous speech dataset to support our research this work and facilitate future research on spontaneous TTS. Experiments show that AdaSpeech 3 synthesizes speech with natural FP and rhythms in spontaneous styles, and achieves much better MOS and SMOS scores than previous adaptive TTS systems.
翻訳日:2021-07-07 21:29:44 公開日:2021-07-06
# (参考訳) 放射状ニューラルネットワークにおけるQR分解

The QR decomposition for radial neural networks ( http://arxiv.org/abs/2107.02550v1 )

ライセンス: CC BY 4.0
Iordan Ganev, Robin Walters(参考訳) 本稿では,クイバーの表現論の観点からニューラルネットワークの理論的枠組みを提案し,ニューラルネットワークのパラメータ空間の対称性を明らかにする。 これらの対称性の活用により、QR分解の類似に基づくラジアルニューラルネットワークのモデル圧縮アルゴリズムが実現される。 オリジナルのモデルでのバックプロパゲーションの投影バージョンは、圧縮モデルでの通常のバックプロパゲーションと一致する。

We provide a theoretical framework for neural networks in terms of the representation theory of quivers, thus revealing symmetries of the parameter space of neural networks. An exploitation of these symmetries leads to a model compression algorithm for radial neural networks based on an analogue of the QR decomposition. A projected version of backpropogation on the original model matches usual backpropogation on the compressed model.
翻訳日:2021-07-07 21:16:41 公開日:2021-07-06
# (参考訳) 構造シーンにおける自律走行のためのHDマップを用いた粗大なセマンティック位置決め

Coarse-to-fine Semantic Localization with HD Map for Autonomous Driving in Structural Scenes ( http://arxiv.org/abs/2107.02557v1 )

ライセンス: CC BY-SA 4.0
Chengcheng Guo, Minjie Lin, Heyang Guo, Pengpeng Liang and Erkang Cheng(参考訳) ロバストで正確な位置決めは、ロボットのナビゲーションと自動運転に欠かせない要素である。 高精細マップ(HD Map)を用いたローカライズのためのカメラの使用は、安価なローカライズセンサーセットを提供する。 既存の手法では、エラーが生じたデータアソシエーションや、正確な初期ポーズ要求による初期化によるポーズ推定の失敗に悩まされている。 本稿では,カメラを主センサとする自律運転用HDマップを用いたコスト効率の高い車両位置決めシステムを提案する。 この目的のために、視覚的セマンティクスをHDマップのランドマークにマップするデータ関連問題として視覚ベースのローカライゼーションを定式化する。 具体的には、粗いGPS(Global Positioning System)測定と細かなポーズ探索を組み合わせることで、粗い方法でシステム初期化を完了させる。 追跡段階において、車両のポーズは、画像とランドマークのセマンティックセグメンテーション結果を、光度一貫性のあるHDマップに暗黙的にアライメントすることで洗練される。 そして、スライディングウインドウ方式のポーズグラフ最適化により車両ポーズを算出する。 本手法は2つのデータセット上で評価し,提案手法が異なる運転シナリオにおいて有望なローカライズ結果をもたらすことを示す。 さらに,本手法は,一眼レフカメラとマルチカメラの両方に適しており,フレキシビリティとローカライゼーションシステムの堅牢性向上を実現している。

Robust and accurate localization is an essential component for robotic navigation and autonomous driving. The use of cameras for localization with high definition map (HD Map) provides an affordable localization sensor set. Existing methods suffer from pose estimation failure due to error prone data association or initialization with accurate initial pose requirement. In this paper, we propose a cost-effective vehicle localization system with HD map for autonomous driving that uses cameras as primary sensors. To this end, we formulate vision-based localization as a data association problem that maps visual semantics to landmarks in HD map. Specifically, system initialization is finished in a coarse to fine manner by combining coarse GPS (Global Positioning System) measurement and fine pose searching. In tracking stage, vehicle pose is refined by implicitly aligning the semantic segmentation result between image and landmarks in HD maps with photometric consistency. Finally, vehicle pose is computed by pose graph optimization in a sliding window fashion. We evaluate our method on two datasets and demonstrate that the proposed approach yields promising localization results in different driving scenarios. Additionally, our approach is suitable for both monocular camera and multi-cameras that provides flexibility and improves robustness for the localization system.
翻訳日:2021-07-07 20:42:35 公開日:2021-07-06
# (参考訳) 学習し、学習し、まだ学べない点の優先訓練

Prioritized training on points that are learnable, worth learning, and not yet learned ( http://arxiv.org/abs/2107.02565v1 )

ライセンス: CC BY 4.0
S\"oren Mindermann, Muhammed Razzak, Winnie Xu, Andreas Kirsch, Mrinank Sharma, Adrien Morisot, Aidan N. Gomez, Sebastian Farquhar, Jan Brauner, Yarin Gal(参考訳) 我々は,"正しい"トレーニングポイントのシーケンスを選択する,より高速なモデルトレーニングのための手法であるgoldilocks selectionを紹介する。 検証セットに関する情報を最大化するトレーニングポイントを効率的に選択するために、情報理論的な取得関数 -- 還元可能な検証損失 -- を提案し、小さなプロキシモデル -- goldiprox -- で計算する。 ハード”(例えば、ハード)を示す。 通常最適化文学で選択される)ポイントはノイズが多いが、"easy"(例えば)はノイズが多い。 低いノイズ) カリキュラム学習のために 優先されるサンプルは 少ない情報を与える さらに、アクティブラーニングを対象とする不確実なラベルを持つポイントは、タスクにはあまり関連しない傾向にある。 対照的に、Goldilocks Selectionは「正しい」点を選択し、上記のアプローチを経験的に上回っている。 さらに、選択されたシーケンスは他のアーキテクチャに転送できる。

We introduce Goldilocks Selection, a technique for faster model training which selects a sequence of training points that are "just right". We propose an information-theoretic acquisition function -- the reducible validation loss -- and compute it with a small proxy model -- GoldiProx -- to efficiently choose training points that maximize information about a validation set. We show that the "hard" (e.g. high loss) points usually selected in the optimization literature are typically noisy, while the "easy" (e.g. low noise) samples often prioritized for curriculum learning confer less information. Further, points with uncertain labels, typically targeted by active learning, tend to be less relevant to the task. In contrast, Goldilocks Selection chooses points that are "just right" and empirically outperforms the above approaches. Moreover, the selected sequence can transfer to other architectures; practitioners can share and reuse it without the need to recreate it.
翻訳日:2021-07-07 20:31:12 公開日:2021-07-06
# (参考訳) dcase 2021チャレンジタスク4における騒音学生モデルと半教師付き損失関数を用いた自己学習

Self-training with noisy student model and semi-supervised loss function for dcase 2021 challenge task 4 ( http://arxiv.org/abs/2107.02569v1 )

ライセンス: CC BY 4.0
Nam Kyun Kim and Hong Kook Kim(参考訳) 本報告では,DCASE 2021 Challenge Task 4における多声音事象検出(SED)手法を提案する。 提案するsedモデルは,弱ラベルデータや無ラベルデータに関する目標ラベルを提供する平均教師モデルと,音響イベントの強いラベルを予測する自己学習型雑音学生モデルである。 教師と生徒モデルの残差畳み込みリカレントニューラルネットワーク(rcrnn)に基づく平均教師モデルは、まず弱いラベル付きデータセット、ラベル付きデータセット、強いラベル付き合成データセットからのすべてのトレーニングデータを使用してトレーニングされる。 そして、訓練された平均教師モデルは、弱ラベル付きおよび未ラベル付きデータセットのそれぞれに強いラベルを予測し、提案したSEDモデルの第2段階でノイズの多い学生モデルに導かれる。 ここで,ノイズの大きい学生モデルの構造は,第1段階における平均教師モデルのrcrnnに基づく学生モデルと同一である。 次に、時間周波数シフト、ミックスアップ、SpecAugment、ドロップアウトベースのモデルノイズなどの特徴ノイズを追加することで、自己学習を行う。 さらに, 半教師付き損失関数を適用し, ラベルノイズインジェクションとして振る舞う学生モデルの学習を行う。 提案したSEDモデルの性能はDCASE 2021チャレンジタスク4の検証セットに基づいて評価され、その後、半教師付き損失関数の異なるハイパーパラメータと5倍の検証モデルを組み合わせた複数のアンサンブルモデルが最終的に最終モデルとして選択される。

This report proposes a polyphonic sound event detection (SED) method for the DCASE 2021 Challenge Task 4. The proposed SED model consists of two stages: a mean-teacher model for providing target labels regarding weakly labeled or unlabeled data and a self-training-based noisy student model for predicting strong labels for sound events. The mean-teacher model, which is based on the residual convolutional recurrent neural network (RCRNN) for the teacher and student model, is first trained using all the training data from a weakly labeled dataset, an unlabeled dataset, and a strongly labeled synthetic dataset. Then, the trained mean-teacher model predicts the strong label to each of the weakly labeled and unlabeled datasets, which is brought to the noisy student model in the second stage of the proposed SED model. Here, the structure of the noisy student model is identical to the RCRNN-based student model of the mean-teacher model in the first stage. Then, it is self-trained by adding feature noises, such as time-frequency shift, mixup, SpecAugment, and dropout-based model noise. In addition, a semi-supervised loss function is applied to train the noisy student model, which acts as label noise injection. The performance of the proposed SED model is evaluated on the validation set of the DCASE 2021 Challenge Task 4, and then, several ensemble models that combine five-fold validation models with different hyperparameters of the semi-supervised loss function are finally selected as our final models.
翻訳日:2021-07-07 20:20:26 公開日:2021-07-06
# (参考訳) 代表的重なり点を用いた点雲登録

Point Cloud Registration using Representative Overlapping Points ( http://arxiv.org/abs/2107.02583v1 )

ライセンス: CC BY 4.0
Lifa Zhu, Dongrui Liu, Changwei Lin, Rui Yan, Francisco G\'omez-Fern\'andez, Ninghua Yang, Ziyong Feng(参考訳) 3dポイントクラウド登録は、ロボティクスとコンピュータビジョンの基本的なタスクである。 近年,対応に基づく学習ベースのポイントクラウド登録手法が数多く登場している。 しかし、これらの手法はそのような対応に大きく依存しており、部分的な重複を伴う大きな課題に対処する。 本稿では,部分的~部分的登録を部分的~完全登録に変換する識別特徴を持つ代表重複点を用いた新しい深層学習モデル ROPNetを提案する。 具体的には,エンコーダを用いてポイントオーバーラップスコアの予測にグローバルな特徴を抽出するコンテキスト誘導モジュールを提案する。 重なり合う点をよりよく見つけるために、抽出したグローバルな特徴を粗いアライメントに利用する。 次に,点特徴を豊かにし,点重なりスコアと特徴マッチングに基づく非表現点を除去するトランスを提案する。 類似度行列は部分完全モードで構築され、最後に重み付けされたSVDを用いて変換行列を推定する。 ノイズと部分重複点クラウドを用いたmodelnet40の広範な実験により、提案手法が従来の学習ベースの手法よりも優れており、最先端のパフォーマンスを実現していることが示された。 コードはhttps://github.com/zhulf0804/ROPNetで公開されている。

3D point cloud registration is a fundamental task in robotics and computer vision. Recently, many learning-based point cloud registration methods based on correspondences have emerged. However, these methods heavily rely on such correspondences and meet great challenges with partial overlap. In this paper, we propose ROPNet, a new deep learning model using Representative Overlapping Points with discriminative features for registration that transforms partial-to-partial registration into partial-to-complete registration. Specifically, we propose a context-guided module which uses an encoder to extract global features for predicting point overlap score. To better find representative overlapping points, we use the extracted global features for coarse alignment. Then, we introduce a Transformer to enrich point features and remove non-representative points based on point overlap score and feature matching. A similarity matrix is built in a partial-to-complete mode, and finally, weighted SVD is adopted to estimate a transformation matrix. Extensive experiments over ModelNet40 using noisy and partially overlapping point clouds show that the proposed method outperforms traditional and learning-based methods, achieving state-of-the-art performance. The code is available at https://github.com/zhulf0804/ROPNet.
翻訳日:2021-07-07 20:11:15 公開日:2021-07-06
# (参考訳) 多地点医用画像セグメンテーションのための差動的federated deep learning

Differentially private federated deep learning for multi-site medical image segmentation ( http://arxiv.org/abs/2107.02586v1 )

ライセンス: CC BY 4.0
Alexander Ziller, Dmitrii Usynin, Nicolas Remerscheid, Moritz Knolle, Marcus Makowski, Rickmer Braren, Daniel Rueckert, Georgios Kaissis(参考訳) フェデレートラーニング(FL)のような協調機械学習技術は、データ転送なしで効果的に大規模なデータセット上でモデルのトレーニングを可能にする。 最近のイニシアティブでは、flでトレーニングされたセグメンテーションモデルが、ローカルトレーニングされたモデルと同じようなパフォーマンスを達成できることが示されている。 しかし、flは完全なプライバシー保護技術ではなく、プライバシー中心の攻撃は機密の患者データを開示することができる。 したがって、差分プライバシー(dp)のようなプライバシエンハンシング技術(pts)をflを補完することは、多施設における臨床応用の要件である。 医療画像におけるPTの応用、プライバシ保証とモデルユーティリティのトレードオフ、トレーニングパフォーマンスへの影響、攻撃に対する最終モデルの受容性については、まだ決定的な調査が行われていない。 本稿では,計算トモグラフィにおけるセマンティックセグメンテーションの課題に対する差分的勾配降下に基づくFLの適用例を示す。 高いセグメンテーション性能は、高いプライバシー保証と許容するトレーニングタイムペナルティの下で実現可能である。 さらに,セマンティクスセグメンテーションモデルに対する最初の勾配ベースモデルインバージョン攻撃を実証し,dpの適用により感度の高い画像特徴の漏洩を防止できることを示した。

Collaborative machine learning techniques such as federated learning (FL) enable the training of models on effectively larger datasets without data transfer. Recent initiatives have demonstrated that segmentation models trained with FL can achieve performance similar to locally trained models. However, FL is not a fully privacy-preserving technique and privacy-centred attacks can disclose confidential patient data. Thus, supplementing FL with privacy-enhancing technologies (PTs) such as differential privacy (DP) is a requirement for clinical applications in a multi-institutional setting. The application of PTs to FL in medical imaging and the trade-offs between privacy guarantees and model utility, the ramifications on training performance and the susceptibility of the final models to attacks have not yet been conclusively investigated. Here we demonstrate the first application of differentially private gradient descent-based FL on the task of semantic segmentation in computed tomography. We find that high segmentation performance is possible under strong privacy guarantees with an acceptable training time penalty. We furthermore demonstrate the first successful gradient-based model inversion attack on a semantic segmentation model and show that the application of DP prevents it from divulging sensitive image features.
翻訳日:2021-07-07 19:54:36 公開日:2021-07-06
# (参考訳) ハイレベルなプリエントを持つステートレスアクタ-criticのインスタンスセグメンテーション

Stateless actor-critic for instance segmentation with high-level priors ( http://arxiv.org/abs/2107.02600v1 )

ライセンス: CC BY 4.0
Paul Hilt, Edgar Kaziakhmedov, Sourabh Bhide, Maria Leptin, Constantin Pape, Anna Kreshuk(参考訳) インスタンスセグメンテーションは重要なコンピュータビジョン問題であり、ディープラーニングベースの手法による最近の顕著な進歩にもかかわらず、依然として挑戦的である。 十分なトレーニングデータがあれば、完全に教師された手法は優れたパフォーマンスが得られるが、特にドメインの専門家が行う必要があるバイオメディカルな応用において、地平データのアノテーションは大きなボトルネックとなっている。 必要なラベルの量は、セグメント化を導くために事前知識から派生したルールを使用することで大幅に削減できる。 しかし、これらの規則は一般に微分不可能であり、既存の方法では使用できない。 ここでは,非微分的報酬を可能にするステートレスアクタ批評家強化学習を用いて,この要件を緩和する。 対象の分割問題をグラフ分割として定式化し,対象の形状,位置,大きさの上位レベルに対する分割されたインスタンスの適合性に基づいて,報酬によって引き起こされるエッジ重みを予測する。 おもちゃと実際のデータセットの実験は、豊富な事前セットのみに基づいて直接監督することなく、優れたパフォーマンスを達成できることを示しています。

Instance segmentation is an important computer vision problem which remains challenging despite impressive recent advances due to deep learning-based methods. Given sufficient training data, fully supervised methods can yield excellent performance, but annotation of ground-truth data remains a major bottleneck, especially for biomedical applications where it has to be performed by domain experts. The amount of labels required can be drastically reduced by using rules derived from prior knowledge to guide the segmentation. However, these rules are in general not differentiable and thus cannot be used with existing methods. Here, we relax this requirement by using stateless actor critic reinforcement learning, which enables non-differentiable rewards. We formulate the instance segmentation problem as graph partitioning and the actor critic predicts the edge weights driven by the rewards, which are based on the conformity of segmented instances to high-level priors on object shape, position or size. The experiments on toy and real datasets demonstrate that we can achieve excellent performance without any direct supervision based only on a rich set of priors.
翻訳日:2021-07-07 19:42:59 公開日:2021-07-06
# (参考訳) ヒューリスティック計画のためのメタ強化学習

Meta-Reinforcement Learning for Heuristic Planning ( http://arxiv.org/abs/2107.02603v1 )

ライセンス: CC BY 4.0
Ricardo Luna Gutierrez and Matteo Leonetti(参考訳) メタ強化学習(Meta-Reinforcement Learning、Meta-RL)では、エージェントは、新しい、見えない、しかし関連するタスクの準備と学習のために一連のタスクで訓練される。 トレーニングタスクは通常、予想されるテストタスクの分布を表すために手作りされるため、トレーニングで使用される。 トレーニングタスクのセットが与えられた場合、トレーニングタスクが適切に選択された場合、学習がより迅速かつ効果的であること(テストタスクのパフォーマンス向上につながる)が示されます。 本稿では,メタRLにおける学習に使用されるタスクの集合を,その生成方法に関係なく最適化する情報理論に基づくタスク選択アルゴリズムITTSを提案する。 アルゴリズムは、どのトレーニングタスクがテストタスクに十分な意味を持ち、互いに十分な差異があるかを決定する。 文献から異なるメタRL実験を再現し、ITTSが最終性能を改善することを示す。

In Meta-Reinforcement Learning (meta-RL) an agent is trained on a set of tasks to prepare for and learn faster in new, unseen, but related tasks. The training tasks are usually hand-crafted to be representative of the expected distribution of test tasks and hence all used in training. We show that given a set of training tasks, learning can be both faster and more effective (leading to better performance in the test tasks), if the training tasks are appropriately selected. We propose a task selection algorithm, Information-Theoretic Task Selection (ITTS), based on information theory, which optimizes the set of tasks used for training in meta-RL, irrespectively of how they are generated. The algorithm establishes which training tasks are both sufficiently relevant for the test tasks, and different enough from one another. We reproduce different meta-RL experiments from the literature and show that ITTS improves the final performance in all of them.
翻訳日:2021-07-07 19:21:19 公開日:2021-07-06
# (参考訳) セマンティックWebサービスの機能パラメータを知って発見する方法

How to Discover a Semantic Web Service by Knowing Its Functionality Parameters ( http://arxiv.org/abs/2107.02609v1 )

ライセンス: CC BY 4.0
Golsa Heidari, Kamran Zamanifar, Naser Nematbakhsh, Farhad Mardookhi(参考訳) 本稿では,web サービスのリポジトリ間におけるセマンティック web サービスの発見方法を示す。 関数の類似性を計算することに基づくwebサービスディスカバリの新しいアプローチ。 Ontology Web Language (OWL)でWebサービス機能を定義します。 2つのWebサービスのパラメータを比較するためのルールを書きました。 提案アルゴリズムは2つのWebサービスの入力/出力パラメータを2部グラフで比較する。 類似度をFord-Fulkersonアルゴリズムを用いて計算する。 類似度が高いほど、それらの関数の違いが少なくなる。 最終的に、我々のアルゴリズムは最も類似性の高いサービスを選択する。 その結果,既存のサービスを置き換えるのに適したWebサービスを見つける必要がある場合,本手法は有用である。 特に自律システムでは、フェールしたWebサービスに基づくアプリケーションの可用性を確保する必要があるため、この状況は非常に一般的で重要なのです。 私たちはUDDI(Universal Description, Discovery and Integration)準拠のWebサービスレジストリを使用しています。

In this work, we show how to discover a semantic web service among a repository of web services. A new approach for web service discovery based on calculating the functions similarity. We define the Web service functions with Ontology Web Language (OWL). We wrote some rules for comparing two web services` parameters. Our algorithm compares the parameters of two web services` inputs/outputs by making a bipartite graph. We compute the similarity rate by using the Ford-Fulkerson algorithm. The higher the similarity, the less are the differences between their functions. At last, our algorithm chooses the service which has the highest similarity. As a consequence, our method is useful when we need to find a web service suitable to replace an existing one that has failed. Especially in autonomic systems, this situation is very common and important since we need to ensure the availability of the application which is based on the failed web service. We use Universal Description, Discovery and Integration (UDDI) compliant web service registry.
翻訳日:2021-07-07 19:06:32 公開日:2021-07-06
# (参考訳) 深部画像の事前再構成と残余再構成によるハイパースペクトルパンシャープニング

Hyperspectral Pansharpening Based on Improved Deep Image Prior and Residual Reconstruction ( http://arxiv.org/abs/2107.02630v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) ハイパースペクトルパノシャーペンは、低解像度のハイパースペクトル画像(LR-HSI)を登録されたパンクロマティック画像(PAN)で合成し、高スペクトル・空間解像度のHSIを生成することを目的としている。 近年提案されているhsパンシャープニング法は,(1)lr-hsiのアップサンプリング,(2)convnetによる残留画像の予測,(3)第1および第2ステップからの出力の追加による最終融合hsiの3段階からなる深い畳み込みネットワーク(convnets)を用いて顕著な結果を得た。 近年のDIP(Deep Image Prior)は,大規模なデータセットから学習することなく,空間情報とスペクトル情報の両方を保存できることから,LR-HSIのアップサンプリングに活用されている。 しかし,従来のスペクトル領域エネルギー関数に空間領域制約を付加することにより,アップサンプリングhsisの品質をさらに向上できることがわかった。 空間領域の制約を予測されたPAN画像と実際のPAN画像との距離$L_1$と定義する。 アップサンプリングされたHSIのPAN像を推定するために,学習可能なスペクトル応答関数(SRF)を提案する。 また,アップサンプリングしたhsiと参照hsiとの間の残像は,主にエッジ情報と非常に微細な構造から構成されていることに気付いた。 詳細な情報を正確に推定するために,深い層の増加を抑えることによって高レベルの特徴を学習することに焦点を当てた,HyperKiteと呼ばれる新しいオーバーコンプリートネットワークを提案する。 3つのHSIデータセットで実験を行い、最先端のパンシャーピング法よりもDIP-HyperKiteの方が優れていることを示す。 DIP-HyperKiteのデプロイコード、事前トレーニングされたモデル、最終融合出力、および比較に使用されるメソッドは、https://github.com/wgcban/DIP-HyperKite.gitで公開されます。

Hyperspectral pansharpening aims to synthesize a low-resolution hyperspectral image (LR-HSI) with a registered panchromatic image (PAN) to generate an enhanced HSI with high spectral and spatial resolution. Recently proposed HS pansharpening methods have obtained remarkable results using deep convolutional networks (ConvNets), which typically consist of three steps: (1) up-sampling the LR-HSI, (2) predicting the residual image via a ConvNet, and (3) obtaining the final fused HSI by adding the outputs from first and second steps. Recent methods have leveraged Deep Image Prior (DIP) to up-sample the LR-HSI due to its excellent ability to preserve both spatial and spectral information, without learning from large data sets. However, we observed that the quality of up-sampled HSIs can be further improved by introducing an additional spatial-domain constraint to the conventional spectral-domain energy function. We define our spatial-domain constraint as the $L_1$ distance between the predicted PAN image and the actual PAN image. To estimate the PAN image of the up-sampled HSI, we also propose a learnable spectral response function (SRF). Moreover, we noticed that the residual image between the up-sampled HSI and the reference HSI mainly consists of edge information and very fine structures. In order to accurately estimate fine information, we propose a novel over-complete network, called HyperKite, which focuses on learning high-level features by constraining the receptive from increasing in the deep layers. We perform experiments on three HSI datasets to demonstrate the superiority of our DIP-HyperKite over the state-of-the-art pansharpening methods. The deployment codes, pre-trained models, and final fusion outputs of our DIP-HyperKite and the methods used for the comparisons will be publicly made available at https://github.com/wgcban/DIP-HyperKite.git.
翻訳日:2021-07-07 18:58:15 公開日:2021-07-06
# (参考訳) docsynth: 制御可能な文書画像合成のためのレイアウトガイド手法

DocSynth: A Layout Guided Approach for Controllable Document Image Synthesis ( http://arxiv.org/abs/2107.02638v1 )

ライセンス: CC BY-SA 4.0
Sanket Biswas, Pau Riba, Josep Llad\'os and Umapada Pal(参考訳) 現在の最先端画像生成モデルでは大きな進歩があったが、複数の複雑なオブジェクトレイアウトを含む文書画像の合成は難しい課題である。 本稿では,与えられたレイアウトに基づいて文書画像を自動的に合成する,docsynthと呼ばれる新しい手法を提案する。 本研究では,ユーザが参照する空間的レイアウト(オブジェクトカテゴリを持つバウンディングボックス)を考慮し,提案するDocSynthモデルを用いて,定義したレイアウトに整合した現実的な文書画像の集合を生成する。 また、このフレームワークは、文書レイアウト分析タスクのトレーニング中に実際のデータを拡張するための合成文書画像データセットを作成するための優れたベースラインモデルとして、この仕事に適応している。 モデルパフォーマンスを改善するために、さまざまな学習目標も使用されています。 また,モデル生成結果と実データとを標準評価指標を用いて定量的に比較した。 その結果,複数のオブジェクトを用いた実写的かつ多彩な文書画像の生成を成功させることができた。 また,合成画像生成タスクの異なるスコープの包括的定性解析概要を示す。 最後に、私たちの知る限りでは、これがこの種の最初の作品です。

Despite significant progress on current state-of-the-art image generation models, synthesis of document images containing multiple and complex object layouts is a challenging task. This paper presents a novel approach, called DocSynth, to automatically synthesize document images based on a given layout. In this work, given a spatial layout (bounding boxes with object categories) as a reference by the user, our proposed DocSynth model learns to generate a set of realistic document images consistent with the defined layout. Also, this framework has been adapted to this work as a superior baseline model for creating synthetic document image datasets for augmenting real data during training for document layout analysis tasks. Different sets of learning objectives have been also used to improve the model performance. Quantitatively, we also compare the generated results of our model with real data using standard evaluation metrics. The results highlight that our model can successfully generate realistic and diverse document images with multiple objects. We also present a comprehensive qualitative analysis summary of the different scopes of synthetic image generation tasks. Lastly, to our knowledge this is the first work of its kind.
翻訳日:2021-07-07 18:28:03 公開日:2021-07-06
# (参考訳) モデル記述者にとってデータセットの複雑さは重要か?

Does Dataset Complexity Matters for Model Explainers? ( http://arxiv.org/abs/2107.02661v1 )

ライセンス: CC BY 4.0
Jos\'e Ribeiro, Ra\'issa Silva, Ronnie Alves(参考訳) 説明可能な人工知能に基づく戦略 - XAIはブラックボックスモデルによる予測の理解を深めるため、コンピューティングに登場した。 今日使われているほとんどのXAIベースのツールは、これらのモデルを説明し、属性のランキング、すなわち属性の重要度の分析を生成する。 XAIツールが一般的な説明可能性の階級を生成するかについては合意が得られていないが、そのため、ツールの提案がいくつか現れている(Ciu, Dalex, Eli5, Lofo, Shap, Skater)。 本稿では、異なる問題に関連する表データに基づいて、モデルに依存しないグローバルな説明可能性ランキングを作成することができる説明可能なAI技術の実験ベンチマークを示す。 さまざまなツールによって生成された説明は、同じ、似ている、あるいは異なるものなのか? データ複雑性はモデル説明可能性にどのように影響しますか? 82の計算モデルと592のランクを構築した結果、説明可能性の問題の反対側にいくつか光を当てています。

Strategies based on Explainable Artificial Intelligence - XAI have emerged in computing to promote a better understanding of predictions made by black box models. Most XAI-based tools used today explain these types of models, generating attribute rankings aimed at explaining the same, that is, the analysis of Attribute Importance. There is no consensus on which XAI tool generates a general rank of explainability, for this reason, several proposals for tools have emerged (Ciu, Dalex, Eli5, Lofo, Shap and Skater). Here, we present an experimental benchmark of explainable AI techniques capable of producing model-agnostic global explainability ranks based on tabular data related to different problems. Seeking to answer questions such as "Are the explanations generated by the different tools the same, similar or different?" and "How does data complexity play along model explainability?". The results from the construction of 82 computational models and 592 ranks give us some light on the other side of the problem of explainability: dataset complexity!
翻訳日:2021-07-07 18:09:43 公開日:2021-07-06
# (参考訳) ハイブリッド・コンボリューション・アテンション・ニューラルアーキテクチャによる肺炎の重症度予測

COVID-19 Pneumonia Severity Prediction using Hybrid Convolution-Attention Neural Architectures ( http://arxiv.org/abs/2107.02672v1 )

ライセンス: CC BY 4.0
Nam Nguyen, J. Morris Chang(参考訳) 本研究では、データ中心とモデル中心のアプローチを組み合わせた、新型コロナウイルス重症度予測の新しいフレームワークを提案する。 まず,調査データセットの極めて怖いデータシナリオに対して,データ中心の事前学習を提案する。 次に、Transformer と Hopfield ネットワークからの自己アテンションを利用する2つのハイブリッド畳み込み型ニューラルネットワークを提案する。 提案手法は,従来のベースラインアプローチから大幅に改善されている。 R^2 = 0.85 \pm 0.05$およびピアソン相関係数$\rho = 0.92 \pm 0.02$、R^2 = 0.72 \pm 0.09, \rho = 0.85\pm 0.06$を不透明度予測で達成した。

This study proposed a novel framework for COVID-19 severity prediction, which is a combination of data-centric and model-centric approaches. First, we propose a data-centric pre-training for extremely scare data scenarios of the investigating dataset. Second, we propose two hybrid convolution-attention neural architectures that leverage the self-attention from Transformer and Hopfield networks. Our proposed approach achieves significant improvement from the conventional baseline approach. The best model from our proposed approach achieves $R^2 = 0.85 \pm 0.05$ and Pearson correlation coefficient $\rho = 0.92 \pm 0.02$ in geographic extend and $R^2 = 0.72 \pm 0.09, \rho = 0.85\pm 0.06$ in opacity prediction.
翻訳日:2021-07-07 17:59:33 公開日:2021-07-06
# (参考訳) 一般価値関数のための統一オフポリシー評価手法

A Unified Off-Policy Evaluation Approach for General Value Function ( http://arxiv.org/abs/2107.02711v1 )

ライセンス: CC BY 4.0
Tengyu Xu, Zhuoran Yang, Zhaoran Wang, Yingbin Liang(参考訳) general value function (gvf) は強化学習(rl)における「em予測」と「emふりかえり」の知識の両方を表現する強力なツールである。 実際には、しばしば複数の相互関連GVFを、事前に収集されたオフ・ポリケーシのサンプルと共同で評価する必要がある。 文献では,gvfsの評価には勾配時間差(gtd)学習法が採用されているが,関数近似クラスが十分に表現可能であったとしても,推定誤差が大きい可能性がある。 さらに、以前の研究は、関数近似設定の下で基底真理 GVF への収束保証を正式に確立していない。 本稿では, 報酬分散, 値勾配, 異常検出のコスト, 定常分布勾配など, 幅広いrl応用をカバーする, 因果フィルタリング付きgvfsのクラスのレンズを通して, 両問題に対処する。 我々は,GVFの非政治的評価のためのGenTDと呼ばれる新しいアルゴリズムを提案し,GenTDが単一正準スカラー値関数と同じくらい効率的に複数の多次元GVFを学習することを示す。 さらに、GTDとは異なり、GenTDによる学習されたGVFは、関数近似力が十分に大きい限り、基底真理GVFに収束することが保証されていることを示す。 我々の知る限り、GenTDはグローバルな最適性を保証する最初の非政治GVF評価アルゴリズムである。

General Value Function (GVF) is a powerful tool to represent both the {\em predictive} and {\em retrospective} knowledge in reinforcement learning (RL). In practice, often multiple interrelated GVFs need to be evaluated jointly with pre-collected off-policy samples. In the literature, the gradient temporal difference (GTD) learning method has been adopted to evaluate GVFs in the off-policy setting, but such an approach may suffer from a large estimation error even if the function approximation class is sufficiently expressive. Moreover, none of the previous work have formally established the convergence guarantee to the ground truth GVFs under the function approximation settings. In this paper, we address both issues through the lens of a class of GVFs with causal filtering, which cover a wide range of RL applications such as reward variance, value gradient, cost in anomaly detection, stationary distribution gradient, etc. We propose a new algorithm called GenTD for off-policy GVFs evaluation and show that GenTD learns multiple interrelated multi-dimensional GVFs as efficiently as a single canonical scalar value function. We further show that unlike GTD, the learned GVFs by GenTD are guaranteed to converge to the ground truth GVFs as long as the function approximation power is sufficiently large. To our best knowledge, GenTD is the first off-policy GVF evaluation algorithm that has global optimality guarantee.
翻訳日:2021-07-07 17:46:22 公開日:2021-07-06
# (参考訳) マンモグラフィにおけるてんかん不確実性を用いたサブグループ格差の評価

Evaluating subgroup disparity using epistemic uncertainty in mammography ( http://arxiv.org/abs/2107.02716v1 )

ライセンス: CC BY 4.0
Charles Lu, Andreanne Lemay, Katharina Hoebel, Jayashree Kalpathy-Cramer(参考訳) 機械学習(ml)が臨床意思決定に影響を与える医療システムに統合され続ける中、臨床ワークフローにおける説明責任と一般化可能性を確保するために、サブグループ格差を効果的に検出し評価するために、新たな戦略を組み込む必要がある。 本稿では,33の臨床施設から収集した108,190個のマンモグラムのデータセットを用いて,乳房密度評価のための患者集団(レース)とデータ取得(スキャナ)サブグループ間の格差を評価するために,疫学的な不確実性をいかに活用するかを検討する。 その結果,集合的性能が同等であっても,不確実性定量化指標の選択は部分群レベルを著しく向上できることがわかった。 この分析が、不確実性をどのように活用し、臨床展開のための機械学習アプリケーションの透明性を高めるか、さらなる研究を促進することを願っている。

As machine learning (ML) continue to be integrated into healthcare systems that affect clinical decision making, new strategies will need to be incorporated in order to effectively detect and evaluate subgroup disparities to ensure accountability and generalizability in clinical workflows. In this paper, we explore how epistemic uncertainty can be used to evaluate disparity in patient demographics (race) and data acquisition (scanner) subgroups for breast density assessment on a dataset of 108,190 mammograms collected from 33 clinical sites. Our results show that even if aggregate performance is comparable, the choice of uncertainty quantification metric can significantly the subgroup level. We hope this analysis can promote further work on how uncertainty can be leveraged to increase transparency of machine learning applications for clinical deployment.
翻訳日:2021-07-07 17:45:09 公開日:2021-07-06
# (参考訳) 前景認識型スタイライゼーションとコンセンサス擬似ラベルによる人手セグメンテーションのドメイン適応

Foreground-Aware Stylization and Consensus Pseudo-Labeling for Domain Adaptation of First-Person Hand Segmentation ( http://arxiv.org/abs/2107.02718v1 )

ライセンス: CC BY 4.0
Takehiko Ohkawa, Takuma Yagi, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato(参考訳) ハンドセグメンテーションは、一人称視覚において重要なタスクである。 1人称画像は、異なる環境の外観に強い偏見を示すため、手話分割において、トレーニング済みのセグメンテーションモデルを新しい領域に適応させる必要がある。 ここでは,手領域と背景の外観ギャップを別々に検討する。 i)手分割の領域適応のための前景認識画像スタイリングと (ii) コンセンサス擬似ラベルを提案する。 我々は、ターゲットイメージをスタイルとして、前景と背景のソースイメージを独立にスタイリングする。 スタイル化が未解決の領域シフトを解決するために,ソース上でトレーニングされたモデルとスタイル化されたソースイメージとのコンセンサスを考慮し,注意深い擬似ラベルを適用する。 実画像およびシミュレーション画像からのハンドセグメンテーションの領域適応について検証した。 本手法は両設定で最先端の性能を達成した。 また、マルチターゲットドメイン適応とドメイン一般化設定に挑戦する有望な結果を示した。 コードはhttps://github.com/ut-vision/FgSty-CPLで入手できる。

Hand segmentation is a crucial task in first-person vision. Since first-person images exhibit strong bias in appearance among different environments, adapting a pre-trained segmentation model to a new domain is required in hand segmentation. Here, we focus on appearance gaps for hand regions and backgrounds separately. We propose (i) foreground-aware image stylization and (ii) consensus pseudo-labeling for domain adaptation of hand segmentation. We stylize source images independently for the foreground and background using target images as style. To resolve the domain shift that the stylization has not addressed, we apply careful pseudo-labeling by taking a consensus between the models trained on the source and stylized source images. We validated our method on domain adaptation of hand segmentation from real and simulation images. Our method achieved state-of-the-art performance in both settings. We also demonstrated promising results in challenging multi-target domain adaptation and domain generalization settings. Code is available at https://github.com/ut-vision/FgSty-CPL.
翻訳日:2021-07-07 17:35:20 公開日:2021-07-06
# (参考訳) adarl: 転校強化学習にどのように適応するか、どこで、どのように適応するか

AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning ( http://arxiv.org/abs/2107.02729v1 )

ライセンス: CC BY-SA 4.0
Biwei Huang, Fan Feng, Chaochao Lu, Sara Magliacane, Kun Zhang(参考訳) 強化学習(RL)におけるほとんどのアプローチは、データハングリーであり、固定環境に特有のものである。 本稿では,AdaRLと呼ばれる適応RLの原理的フレームワークを提案する。 具体的には、システム内の変数間の構造的関係に関する生成環境モデルを構築し、その変更をコンパクトな方法で埋め込むことにより、変更がどこにあり、どのように適応するかを特定するための明確で解釈可能な図を提供する。 環境モデルに基づいて、ドメイン固有因子とドメイン共有状態表現の両方を含む最小限の表現を特徴付け、信頼性と低コストの転送に十分である。 さらに,変化をエンコードするためにコンパクト表現を明示的に活用することにより,ターゲット領域のさらなるポリシー最適化を行なわずに,少数のサンプルでポリシーを適応できることを示す。 本稿では,AdaRLがCartpole と Atari の異なるコンポーネントに変化を与える一連の実験を通じて有効性を示す。

Most approaches in reinforcement learning (RL) are data-hungry and specific to fixed environments. In this paper, we propose a principled framework for adaptive RL, called AdaRL, that adapts reliably to changes across domains. Specifically, we construct a generative environment model for the structural relationships among variables in the system and embed the changes in a compact way, which provides a clear and interpretable picture for locating what and where the changes are and how to adapt. Based on the environment model, we characterize a minimal set of representations, including both domain-specific factors and domain-shared state representations, that suffice for reliable and low-cost transfer. Moreover, we show that by explicitly leveraging a compact representation to encode changes, we can adapt the policy with only a few samples without further policy optimization in the target domain. We illustrate the efficacy of AdaRL through a series of experiments that allow for changes in different components of Cartpole and Atari games.
翻訳日:2021-07-07 17:15:22 公開日:2021-07-06
# (参考訳) 生成モデルに対する証明可能なリプシッツ認証

Provable Lipschitz Certification for Generative Models ( http://arxiv.org/abs/2107.02732v1 )

ライセンス: CC BY 4.0
Matt Jordan, Alexandros G. Dimakis(参考訳) 本稿では,生成モデルのリプシッツ定数を上限とするスケーラブルな手法を提案する。 この量を与えられた生成モデルの到達可能なベクトル-ヤコブ積の集合上の極大ノルムに関連付ける。 この集合をゾノトープを用いた層状凸近似により近似する。 本稿では,zonotope変換器を用いた先行作業の一般化と改善を行い,出力次元が大きいニューラルネットワークのリプシッツ推定に拡張する。 これにより、小さなネットワーク上で効率的かつ厳密なバウンダリを提供し、VAEおよびDCGANアーキテクチャ上の生成モデルにスケールすることができる。

We present a scalable technique for upper bounding the Lipschitz constant of generative models. We relate this quantity to the maximal norm over the set of attainable vector-Jacobian products of a given generative model. We approximate this set by layerwise convex approximations using zonotopes. Our approach generalizes and improves upon prior work using zonotope transformers and we extend to Lipschitz estimation of neural networks with large output dimension. This provides efficient and tight bounds on small networks and can scale to generative models on VAE and DCGAN architectures.
翻訳日:2021-07-07 17:13:34 公開日:2021-07-06
# (参考訳) ニューラルコンピューティング

Neural Computing ( http://arxiv.org/abs/2107.02744v1 )

ライセンス: CC BY-SA 4.0
Ayushe Gangal, Peeyush Kumar, Sunita Kumari and Aditya Kumar(参考訳) This chapter aims to provide next-level understanding of the problems of the world and the solutions available to those problems, which lie very well within the domain of neural computing, and at the same time are intelligent in their approach, to invoke a sense of innovation among the educationalists, researchers, academic professionals, students and people concerned, by highlighting the work done by major researchers and innovators in this field and thus, encouraging the readers to develop newer and more advanced techniques for the same. 本章では社会問題について論じ、これまでに提示された理論や研究によっても様々な解決法が提示されている。 これまでに発見されたさまざまなタイプのニューラルネットワークと、それらのニューラルネットワークの応用は、その理論的理解とは別に、アプリケーションに関わる動作とコアの概念に焦点を当てている。

This chapter aims to provide next-level understanding of the problems of the world and the solutions available to those problems, which lie very well within the domain of neural computing, and at the same time are intelligent in their approach, to invoke a sense of innovation among the educationalists, researchers, academic professionals, students and people concerned, by highlighting the work done by major researchers and innovators in this field and thus, encouraging the readers to develop newer and more advanced techniques for the same. By means of this chapter, the societal problems are discussed and various solutions are also given by means of the theories presented and researches done so far. Different types of neural networks discovered so far and applications of some of those neural networks are focused on, apart from their theoretical understanding, the working and core concepts involved in the applications.
翻訳日:2021-07-07 16:41:31 公開日:2021-07-06
# (参考訳) 多項式時間におけるMAJORITY-3SAT(と関連する問題)

MAJORITY-3SAT (and Related Problems) in Polynomial Time ( http://arxiv.org/abs/2107.02748v1 )

ライセンス: CC BY 4.0
Shyan Akmal and Ryan Williams(参考訳) Majority-SAT は、入力 $n$-variable formula in conjunctive normal form (CNF) が割り当てを満たす少なくとも 2^{n-1}$ を持つかどうかを決定する問題である。 マジョリティSATと関連する問題は、確率的計画と推論の複雑さに関心を持つ様々なAIコミュニティで広く研究されている。 Majority-SAT は 40 年以上にわたって PP 完全であることが知られているが、自然変分法の複雑さは開のままである: Majority-$k$SAT は入力 CNF 公式が最大で k$ の節幅を持つように制限されている。 実のところ、任意の正の整数 $k$ と有理の$\rho \in (0,1)$ に対して、与えられた$k$-cnf が少なくとも$\rho \cdot 2^n$ を満たす代入を持つかどうかを決定論的線形時間で決定できるアルゴリズムを与える。 我々のアルゴリズムは、複雑性と推論の複雑さを数えることに興味深いポジティブな意味を持ち、e-maj-$k$sat や maj-maj-$k$sat のような関連する問題の既知の複雑さを著しく減少させる。 提案手法の核心は, 対応するセットシステムである$k$-CNFのサンフラワーを抽出することにより, しきい値計数問題の解法である。 また、Majority-$k$SATのトラクタビリティがやや脆弱であることも示します。 密接な関係にある gtmajority-sat 問題(与えられた公式が 2^{n-1}$ 以上の満足する代入を持つかどうかを問う場合)に対して、gtmajority-$k$sat は p において $k\le 3$ であるが、$k\geq 4$ で np-complete となる。 これらの結果は直感的ではない、なぜならこれらの問題の ``natural'' 分類は PP-完全性 であり、またすべての$k\ge 4$に対して GtMajority-$k$SAT と Majority-$k$SAT の複雑さに大きな違いがあるからである。

Majority-SAT is the problem of determining whether an input $n$-variable formula in conjunctive normal form (CNF) has at least $2^{n-1}$ satisfying assignments. Majority-SAT and related problems have been studied extensively in various AI communities interested in the complexity of probabilistic planning and inference. Although Majority-SAT has been known to be PP-complete for over 40 years, the complexity of a natural variant has remained open: Majority-$k$SAT, where the input CNF formula is restricted to have clause width at most $k$. We prove that for every $k$, Majority-$k$SAT is in P. In fact, for any positive integer $k$ and rational $\rho \in (0,1)$ with bounded denominator, we give an algorithm that can determine whether a given $k$-CNF has at least $\rho \cdot 2^n$ satisfying assignments, in deterministic linear time (whereas the previous best-known algorithm ran in exponential time). Our algorithms have interesting positive implications for counting complexity and the complexity of inference, significantly reducing the known complexities of related problems such as E-MAJ-$k$SAT and MAJ-MAJ-$k$SAT. At the heart of our approach is an efficient method for solving threshold counting problems by extracting sunflowers found in the corresponding set system of a $k$-CNF. We also show that the tractability of Majority-$k$SAT is somewhat fragile. For the closely related GtMajority-SAT problem (where we ask whether a given formula has greater than $2^{n-1}$ satisfying assignments) which is known to be PP-complete, we show that GtMajority-$k$SAT is in P for $k\le 3$, but becomes NP-complete for $k\geq 4$. These results are counterintuitive, because the ``natural'' classifications of these problems would have been PP-completeness, and because there is a stark difference in the complexity of GtMajority-$k$SAT and Majority-$k$SAT for all $k\ge 4$.
翻訳日:2021-07-07 16:15:24 公開日:2021-07-06
# (参考訳) 不確実性下におけるシークエンシャル決定の因果説明

Counterfactual Explanations in Sequential Decision Making Under Uncertainty ( http://arxiv.org/abs/2107.02776v1 )

ライセンス: CC BY 4.0
Stratis Tsirtsis, Abir De, Manuel Gomez-Rodriguez(参考訳) カウンターファクトな説明を見つける方法は、主に1ステップの意思決定プロセスに焦点を当てている。 本研究では,複数の従属行動が時間とともに順次行われる意思決定プロセスに対して,反事実的説明を求める手法の開発を開始する。 まず、有限地平線マルコフ決定過程とグンベル・マックス構造因果モデルを用いて、動作と状態の列を形式的に特徴付ける。 この特徴に基づいて,逐次的意思決定プロセスにおける反事実的説明を求める問題を形式的に述べる。 問題の定式化において、反事実的説明は、観察されたプロセスの実現をよりよい結果に導く可能性のある観測されたシーケンスから、最大kアクションで異なるアクションの別のシーケンスを特定する。 次に, 動的計画法に基づく多項式時間アルゴリズムを導入し, 相反環境力学の可能な全ての実現について, 常に最適な相反的説明を提供することが保証される相反的ポリシーを構築する。 認知行動療法から得られた合成データと実データの両方を用いてアルゴリズムを検証し,不確実性下での逐次的意思決定を促進するために,アルゴリズムが発見する反事実的説明が貴重な知見となることを示す。

Methods to find counterfactual explanations have predominantly focused on one step decision making processes. In this work, we initiate the development of methods to find counterfactual explanations for decision making processes in which multiple, dependent actions are taken sequentially over time. We start by formally characterizing a sequence of actions and states using finite horizon Markov decision processes and the Gumbel-Max structural causal model. Building upon this characterization, we formally state the problem of finding counterfactual explanations for sequential decision making processes. In our problem formulation, the counterfactual explanation specifies an alternative sequence of actions differing in at most k actions from the observed sequence that could have led the observed process realization to a better outcome. Then, we introduce a polynomial time algorithm based on dynamic programming to build a counterfactual policy that is guaranteed to always provide the optimal counterfactual explanation on every possible realization of the counterfactual environment dynamics. We validate our algorithm using both synthetic and real data from cognitive behavioral therapy and show that the counterfactual explanations our algorithm finds can provide valuable insights to enhance sequential decision making under uncertainty.
翻訳日:2021-07-07 16:13:51 公開日:2021-07-06
# (参考訳) エッジコンピューティングを用いたビデオ監視システムにおける異常検出

Anomaly Detection using Edge Computing in Video Surveillance System: Review ( http://arxiv.org/abs/2107.02778v1 )

ライセンス: CC BY 4.0
Devashree R. Patrikar, Mayur Rajram Parate(参考訳) スマートシティの現在の概念は、都市計画者や研究者に近代的で安全で持続可能なインフラを提供し、住民に適切な生活の質を与えるよう影響を与えている。 これを実現するために、市民の安全と幸福を高めるためにビデオ監視カメラが配備された。 現代科学の技術的発展にもかかわらず、監視ビデオシステムにおける異常事象の検出は困難であり、徹底的な人間の努力を必要とする。 本稿では,知的ビデオ監視における異常を検出するために開発された様々な手法について調査した。 まず,過去10年間の異常検出に関する調査を再考する。 そこで我々は,理解しやすい手法を体系的に分類した。 異常の概念は文脈によって異なるので、異常検出において関心の対象と公開データセットを識別する。 異常検出はコンピュータビジョンの時間的クリティカルな応用と考えられるため、エッジデバイスを用いた異常検出とそれ用に明示的に設計されたアプローチに重点を置いている。 さらに,エッジにおける異常検出に関わる課題と機会について考察する。

The current concept of Smart Cities influences urban planners and researchers to provide modern, secured and sustainable infrastructure and give a decent quality of life to its residents. To fulfill this need video surveillance cameras have been deployed to enhance the safety and well-being of the citizens. Despite technical developments in modern science, abnormal event detection in surveillance video systems is challenging and requires exhaustive human efforts. In this paper, we surveyed various methodologies developed to detect anomalies in intelligent video surveillance. Firstly, we revisit the surveys on anomaly detection in the last decade. We then present a systematic categorization of methodologies developed for ease of understanding. Considering the notion of anomaly depends on context, we identify different objects-of-interest and publicly available datasets in anomaly detection. Since anomaly detection is considered a time-critical application of computer vision, our emphasis is on anomaly detection using edge devices and approaches explicitly designed for them. Further, we discuss the challenges and opportunities involved in anomaly detection at the edge.
翻訳日:2021-07-07 15:48:24 公開日:2021-07-06
# (参考訳) 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー

Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy ( http://arxiv.org/abs/2107.02780v1 )

ライセンス: CC BY 4.0
Anish Agarwal and Rahul Singh(参考訳) 最も注意深く計算された経済データセットでさえ、ノイズ、欠落、離散化、または民営化の変数を持っている。 経験的研究の標準的なワークフローは、データのクリーニングと、データクリーニングのバイアスと分散結果を無視したデータ分析である。 劣化データを用いた因果推論のための半パラメトリックモデルを定式化し,データクリーニングとデータ解析の両方を包含する。 本稿では,データクリーニング,推定,およびデータクリーニング調整された信頼区間による推論のための新しいエンドツーエンド手法を提案する。 有限サンプル引数による因果パラメータ推定器のルート-n整合性,ガウス近似,半パラメトリック効率を証明した。 我々の重要な仮定は、真の共変量は概して低いランクであるということである。 解析では,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を与える。 シミュレーションにおいて,データのクリーニング調整された信頼区間のカバレッジを検証する。

Even the most carefully curated economic data sets have variables that are noisy, missing, discretized, or privatized. The standard workflow for empirical research involves data cleaning followed by data analysis that typically ignores the bias and variance consequences of data cleaning. We formulate a semiparametric model for causal inference with corrupted data to encompass both data cleaning and data analysis. We propose a new end-to-end procedure for data cleaning, estimation, and inference with data cleaning-adjusted confidence intervals. We prove root-n consistency, Gaussian approximation, and semiparametric efficiency for our estimator of the causal parameter by finite sample arguments. Our key assumption is that the true covariates are approximately low rank. In our analysis, we provide nonasymptotic theoretical contributions to matrix completion, statistical learning, and semiparametric statistics. We verify the coverage of the data cleaning-adjusted confidence intervals in simulations.
翻訳日:2021-07-07 15:16:56 公開日:2021-07-06
# (参考訳) SAGE: 侵入アラート駆動の攻撃グラフエクストラクタ

SAGE: Intrusion Alert-driven Attack Graph Extractor ( http://arxiv.org/abs/2107.02783v1 )

ライセンス: CC BY 4.0
Azqa Nadeem, Sicco Verwer, Stephen Moskal, Shanchieh Jay Yang(参考訳) 攻撃グラフ(AG)は、サイバー敵がネットワークに侵入する経路を評価するために用いられる。 ag生成に関する最先端のアプローチは、ネットワークスキャンと専門家の知識に基づくシステム脆弱性間の依存関係の導出に重点を置いている。 しかし、現実の運用では、常に脆弱性スキャンと専門家が作成したagsに頼るのは費用がかかり、非効率である。 我々は、専門家の事前知識なしに侵入警報によって観察された行動に基づいてAGを自動的に学習することを提案する。 具体的には,接尾辞に基づく確率的決定論的有限オートマトン(s-pdfa)における警告間の時間的および確率的依存性を活用した教師なしシーケンス学習システムsageを開発した。 AGはS-PDFAから派生する。 Collegiate Peretration Testing Competitionを通じて収集された侵入アラートを使ってSAGEは、参加チームによって使用される戦略を反映したAGを生成する。 結果として得られたAGは簡潔で解釈可能であり、アナリストが行動可能な洞察を導き出せるようにしている。

Attack graphs (AG) are used to assess pathways availed by cyber adversaries to penetrate a network. State-of-the-art approaches for AG generation focus mostly on deriving dependencies between system vulnerabilities based on network scans and expert knowledge. In real-world operations however, it is costly and ineffective to rely on constant vulnerability scanning and expert-crafted AGs. We propose to automatically learn AGs based on actions observed through intrusion alerts, without prior expert knowledge. Specifically, we develop an unsupervised sequence learning system, SAGE, that leverages the temporal and probabilistic dependence between alerts in a suffix-based probabilistic deterministic finite automaton (S-PDFA) -- a model that accentuates infrequent severe alerts and summarizes paths leading to them. AGs are then derived from the S-PDFA. Tested with intrusion alerts collected through Collegiate Penetration Testing Competition, SAGE produces AGs that reflect the strategies used by participating teams. The resulting AGs are succinct, interpretable, and enable analysts to derive actionable insights, e.g., attackers tend to follow shorter paths after they have discovered a longer one.
翻訳日:2021-07-07 15:15:33 公開日:2021-07-06
# (参考訳) ディープオートエンコーダとニューラルODEを用いた環境流体力学のデータ駆動還元秩序モデリング

Data-driven reduced order modeling of environmental hydrodynamics using deep autoencoders and neural ODEs ( http://arxiv.org/abs/2107.02784v1 )

ライセンス: CC BY 4.0
Sourav Dutta, Peter Rivera-Casillas, Orie M. Cecil, Matthew W. Farthing, Emma Perracchione, Mario Putti(参考訳) 流体シミュレーションのモデル還元は、多くの科学および工学分野において大きな関心を寄せ続けている。 先行研究 [arxiv:2104.13962] では, 減次モデルにおける潜在空間ダイナミクスを伝播する非侵入的手法として, 神経常微分方程式 (node) を用いた。 そこで本研究では, 減弱基底表現の探索にディープオートエンコーダを用い, そのダイナミクスをNODEで近似する。 潜時空間を表現するディープオートエンコーダの能力は、従来の固有直交分解(POD)アプローチと比較される。 さらに,PODと放射基底関数の補間と動的モード分解に基づく2つの古典的非侵入的手法との比較を行った。 実験では,シリンダーまわりの非圧縮性流れと,エチューリンシステムにおける浅層水力力学の実世界の応用について検討した。 この結果から, 深部オートエンコーダは非線形多様体学習を利用して空間情報の高効率な圧縮を実現し, 時間的ダイナミクスをNODEフレームワークで捉えるのに適した潜時空間を定義することができた。

Model reduction for fluid flow simulation continues to be of great interest across a number of scientific and engineering fields. In a previous work [arXiv:2104.13962], we explored the use of Neural Ordinary Differential Equations (NODE) as a non-intrusive method for propagating the latent-space dynamics in reduced order models. Here, we investigate employing deep autoencoders for discovering the reduced basis representation, the dynamics of which are then approximated by NODE. The ability of deep autoencoders to represent the latent-space is compared to the traditional proper orthogonal decomposition (POD) approach, again in conjunction with NODE for capturing the dynamics. Additionally, we compare their behavior with two classical non-intrusive methods based on POD and radial basis function interpolation as well as dynamic mode decomposition. The test problems we consider include incompressible flow around a cylinder as well as a real-world application of shallow water hydrodynamics in an estuarine system. Our findings indicate that deep autoencoders can leverage nonlinear manifold learning to achieve a highly efficient compression of spatial information and define a latent-space that appears to be more suitable for capturing the temporal dynamics through the NODE framework.
翻訳日:2021-07-07 15:06:12 公開日:2021-07-06
# (参考訳) 深度制御型NeRF:低ビューと高速なフリートレーニング

Depth-supervised NeRF: Fewer Views and Faster Training for Free ( http://arxiv.org/abs/2107.02791v1 )

ライセンス: CC BY 4.0
Kangle Deng, Andrew Liu, Jun-Yan Zhu, and Deva Ramanan(参考訳) ニューラルレーシアンスフィールド(NeRF)モデルの一般的な障害モードは、入力ビューが不十分な場合に不正確なジオメトリを適合させることである。 本稿では,容易に利用できる深度監視を生かした神経放射場学習のためのDS-NeRF(deepth-supervised Neural Radiance Fields)を提案する。 我々の重要な洞察は、学習した幾何を規則化するためにスパース奥行き監視(sparse depth surveillance)が使用できることである。 現状のnerfパイプラインでは、一般的にsfm(structure-from-motion)によって推定される既知のカメラポーズの画像が必要である。 私たちは単に、これらの3dポイントを交差する光線に沿ってレンダリングされた深さが観測された深さに近いことを保証するために損失を追加するだけです。 DS-NeRFはトレーニングの2~6倍の速さで、より正確な画像をレンダリングできることがわかった。 実世界のイメージのトレーニングビューは2つしかなく、DS-NeRFはNeRFと他のスパースビューの亜種を著しく上回っている。 我々の損失はこれらのNeRFモデルと互換性があることを示し、深度は安価で消化しやすい監視信号であることを示した。 最後に,DS-NeRFは走査型深度センサやRGBD再構成出力など,他の種類の深度監視をサポートすることを示す。

One common failure mode of Neural Radiance Field (NeRF) models is fitting incorrect geometries when given an insufficient number of input views. We propose DS-NeRF (Depth-supervised Neural Radiance Fields), a loss for learning neural radiance fields that takes advantage of readily-available depth supervision. Our key insight is that sparse depth supervision can be used to regularize the learned geometry, a crucial component for effectively rendering novel views using NeRF. We exploit the fact that current NeRF pipelines require images with known camera poses that are typically estimated by running structure-from-motion (SFM). Crucially, SFM also produces sparse 3D points that can be used as ``free" depth supervision during training: we simply add a loss to ensure that depth rendered along rays that intersect these 3D points is close to the observed depth. We find that DS-NeRF can render more accurate images given fewer training views while training 2-6x faster. With only two training views on real-world images, DS-NeRF significantly outperforms NeRF as well as other sparse-view variants. We show that our loss is compatible with these NeRF models, demonstrating that depth is a cheap and easily digestible supervisory signal. Finally, we show that DS-NeRF supports other types of depth supervision such as scanned depth sensors and RGBD reconstruction outputs.
翻訳日:2021-07-07 14:39:18 公開日:2021-07-06
# SocialAI: 深層強化学習エージェントにおける社会認知能力のベンチマーク

SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2107.00956v2 )

ライセンス: Link先を確認
Grgur Kova\v{c}, R\'emy Portelas, Katja Hofmann, Pierre-Yves Oudeyer(参考訳) 人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 深層強化学習(Dep Reinforcement Learning, DRL)分野において、この目的は具体的言語使用に関する複数の研究を動機づけた。 しかし、現在のアプローチでは、非常にシンプルで多様でない社会状況におけるコミュニケーションツールとしての言語に焦点が当てられている: 言語の「自然性」は、高い語彙サイズと可変性の概念に還元される。 本稿では,人間レベルのAIを目指すためには,1)複雑で可変な社会的文脈における言語の使用,2)常に進化する社会世界におけるマルチモーダル環境における複雑な具体的コミュニケーションなど,より広範な社会スキルのセットが必要であることを論じる。 認知科学の概念は、AIが人間のような知性に向けてロードマップを描き出すのにどう役立つかを説明します。 最初のステップとして、現在の研究をより広範なソーシャルスキルのセットに拡大することを提案する。 そこで我々は,他の(記述された)ソーシャルエージェントを特徴とする複数のグリッドワールド環境を用いて,DRLエージェントの社会的スキル獲得を評価するベンチマークであるSocialAIを提案する。 次に,最近のsota drlアプローチの限界をsocialai上で検証し,次の社会的エージェントへの重要なステップについて論じる。 ビデオとコードはhttps://sites.google.com/view/socialaiで入手できる。

Building embodied autonomous agents capable of participating in social interactions with humans is one of the main challenges in AI. Within the Deep Reinforcement Learning (DRL) field, this objective motivated multiple works on embodied language use. However, current approaches focus on language as a communication tool in very simplified and non-diverse social situations: the "naturalness" of language is reduced to the concept of high vocabulary size and variability. In this paper, we argue that aiming towards human-level AI requires a broader set of key social skills: 1) language use in complex and variable social contexts; 2) beyond language, complex embodied communication in multimodal settings within constantly evolving social worlds. We explain how concepts from cognitive sciences could help AI to draw a roadmap towards human-like intelligence, with a focus on its social dimensions. As a first step, we propose to expand current research to a broader set of core social skills. To do this, we present SocialAI, a benchmark to assess the acquisition of social skills of DRL agents using multiple grid-world environments featuring other (scripted) social agents. We then study the limits of a recent SOTA DRL approach when tested on SocialAI and discuss important next steps towards proficient social agents. Videos and code are available at https://sites.google.com/view/socialai.
翻訳日:2021-07-07 14:06:54 公開日:2021-07-06
# データ効率の高い深層強化学習のためのアンサンブルと補助タスク

Ensemble and Auxiliary Tasks for Data-Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2107.01904v2 )

ライセンス: Link先を確認
Muhammad Rizki Maulana and Wee Sun Lee(参考訳) アンサンブルタスクと補助タスクはどちらも、データ制限時の機械学習モデルのパフォーマンスを改善するためによく知られている。 しかし、これらの2つの手法の相互作用は、特に深層強化学習の文脈ではよく研究されていない。 本稿では,深層q学習アルゴリズムと組み合わせた場合のアンサンブル課題と補助課題の効果について検討する。 我々はデータ制約下でATARIゲームに関するケーススタディを行う。 さらに,学習の仕方や補助的なタスクの仕方を分析し,その分析を用いてケーススタディの理解を深めるため,改良されたバイアス・分散・共分散分解法を導出する。 私たちのコードはオープンソースで、https://github.com/NUS-LID/RENAULT.comで公開されています。

Ensemble and auxiliary tasks are both well known to improve the performance of machine learning models when data is limited. However, the interaction between these two methods is not well studied, particularly in the context of deep reinforcement learning. In this paper, we study the effects of ensemble and auxiliary tasks when combined with the deep Q-learning algorithm. We perform a case study on ATARI games under limited data constraint. Moreover, we derive a refined bias-variance-covariance decomposition to analyze the different ways of learning ensembles and using auxiliary tasks, and use the analysis to help provide some understanding of the case study. Our code is open source and available at https://github.com/NUS-LID/RENAULT.
翻訳日:2021-07-07 14:06:31 公開日:2021-07-06
# 分類網のPultimate Activationの分布について

On The Distribution of Penultimate Activations of Classification Networks ( http://arxiv.org/abs/2107.01900v2 )

ライセンス: Link先を確認
Minkyo Seo, Yoonho Lee, Suha Kwak(参考訳) 本稿では,分類ネットワークの固有アクティベーションの確率分布について検討する。 分類ネットワークがクロスエントロピー損失で訓練されると、最終分類層は、ペナルティ的活性化の特定の分布に基づく生成的分類器を持つ生成的判別的ペアを形成する。 さらに重要なことに、この分布は最終完全連結層の重みによってパラメータ化され、入力データを供給することなくペナルティメート活性化を合成する生成モデルと見なすことができる。 我々は,この生成モデルによって,領域シフトが存在する場合に安定した知識蒸留が可能となり,クラス条件画像生成のための分類器から変分オートエンコーダ,生成逆ネットワークへ知識を伝達できることを実証的に証明する。

This paper studies probability distributions of penultimate activations of classification networks. We show that, when a classification network is trained with the cross-entropy loss, its final classification layer forms a Generative-Discriminative pair with a generative classifier based on a specific distribution of penultimate activations. More importantly, the distribution is parameterized by the weights of the final fully-connected layer, and can be considered as a generative model that synthesizes the penultimate activations without feeding input data. We empirically demonstrate that this generative model enables stable knowledge distillation in the presence of domain shift, and can transfer knowledge from a classifier to variational autoencoders and generative adversarial networks for class-conditional image generation.
翻訳日:2021-07-07 14:06:20 公開日:2021-07-06
# ディープラーニングスキーマに基づくイベント抽出:文献レビューと最近の動向

Deep Learning Schema-based Event Extraction: Literature Review and Current Trends ( http://arxiv.org/abs/2107.02126v2 )

ライセンス: Link先を確認
Qian Li, Hao Peng, Jianxin Li, Yiming Hei, Rui Sun, Jiawei Sheng, Shu Guo, Lihong Wang, Philip S. Yu(参考訳) スキーマベースのイベント抽出は、イベントの本質的内容を迅速に認識するための重要なテクニックである。 ディープラーニング技術の急速な発展に伴い、ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。 多くの方法、データセット、評価指標が文献に提案されており、包括的かつ更新された調査の必要性が高まっている。 本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。 我々は、スキーマベースのイベント抽出のタスク定義、パラダイム、モデルを要約し、これらのそれぞれを詳細に議論する。 予測と評価指標のテストをサポートするベンチマークデータセットを導入する。 本調査では, 異なる手法の包括的比較を行った。 最後に,研究領域に面した今後の研究方向性をまとめた。

Schema-based event extraction is a critical technique to apprehend the essential content of events promptly. With the rapid development of deep learning technology, event extraction technology based on deep learning has become a research hotspot. Numerous methods, datasets, and evaluation metrics have been proposed in the literature, raising the need for a comprehensive and updated survey. This paper fills the gap by reviewing the state-of-the-art approaches, focusing on deep learning-based models. We summarize the task definition, paradigm, and models of schema-based event extraction and then discuss each of these in detail. We introduce benchmark datasets that support tests of predictions and evaluation metrics. A comprehensive comparison between different techniques is also provided in this survey. Finally, we conclude by summarizing future research directions facing the research area.
翻訳日:2021-07-07 14:06:06 公開日:2021-07-06
# 微細マニフォールド蒸留による高効率ビジョントランス

Efficient Vision Transformers via Fine-Grained Manifold Distillation ( http://arxiv.org/abs/2107.01378v2 )

ライセンス: Link先を確認
Ding Jia, Kai Han, Yunhe Wang, Yehui Tang, Jianyuan Guo, Chao Zhang, Dacheng Tao(参考訳) 本稿では,視覚トランスフォーマのモデル圧縮問題について述べる。 自己注意モジュールの恩恵を受け、トランスフォーマーアーキテクチャは多くのコンピュータビジョンタスクで素晴らしいパフォーマンスを示している。 ネットワーク性能は向上するが、トランスフォーマーはメモリ使用量や推論の複雑さなどの計算資源を必要とすることが多い。 既存の知識蒸留法と比較して,画像と分割パッチの関係から教師変換器から有用な情報を抽出することを提案する。 次に,教師および学生モデルにおいて,クロスイメージ,クロスパッチ,ランダム選択多様体を同時に計算する効率的な細粒度多様体蒸留法を検討する。 いくつかのベンチマークで行った実験の結果は、より高性能な可搬変圧器モデルを蒸留するアルゴリズムが優れていることを示している。 例えば、DiT-TinyモデルのトレーニングのためのImageNet-1kデータセット上で75.06%のTop-1精度を実現し、他のViT蒸留法よりも優れている。

This paper studies the model compression problem of vision transformers. Benefit from the self-attention module, transformer architectures have shown extraordinary performance on many computer vision tasks. Although the network performance is boosted, transformers are often required more computational resources including memory usage and the inference complexity. Compared with the existing knowledge distillation approaches, we propose to excavate useful information from the teacher transformer through the relationship between images and the divided patches. We then explore an efficient fine-grained manifold distillation approach that simultaneously calculates cross-images, cross-patch, and random-selected manifolds in teacher and student models. Experimental results conducted on several benchmarks demonstrate the superiority of the proposed algorithm for distilling portable transformer models with higher performance. For example, our approach achieves 75.06% Top-1 accuracy on the ImageNet-1k dataset for training a DeiT-Tiny model, which outperforms other ViT distillation methods.
翻訳日:2021-07-07 14:05:56 公開日:2021-07-06
# VidLanKD:ビデオ拡散知識伝達による言語理解の改善

VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer ( http://arxiv.org/abs/2107.02681v1 )

ライセンス: Link先を確認
Zineng Tang, Jaemin Cho, Hao Tan, Mohit Bansal(参考訳) 視覚知覚は、世界理解のためのテキスト記述を超えた豊富な情報を与えることができるため、言語学習における視覚基盤の活用への関心が高まっている。 近年,テキスト・画像間検索モデルの予測を言語モデル監督のためのラベルとして用いることで,ボケ化が注目されている。 その成功にもかかわらず、この方法は有限画像ラベルの使用の近似誤差と、小さな画像テキストデータセットの語彙多様性の欠如に苦しむ。 そこで,これらの限界を克服するために,映像言語知識蒸留法vidlankdを提案する。 我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。 近似誤差を避けるために, 異なる知識蒸留目的を用いることを提案する。 さらに、大規模なビデオテキストデータセットを使用することで、多様で豊かな語彙を学ぶことができる。 我々の実験では、VidLanKDはGLUE、SQuAD、SWAGなどの下流言語理解タスクにおいて、テキストのみの言語モデルと音声認識モデルに対して一貫した改善を実現している。 また, GLUE-diagnostics, PIQA, TRACIEデータセットを用いて, 世界の知識, 物理的推論, 時間的推論能力の向上を実証した。 最後に,包括的アブレーション研究と教師と生徒の言語モデルの学習テキストからビデオへの接地結果の可視化について述べる。 私たちのコードとモデルは、https://github.com/zinengtang/VidLanKDで利用可能です。

Since visual perception can give rich information beyond text descriptions for world understanding, there has been increasing interest in leveraging visual grounding for language learning. Recently, vokenization has attracted attention by using the predictions of a text-to-image retrieval model as labels for language model supervision. Despite its success, the method suffers from approximation error of using finite image labels and the lack of vocabulary diversity of a small image-text dataset. To overcome these limitations, we present VidLanKD, a video-language knowledge distillation method for improving language understanding. We train a multi-modal teacher model on a video-text dataset, and then transfer its knowledge to a student language model with a text dataset. To avoid approximation error, we propose to use different knowledge distillation objectives. In addition, the use of a large-scale video-text dataset helps learn diverse and richer vocabularies. In our experiments, VidLanKD achieves consistent improvements over text-only language models and vokenization models, on several downstream language understanding tasks including GLUE, SQuAD, and SWAG. We also demonstrate the improved world knowledge, physical reasoning, and temporal reasoning capabilities of our model by evaluating on the GLUE-diagnostics, PIQA, and TRACIE datasets. Lastly, we present comprehensive ablation studies as well as visualizations of the learned text-to-video grounding results of our teacher and student language models. Our code and models are available at: https://github.com/zinengtang/VidLanKD
翻訳日:2021-07-07 14:05:42 公開日:2021-07-06
# 空間変換器ネットワークによる小児セグメンテーションの改善と高速化のための自動サイズとポーズ均質化

Automatic size and pose homogenization with spatial transformer network to improve and accelerate pediatric segmentation ( http://arxiv.org/abs/2107.02655v1 )

ライセンス: Link先を確認
Giammarco La Barbera and Pietro Gori and Haithem Boussaid and Bruno Belucci and Alessandro Delmonte and Jeanne Goulin and Sabine Sarnacki and Laurence Rouet and Isabelle Bloch(参考訳) ポーズや大きさの多様性が高く、利用可能なデータの数が限られているため、深層学習では小児画像のセグメンテーションが困難である。 本研究では,Spatial Transformer Network (STN) を用いて,ポーズとスケールの不変性を考慮した新しいCNNアーキテクチャを提案する。 我々のアーキテクチャは、トレーニング中に一緒に見積もられる3つの逐次モジュールで構成されている: (i) 類似度行列を推定して入力画像の正規化を行う回帰モジュール、 (ii) セグメントに対する関心領域を見つけるための微分可能なモジュール、 (iii) 人気のあるUNetアーキテクチャに基づくセグメンテーションモジュール。 有限訓練データセットからポーズやスケールのバリエーションを含む複雑なマッピングを学習しようとするオリジナルのunetとは異なり、セグメンテーションモジュールは、正規化されたポーズとサイズの画像に焦点を当てたよりシンプルなマッピングを学習する。 さらに、STNによる自動バウンディングボックス検出を使用することで、同様の性能を維持しながら、特にメモリの節約が可能となる。 腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。 その結果、サイズとポーズのstnの均質化は、標準的なデータ表示(33h)と比較して、分画(25h)を加速し、腎の類似品質(88.01\%のdiceスコア)を得て、腎腫瘍の分画(85.52\%から87.12\%)を改善することが示された。

Due to a high heterogeneity in pose and size and to a limited number of available data, segmentation of pediatric images is challenging for deep learning methods. In this work, we propose a new CNN architecture that is pose and scale invariant thanks to the use of Spatial Transformer Network (STN). Our architecture is composed of three sequential modules that are estimated together during training: (i) a regression module to estimate a similarity matrix to normalize the input image to a reference one; (ii) a differentiable module to find the region of interest to segment; (iii) a segmentation module, based on the popular UNet architecture, to delineate the object. Unlike the original UNet, which strives to learn a complex mapping, including pose and scale variations, from a finite training dataset, our segmentation module learns a simpler mapping focusing on images with normalized pose and size. Furthermore, the use of an automatic bounding box detection through STN allows saving time and especially memory, while keeping similar performance. We test the proposed method in kidney and renal tumor segmentation on abdominal pediatric CT scanners. Results indicate that the estimated STN homogenization of size and pose accelerates the segmentation (25h), compared to standard data-augmentation (33h), while obtaining a similar quality for the kidney (88.01\% of Dice score) and improving the renal tumor delineation (from 85.52\% to 87.12\%).
翻訳日:2021-07-07 14:05:19 公開日:2021-07-06
# 双体系ニューロシンボリック推論を用いた神経シーケンスモデルのコヒーレンスと一貫性の改善

Improving Coherence and Consistency in Neural Sequence Models with Dual-System, Neuro-Symbolic Reasoning ( http://arxiv.org/abs/2107.02794v1 )

ライセンス: Link先を確認
Maxwell Nye, Michael Henry Tessler, Joshua B. Tenenbaum, Brenden M. Lake(参考訳) 人間の推論はしばしば、直感的かつ連想的(system 1)と意図的かつ論理的(system 2)の2つのシステム間の相互作用として理解される。 複雑で構造化されたタスクの実行にますます成功しているニューラルシーケンスモデルは、システム1のメリットと障害モードを示している。 そこで本研究では,System 2にインスパイアされた論理的推論を加えることで,既存のSystem 1のようなシーケンスモデルを改善する軽量でトレーニング不要な方法を模索する。 そこで本研究では,神経シーケンスモデルからの候補生成を記号的推論モジュールを用いて論理的一貫性について検討する。 我々のアプローチでは、神経系1と論理系2の間を仲介するために神経推論を用いる。 その結果、ロバストなストーリー生成とグラウンドド・インストラクション・フォローの結果、このアプローチは神経系世代の一貫性と正確性を高めることができる。

Human reasoning can often be understood as an interplay between two systems: the intuitive and associative ("System 1") and the deliberative and logical ("System 2"). Neural sequence models -- which have been increasingly successful at performing complex, structured tasks -- exhibit the advantages and failure modes of System 1: they are fast and learn patterns from data, but are often inconsistent and incoherent. In this work, we seek a lightweight, training-free means of improving existing System 1-like sequence models by adding System 2-inspired logical reasoning. We explore several variations on this theme in which candidate generations from a neural sequence model are examined for logical consistency by a symbolic reasoning module, which can either accept or reject the generations. Our approach uses neural inference to mediate between the neural System 1 and the logical System 2. Results in robust story generation and grounded instruction-following show that this approach can increase the coherence and accuracy of neurally-based generations.
翻訳日:2021-07-07 14:04:46 公開日:2021-07-06
# 情報ゲインとエルダー次元の関係についての一考察

A Short Note on the Relationship of Information Gain and Eluder Dimension ( http://arxiv.org/abs/2107.02377v1 )

ライセンス: Link先を確認
Kaixuan Huang, Sham M. Kakade, Jason D. Lee, Qi Lei(参考訳) エルダー次元と情報ゲインは、バンディットと強化学習で広く使われている複雑さ尺度である。 eluder次元はもともと関数クラスの一般複雑性測度として提案されたが、それが小さいことが知られている一般的な例は函数空間(ベクトル空間)である。 これらの場合、エルダー次元を上界にする第一の道具は楕円ポテンシャル補題である。 興味深いことに、楕円ポテンシャル補題は線形バンディット/強化学習とその非パラメトリック一般化である情報ゲインの分析においても顕著に特徴付けられる。 これは偶然ではなく、エルダー次元と情報ゲインは、カーネルヒルベルト空間を再現する正確な意味で等価であることを示す。

Eluder dimension and information gain are two widely used methods of complexity measures in bandit and reinforcement learning. Eluder dimension was originally proposed as a general complexity measure of function classes, but the common examples of where it is known to be small are function spaces (vector spaces). In these cases, the primary tool to upper bound the eluder dimension is the elliptic potential lemma. Interestingly, the elliptic potential lemma also features prominently in the analysis of linear bandits/reinforcement learning and their nonparametric generalization, the information gain. We show that this is not a coincidence -- eluder dimension and information gain are equivalent in a precise sense for reproducing kernel Hilbert spaces.
翻訳日:2021-07-07 14:04:01 公開日:2021-07-06
# エンドツーエンド深層クラスタリングのための期待最大化型ニューラルネットワーク混合モデル

Neural Mixture Models with Expectation-Maximization for End-to-end Deep Clustering ( http://arxiv.org/abs/2107.02453v1 )

ライセンス: Link先を確認
Dumindu Tissera, Kasun Vithanage, Rukshan Wijesinghe, Alex Xavier, Sanath Jayasena, Subha Fernando, Ranga Rodrigo(参考訳) 任意のクラスタリングアルゴリズムは、同期的にクラスタをモデル化し、ラベルのないクラスタにデータを割り当てることを学びます。 混合モデルに基づく手法は、予め定義された統計分布を持つクラスタをモデル化し、クラスタの確率に基づいてクラスタにデータを割り当てる。 これらの分布パラメータとメンバー割り当ては、期待最大化(EM)アルゴリズムに従って反復的に洗練される。 しかし、限られた量のパラメータを用いた手作り分布のクラスタ表現性は、ほとんどの実世界のクラスタリングタスクには不十分である。 本稿では,ニューラルネットワークと混合モデルに基づくクラスタリングを実現し,最終層ニューロンを付加変換することにより,近似クラスタ分布出力を実現する。 ネットワークパラメータは、それらの分布のパラメータとして機能する。 その結果、手作りの分布の制限された混合物よりも、エレガントで広く一般化されたクラスタの表現となる。 我々は,Eステップとして前方パス,Mステップとして後方パスが動作するバッチワイズEMイテレーションを通じて,ネットワークのエンドツーエンドをトレーニングする。 画像クラスタリングでは、ミックスベースのEM目的を既存の表現学習手法とともにクラスタリングの対象として用いることができる。 特に,混合EM最適化と整合性最適化が融合すると,クラスタリングにおける単独の整合性最適化性能が向上することを示す。 STL10の63.8%、CIFAR10の58%、CIFAR100の25.9%、MNISTの98.9%の教師なし分類精度で、トレーニングされたネットワークはk-meansに依存した単一ステージのディープクラスタリング手法よりも優れています。

Any clustering algorithm must synchronously learn to model the clusters and allocate data to those clusters in the absence of labels. Mixture model-based methods model clusters with pre-defined statistical distributions and allocate data to those clusters based on the cluster likelihoods. They iteratively refine those distribution parameters and member assignments following the Expectation-Maximization (EM) algorithm. However, the cluster representability of such hand-designed distributions that employ a limited amount of parameters is not adequate for most real-world clustering tasks. In this paper, we realize mixture model-based clustering with a neural network where the final layer neurons, with the aid of an additional transformation, approximate cluster distribution outputs. The network parameters pose as the parameters of those distributions. The result is an elegant, much-generalized representation of clusters than a restricted mixture of hand-designed distributions. We train the network end-to-end via batch-wise EM iterations where the forward pass acts as the E-step and the backward pass acts as the M-step. In image clustering, the mixture-based EM objective can be used as the clustering objective along with existing representation learning methods. In particular, we show that when mixture-EM optimization is fused with consistency optimization, it improves the sole consistency optimization performance in clustering. Our trained networks outperform single-stage deep clustering methods that still depend on k-means, with unsupervised classification accuracy of 63.8% in STL10, 58% in CIFAR10, 25.9% in CIFAR100, and 98.9% in MNIST.
翻訳日:2021-07-07 14:03:33 公開日:2021-07-06
# キャノピー型農業ロボットのための学習視覚ナビゲーション

Learned Visual Navigation for Under-Canopy Agricultural Robots ( http://arxiv.org/abs/2107.02792v1 )

ライセンス: Link先を確認
Arun Narenthiran Sivakumar and Sahil Modi and Mateus Valverde Gasparino and Che Ellis and Andres Eduardo Baquero Velasquez and Girish Chowdhary and Saurabh Gupta(参考訳) 本研究は, 農業用ロボットの視覚誘導自律ナビゲーションシステムについて述べる。 低コストのアンダーキャノピーロボットは、植物キャノピーの下にある作物の列の間を走行し、過剰なキャノピードローンや大型農業機器では不可能なタスクを達成できる。 しかし、キャノピーの下での自律的な移動には、信頼性の低いgpsとlidar、センシングのコストの高騰、農地への挑戦、葉や雑草による雑草、季節や作物の種類による外観の変化など、多くの課題がある。 これらの課題に対処するために,低コストカメラからの単眼RGB画像からの堅牢で一般化可能な認識に機械学習を活用するモジュールシステムを構築し,挑戦的な地形における正確な制御のための予測制御をモデル化する。 当社のシステムであるCropFollowは、25kmを超える広範囲なフィールドテストにおいて、最先端のLiDARベースシステム(286m)よりも優れた、介入1回あたり485mの自律走行を実現しています。

We describe a system for visually guided autonomous navigation of under-canopy farm robots. Low-cost under-canopy robots can drive between crop rows under the plant canopy and accomplish tasks that are infeasible for over-the-canopy drones or larger agricultural equipment. However, autonomously navigating them under the canopy presents a number of challenges: unreliable GPS and LiDAR, high cost of sensing, challenging farm terrain, clutter due to leaves and weeds, and large variability in appearance over the season and across crop types. We address these challenges by building a modular system that leverages machine learning for robust and generalizable perception from monocular RGB images from low-cost cameras, and model predictive control for accurate control in challenging terrain. Our system, CropFollow, is able to autonomously drive 485 meters per intervention on average, outperforming a state-of-the-art LiDAR based system (286 meters per intervention) in extensive field testing spanning over 25 km.
翻訳日:2021-07-07 14:03:08 公開日:2021-07-06
# 偏光天光方向決定人工ニューラルネットワーク

Polarized skylight orientation determination artificial neural network ( http://arxiv.org/abs/2107.02328v1 )

ライセンス: Link先を確認
Huaju Liang, Hongyang Bai, Ke Hu and Xinbo Lv(参考訳) 本稿では,偏光を用いた方向決定のためのニューラルネットワークを提案する。 このニューラルネットワークは特定の拡張畳み込みを持ち、異なる偏光方向の光強度情報を抽出することができる。 そして、ネットワークにおいて、偏光度(DOP)と偏光角度(AOP)を直接抽出する。 さらに, 方向の指数関数符号化をネットワーク出力として設計し, 昆虫の偏光情報の符号化をよりよく反映し, 方向決定の精度を向上させる。 最後に、パブリックな偏光航法データセットを用いてトレーニングと試験を行い、実験の結果、ネットワークの安定性と有効性が確認された。

This paper proposes an artificial neural network to determine orientation using polarized skylight. This neural network has specific dilated convolution, which can extract light intensity information of different polarization directions. Then, the degree of polarization (DOP) and angle of polarization (AOP) are directly extracted in the network. In addition, the exponential function encoding of orientation is designed as the network output, which can better reflect the insect's encoding of polarization information, and improve the accuracy of orientation determination. Finally, training and testing were conducted on a public polarized skylight navigation dataset, and the experimental results proved the stability and effectiveness of the network.
翻訳日:2021-07-07 14:02:32 公開日:2021-07-06
# 円核を畳み込みニューラルネットワークに統合する

Integrating Circle Kernels into Convolutional Neural Networks ( http://arxiv.org/abs/2107.02451v1 )

ライセンス: Link先を確認
Kun He, Chao Li, Yixiao Yang, Gao Huang, John E. Hopcroft(参考訳) 平方核は、畳み込み演算のテンソル計算によく適合するため、現代畳み込みニューラルネットワーク(CNN)の標準単位である。 しかし、人間の視覚系の受容野は実際には円のように等方的である。 本研究の目的は, 等方性受容場を持つ円核を畳み込みに利用することであり, 対応するCNNと正方形カーネルを比べた場合, ほぼ同等の計算量を必要とする。 予備実験では円核の有理性を示す。 次に、トレーニングと推論のために、円周カーネルと正方形カーネルを統合するカーネル強化戦略を提案し、さらに、トレーニング中にカーネルのサイズ/半径を学習できるようにする。 推測の前に円カーネルや統合カーネルを再パラメータ化するので、余分な計算やテストのパラメータオーバヘッドの数を必要としないことに注意してください。 いくつかの標準データセット(ImageNet, CIFAR-10, CIFAR-100)に対する大規模な実験により, 既存のCNNのサークルカーネルや統合カーネルを用いて, 高い競合性能を示した。 具体的には、標準データ拡張によるImageNetでは、MobileNetV3-Smallのパフォーマンスを5.20%、トップ5の3.39%で劇的に向上させ、MobileNetV3-Largeのパフォーマンスを2.16%、トップ5の1.18%で向上させる。

The square kernel is a standard unit for contemporary Convolutional Neural Networks (CNNs), as it fits well on the tensor computation for the convolution operation. However, the receptive field in the human visual system is actually isotropic like a circle. Motivated by this observation, we propose using circle kernels with isotropic receptive fields for the convolution, and our training takes approximately equivalent amount of calculation when compared with the corresponding CNN with square kernels. Our preliminary experiments demonstrate the rationality of circle kernels. We then propose a kernel boosting strategy that integrates the circle kernels with square kernels for the training and inference, and we further let the kernel size/radius be learnable during the training. Note that we reparameterize the circle kernels or integrated kernels before the inference, thus taking no extra computation as well as the number of parameter overhead for the testing. Extensive experiments on several standard datasets, ImageNet, CIFAR-10 and CIFAR-100, using the circle kernels or integrated kernels on typical existing CNNs, show that our approach exhibits highly competitive performance. Specifically, on ImageNet with standard data augmentation, our approach dramatically boosts the performance of MobileNetV3-Small by 5.20% top-1 accuracy and 3.39% top-5 accuracy, and boosts the performance of MobileNetV3-Large by 2.16% top-1 accuracy and 1.18% top-5 accuracy.
翻訳日:2021-07-07 14:02:22 公開日:2021-07-06
# 文脈相関を用いた深度対応マルチグリッド深層ホモグラフィ推定

Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation ( http://arxiv.org/abs/2107.02524v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) ホログラフィー推定は、画像ステッチ、ビデオ安定化、カメラキャリブレーションなどのコンピュータビジョンにおいて重要なタスクである。 従来のホモグラフィ推定法は特徴点の量と分布に大きく依存しており、テクスチャのないシーンではロバスト性に乏しい。 逆に学習ソリューションは、堅牢な深い特徴を学習しようとするが、重複率の低いシーンでは満足できないパフォーマンスを示す。 本稿では,特徴マップ上での長距離相関を捉え,学習フレームワークで柔軟に橋渡しできる文脈相関層を設計することで,この2つの問題を同時に解決する。 さらに,パララックスを用いた深度変化画像の複雑な空間変換を単一ホモグラフィでは表現できないことを考慮し,グローバルからローカルへのマルチグリッドホモグラフィーの予測を提案する。 さらに,新しい深度認識型形状保存損失を導入することで,ネットワークに深度知覚能力を持たせる。 総合ベンチマークデータセットと実世界のデータセットにおいて,本手法が他の最先端ソリューションよりも優れていることを示す広範な実験を行った。 コードとモデルはhttps://github.com/nie-lang/multi-grid-deep-homogarphyで入手できる。

Homography estimation is an important task in computer vision, such as image stitching, video stabilization, and camera calibration. Traditional homography estimation methods heavily depend on the quantity and distribution of feature points, leading to poor robustness in textureless scenes. The learning solutions, on the contrary, try to learn robust deep features but demonstrate unsatisfying performance in the scenes of low overlap rates. In this paper, we address the two problems simultaneously, by designing a contextual correlation layer, which can capture the long-range correlation on feature maps and flexibly be bridged in a learning framework. In addition, considering that a single homography can not represent the complex spatial transformation in depth-varying images with parallax, we propose to predict multi-grid homography from global to local. Moreover, we equip our network with depth perception capability, by introducing a novel depth-aware shape-preserved loss. Extensive experiments demonstrate the superiority of our method over other state-of-the-art solutions in the synthetic benchmark dataset and real-world dataset. The codes and models will be available at https://github.com/nie-lang/Multi-Grid-Deep-Homogarphy.
翻訳日:2021-07-07 14:01:56 公開日:2021-07-06
# 暗黒知識を受け入れる:正規化知識蒸留を用いた領域一般化

Embracing the Dark Knowledge: Domain Generalization Using Regularized Knowledge Distillation ( http://arxiv.org/abs/2107.02629v1 )

ライセンス: Link先を確認
Yufei Wang, Haoliang Li, Lap-pui Chau, Alex C. Kot(参考訳) 畳み込みニューラルネットワークは様々なタスクで広く使われているが、十分なデータと代表データがない場合の一般化能力の欠如は、その実用的応用を妨げる課題の1つである。 本稿では,グラデーションフィルタを新しい正規化項とする知識蒸留フレームワークを基盤とした,知識蒸留法(kddg)と呼ばれる,単純かつ効果的かつプラグ・アンド・プレイの訓練戦略を提案する。 教師ネットワークからの「よりリッチなダークナレッジ」と、提案した勾配フィルタの両方が、マッピングの学習の難しさを低減し、モデルの一般化能力をさらに向上させることが判明した。 また,本手法を既存の最先端ドメイン一般化手法と比較することにより,画像分類,セグメンテーション,強化学習などさまざまなタスクにおけるディープニューラルネットワークの一般化能力を大幅に向上できることを示す実験を行った。 最後に,提案手法がディープニューラルネットワークの一般化にどのように役立つかを理解するため,提案手法を分析するために2つの指標を適用することを提案する。

Though convolutional neural networks are widely used in different tasks, lack of generalization capability in the absence of sufficient and representative data is one of the challenges that hinder their practical application. In this paper, we propose a simple, effective, and plug-and-play training strategy named Knowledge Distillation for Domain Generalization (KDDG) which is built upon a knowledge distillation framework with the gradient filter as a novel regularization term. We find that both the ``richer dark knowledge" from the teacher network, as well as the gradient filter we proposed, can reduce the difficulty of learning the mapping which further improves the generalization ability of the model. We also conduct experiments extensively to show that our framework can significantly improve the generalization capability of deep neural networks in different tasks including image classification, segmentation, reinforcement learning by comparing our method with existing state-of-the-art domain generalization techniques. Last but not the least, we propose to adopt two metrics to analyze our proposed method in order to better understand how our proposed method benefits the generalization capability of deep neural networks.
翻訳日:2021-07-07 14:01:39 公開日:2021-07-06
# オンラインヘイトメッセージ対策におけるNGOの活用

Empowering NGOs in Countering Online Hate Messages ( http://arxiv.org/abs/2107.02472v1 )

ライセンス: Link先を確認
Yi-Ling Chung, Serra Sinem Tekiroglu, Sara Tonelli, Marco Guerini(参考訳) オンラインヘイトスピーチの研究は、主に有害メッセージの自動検出に焦点を当てている。 ヘイトスピーチと戦う効果的な戦略の開発、特にカウンターメッセージの作成にはほとんど関心が向けられていない。 既存の手作業による精査と介入戦略は時間を要するが、自然言語処理の進歩は、憎しみ管理に対する体系的なアプローチを提供する可能性がある。 本稿では、NGOオペレーターがソーシャルメディアデータを監視・分析するために利用できる新しいICTプラットフォームと、反ナラティブな提案ツールを紹介する。 当社のプラットフォームは、イスラモフォビアに対するオペレーターの活動の効率性と効果を高めることを目的としている。 質的,定量的評価により,3カ国で100以上のNGO演算子を用いてプラットフォームをテストする。 その結果,NGOは提案ツールによるプラットフォームソリューションを好んでおり,反物語作成に必要な時間も大幅に減少することがわかった。

Studies on online hate speech have mostly focused on the automated detection of harmful messages. Little attention has been devoted so far to the development of effective strategies to fight hate speech, in particular through the creation of counter-messages. While existing manual scrutiny and intervention strategies are time-consuming and not scalable, advances in natural language processing have the potential to provide a systematic approach to hatred management. In this paper, we introduce a novel ICT platform that NGO operators can use to monitor and analyze social media data, along with a counter-narrative suggestion tool. Our platform aims at increasing the efficiency and effectiveness of operators' activities against islamophobia. We test the platform with more than one hundred NGO operators in three countries through qualitative and quantitative evaluation. Results show that NGOs favor the platform solution with the suggestion tool, and that the time required to produce counter-narratives significantly decreases.
翻訳日:2021-07-07 14:01:19 公開日:2021-07-06
# 非定常環境に対する重み付きガウス過程帯域

Weighted Gaussian Process Bandits for Non-stationary Environments ( http://arxiv.org/abs/2107.02371v1 )

ライセンス: Link先を確認
Yuntian Deng, Xingyu Zhou, Baekjin Kim, Ambuj Tewari, Abhishek Gupta, Ness Shroff(参考訳) 本稿では,非定常環境におけるガウス過程(GP)帯域最適化問題を考察する。 外部の変化を捉えるために、ブラックボックス関数は再生カーネルヒルベルト空間(RKHS)内で時間変化が許される。 この目的のために、重み付きガウス過程回帰に基づく新しい UCB 型アルゴリズム WGP-UCB を開発した。 鍵となる課題は、無限次元の特徴写像を扱う方法である。 そこで我々はカーネル近似技術を活用し、一般に非線形報酬を伴う重み付き時間変化バンディットに対する最初の(頻繁な)サブ線形後悔保証であるサブ線形後悔境界(sublinear regret bound)を証明する。 この結果は、非定常線形帯域と標準GP-UCBアルゴリズムの両方を一般化する。 さらに、一般重み付きガウス過程回帰に対して、新しい濃度不等式が達成される。 また,重み付き最大情報獲得のための普遍上界と重み依存上界も提供する。 これらの結果は、ニュースランキングやアダプティブ価格など、データの重要性や品質を捉えるために重みを適用できるアプリケーションに対して、独立した関心を持つ可能性がある。 最後に,既存の手法と比較した場合,提案アルゴリズムの利点を強調する実験を行った。

In this paper, we consider the Gaussian process (GP) bandit optimization problem in a non-stationary environment. To capture external changes, the black-box function is allowed to be time-varying within a reproducing kernel Hilbert space (RKHS). To this end, we develop WGP-UCB, a novel UCB-type algorithm based on weighted Gaussian process regression. A key challenge is how to cope with infinite-dimensional feature maps. To that end, we leverage kernel approximation techniques to prove a sublinear regret bound, which is the first (frequentist) sublinear regret guarantee on weighted time-varying bandits with general nonlinear rewards. This result generalizes both non-stationary linear bandits and standard GP-UCB algorithms. Further, a novel concentration inequality is achieved for weighted Gaussian process regression with general weights. We also provide universal upper bounds and weight-dependent upper bounds for weighted maximum information gains. These results are potentially of independent interest for applications such as news ranking and adaptive pricing, where weights can be adopted to capture the importance or quality of data. Finally, we conduct experiments to highlight the favorable gains of the proposed algorithm in many cases when compared to existing methods.
翻訳日:2021-07-07 14:00:27 公開日:2021-07-06
# 気象データを用いた干ばつ予測のための機械学習とディープラーニングモデルの評価

An Evaluation of Machine Learning and Deep Learning Models for Drought Prediction using Weather Data ( http://arxiv.org/abs/2107.02517v1 )

ライセンス: Link先を確認
Weiwei Jiang, Jiayun Luo(参考訳) 干ばつは深刻な自然災害であり、長い期間と幅広い影響がある。 干ばつによる損失を減らすため、干ばつ予測は、対応する干ばつ防止と防災対策の基盤となる。 この問題は文献で研究されているが、気象データを用いた機械学習モデルで干ばつを正確に予測できるかどうかは不明である。 この疑問に答えるために、実際の公共データセットをこの研究で活用し、過去90日間の18の気象指標を予測指標として、干ばつレベルを予測した。 包括的なアプローチでは、16の機械学習モデルと16のディープラーニングモデルを評価し比較する。 以上の結果から, 干ばつ予測問題はまだ困難な問題であり, 全ての評価指標に対して, 同時に最高の性能を達成できるモデルが存在しないことが示唆された。 さらなる研究のベンチマークとして、コードと結果はGithubリポジトリで公開されている。

Drought is a serious natural disaster that has a long duration and a wide range of influence. To decrease the drought-caused losses, drought prediction is the basis of making the corresponding drought prevention and disaster reduction measures. While this problem has been studied in the literature, it remains unknown whether drought can be precisely predicted or not with machine learning models using weather data. To answer this question, a real-world public dataset is leveraged in this study and different drought levels are predicted using the last 90 days of 18 meteorological indicators as the predictors. In a comprehensive approach, 16 machine learning models and 16 deep learning models are evaluated and compared. The results show no single model can achieve the best performance for all evaluation metrics simultaneously, which indicates the drought prediction problem is still challenging. As benchmarks for further studies, the code and results are publicly available in a Github repository.
翻訳日:2021-07-07 14:00:09 公開日:2021-07-06
# マルチレベルグラフコントラスト学習

Multi-Level Graph Contrastive Learning ( http://arxiv.org/abs/2107.02639v1 )

ライセンス: Link先を確認
Pengpeng Shao, Tong Liu, Dawei Zhang, Jianhua Tao, Feihu Che, Guohua Yang(参考訳) グラフ表現学習は近年,グラフの各ノードに対する識別的埋め込みの学習を目標とする関心の高まりを招いている。 これらの表現手法のほとんどは教師付き学習に焦点を当てており、ラベル情報に大きく依存している。 しかし、アノテートグラフは現実世界、特に特殊な領域(すなわち)で得られるには高価である。 生物学) アノテータがグラフをラベル付けするドメイン知識を持つ必要がある。 この問題に対処するために、自己教師付き学習はグラフ表現学習の実現可能なソリューションを提供する。 本稿では,グラフの空間ビューを対比することで,グラフデータの堅牢な表現を学習するためのマルチレベルグラフコントラスト学習(MLGCL)フレームワークを提案する。 具体的には,新しい対比的視点 - 位相的および特徴空間的ビューを紹介する。 元のグラフは一階近似構造であり、不確実性や誤差を含むが、符号化特徴によって生成される$k$nnグラフは高階近接を保つ。 したがって、符号化機能によって生成される$k$NNグラフは、補完的なビューを提供するだけでなく、識別表現を抽出するためにGNNエンコーダに適している。 さらに,グラフ構造データの局所的類似性と意味的類似性を同時に保持するマルチレベルコントラストモードを開発した。 MLGCLは、7つのデータセット上の既存の最先端グラフ表現学習法と比較して有望な結果が得られることを示す。

Graph representation learning has attracted a surge of interest recently, whose target at learning discriminant embedding for each node in the graph. Most of these representation methods focus on supervised learning and heavily depend on label information. However, annotating graphs are expensive to obtain in the real world, especially in specialized domains (i.e. biology), as it needs the annotator to have the domain knowledge to label the graph. To approach this problem, self-supervised learning provides a feasible solution for graph representation learning. In this paper, we propose a Multi-Level Graph Contrastive Learning (MLGCL) framework for learning robust representation of graph data by contrasting space views of graphs. Specifically, we introduce a novel contrastive view - topological and feature space views. The original graph is first-order approximation structure and contains uncertainty or error, while the $k$NN graph generated by encoding features preserves high-order proximity. Thus $k$NN graph generated by encoding features not only provide a complementary view, but is more suitable to GNN encoder to extract discriminant representation. Furthermore, we develop a multi-level contrastive mode to preserve the local similarity and semantic similarity of graph-structured data simultaneously. Extensive experiments indicate MLGCL achieves promising results compared with the existing state-of-the-art graph representation learning methods on seven datasets.
翻訳日:2021-07-07 13:59:54 公開日:2021-07-06
# 一般グラフ上の因果的バンディット

Causal Bandits on General Graphs ( http://arxiv.org/abs/2107.02772v1 )

ライセンス: Link先を確認
Aurghya Maiti, Vineet Nair, Gaurav Sinha(参考訳) 因果グラフのみによって指定された因果ベイズネットワーク(cbn)における最善の介入を決定する問題について検討する。 我々は、これをサイド情報を伴う確率的多腕バンディット(mab)問題としてモデル化し、介入はバンディットインスタンスの腕に対応する。 まず,半マルコフ的因果グラフの入力として原子介入や観測不可能な変数を考慮し,入力されたCBNに依存する$M$が,アーム数に比べて非常に小さいような単純な後悔を$\tilde{O}(\sqrt{M/T})$で達成する,簡単な後悔最小化アルゴリズムを提案する。 また、これは、$n$-ary木構造を持つ因果グラフによって記述されるCBNに対してほぼ最適であることを示す。 我々の単純な後悔の最小化の結果は、上界と下界の両方で、入力因果グラフに付加的な構造的制約を仮定する文献に先行する。 特に,提案アルゴリズムの単純な後悔保証は,因果グラフに対するよりニュアンス的な構造制約を考慮することでのみ改善できることを示す。 次に,すべての可観測ノードとアトミック介入を持つ一般的な因果グラフを入力とし,因果関係情報を考慮していない最適なmabアルゴリズムよりも優れた処理を行う累積的後悔最小化アルゴリズムを提案する。 また,両アルゴリズムを文献上で最もよく知られたアルゴリズムと比較した。 私たちの知る限りでは、この研究は原子の介入の下で一般的な因果グラフを持つcbnに対する最初の単純で累積的な後悔の最小化アルゴリズムを提供する。

We study the problem of determining the best intervention in a Causal Bayesian Network (CBN) specified only by its causal graph. We model this as a stochastic multi-armed bandit (MAB) problem with side-information, where the interventions correspond to the arms of the bandit instance. First, we propose a simple regret minimization algorithm that takes as input a semi-Markovian causal graph with atomic interventions and possibly unobservable variables, and achieves $\tilde{O}(\sqrt{M/T})$ expected simple regret, where $M$ is dependent on the input CBN and could be very small compared to the number of arms. We also show that this is almost optimal for CBNs described by causal graphs having an $n$-ary tree structure. Our simple regret minimization results, both upper and lower bound, subsume previous results in the literature, which assumed additional structural restrictions on the input causal graph. In particular, our results indicate that the simple regret guarantee of our proposed algorithm can only be improved by considering more nuanced structural restrictions on the causal graph. Next, we propose a cumulative regret minimization algorithm that takes as input a general causal graph with all observable nodes and atomic interventions and performs better than the optimal MAB algorithm that does not take causal side-information into account. We also experimentally compare both our algorithms with the best known algorithms in the literature. To the best of our knowledge, this work gives the first simple and cumulative regret minimization algorithms for CBNs with general causal graphs under atomic interventions and having unobserved confounders.
翻訳日:2021-07-07 13:59:33 公開日:2021-07-06
# ニューロン数に依存しない精度によるディープネットワーク近似

Deep Network Approximation With Accuracy Independent of Number of Neurons ( http://arxiv.org/abs/2107.02397v1 )

ライセンス: Link先を確認
Zuowei Shen and Haizhao Yang and Shijun Zhang(参考訳) 本稿では,有限個のニューロンを持つすべての連続関数に対する普遍近似性を実現する,単純なフィードフォワードニューラルネットワークを開発した。 これらのニューラルネットワークは、単純な連続活性化関数$\sigma$で設計されており、三角波関数とソフトサイン関数を利用するため、単純である。 我々は、$\sigma$-activated network with width $36d(2d+1)$ and depth $11$が任意に小さい誤差で$d$-dimensioanl hypercube上の任意の連続関数を近似できることを証明する。 したがって、教師付き学習とその関連する回帰問題に対して、これらのネットワークによって生成される仮説空間は、36d(2d+1)\times 11$は連続函数の空間において密度が高い。 さらに、画像分類と信号分類から生じる分類関数は、$36d(2d+1)$とdeep $112$の幅を持つ$\sigma$-activatedネットワークと$\mathbb{R}^d$の対に非結合な有界部分集合が存在し、同じクラスのサンプルが同じ部分集合にあるという仮説空間で生成される。

This paper develops simple feed-forward neural networks that achieve the universal approximation property for all continuous functions with a fixed finite number of neurons. These neural networks are simple because they are designed with a simple and computable continuous activation function $\sigma$ leveraging a triangular-wave function and a softsign function. We prove that $\sigma$-activated networks with width $36d(2d+1)$ and depth $11$ can approximate any continuous function on a $d$-dimensioanl hypercube within an arbitrarily small error. Hence, for supervised learning and its related regression problems, the hypothesis space generated by these networks with a size not smaller than $36d(2d+1)\times 11$ is dense in the space of continuous functions. Furthermore, classification functions arising from image and signal classification are in the hypothesis space generated by $\sigma$-activated networks with width $36d(2d+1)$ and depth $12$, when there exist pairwise disjoint closed bounded subsets of $\mathbb{R}^d$ such that the samples of the same class are located in the same subset.
翻訳日:2021-07-07 13:59:02 公開日:2021-07-06
# 正規化流を用いた暗黙的変分条件サンプリング

Implicit Variational Conditional Sampling with Normalizing Flows ( http://arxiv.org/abs/2107.02474v1 )

ライセンス: Link先を確認
Vincent Moens, Aivar Sootla, Haitham Bou Ammar, Jun Wang(参考訳) 観測結果の一部しか得られない場合, 正規化フローを用いた条件付きサンプリング手法を提案する。 フローのドメインを、サブドメインへのフロー制限が全単射性を保持するように分割できるなら、条件付き変数のlog-probabilityに対する下限を導出することができる。 変動条件流からのシミュレーションは、等式制約を解くために修正される。 筆者らの貢献は3つある:a) 変動分布の選択について詳細な知見を提供する;b) 単射性を保つためにフローの入力空間を分割する方法を提案する;c) 特定の場合における変動分布を最適化する一連の方法を提案する。 広範な実験により,提案手法は推論と分類のために可逆的残差ネットワークに適用できることを示した。

We present a method for conditional sampling with normalizing flows when only part of an observation is available. We rely on the following fact: if the flow's domain can be partitioned in such a way that the flow restrictions to subdomains keep the bijectivity property, a lower bound to the conditioning variable log-probability can be derived. Simulation from the variational conditional flow then amends to solving an equality constraint. Our contribution is three-fold: a) we provide detailed insights on the choice of variational distributions; b) we propose how to partition the input space of the flow to preserve bijectivity property; c) we propose a set of methods to optimise the variational distribution in specific cases. Through extensive experiments, we show that our sampling method can be applied with success to invertible residual networks for inference and classification.
翻訳日:2021-07-07 13:58:43 公開日:2021-07-06
# InfoNCEは変分オートエンコーダである

InfoNCE is a variational autoencoder ( http://arxiv.org/abs/2107.02495v1 )

ライセンス: Link先を確認
Laurence Aitchison(参考訳) 本稿では,教師なし学習手法であるSSVAE (Self-supervised variational autoencoder) の特殊事例として,人気のある自己教師付き学習手法であるInfoNCEについて述べる。 SSVAEは、慎重に選択された暗黙のデコーダを使用してデータを再構築する通常のVAE要件を回避する。 InfoNCEの目的は、簡易なパラメトリック相互情報推定器として動機づけられた。 SSVAEの1つの選択は、SSVAEの目的(すなわち)である。 ELBO)は、相互情報(定数まで)と完全に等しい。 以前の選択肢では、SSVAEの目標はInfoNCE(定数まで)で使われる単純化されたパラメトリックな相互情報推定器と完全に等しい。 重要なことは、簡易なパラメトリックな相互情報推定器の使用は、優れたハイレベルな表現を得るために重要であると考えられており、SSVAEフレームワークは、これらの推定器を選択するために事前情報を使用するための原則化された正当化を提供する。

We show that a popular self-supervised learning method, InfoNCE, is a special case of a new family of unsupervised learning methods, the self-supervised variational autoencoder (SSVAE). SSVAEs circumvent the usual VAE requirement to reconstruct the data by using a carefully chosen implicit decoder. The InfoNCE objective was motivated as a simplified parametric mutual information estimator. Under one choice of prior, the SSVAE objective (i.e. the ELBO) is exactly equal to the mutual information (up to constants). Under an alternative choice of prior, the SSVAE objective is exactly equal to the simplified parametric mutual information estimator used in InfoNCE (up to constants). Importantly, the use of simplified parametric mutual information estimators is believed to be critical to obtain good high-level representations, and the SSVAE framework naturally provides a principled justification for using prior information to choose these estimators.
翻訳日:2021-07-07 13:58:29 公開日:2021-07-06
# 固有の不確実性とその発見方法

Intrinsic uncertainties and where to find them ( http://arxiv.org/abs/2107.02526v1 )

ライセンス: Link先を確認
Francesco Farina, Lawrence Phillips, Nicola J Richmond(参考訳) 本稿では,多くの既存手法を記述・拡張する不確実性推定フレームワークを提案する。 古典的学習にかかわる典型的なハイパーパラメータをランダム変数とみなし、パラメータ空間における様々な不確実性の原因を捉えている。 本稿では,標準ベンチマークデータセットの実践的観点から,どの形式と組み合わせが最も有用かを検討する。 さらに, 広範囲なハイパーパラメータチューニングや大規模アンサンブルを必要とせず, 信頼性の高い不確実性を推定する方法についても論じる。

We introduce a framework for uncertainty estimation that both describes and extends many existing methods. We consider typical hyperparameters involved in classical training as random variables and marginalise them out to capture various sources of uncertainty in the parameter space. We investigate which forms and combinations of marginalisation are most useful from a practical point of view on standard benchmarking data sets. Moreover, we discuss how some marginalisations may produce reliable estimates of uncertainty without the need for extensive hyperparameter tuning and/or large-scale ensembling.
翻訳日:2021-07-07 13:58:12 公開日:2021-07-06
# 逆行訓練によるグラフオートエンコーダの一般化について

On Generalization of Graph Autoencoders with Adversarial Training ( http://arxiv.org/abs/2107.02658v1 )

ライセンス: Link先を確認
Tianjin huang, Yulong Pei, Vlado Menkovski and Mykola Pechenizkiy(参考訳) 逆行訓練は、逆行性摂動に対するモデルの弾力性を高めるためのアプローチである。 このようなアプローチは、より一般化した特徴表現を持つモデルをもたらすことが示されている。 しかし、グラフデータ上のモデルの敵対的トレーニングでは、限定的な研究がなされている。 本稿では, グラフ表現の一般化を, 敵対的学習により向上させるかという疑問を提起する。 本稿では,グラフオートエンコーダ (GAE) と変分グラフオートエンコーダ (VGAE) の2つの強力なノード埋め込み手法を用いて,L2 と L1 の逆学習を定式化する。 3つの主要な応用、すなわち、広範な実験を行う。 リンク予測,ノードクラスタリング,GAEとVGAEのグラフ異常検出,L2とL1の両逆トレーニングがGAEとVGAEの一般化を促進することを示す。

Adversarial training is an approach for increasing model's resilience against adversarial perturbations. Such approaches have been demonstrated to result in models with feature representations that generalize better. However, limited works have been done on adversarial training of models on graph data. In this paper, we raise such a question { does adversarial training improve the generalization of graph representations. We formulate L2 and L1 versions of adversarial training in two powerful node embedding methods: graph autoencoder (GAE) and variational graph autoencoder (VGAE). We conduct extensive experiments on three main applications, i.e. link prediction, node clustering, graph anomaly detection of GAE and VGAE, and demonstrate that both L2 and L1 adversarial training boost the generalization of GAE and VGAE.
翻訳日:2021-07-07 13:58:04 公開日:2021-07-06
# 雑音ラベルに対するアンサンブルノイズロバストk-foldクロスバリデーション選択法

An Ensemble Noise-Robust K-fold Cross-Validation Selection Method for Noisy Labels ( http://arxiv.org/abs/2107.02347v1 )

ライセンス: Link先を確認
Yong Wen, Marcus Kalander, Chanfei Su, Lujia Pan(参考訳) 雑音ラベルが多岐にわたる場合, 頑健で正確なディープニューラルネットワーク(DNN)を訓練する際の問題点を考察する。 大規模なデータセットには、DNNによって記憶されるようなラベルのつかないサンプルが含まれており、パフォーマンスを損なう傾向がある。 適切な処理により、この劣化を緩和することができる。 清潔なサンプルを区別する方法と、ノイズの多いサンプルをどう扱うかという2つの問題があります。 本稿では,雑音データからクリーンサンプルを効果的に選択するためのアンサンブルノイズロバストk-foldクロスバリデーション選択(e-nkcvs)を提案する。 第2の問題は、不確実あるいはおそらく腐敗する可能性のあるラベルを持つと判断されたサンプルに対して、新しい擬似ラベルを作成することである。 E-NKCVSはサンプル毎に複数の予測ラベルを取得し、これらのラベルのエントロピーを用いて擬似ラベルと与えられたラベルに与えられる重みを調整する。 ノイズラベル設定における理論的解析とアルゴリズムの広範な検証を提供する。 我々は,ラベルが手動で異なる雑音比で破損した様々な画像・テキスト分類タスクに対するアプローチを評価する。 さらに、Clothing-1MとWebVisionという、2つの大きな実世界のノイズデータセットも使用されている。 E-NKCVSは、ラベルノイズのかなりの部分に対して高い耐性を示し、最先端の手法よりも一貫して改善されている。 特にノイズ比の高いより難しいデータセットでは、第2のベストモデルよりも大幅に改善できる。 さらに,提案手法は既存のDNN手法と容易に統合でき,ラベルノイズに対する堅牢性を向上させることができる。

We consider the problem of training robust and accurate deep neural networks (DNNs) when subject to various proportions of noisy labels. Large-scale datasets tend to contain mislabeled samples that can be memorized by DNNs, impeding the performance. With appropriate handling, this degradation can be alleviated. There are two problems to consider: how to distinguish clean samples and how to deal with noisy samples. In this paper, we present Ensemble Noise-robust K-fold Cross-Validation Selection (E-NKCVS) to effectively select clean samples from noisy data, solving the first problem. For the second problem, we create a new pseudo label for any sample determined to have an uncertain or likely corrupt label. E-NKCVS obtains multiple predicted labels for each sample and the entropy of these labels is used to tune the weight given to the pseudo label and the given label. Theoretical analysis and extensive verification of the algorithms in the noisy label setting are provided. We evaluate our approach on various image and text classification tasks where the labels have been manually corrupted with different noise ratios. Additionally, two large real-world noisy datasets are also used, Clothing-1M and WebVision. E-NKCVS is empirically shown to be highly tolerant to considerable proportions of label noise and has a consistent improvement over state-of-the-art methods. Especially on more difficult datasets with higher noise ratios, we can achieve a significant improvement over the second-best model. Moreover, our proposed approach can easily be integrated into existing DNN methods to improve their robustness against label noise.
翻訳日:2021-07-07 13:57:03 公開日:2021-07-06
# 位置エンコーディングの再考

Rethinking Positional Encoding ( http://arxiv.org/abs/2107.02561v1 )

ライセンス: Link先を確認
Jianqiao Zheng, Sameera Ramasinghe, Simon Lucey(参考訳) 座標ベースのmlpは、フーリエ特徴の配列として座標位置を符号化することで、高周波情報を保存するという点で、非常に有益である。 これらの位置符号化の有効性の理論的根拠は、フーリエレンズを通してのみ研究されている。 本稿では,非フーリエ埋め込み関数が位置符号化に有効であることを示すことにより,この理解を深める。 さらに,それらの性能は,組込み行列の安定階数と組込み座標間の距離保存とのトレードオフによって決定されることを示した。 さらに,現在普及している位置のフーリエ特徴マッピングが,これらの条件を満たす特別な場合であることを示す。 したがって、シフト基底関数の観点から位置符号化を解析するためのより一般的な理論を提案する。 この目的のために、我々は必要な理論式を開発し、我々の理論的主張が実際に成り立つことを実証的に検証する。 コードはhttps://github.com/osiriszjq/rethinking-positional-encodingで入手できる。

It is well noted that coordinate based MLPs benefit greatly -- in terms of preserving high-frequency information -- through the encoding of coordinate positions as an array of Fourier features. Hitherto, the rationale for the effectiveness of these positional encodings has been solely studied through a Fourier lens. In this paper, we strive to broaden this understanding by showing that alternative non-Fourier embedding functions can indeed be used for positional encoding. Moreover, we show that their performance is entirely determined by a trade-off between the stable rank of the embedded matrix and the distance preservation between embedded coordinates. We further establish that the now ubiquitous Fourier feature mapping of position is a special case that fulfills these conditions. Consequently, we present a more general theory to analyze positional encoding in terms of shifted basis functions. To this end, we develop the necessary theoretical formulae and empirically verify that our theoretical claims hold in practice. Codes available at https://github.com/osiriszjq/Rethinking-positional-encoding.
翻訳日:2021-07-07 13:56:38 公開日:2021-07-06
# ランダムサンプリングによる大規模点雲の意味セグメンテーションの学習

Learning Semantic Segmentation of Large-Scale Point Clouds with Random Sampling ( http://arxiv.org/abs/2107.02389v1 )

ライセンス: Link先を確認
Qingyong Hu, Bo Yang, Linhai Xie, Stefano Rosa, Yulan Guo, Zhihua Wang, Niki Trigoni and Andrew Markham(参考訳) 大規模3次元点雲の効率的なセマンティックセグメンテーションの問題について検討する。 高価なサンプリング技術や計算的に重い前/後処理ステップに頼ることで、既存のアプローチのほとんどは、小規模のポイントクラウド上でのみトレーニングと運用が可能である。 本稿では,大規模クラウドに対して,ポイントごとのセマンティクスを直接推論する,効率的かつ軽量なニューラルネットワークであるRandLA-Netを紹介する。 私たちのアプローチの鍵は、より複雑なポイント選択アプローチではなく、ランダムなポイントサンプリングを使用することです。 驚くべき計算とメモリ効率は高いが、ランダムサンプリングは偶然キー機能を破棄することができる。 そこで我々は,各3次元点に対する受容場を徐々に増加させ,幾何学的詳細を効果的に保存する,新しい局所的特徴集約モジュールを提案する。 比較実験により、我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できることがわかった。 さらに、semantic3d、semantickitti、トロント3d、npm3d、s3disを含む5つの大規模ポイントクラウドデータセットに関する広範な実験により、randra-netの最先端セマンティックセグメンテーション性能が実証された。

We study the problem of efficient semantic segmentation of large-scale 3D point clouds. By relying on expensive sampling techniques or computationally heavy pre/post-processing steps, most existing approaches are only able to be trained and operate over small-scale point clouds. In this paper, we introduce RandLA-Net, an efficient and lightweight neural architecture to directly infer per-point semantics for large-scale point clouds. The key to our approach is to use random point sampling instead of more complex point selection approaches. Although remarkably computation and memory efficient, random sampling can discard key features by chance. To overcome this, we introduce a novel local feature aggregation module to progressively increase the receptive field for each 3D point, thereby effectively preserving geometric details. Comparative experiments show that our RandLA-Net can process 1 million points in a single pass up to 200x faster than existing approaches. Moreover, extensive experiments on five large-scale point cloud datasets, including Semantic3D, SemanticKITTI, Toronto3D, NPM3D and S3DIS, demonstrate the state-of-the-art semantic segmentation performance of our RandLA-Net.
翻訳日:2021-07-07 13:56:24 公開日:2021-07-06
# スマート交通信号制御が空気品質に及ぼす影響

Effects of Smart Traffic Signal Control on Air Quality ( http://arxiv.org/abs/2107.02361v1 )

ライセンス: Link先を確認
Paolo Fazzini, Marco Torre, Valeria Rizza and Francesco Petracchini(参考訳) 都市交通ネットワークにおける適応的交通信号制御(ATSC)は,交通システムに生じる複雑なダイナミクスのため,課題となる。 近年,マルチエージェント深層強化学習(marl)に基づく手法が実験的に研究されている。 これらの手法は,周囲の車両の流れを最適化することを目的とした確率ゲームにおいて,各信号交差点をエージェントとみなす分散手法を提案する。 この設定では、システムはネットワーク全体の利益を示すエージェント間の平衡に向かって進化する。 ma2c(multi-agent a2c)と呼ばれる、確立されたアドバンテージ・アクタ-クリティック(a2c)アルゴリズムのマルチエージェント版が最近開発された。 この観点から、エージェントは他のエージェントと戦略を共有し、エージェントの数や多様性が増大しても学習プロセスを安定化させる。 ボローニャ(イタリア)の2つの交通ネットワークでMA2Cを実験したところ、その作用は環境に放出される汚染物質の量を大幅に減少させることがわかった。

Adaptive traffic signal control (ATSC) in urban traffic networks poses a challenging task due to the complicated dynamics arising in traffic systems. In recent years, several approaches based on multi-agent deep reinforcement learning (MARL) have been studied experimentally. These approaches propose distributed techniques in which each signalized intersection is seen as an agent in a stochastic game whose purpose is to optimize the flow of vehicles in its vicinity. In this setting, the systems evolves towards an equilibrium among the agents that shows beneficial for the whole traffic network. A recently developed multi-agent variant of the well-established advantage actor-critic (A2C) algorithm, called MA2C (multi-agent A2C) exploits the promising idea of some communication among the agents. In this view,the agents share their strategies with other neighbor agents, thereby stabilizing the learning process even when the agents grow in number and variety. We experimented MA2C in two traffic networks located in Bologna (Italy) and found that its action translates into a significant decrease of the amount of pollutants released into the environment.
翻訳日:2021-07-07 13:56:00 公開日:2021-07-06
# ディープリカレントセルネットワークを用いた動的システムパラメータ同定

Dynamical System Parameter Identification using Deep Recurrent Cell Networks ( http://arxiv.org/abs/2107.02427v1 )

ライセンス: Link先を確認
Erdem Akag\"und\"uz and Oguzhan Cifdaloz(参考訳) 本稿では,動的システムのパラメータ同定問題について,ディープラーニング手法を用いて検討する。 主に2階線形時間不変力学系に着目し,減衰因子の同定について検討した。 GRUs,LSTMs,BiLSTMsなど,異なるリカレントセルを持つ6層ディープニューラルネットワークを利用して,動的システムシミュレータから取得した入力-出力シーケンスペアを入力することにより,減衰係数の同定問題を解決する効果的なディープ・リカレント・アーキテクチャを探索する。 文献ではこれまでこの課題に利用されなかったが, 双方向ゲートリカレントセル(BiLSTM)は, GRUやLSTMのような一方向ゲートリカレントメモリセルと比較して, より優れたパラメータ同定結果を提供する。 したがって、有限長の入力出力シーケンス対が力学系から収集され、時間的に観測されると、動的系パラメータの予測のために両方の時間方向の情報を運ぶことができる。

In this paper, we investigate the parameter identification problem in dynamical systems through a deep learning approach. Focusing mainly on second-order, linear time-invariant dynamical systems, the topic of damping factor identification is studied. By utilizing a six-layer deep neural network with different recurrent cells, namely GRUs, LSTMs or BiLSTMs; and by feeding input-output sequence pairs captured from a dynamical system simulator, we search for an effective deep recurrent architecture in order to resolve damping factor identification problem. Our study results show that, although previously not utilized for this task in the literature, bidirectional gated recurrent cells (BiLSTMs) provide better parameter identification results when compared to unidirectional gated recurrent memory cells such as GRUs and LSTM. Thus, indicating that an input-output sequence pair of finite length, collected from a dynamical system and when observed anachronistically, may carry information in both time directions for prediction of a dynamical systems parameter.
翻訳日:2021-07-07 13:55:44 公開日:2021-07-06
# 機械学習とソフトウェアモデリングへのモデル駆動工学的アプローチ

A Model-Driven Engineering Approach to Machine Learning and Software Modeling ( http://arxiv.org/abs/2107.02689v1 )

ライセンス: Link先を確認
Armin Moin, Atta Badii and Stephan G\"unnemann(参考訳) モデルは、ソフトウェア工学(SE)と人工知能(AI)のコミュニティで使われている。 前者の場合、異なる抽象レベルでソフトウェアシステムアーキテクチャを指定する可能性のあるソフトウェアのモデルは、初期の概念化と設計から検証、実装、テスト、進化に至るまで、ソフトウェア開発ライフサイクル(sdlc)の様々な段階において利用可能である。 しかし、後者の場合、つまりAIでは、モデルが予測や意思決定支援といったスマートな能力を提供する可能性がある。 例えば、現在AIの最もポピュラーなサブカテゴリである機械学習(ML)では、数学的モデルは観測されたデータインスタンスで有用なパターンを学習し、将来より優れた予測やレコメンデーションを行うことができる。 この作業の目標は、これらのコミュニティにモデルを持ち込み、全体的なアプローチを提案することで、シナジーを生み出すことです。 ソフトウェアモデルがデータ分析やMLモデルの生成や処理が可能なようになる方法について説明する。 主な焦点はIoT(Internet of Things)とCPS(Smart Cyber-Physical Systems)のユースケースであり、MLとモデル駆動(モデルベース)SEの両方が重要な役割を果たす。 特に,提案手法をオープンソースプロトタイプに実装し,IoT/CPSドメインの2つのユースケースを用いて検証する。

Models are used in both the Software Engineering (SE) and the Artificial Intelligence (AI) communities. In the former case, models of software, which may specify the software system architecture on different levels of abstraction could be used in various stages of the Software Development Life-Cycle (SDLC), from early conceptualization and design, to verification, implementation, testing and evolution. However, in the latter case, i.e., AI, models may provide smart capabilities, such as prediction and decision making support. For instance, in Machine Learning (ML), which is the most popular sub-discipline of AI at the present time, mathematical models may learn useful patterns in the observed data instances and can become capable of making better predictions or recommendations in the future. The goal of this work is to create synergy by bringing models in the said communities together and proposing a holistic approach. We illustrate how software models can become capable of producing or dealing with data analytics and ML models. The main focus is on the Internet of Things (IoT) and smart Cyber-Physical Systems (CPS) use cases, where both ML and model-driven (model-based) SE play a key role. In particular, we implement the proposed approach in an open source prototype and validate it using two use cases from the IoT/CPS domain.
翻訳日:2021-07-07 13:55:23 公開日:2021-07-06
# 実世界のCPS/IoTアプリケーションのMDSEのためのアン/セミスーパービジョン機械学習の実現

Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World CPS/IoT Applications ( http://arxiv.org/abs/2107.02690v1 )

ライセンス: Link先を確認
Armin Moin, Atta Badii and Stephan G\"unnemann(参考訳) 本稿では、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。 人工知能(AI)の本質において利用可能なデータの大部分は、特に機械学習(ML)にラベルが付けられていない、と我々は主張する。 したがって、教師なしおよび/または半教師なしのMLアプローチが実用的な選択である。 しかし、MDSEの文献における先行研究では、ラベル付きトレーニングデータのみを扱う教師付きMLアプローチが検討されている。 提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。 さらに、スマートエネルギーシステム領域におけるREFIT参照データセットのオープンデータの一部を用いて、提案手法を検証した。 私たちのモデルからコードへの変換(コードジェネレータ)は、モデルインスタンスから必要なIoTサービスの完全なソースコードを自動で提供します。 現在、JavaとPythonでソースコードを生成しています。 PythonコードはML機能に責任を持ち、いくつかのMLライブラリとフレームワーク、すなわちScikit-Learn、Keras、TensorFlowのAPIを使用する。 教師なしおよび半教師なしの学習では、Scikit-LearnのAPIがデプロイされる。 K-Means, Mini-Batch K-Means, DB-SCAN, Spectral Clustering, Gaussian Mixture Model, Self-Training, Label Propagation, Label Spreadingなど,一部のMLメソッドをサポートする純粋なMDSEアプローチに加えて,任意のアーキテクチャと学習アルゴリズムで事前トレーニングされたMLモデルをデプロイする上で,より柔軟なハイブリッドアプローチも実現されている。

In this paper, we propose a novel approach to support domain-specific Model-Driven Software Engineering (MDSE) for the real-world use-case scenarios of smart Cyber-Physical Systems (CPS) and the Internet of Things (IoT). We argue that the majority of available data in the nature for Artificial Intelligence (AI), specifically Machine Learning (ML) are unlabeled. Hence, unsupervised and/or semi-supervised ML approaches are the practical choices. However, prior work in the literature of MDSE has considered supervised ML approaches, which only work with labeled training data. Our proposed approach is fully implemented and integrated with an existing state-of-the-art MDSE tool to serve the CPS/IoT domain. Moreover, we validate the proposed approach using a portion of the open data of the REFIT reference dataset for the smart energy systems domain. Our model-to-code transformations (code generators) provide the full source code of the desired IoT services out of the model instances in an automated manner. Currently, we generate the source code in Java and Python. The Python code is responsible for the ML functionalities and uses the APIs of several ML libraries and frameworks, namely Scikit-Learn, Keras and TensorFlow. For unsupervised and semi-supervised learning, the APIs of Scikit-Learn are deployed. In addition to the pure MDSE approach, where certain ML methods, e.g., K-Means, Mini-Batch K-Means, DB-SCAN, Spectral Clustering, Gaussian Mixture Model, Self-Training, Label Propagation and Label Spreading are supported, a more flexible, hybrid approach is also enabled to support the practitioner in deploying a pre-trained ML model with any arbitrary architecture and learning algorithm.
翻訳日:2021-07-07 13:55:01 公開日:2021-07-06
# ML-Quadrat & DriotData: モデル駆動エンジニアリングツールとスマートIoTサービスのためのローコードプラットフォーム

ML-Quadrat & DriotData: A Model-Driven Engineering Tool and a Low-Code Platform for Smart IoT Services ( http://arxiv.org/abs/2107.02692v1 )

ライセンス: Link先を確認
Armin Moin, Andrei Mituca, Atta Badii and Stephan G\"unnemann(参考訳) 本稿では、Eclipse Modeling Framework(EMF)に基づくオープンソースの研究プロトタイプであるML-Quadratの初期ツールプロトタイプと、CPS(Cyber-Physical Systems)とIoT(Internet of Things)のためのMDSE(Model-Driven Software Engineering)の文献における最先端技術について述べる。 データ分析と機械学習(DAML)に関して、異質なIoTプラットフォームとさまざまな人工知能(AI)技術に深い知識とスキルを持っていないソフトウェア開発者を主に想定している。 ml-quadratは、apache 2.0ライセンスの条件でgithubでリリースされている。 さらに、市民データサイエンティストと市民/エンドユーザーソフトウェア開発者を対象としたローコードプラットフォームであるdritdataの初期ツールプロトタイプも紹介されている。 DriotDataはML-Quadratを利用しており、特に中小企業(SME)向けのWebベースのサービスとして拡張版を提供している。 DriotDataのMVP(Minimum Viable Product)のWebベースのデモがすでに公開されている。 最後に、ツールをデモする短いビデオがYouTubeで公開されている。

In this paper, we present the novel early tool prototype of ML-Quadrat, which is an open source research prototype, based on the Eclipse Modeling Framework (EMF) and the state of the art in the literature of Model-Driven Software Engineering (MDSE) for smart Cyber-Physical Systems (CPS) and the Internet of Things (IoT). Its envisioned users are mostly software developers, who might not have deep knowledge and skills in the heterogeneous IoT platforms and the diverse Artificial Intelligence (AI) technologies, specifically regarding Data Analytics and Machine Learning (DAML). ML-Quadrat is released under the terms of the Apache 2.0 license on Github: https://github.com/arminmoin/ML-Quadrat. Additionally, the novel early tool prototype of DriotData, a Low-Code platform targeting citizen data scientists and citizen/end-user software developers is demonstrated. DriotData exploits and adopts ML-Quadrat and offers an extended version of it as a web-based service to companies, especially Small- and Medium-Sized Enterprises (SME). A basic web-based demo of the Minimum Viable Product (MVP) of DriotData is already available. Finally, a short video demonstrating the tools is available on YouTube: https://youtu.be/YCNFfhmy_JY.
翻訳日:2021-07-07 13:54:33 公開日:2021-07-06
# サブサンプリングによるネットワーク埋め込みの漸近

Asymptotics of Network Embeddings Learned via Subsampling ( http://arxiv.org/abs/2107.02363v1 )

ライセンス: Link先を確認
Andrew Davison and Morgane Austern(参考訳) ネットワークデータは、ノード分類、ノードクラスタリング、リンク予測などのタスクを含む、現代の機械学習においてユビキタスである。 頻繁なアプローチは、ベクトル値データのために開発されたアルゴリズムを適用するネットワークのユークリッド埋め込みを学ぶことから始まる。 大規模ネットワークでは、サブサンプリング方式を自由に選択できる確率勾配法を用いて埋め込みを学習する。 このような方法の強い実証的性能にもかかわらず、理論的にはよく理解されていない。 私たちの作品は、node2vecのようなサブサンプリングアプローチを使って表現メソッドを単一の統一フレームワークにカプセル化します。 グラフが交換可能であると仮定すると、学習された埋め込みベクトルの分布は漸近的に分離する。 さらに,損失関数の選択と埋め込み次元を含む潜在パラメータの観点から,漸近分布を特徴付け,収束率を与えた。 これは、埋め込みベクトルが何を表現し、これらのメソッドが下流のタスクでいかにうまく機能するかを理解するための理論的基盤を提供する。 特に、一般的に使用される損失関数は、フィッシャー一貫性の欠如のような欠点をもたらす可能性がある。

Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
翻訳日:2021-07-07 13:53:42 公開日:2021-07-06
# チーム比較によるダイアリングバンド

Dueling Bandits with Team Comparisons ( http://arxiv.org/abs/2107.02738v1 )

ライセンス: Link先を確認
Lee Cohen, Ulrike Schmidt-Kraepelin, Yishay Mansour(参考訳) これは、学習者がn$プレーヤーの宇宙から、k$サイズのチーム同士の無関係なペアのノイズの多い比較を観察する、新しいオンライン学習環境です。 学習者のゴールは、高い確率でコンドルセトの勝利チーム、すなわち他のどのチームにも勝利するチーム、すなわち少なくとも1/2$の確率で)を特定するために必要なデュエルの数を最小化することである。 ノイズの多い比較は、チームの総順序と関連付けられます。 我々は,デュエルバンド設定(Yue et al.2012)に基づいてモデルを定式化し,確率的および決定論的両方の設定にいくつかのアルゴリズムを提供する。 確率的な設定では、古典的なデュエルバンドの設定を減らし、$\mathcal{O}((n + k \log (k)) \frac{\max(\log\log n, \log k)}{\Delta^2})$ duels($\Delta$はギャップパラメータ)内のコンドルチェット勝利チームを特定するアルゴリズムを与える。 決定論的フィードバックに対しては,$\mathcal{O}(nk\log(k)+k^5)$ duels内でのコンドルチェット勝利チームを識別するギャップ独立アルゴリズムを提案する。

We introduce the dueling teams problem, a new online-learning setting in which the learner observes noisy comparisons of disjoint pairs of $k$-sized teams from a universe of $n$ players. The goal of the learner is to minimize the number of duels required to identify, with high probability, a Condorcet winning team, i.e., a team which wins against any other disjoint team (with probability at least $1/2$). Noisy comparisons are linked to a total order on the teams. We formalize our model by building upon the dueling bandits setting (Yue et al.2012) and provide several algorithms, both for stochastic and deterministic settings. For the stochastic setting, we provide a reduction to the classical dueling bandits setting, yielding an algorithm that identifies a Condorcet winning team within $\mathcal{O}((n + k \log (k)) \frac{\max(\log\log n, \log k)}{\Delta^2})$ duels, where $\Delta$ is a gap parameter. For deterministic feedback, we additionally present a gap-independent algorithm that identifies a Condorcet winning team within $\mathcal{O}(nk\log(k)+k^5)$ duels.
翻訳日:2021-07-07 13:53:26 公開日:2021-07-06
# 光コヒーレンストモグラフィにおける網膜セグメンテーションのためのcycleganによる領域適応

Domain Adaptation via CycleGAN for Retina Segmentation in Optical Coherence Tomography ( http://arxiv.org/abs/2107.02345v1 )

ライセンス: Link先を確認
Ricky Chen, Timothy T. Yu, Gavin Xu, Da Ma, Marinko V. Sarunic, Mirza Faisal Beg(参考訳) FDAによる臨床診断のための人工知能(AI)の承認により、臨床意思決定はドメインに依存しなければならないため、モデル一般化性が最も重要である。 この問題に対処する方法は、複数のドメインからの画像を含むようにデータセットを増やすことである。このテクニックは理想的ではあるが、医療データのセキュリティ要件は大きな制限である。 さらに、開発ツールを持つ研究者は、オープンソースデータの追加の恩恵を受けるが、ドメインの違いによって制限される。 そこで本研究では,光コヒーレンス・トモグラフィ(OCT)ボリュームの領域適応のためのCycleGAN(Cycle-Consistent Generative Adversarial Networks)の実装について検討した。 この研究は、サイモンフレーザー大学のバイオメディカル光学研究グループと機能・解剖学的イメージング・形状解析研究所と共同で行われた。 本研究では,公開データセットである英国バイオバンクデータセット(UKB)のドメインを適応させる学習ベースアプローチについて検討した。 領域適応の性能を評価するために,RETOUCH OCTデータを用いた既存の網膜層セグメンテーションツールを用いた。 本研究は、従来の処理技術と比較して、最先端の領域適応ツールに関する洞察を提供するとともに、我々の協力者が以前使用した領域に公開可能な網膜データを適応するためのパイプラインを提供する。

With the FDA approval of Artificial Intelligence (AI) for point-of-care clinical diagnoses, model generalizability is of the utmost importance as clinical decision-making must be domain-agnostic. A method of tackling the problem is to increase the dataset to include images from a multitude of domains; while this technique is ideal, the security requirements of medical data is a major limitation. Additionally, researchers with developed tools benefit from the addition of open-sourced data, but are limited by the difference in domains. Herewith, we investigated the implementation of a Cycle-Consistent Generative Adversarial Networks (CycleGAN) for the domain adaptation of Optical Coherence Tomography (OCT) volumes. This study was done in collaboration with the Biomedical Optics Research Group and Functional & Anatomical Imaging & Shape Analysis Lab at Simon Fraser University. In this study, we investigated a learning-based approach of adapting the domain of a publicly available dataset, UK Biobank dataset (UKB). To evaluate the performance of domain adaptation, we utilized pre-existing retinal layer segmentation tools developed on a different set of RETOUCH OCT data. This study provides insight on state-of-the-art tools for domain adaptation compared to traditional processing techniques as well as a pipeline for adapting publicly available retinal data to the domains previously used by our collaborators.
翻訳日:2021-07-07 13:52:21 公開日:2021-07-06
# CoReD:蒸留による連続表現によるフェイクメディア検出の一般化

CoReD: Generalizing Fake Media Detection with Continual Representation using Distillation ( http://arxiv.org/abs/2107.02408v1 )

ライセンス: Link先を確認
Minha Kim and Shahroz Tariq and Simon S. Woo(参考訳) 過去数十年間、人工知能の研究は大きな進歩を遂げてきたが、静止環境における固定データセットに大きく依存している。 継続的学習は、AIシステムが生物学的システムと同じ方法で、リンクされたデータの連続的なストリームから逐次学習する方法を研究する、成長する研究分野である。 同時に、ディープフェイクや合成顔画像などの偽メディアが、現在のマルチメディア技術にとって重要な存在である。 近年,ディープフェイクを高精度に検出する手法が多数提案されている。 しかし、限られた評価設定で固定データセットに依存するため、彼らは著しく苦しむ。 そこで本研究では,ニューラルネットワークの学習力学に連続学習を適用し,データ効率を大幅に向上させる可能性を強調した。 本研究では、継続学習(CoL)、表現学習(ReL)、知識蒸留(KD)という概念を取り入れた蒸留法(CoReD)を用いた連続表現を提案する。 我々はCoReDを設計し、教師-学生モデル設定における破滅的な忘れを効果的に最小化しつつ、新しいディープフェイクおよびGAN生成合成顔データセット上で逐次ドメイン適応タスクを実行する。 提案手法は,複数のデータセットから低品質のディープフェイク映像とGAN生成画像を検出し,最先端のベースライン法より優れていることを示す。

Over the last few decades, artificial intelligence research has made tremendous strides, but it still heavily relies on fixed datasets in stationary environments. Continual learning is a growing field of research that examines how AI systems can learn sequentially from a continuous stream of linked data in the same way that biological systems do. Simultaneously, fake media such as deepfakes and synthetic face images have emerged as significant to current multimedia technologies. Recently, numerous method has been proposed which can detect deepfakes with high accuracy. However, they suffer significantly due to their reliance on fixed datasets in limited evaluation settings. Therefore, in this work, we apply continuous learning to neural networks' learning dynamics, emphasizing its potential to increase data efficiency significantly. We propose Continual Representation using Distillation (CoReD) method that employs the concept of Continual Learning (CoL), Representation Learning (ReL), and Knowledge Distillation (KD). We design CoReD to perform sequential domain adaptation tasks on new deepfake and GAN-generated synthetic face datasets, while effectively minimizing the catastrophic forgetting in a teacher-student model setting. Our extensive experimental results demonstrate that our method is efficient at domain adaptation to detect low-quality deepfakes videos and GAN-generated images from several datasets, outperforming the-state-of-art baseline methods.
翻訳日:2021-07-07 13:52:00 公開日:2021-07-06
# セマンティックセグメンテーション代替手法:セグメンテーションドメイン生成

Semantic Segmentation Alternative Technique: Segmentation Domain Generation ( http://arxiv.org/abs/2107.02525v1 )

ライセンス: Link先を確認
Ana-Cristina Rogoz, Radu Muntean, Stefan Cobeli(参考訳) 画像に注目するオブジェクトを検出することは、自動化するための魅力的なタスクでした。 近年、このタスクは、主に地域ベースの畳み込みネットワークを使用して、深層学習技術を使ってより深く探求された。 本稿では,生成型逆ネットワークを用いた意味セグメンテーション手法を提案する。 我々はセマンティックセグメンテーションをドメイン転送問題と考える。 そこで我々は、シード実画像の入力としてフィードフォワードネットワーク(FFNN)を訓練し、セグメンテーションマスクの出力として生成する。

Detecting objects of interest in images was always a compelling task to automate. In recent years this task was more and more explored using deep learning techniques, mostly using region-based convolutional networks. In this project we propose an alternative semantic segmentation technique making use of Generative Adversarial Networks. We consider semantic segmentation to be a domain transfer problem. Thus, we train a feed forward network (FFNN) to receive as input a seed real image and generate as output its segmentation mask.
翻訳日:2021-07-07 13:51:41 公開日:2021-07-06
# 深層学習に基づくマルチモーダル奥行き認識型動的ハンドジェスチャ認識システム

A deep-learning--based multimodal depth-aware dynamic hand gesture recognition system ( http://arxiv.org/abs/2107.02543v1 )

ライセンス: Link先を確認
Hasan Mahmud, Mashrur Mahmud Morshed, Md. Kamrul Hasan(参考訳) 特定の意味を伝える意図で行われる時空間的な手の動きや手の動きは、手の動きとみなすことができる。 手動ジェスチャー認識システムへの入力は、深度画像、単分子RGB、骨格関節点など、いくつかの形式で行うことができる。 生深度画像は利き手領域(ROI)のコントラストが低いことが観察された。 指の曲げ情報(指が手のひらを重なっているか、他の指が重なっているか)など、学ぶべき重要な詳細は強調しない。 近年,深層学習に基づくダイナミックハンドジェスチャ認識において,研究者は異なる入力モダリティ(例えば,)を融合させようとしている。 RGBまたは深度画像と手骨関節点)は、認識精度を向上させる。 本稿では,深度定量化画像特徴と手首関節点を用いた動的手指ジェスチャー(DHG)認識に焦点を当てた。 特に,畳み込みニューラルネットワーク (cnn) とリカレントニューラルネットワーク (rnn) のマルチモーダル融合ネットワークにおける深さ量子化特徴の利用の効果について検討する。 本手法はSHREC-DHG-14データセットの既存の結果を改善する。 さらに,本手法を用いることで,入力画像の解像度を4倍以上に削減し,従来手法と同等あるいは同等の精度が得られることを示す。

Any spatio-temporal movement or reorientation of the hand, done with the intention of conveying a specific meaning, can be considered as a hand gesture. Inputs to hand gesture recognition systems can be in several forms, such as depth images, monocular RGB, or skeleton joint points. We observe that raw depth images possess low contrasts in the hand regions of interest (ROI). They do not highlight important details to learn, such as finger bending information (whether a finger is overlapping the palm, or another finger). Recently, in deep-learning--based dynamic hand gesture recognition, researchers are tying to fuse different input modalities (e.g. RGB or depth images and hand skeleton joint points) to improve the recognition accuracy. In this paper, we focus on dynamic hand gesture (DHG) recognition using depth quantized image features and hand skeleton joint points. In particular, we explore the effect of using depth-quantized features in Convolutional Neural Network (CNN) and Recurrent Neural Network (RNN) based multi-modal fusion networks. We find that our method improves existing results on the SHREC-DHG-14 dataset. Furthermore, using our method, we show that it is possible to reduce the resolution of the input images by more than four times and still obtain comparable or better accuracy to that of the resolutions used in previous methods.
翻訳日:2021-07-07 13:51:33 公開日:2021-07-06
# 胎児超音波像における低形成性左心症候群の検出

Detecting Hypo-plastic Left Heart Syndrome in Fetal Ultrasound via Disease-specific Atlas Maps ( http://arxiv.org/abs/2107.02643v1 )

ライセンス: Link先を確認
Samuel Budd, Matthew Sinclair, Thomas Day, Athanasios Vlontzos, Jeremy Tan, Tianrui Liu, Jaqueline Matthew, Emily Skelton, John Simpson, Reza Razavi, Ben Glocker, Daniel Rueckert, Emma C. Robinson, Bernhard Kainz(参考訳) 妊娠中の胎児超音波スクリーニングは、長期間の健康への影響をもたらす胎児奇形を早期に発見する上で重要な役割を担っている。 検査中の生体超音波からこのような奇形を診断するために必要なスキルのレベルは高く、スクリーニングのためのリソースは限られていることが多い。 4室心画像からの低形成性左心症候群(HLHS)の自動診断のための,解釈可能なアトラス・ラーニング・セグメンテーション法を提案する。 本稿では,最近導入された画像・空間トランスフォーマーネットワーク(atlas-istn)を,アトラス生成を疾患に導くフレームワークに拡張することを提案する。 本フレームワークでは,画像分割,登録,アトラス構築,疾患予測を共同で学習し,直接画像分類法と比較して,臨床解釈可能性の最大レベルを提供する。 その結果,有識者による手技診断と競合する診断が可能となり,AUC-ROCが0.978(トレーニング1043例,バリデーション260例,テスト325例)となった。

Fetal ultrasound screening during pregnancy plays a vital role in the early detection of fetal malformations which have potential long-term health impacts. The level of skill required to diagnose such malformations from live ultrasound during examination is high and resources for screening are often limited. We present an interpretable, atlas-learning segmentation method for automatic diagnosis of Hypo-plastic Left Heart Syndrome (HLHS) from a single `4 Chamber Heart' view image. We propose to extend the recently introduced Image-and-Spatial Transformer Networks (Atlas-ISTN) into a framework that enables sensitising atlas generation to disease. In this framework we can jointly learn image segmentation, registration, atlas construction and disease prediction while providing a maximum level of clinical interpretability compared to direct image classification methods. As a result our segmentation allows diagnoses competitive with expert-derived manual diagnosis and yields an AUC-ROC of 0.978 (1043 cases for training, 260 for validation and 325 for testing).
翻訳日:2021-07-07 13:51:11 公開日:2021-07-06
# 自然証明生成のための確率的グラフ推論

Probabilistic Graph Reasoning for Natural Proof Generation ( http://arxiv.org/abs/2107.02418v1 )

ライセンス: Link先を確認
Changzhi Sun, Xinbo Zhang, Jiangjie Chen, Chun Gan, Yuanbin Wu, Jiaze Chen, Hao Zhou, Lei Li(参考訳) 本稿では,自然言語ステートメントよりも推論の問題について検討する。 事前のニューラルベースアプローチは、回答とその証明の間の相互依存性を明示的に考慮しない。 本稿では,共同回答予測と証明生成のための新しい手法であるPRobrを提案する。 PRobrは、すべての可能な証明グラフと答えに対する共役確率分布を、誘導的グラフィカルモデルによって定義する。 次に、ニューラルテキスト表現の上に変分近似を用いてモデルを最適化する。 多様な設定下での複数のデータセット(教師付き、少数ショット、ゼロショットの評価)の実験では、PRobrの有効性が検証され、例えば、少数/ゼロショットの評価において、QA精度が10%-30%向上した。 私たちのコードとモデルはhttps://github.com/changzhisun/PRobr/で参照できます。

In this paper, we investigate the problem of reasoning over natural language statements. Prior neural based approaches do not explicitly consider the inter-dependency among answers and their proofs. In this paper, we propose PRobr, a novel approach for joint answer prediction and proof generation. PRobr defines a joint probabilistic distribution over all possible proof graphs and answers via an induced graphical model. We then optimize the model using variational approximation on top of neural textual representation. Experiments on multiple datasets under diverse settings (fully supervised, few-shot and zero-shot evaluation) verify the effectiveness of PRobr, e.g., achieving 10%-30% improvement on QA accuracy in few/zero-shot evaluation. Our codes and models can be found at https://github.com/changzhisun/PRobr/.
翻訳日:2021-07-07 13:50:12 公開日:2021-07-06
# NiuTrans エンドツーエンド音声翻訳システム \\for IWSLT 2021 Offline Task

The NiuTrans End-to-End Speech Translation System \\for IWSLT 2021 Offline Task ( http://arxiv.org/abs/2107.02444v1 )

ライセンス: Link先を確認
Chen Xu, Xiaoqian Liu, Xiaowen Liu, Laohu Wang, Canan Huang, Tong Xiao, Jingbo Zhu(参考訳) 本稿では、英語音声からドイツ語テキストへの翻訳を中間転写なしで直接行うIWSLT 2021オフラインタスクに対して、NiuTransのエンドツーエンド音声翻訳システムを提案する。 我々は、トランスフォーマーベースのモデルアーキテクチャを使用し、コンフォーメータ、相対位置エンコーディング、スタック化された音響およびテキストエンコーディングにより強化する。 トレーニングデータを増やすために、英語の書き起こしはドイツ語の翻訳に翻訳される。 最後に,異なるデータセットでトレーニングされた複数のモデルからの予測を統合するためにアンサンブル復号を用いる。 これらの手法を組み合わせることで, MuST-C En-De テストセット上で 33.84 BLEU 点が得られる。

This paper describes the submission of the NiuTrans end-to-end speech translation system for the IWSLT 2021 offline task, which translates from the English audio to German text directly without intermediate transcription. We use the Transformer-based model architecture and enhance it by Conformer, relative position encoding, and stacked acoustic and textual encoding. To augment the training data, the English transcriptions are translated to German translations. Finally, we employ ensemble decoding to integrate the predictions from several models trained with the different datasets. Combining these techniques, we achieve 33.84 BLEU points on the MuST-C En-De test set, which shows the enormous potential of the end-to-end model.
翻訳日:2021-07-07 13:50:03 公開日:2021-07-06
# atariゲームにおける分岐要因の推定

Estimates for the Branching Factors of Atari Games ( http://arxiv.org/abs/2107.02385v1 )

ライセンス: Link先を確認
Mark J. Nelson(参考訳) ゲームの分岐係数は、与えられた状態から到達可能な新しい状態の平均数である。 ボードゲームにおけるAI研究において広く使われている指標であるが、ビデオゲームで計算や議論されることは少ない。 本稿では,アーケード学習環境(ALE)で実施されている103のAtari 2600ゲームの分岐係数を推定する。 ゲームによっては、ALEはゲームプレイのフレームごとに3から18のアクションを公開する。 本稿では、各ゲームで到達可能な最初の100万個の異なる状態の列挙に基づいて、平均分岐係数が通常より低く、ほとんどのゲームにおいて1よりわずかに多いことを示す。 本稿では,分岐要因の報告に加えて,ALEの異なる状態を構成するものを明らかにすることを目的とする。

The branching factor of a game is the average number of new states reachable from a given state. It is a widely used metric in AI research on board games, but less often computed or discussed for videogames. This paper provides estimates for the branching factors of 103 Atari 2600 games, as implemented in the Arcade Learning Environment (ALE). Depending on the game, ALE exposes between 3 and 18 available actions per frame of gameplay, which is an upper bound on branching factor. This paper shows, based on an enumeration of the first 1 million distinct states reachable in each game, that the average branching factor is usually much lower, in many games barely above 1. In addition to reporting the branching factors, this paper aims to clarify what constitutes a distinct state in ALE.
翻訳日:2021-07-07 13:49:39 公開日:2021-07-06
# Minecraft集落におけるPCG指標と人的評価の比較

Comparing PCG metrics with Human Evaluation in Minecraft Settlement Generation ( http://arxiv.org/abs/2107.02457v1 )

ライセンス: Link先を確認
Jean-Baptiste Herv\'e, Christoph Salge(参考訳) 手続き的コンテンツ生成によって生成されたアーティファクトに適用可能な、さまざまなメトリクスがあり、その中には質的なクレームがある。 そこで本研究では,既存のPCG指標を生成済みMinecraft集落に適用し,PCG文献に触発された新たな指標を開発し,その結果を既存の人間評価と比較する。 目的は、これらのメトリクスがどのように異なるカテゴリの人間の評価スコアをキャプチャするか、メトリクスが別のゲームドメインにどのように一般化するか、メトリクスがより複雑なアーティファクトを扱うかを分析することである。 我々は,様々な指標を探索的に観察し,情報ゲインといくつかの相関分析を提供する。 具体的な要素を計測し,ブロックの多様性を測定し,現在の複合ブロックの加工材料の存在を測定することで,人間のスコアと測定値の関係を見出した。

There are a range of metrics that can be applied to the artifacts produced by procedural content generation, and several of them come with qualitative claims. In this paper, we adapt a range of existing PCG metrics to generated Minecraft settlements, develop a few new metrics inspired by PCG literature, and compare the resulting measurements to existing human evaluations. The aim is to analyze how those metrics capture human evaluation scores in different categories, how the metrics generalize to another game domain, and how metrics deal with more complex artifacts. We provide an exploratory look at a variety of metrics and provide an information gain and several correlation analyses. We found some relationships between human scores and metrics counting specific elements, measuring the diversity of blocks and measuring the presence of crafting materials for the present complex blocks.
翻訳日:2021-07-07 13:49:26 公開日:2021-07-06
# 微粒化視覚カテゴリー化による特徴核融合変換器

Feature Fusion Vision Transformer Fine-Grained Visual Categorization ( http://arxiv.org/abs/2107.02341v1 )

ライセンス: Link先を確認
Jun Wang, Xiaohan Yu and Yongsheng Gao(参考訳) きめ細かい視覚分類(FGVC)に取り組むためのコアは、微妙な識別的特徴を学習することである。 従来のほとんどの研究は、識別的部分の明示的選択やCNNベースのアプローチによる注意機構の統合によってこれを達成しているが、これらの手法は計算の複雑さを高め、ほとんどの対象を含む領域でモデルが支配される。 近年,視覚トランスフォーマー(ViT)は一般的な画像認識タスクにおいてSOTA性能を実現している。 自己認識機構は、すべてのパッチから分類トークンに情報を集約し、重み付けし、FGVCに完全に適合する。 それでも、深層層にあるclassifi-cationトークンは、fgvcに不可欠なローカルおよび低レベルの機能を欠いたグローバル情報にさらに注意を払っている。 本研究では,各トランス層から重要なトークンを集約し,局所情報,低レベル情報,中レベル情報を補償する,純粋変換器ベースのフレームワークであるFeature Fusion Vision Transformer (FFVT)を提案する。 本稿では,ネットワークを効果的かつ効率的に誘導し,余分なパラムエターを導入することなく識別トークンを選択するための,相互注意重み選択(maws)と呼ばれる新しいトークン選択モジュールを設計する。 FFVTが最先端性能を達成する3つのベンチマークにおけるFFVTの有効性を検証する。

The core for tackling the fine-grained visual categorization (FGVC) is to learn subtleyet discriminative features. Most previous works achieve this by explicitly selecting thediscriminative parts or integrating the attention mechanism via CNN-based approaches.However, these methods enhance the computational complexity and make the modeldominated by the regions containing the most of the objects. Recently, vision trans-former (ViT) has achieved SOTA performance on general image recognition tasks. Theself-attention mechanism aggregates and weights the information from all patches to theclassification token, making it perfectly suitable for FGVC. Nonetheless, the classifi-cation token in the deep layer pays more attention to the global information, lackingthe local and low-level features that are essential for FGVC. In this work, we proposea novel pure transformer-based framework Feature Fusion Vision Transformer (FFVT)where we aggregate the important tokens from each transformer layer to compensate thelocal, low-level and middle-level information. We design a novel token selection mod-ule called mutual attention weight selection (MAWS) to guide the network effectivelyand efficiently towards selecting discriminative tokens without introducing extra param-eters. We verify the effectiveness of FFVT on three benchmarks where FFVT achievesthe state-of-the-art performance.
翻訳日:2021-07-07 13:48:50 公開日:2021-07-06
# UACANet:polyp Semgnetaionに対する不確実性強化コンテキストアテンション

UACANet: Uncertainty Augmented Context Attention for Polyp Semgnetaion ( http://arxiv.org/abs/2107.02368v1 )

ライセンス: Link先を確認
Taehun Kim, Hyemin Lee, Daijin Kim(参考訳) 本研究では,サリエンシマップの不確実領域を考慮したポリプセグメンテーションのためのUncertainty Augmented Context Attention Network (UACANet)を提案する。 追加のエンコーダとデコーダを備えたu-netシェイプネットワークの修正版を構築し,各ボトムアップストリーム予測モジュールでサリエンシーマップを計算し,次の予測モジュールに伝播する。 各予測モジュールでは, 前景, 背景, 不確実領域マップの計算に先立って予測された精度マップを用い, 特徴マップを3つの領域マップで集約する。 次に,特徴写像における各表現と各画素の関係を計算する。 kvasir, cvc-clinicdb, etis, cvc-colondb, cvc-300の5つの人気のあるポリプセグメンテーションベンチマークを実験し, 最先端のパフォーマンスを実現する。 特に, ETISデータセットにおけるDiceの平均は76.6%であり, 従来の最先端手法に比べて13.8%改善されている。

We propose Uncertainty Augmented Context Attention network (UACANet) for polyp segmentation which consider a uncertain area of the saliency map. We construct a modified version of U-Net shape network with additional encoder and decoder and compute a saliency map in each bottom-up stream prediction module and propagate to the next prediction module. In each prediction module, previously predicted saliency map is utilized to compute foreground, background and uncertain area map and we aggregate the feature map with three area maps for each representation. Then we compute the relation between each representation and each pixel in the feature map. We conduct experiments on five popular polyp segmentation benchmarks, Kvasir, CVC-ClinicDB, ETIS, CVC-ColonDB and CVC-300, and achieve state-of-the-art performance. Especially, we achieve 76.6% mean Dice on ETIS dataset which is 13.8% improvement compared to the previous state-of-the-art method.
翻訳日:2021-07-07 13:48:28 公開日:2021-07-06
# 不均衡分類のためのラベル付きMSE損失

MSE Loss with Outlying Label for Imbalanced Classification ( http://arxiv.org/abs/2107.02393v1 )

ライセンス: Link先を確認
Sota Kato, Kazuhiro Hotta(参考訳) 本稿では,クラス不均衡分類のための外ラベル付き平均二乗誤差(mse)損失を提案する。 画像認識に広く用いられているクロスエントロピー(ce)損失は、真のクラスの確率値がバック伝播によって1に近いように学習される。 しかし、不均衡データセットでは、少数のサンプルを持つクラスでは学習が不十分である。 そこで本稿では, 画像が入力されていなくても, クラス間の関係を学習可能な, MSE損失を用いた新しい分類法を提案する。 ce損失とは異なり、mse損失は全クラスのバック伝搬数を均等化し、クラス間の関係をメトリック学習として考慮して特徴空間を学ぶことができる。 さらに,従来の1ホットの教師ラベルの代わりに,クラスサンプルの数を考慮に入れた新しい教師ラベルを用いる。 これにより、各クラスのサンプル数に依存するアウトライジングラベルが導き出され、少数のサンプルを持つクラスは、特徴空間におけるアウトライジングマージンを持つ。 高微分クラスと低微分クラスを分離する機能空間を作成することができる。 不均衡分類とセマンティクスセグメンテーションの実験により, 標準ce損失と従来の方法と比較して, 教師ラベルと教師ラベルのみを変更した場合でも, 提案手法が大幅に改良されたことを確認した。

In this paper, we propose mean squared error (MSE) loss with outlying label for class imbalanced classification. Cross entropy (CE) loss, which is widely used for image recognition, is learned so that the probability value of true class is closer to one by back propagation. However, for imbalanced datasets, the learning is insufficient for the classes with a small number of samples. Therefore, we propose a novel classification method using the MSE loss that can be learned the relationships of all classes no matter which image is input. Unlike CE loss, MSE loss is possible to equalize the number of back propagation for all classes and to learn the feature space considering the relationships between classes as metric learning. Furthermore, instead of the usual one-hot teacher label, we use a novel teacher label that takes the number of class samples into account. This induces the outlying label which depends on the number of samples in each class, and the class with a small number of samples has outlying margin in a feature space. It is possible to create the feature space for separating high-difficulty classes and low-difficulty classes. By the experiments on imbalanced classification and semantic segmentation, we confirmed that the proposed method was much improved in comparison with standard CE loss and conventional methods, even though only the loss and teacher labels were changed.
翻訳日:2021-07-07 13:48:10 公開日:2021-07-06
# 逆予測アライメントによる目標領域への車両検出の適応

Adapting Vehicle Detector to Target Domain by Adversarial Prediction Alignment ( http://arxiv.org/abs/2107.02411v1 )

ライセンス: Link先を確認
Yohei Koga, Hiroyuki Miyazaki, Ryosuke Shibasaki(参考訳) 近年のドメイン適応技術の進歩は重要であるが、ほとんどの手法は特徴抽出器を整列させ、ターゲット領域に分類器を適応させていないため、性能劣化の原因となる。 予測出力空間を整列するオブジェクト検出のための新しい領域適応手法を提案する。 特徴のアライメントに加えて、敵の訓練による衛星画像に対する車両検出器の位置とクラス信頼性の予測を調整した。 提案手法は,衛星画像における物体検出タスクに対する効果を示すため,apスコアを5%以上向上させた。

While recent advancement of domain adaptation techniques is significant, most of methods only align a feature extractor and do not adapt a classifier to target domain, which would be a cause of performance degradation. We propose novel domain adaptation technique for object detection that aligns prediction output space. In addition to feature alignment, we aligned predictions of locations and class confidences of our vehicle detector for satellite images by adversarial training. The proposed method significantly improved AP score by over 5%, which shows effectivity of our method for object detection tasks in satellite images.
翻訳日:2021-07-07 13:47:50 公開日:2021-07-06
# マルチパスニューラルネットワークにおけるエンドツーエンドデータ依存ルーティング

End-To-End Data-Dependent Routing in Multi-Path Neural Networks ( http://arxiv.org/abs/2107.02450v1 )

ライセンス: Link先を確認
Dumindu Tissera, Kasun Vithanage, Rukshan Wijessinghe, Subha Fernando, Ranga Rodrigo(参考訳) ニューラルネットワークは、より抽象的な特徴を学習する能力により、より深度の高いパフォーマンスを提供することが知られている。 ネットワークの深化は十分に確立されているが、単にパラメータインクリメントの必要性を減少させるような、レイヤ内の効率的な特徴抽出の余地はまだ残っている。 従来のネットワークの幅拡大は、各層により多くのフィルタを持ち、パラメータの二次的な増分を導入する。 複数の並列畳み込み/密度演算を各層に持つことでこの問題は解決されるが、これらの演算にリソースのコンテキスト依存的な割り当てがなければ、並列計算は同様の特徴を学習する傾向にあり、拡張処理の効率が低下する。 そこで本研究では,層内の並列計算間でデータ依存のリソース割り当てを行うマルチパスニューラルネットワークの利用を提案する。 これを実現するために,まず,後続層の並列テンソル間のクロス予測に基づくアルゴリズムを導入する。 第2に,並列テンソル間の機能依存的な相互接続を導入することで,ルーティングのオーバーヘッドをさらに削減する。 我々のマルチパスネットワークは、画像認識タスクにおいて、既存の拡張および適応的な特徴抽出、さらにはアンサンブルやより深いネットワークよりも優れた性能を示す。

Neural networks are known to give better performance with increased depth due to their ability to learn more abstract features. Although the deepening of networks has been well established, there is still room for efficient feature extraction within a layer which would reduce the need for mere parameter increment. The conventional widening of networks by having more filters in each layer introduces a quadratic increment of parameters. Having multiple parallel convolutional/dense operations in each layer solves this problem, but without any context-dependent allocation of resources among these operations: the parallel computations tend to learn similar features making the widening process less effective. Therefore, we propose the use of multi-path neural networks with data-dependent resource allocation among parallel computations within layers, which also lets an input to be routed end-to-end through these parallel paths. To do this, we first introduce a cross-prediction based algorithm between parallel tensors of subsequent layers. Second, we further reduce the routing overhead by introducing feature-dependent cross-connections between parallel tensors of successive layers. Our multi-path networks show superior performance to existing widening and adaptive feature extraction, and even ensembles, and deeper networks at similar complexity in the image recognition task.
翻訳日:2021-07-07 13:47:43 公開日:2021-07-06
# Neighbor-Vote: 隣接投票による単眼3次元物体検出の改善

Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor Distance Voting ( http://arxiv.org/abs/2107.02493v1 )

ライセンス: Link先を確認
Xiaomeng Chu, Jiajun Deng, Yao Li, Zhenxun Yuan, Yanyong Zhang, Jianmin Ji and Yu Zhang(参考訳) カメラが自動運転などの新しいアプリケーションドメインに展開されるにつれて、モノクロ画像で3dオブジェクトを検出することは、視覚的なシーン理解にとって重要なタスクとなる。 近年のモノクロ3D物体検出の進歩は, モノクロ深度推定を行い, 擬似3D点まで2D画素を持ち上げる「擬似LiDAR」世代に大きく依存している。 しかし, 単眼画像からの深度推定は精度が低いため, 物体内部の擬似LiDAR点の位置ずれが避けられない。 したがって、予測された境界ボックスは、不正確な位置と変形した形状に苦しむ可能性がある。 本稿では, 隣接する予測を組み込んで, 高度に変形した擬似LiDAR点雲からの物体検出を改善する手法を提案する。 具体的には、オブジェクト周辺の各特徴点が独自の予測を形成し、その上で ``consensus''' が投票によって達成される。 このように、近隣の予測と局所的な予測を効果的に組み合わせ、より正確な3d検出を実現することができる。 さらに、関心領域(roi)擬似ライダー点と背景点との差をさらに拡大するため、2d前景画素のroi予測スコアを対応する擬似ライダー点に符号化する。 提案手法の有効性を検証するため,KITTIベンチマークで広範な実験を行った。 鳥の目視検出の結果は,特に`hard' レベルの検出において,最先端のパフォーマンスを大きなマージンで上回っている。

As cameras are increasingly deployed in new application domains such as autonomous driving, performing 3D object detection on monocular images becomes an important task for visual scene understanding. Recent advances on monocular 3D object detection mainly rely on the ``pseudo-LiDAR'' generation, which performs monocular depth estimation and lifts the 2D pixels to pseudo 3D points. However, depth estimation from monocular images, due to its poor accuracy, leads to inevitable position shift of pseudo-LiDAR points within the object. Therefore, the predicted bounding boxes may suffer from inaccurate location and deformed shape. In this paper, we present a novel neighbor-voting method that incorporates neighbor predictions to ameliorate object detection from severely deformed pseudo-LiDAR point clouds. Specifically, each feature point around the object forms their own predictions, and then the ``consensus'' is achieved through voting. In this way, we can effectively combine the neighbors' predictions with local prediction and achieve more accurate 3D detection. To further enlarge the difference between the foreground region of interest (ROI) pseudo-LiDAR points and the background points, we also encode the ROI prediction scores of 2D foreground pixels into the corresponding pseudo-LiDAR points. We conduct extensive experiments on the KITTI benchmark to validate the merits of our proposed method. Our results on the bird's eye view detection outperform the state-of-the-art performance by a large margin, especially for the ``hard'' level detection.
翻訳日:2021-07-07 13:47:24 公開日:2021-07-06
# プルーニングによるマルチソース画像における核認識モデルの一般化

Generalizing Nucleus Recognition Model in Multi-source Images via Pruning ( http://arxiv.org/abs/2107.02500v1 )

ライセンス: Link先を確認
Jiatong Cai, Chenglu Zhu, Can Cui, Honglin Li, Tong Wu, Shichuan Zhang, Lin Yang(参考訳) Ki67はがんの診断と予後において重要なバイオマーカーであり、Ki67免疫組織化学(IHC)染色画像においてその発現を定量化することでその指標を評価することができる。 しかし,マルチソースki67画像の定量的解析は,画像のばらつき,染色様式,病変型などによるクロスドメイン分布の違いから,実際には困難な課題である。 最近の多くの研究はドメイン一般化(DG)にいくつかの取り組みを行っているが、それでも注目すべき制限がある。 具体的には、Ki67画像の場合、学習不変表現は、ドメインの不足と異なるドメインでミスマッチする細胞カテゴリの助けになる。 本稿ではドメインに依存しないサブネットワークをドメインマージシナリオで検索することでDGを改善する新しい手法を提案する。 部分モデルパラメータは、トレーニング中に単一のドメインからマージされたドメインへのデータ変換によって引き起こされるドメインギャップに従って反復的にプラニングされる。 さらに、様々なドメイン間のクラスミスマッチの干渉をなくすため、マージされたドメインの微調整によってモデルを最適化する。 さらに、フレームワークの異なる部分にプルーニング法を適用することにより、適切な実装を実現する。 既知のDG法と比較して,Ki67 IHC画像のマルチクラス核認識において,特に失われたカテゴリでは優れた性能を示す。 さらに, 最先端DG法に対する公開データセット上での競争結果も評価した。

Ki67 is a significant biomarker in the diagnosis and prognosis of cancer, whose index can be evaluated by quantifying its expression in Ki67 immunohistochemistry (IHC) stained images. However, quantitative analysis on multi-source Ki67 images is yet a challenging task in practice due to cross-domain distribution differences, which result from imaging variation, staining styles, and lesion types. Many recent studies have made some efforts on domain generalization (DG), whereas there are still some noteworthy limitations. Specifically in the case of Ki67 images, learning invariant representation is at the mercy of the insufficient number of domains and the cell categories mismatching in different domains. In this paper, we propose a novel method to improve DG by searching the domain-agnostic subnetwork in a domain merging scenario. Partial model parameters are iteratively pruned according to the domain gap, which is caused by the data converting from a single domain into merged domains during training. In addition, the model is optimized by fine-tuning on merged domains to eliminate the interference of class mismatching among various domains. Furthermore, an appropriate implementation is attained by applying the pruning method to different parts of the framework. Compared with known DG methods, our method yields excellent performance in multiclass nucleus recognition of Ki67 IHC images, especially in the lost category cases. Moreover, our competitive results are also evaluated on the public dataset over the state-of-the-art DG methods.
翻訳日:2021-07-07 13:46:59 公開日:2021-07-06
# 乳がん分類のためのメモリアウェアカリキュラム連合学習

Memory-aware curriculum federated learning for breast cancer classification ( http://arxiv.org/abs/2107.02504v1 )

ライセンス: Link先を確認
Amelia Jim\'enez-S\'anchez, Mickael Tardy, Miguel A. Gonz\'alez Ballester, Diana Mateus, Gemma Piella(参考訳) 乳がん早期発見には,マンモグラフィ画像を用いた定期検診が推奨される。 定期的な検査の結果、大量の負のサンプルを持つデータセットが生成される。 このような階級不均衡に対する潜在的な解決策は、複数の機関で力を合わせている。 協調型コンピュータ支援診断システムの開発は, 様々な方法で困難である。 患者のプライバシーと規制は慎重に尊重する必要がある。 機関間のデータは異なるデバイスやイメージングプロトコルから取得され、不均一な非IIDデータにつながる。 また、学習に基づく手法では、分散データを扱う新しい最適化戦略が必要である。 近年,協調学習の効果的なツールとして連合学習が登場している。 この設定では、ローカルモデルはプライベートデータ上で計算を行い、グローバルモデルを更新する。 局所更新の順序と頻度は最終グローバルモデルに影響を及ぼす。 したがって、サンプルが局所的にオプティマイザに提示される順序は重要な役割を果たす。 本研究では,フェデレーション設定のためのメモリ認識型カリキュラム学習手法を定義する。 本カリキュラムは,グローバルモデル導入後に忘れられたものに対して,特に注意を払う訓練サンプルの順序を制御している。 当社のアプローチは,教師なしのドメイン適応と組み合わせて,データのプライバシを維持しながらドメインシフトに対処する。 本手法は, 異なるベンダーの3つの臨床データセットを用いて評価する。 以上の結果から,複数部位乳癌分類におけるfederated adversarial learningの有効性を確認した。 さらに,本提案手法は,分類性能の向上に有効であることを示す。 私たちのコードは、https://github.com/ameliajimenez/curriculum-federated-learningで公開されています。

For early breast cancer detection, regular screening with mammography imaging is recommended. Routinary examinations result in datasets with a predominant amount of negative samples. A potential solution to such class-imbalance is joining forces across multiple institutions. Developing a collaborative computer-aided diagnosis system is challenging in different ways. Patient privacy and regulations need to be carefully respected. Data across institutions may be acquired from different devices or imaging protocols, leading to heterogeneous non-IID data. Also, for learning-based methods, new optimization strategies working on distributed data are required. Recently, federated learning has emerged as an effective tool for collaborative learning. In this setting, local models perform computation on their private data to update the global model. The order and the frequency of local updates influence the final global model. Hence, the order in which samples are locally presented to the optimizers plays an important role. In this work, we define a memory-aware curriculum learning method for the federated setting. Our curriculum controls the order of the training samples paying special attention to those that are forgotten after the deployment of the global model. Our approach is combined with unsupervised domain adaptation to deal with domain shift while preserving data privacy. We evaluate our method with three clinical datasets from different vendors. Our results verify the effectiveness of federated adversarial learning for the multi-site breast cancer classification. Moreover, we show that our proposed memory-aware curriculum method is beneficial to further improve classification performance. Our code is publicly available at: https://github.com/ameliajimenez/curriculum-federated-learning.
翻訳日:2021-07-07 13:46:37 公開日:2021-07-06
# 信頼度に基づく分布外検出--比較研究と分析

Confidence-based Out-of-Distribution Detection: A Comparative Study and Analysis ( http://arxiv.org/abs/2107.02568v1 )

ライセンス: Link先を確認
Christoph Berger, Magdalini Paschali, Ben Glocker, Konstantinos Kamnitsas(参考訳) 現実世界に展開される画像分類モデルは、意図したデータ配信の外で入力を受け取ることができる。 臨床的意思決定などの重要な応用においては、モデルがそのようなアウト・オブ・ディストリビューション(OOD)の入力を検出し、その不確実性を表現できることが重要である。 本研究では,信頼度に基づくood検出における最先端手法の能力について,比較研究と詳細な分析を通して評価する。 まず,コンピュータビジョンベンチマークを用いて複数のOOD検出手法を再現・比較する。 次に,胸部x線を用いた疾患分類の難易度評価を行った。 本研究は,コンピュータビジョンタスクにおけるハイパフォーマンスが,医用画像タスクの精度に直接変換されないことを示す。 2つのタスク間のメソッドのパフォーマンスに影響する要因を分析する。 我々は次世代のOOD検出法の開発に有用な知見を提供する。

Image classification models deployed in the real world may receive inputs outside the intended data distribution. For critical applications such as clinical decision making, it is important that a model can detect such out-of-distribution (OOD) inputs and express its uncertainty. In this work, we assess the capability of various state-of-the-art approaches for confidence-based OOD detection through a comparative study and in-depth analysis. First, we leverage a computer vision benchmark to reproduce and compare multiple OOD detection methods. We then evaluate their capabilities on the challenging task of disease classification using chest X-rays. Our study shows that high performance in a computer vision task does not directly translate to accuracy in a medical imaging task. We analyse factors that affect performance of the methods between the two tasks. Our results provide useful insights for developing the next generation of OOD detection methods.
翻訳日:2021-07-07 13:46:19 公開日:2021-07-06
# タプルインフォメーションを用いたマルチモーダル核融合

Contrastive Multimodal Fusion with TupleInfoNCE ( http://arxiv.org/abs/2107.02575v1 )

ライセンス: Link先を確認
Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser, Li Yi(参考訳) 本稿では,比較損失を用いたマルチモーダルデータの表現学習手法を提案する。 伝統的なアプローチは、異なるモダリティを対比して、それらの間で共有される情報を学ぶことである。 しかしながら、このアプローチは、ダウンストリームタスクに有用なモダリティ間の相補的なシナジーを学習できない可能性がある。 もう一つのアプローチは、すべてのモジュラリティをタプルに結合し、正と負のタプル対応を対比させることである。 しかし、このアプローチは弱いモダリティを無視しながら、より強いモダリティのみを考慮できる。 これらの問題に対処するため,我々は新しいコントラスト学習目標タプレインフォインスを提案する。 正と負の対応に基づくタプルとは対照的に、異なる場面を記述するモダリティを用いて新しい負のタプルを構成する。 これらの追加的な否定性を持つトレーニングは、学習モデルに同じタプルのモダリティ間の対応を調べるように促し、弱いモダリティが無視されないようにする。 本稿では,このアプローチの動作理由の相互情報に基づく理論的正当性を提案し,正および負のサンプルを生成するサンプル最適化アルゴリズムを提案する。 タプルインフォメーションは,3つのダウンストリームタスクにおいて,前回のstate of the artsを大きく上回っていることが分かりました。

This paper proposes a method for representation learning of multimodal data using contrastive losses. A traditional approach is to contrast different modalities to learn the information shared between them. However, that approach could fail to learn the complementary synergies between modalities that might be useful for downstream tasks. Another approach is to concatenate all the modalities into a tuple and then contrast positive and negative tuple correspondences. However, that approach could consider only the stronger modalities while ignoring the weaker ones. To address these issues, we propose a novel contrastive learning objective, TupleInfoNCE. It contrasts tuples based not only on positive and negative correspondences but also by composing new negative tuples using modalities describing different scenes. Training with these additional negatives encourages the learning model to examine the correspondences among modalities in the same tuple, ensuring that weak modalities are not ignored. We provide a theoretical justification based on mutual information for why this approach works, and we propose a sample optimization algorithm to generate positive and negative samples to maximize training efficacy. We find that TupleInfoNCE significantly outperforms the previous state of the arts on three different downstream tasks.
翻訳日:2021-07-07 13:46:06 公開日:2021-07-06
# ビデオディープフェイク検出のための高効率ネットと視覚トランスフォーマの複合化

Combining EfficientNet and Vision Transformers for Video Deepfake Detection ( http://arxiv.org/abs/2107.02612v1 )

ライセンス: Link先を確認
Davide Coccomini, Nicola Messina, Claudio Gennaro and Fabrizio Falchi(参考訳) ディープフェイクは、視聴者をだますために信頼できるビデオを得るためのデジタル操作の結果である。 これは、オートエンコーダやganに基づくディープラーニング技術によって、毎年よりアクセスしやすく正確になるため、実際のビデオと区別するのが非常に難しいフェイクビデオによって行われる。 伝統的にcnnネットワークはディープフェイク検出に使われており、最も良い結果が efficientnet b7 に基づいた手法で得られた。 本研究では,様々な種類の視覚変換器と特徴抽出器として使用される畳み込み効率ネットB0を組み合わせて,視覚変換器を用いた最近の手法と同等の結果を得る。 最先端のアプローチとは異なり、蒸留法もアンサンブル法も使用しない。 最高のモデルはAUC 0.951とF1スコア88.0%を達成し、DeepFake Detection Challenge (DFDC) の最先端に非常に近い。

Deepfakes are the result of digital manipulation to obtain credible videos in order to deceive the viewer. This is done through deep learning techniques based on autoencoders or GANs that become more accessible and accurate year after year, resulting in fake videos that are very difficult to distinguish from real ones. Traditionally, CNN networks have been used to perform deepfake detection, with the best results obtained using methods based on EfficientNet B7. In this study, we combine various types of Vision Transformers with a convolutional EfficientNet B0 used as a feature extractor, obtaining comparable results with some very recent methods that use Vision Transformers. Differently from the state-of-the-art approaches, we use neither distillation nor ensemble methods. The best model achieved an AUC of 0.951 and an F1 score of 88.0%, very close to the state-of-the-art on the DeepFake Detection Challenge (DFDC).
翻訳日:2021-07-07 13:45:48 公開日:2021-07-06
# ポアソン画像補間による外乱検出

Detecting Outliers with Poisson Image Interpolation ( http://arxiv.org/abs/2107.02622v1 )

ライセンス: Link先を確認
Jeremy Tan, Benjamin Hou, Thomas Day, John Simpson, Daniel Rueckert, Bernhard Kainz(参考訳) あらゆる病理学の教師付き学習は、健康スクリーニングのような多くのプライマリケアアプリケーションでは非現実的です。 近年,健康データのみから正常な外観を学習する画像異常検出手法が有望な結果を示している。 本稿では,画像再構成法および画像埋め込み法に代わる手法を提案し,病理異常検出に取り組むための新しい自己教師あり法を提案する。 アプローチは,脳MRIおよび腹部CTデータに優れた成績を示した異種パッチ補間(FPI)戦略に端を発する。 本稿では,より優れたパッチ補間戦略であるpoisson image interpolation (pii) を用いることを提案する。 PIIは、胸部X線における一般的な肺異常の同定や、出生前、胎児の心臓超音波画像における低形成左心症候群などのサロゲートタスクでテストした場合、最先端の手法よりも優れたパフォーマンスを発揮する。 コードはhttps://github.com/jemtan/pii。

Supervised learning of every possible pathology is unrealistic for many primary care applications like health screening. Image anomaly detection methods that learn normal appearance from only healthy data have shown promising results recently. We propose an alternative to image reconstruction-based and image embedding-based methods and propose a new self-supervised method to tackle pathological anomaly detection. Our approach originates in the foreign patch interpolation (FPI) strategy that has shown superior performance on brain MRI and abdominal CT data. We propose to use a better patch interpolation strategy, Poisson image interpolation (PII), which makes our method suitable for applications in challenging data regimes. PII outperforms state-of-the-art methods by a good margin when tested on surrogate tasks like identifying common lung anomalies in chest X-rays or hypo-plastic left heart syndrome in prenatal, fetal cardiac ultrasound images. Code available at https://github.com/jemtan/PII.
翻訳日:2021-07-07 13:45:28 公開日:2021-07-06
# 拡張歩行者の注意に基づく対人学習

Attention-based Adversarial Appearance Learning of Augmented Pedestrians ( http://arxiv.org/abs/2107.02673v1 )

ライセンス: Link先を確認
Kevin Strauss, Artem Savkin, Federico Tombari(参考訳) 合成データは、自動運転の分野における機械学習に基づく知覚の重要な要素となった。 しかし、sim2realドメインシフトのため、実際のデータを完全に置き換えることはできない。 本研究では,歩行者認識タスクの現実データを合成するために,拡張過程と敵対的訓練の利点を活用する手法を提案する。 本手法は, 対向損失による注意機構を利用して, 領域の差異を学習し, sim2real適応を改善する。 提案手法はこのような不一致に対して頑健であり,視覚的リアリズムと意味的整合性の両方を明らかにする。 さらに,歩行者認識作業におけるデータ生成パイプラインの評価を行い,実際の領域の特性に類似したデータを生成することを示す。

Synthetic data became already an essential component of machine learning-based perception in the field of autonomous driving. Yet it still cannot replace real data completely due to the sim2real domain shift. In this work, we propose a method that leverages the advantages of the augmentation process and adversarial training to synthesize realistic data for the pedestrian recognition task. Our approach utilizes an attention mechanism driven by an adversarial loss to learn domain discrepancies and improve sim2real adaptation. Our experiments confirm that the proposed adaptation method is robust to such discrepancies and reveals both visual realism and semantic consistency. Furthermore, we evaluate our data generation pipeline on the task of pedestrian recognition and demonstrate that generated data resemble properties of the real domain.
翻訳日:2021-07-07 13:45:08 公開日:2021-07-06
# リモートセンシングにおける時空間融合

Spatiotemporal Fusion in Remote Sensing ( http://arxiv.org/abs/2107.02701v1 )

ライセンス: Link先を確認
Hessah Albanwan, Rongjun Qin(参考訳) リモートセンシング画像と技術は、地球表面を調査する強力なツールである。 データ品質は、リモートセンシングアプリケーションを強化し、クリアでノイズのないデータセットを得るための鍵であり、多くの状況において、取得条件(大気と季節)、センサ、プラットフォーム(衛星の角度やセンサー特性など)によって、非常に困難である。 衛星の開発が進み、今日ではテラバイトのリモートセンシング画像が毎日取得されている。 したがって、リモートセンシングコミュニティでは情報とデータ融合が特に重要である。 融合は、情報抽出、分析、品質改善のために非同期に取得された様々なソースのデータを統合する。 本章では,先行研究と現在進行中の著作を要約し,基本概念と応用のいくつかを説明することに加えて,先行研究を検証し,時空間融合の理論について議論する。

Remote sensing images and techniques are powerful tools to investigate earth surface. Data quality is the key to enhance remote sensing applications and obtaining a clear and noise-free set of data is very difficult in most situations due to the varying acquisition (e.g., atmosphere and season), sensor, and platform (e.g., satellite angles and sensor characteristics) conditions. With the increasing development of satellites, nowadays Terabytes of remote sensing images can be acquired every day. Therefore, information and data fusion can be particularly important in the remote sensing community. The fusion integrates data from various sources acquired asynchronously for information extraction, analysis, and quality improvement. In this chapter, we aim to discuss the theory of spatiotemporal fusion by investigating previous works, in addition to describing the basic concepts and some of its applications by summarizing our prior and ongoing works.
翻訳日:2021-07-07 13:44:56 公開日:2021-07-06
# シーングラフ生成のための述語相関学習

Predicate correlation learning for scene graph generation ( http://arxiv.org/abs/2107.02713v1 )

ライセンス: Link先を確認
Leitian Tao, Li Mi, Nannan Li, Xianhang Cheng, Yaosi Hu, and Zhenzhong Chen(参考訳) 典型的なシーングラフ生成(sgg)メソッドでは、述語のヘッドクラスとテールクラスのパフォーマンスに大きなギャップがあることが多い。 この現象は主に、異なる述語間の意味的重複と、ロングテールデータ分布によって引き起こされる。 本稿では,SGGの述語相関学習(PCL)手法を提案し,述語間の相関を考慮し,上記の2つの問題に対処する。 強相関述語クラス間の意味的重複を記述するために、述語相関行列(PCM)が定義され、述語ペア間の関係を定量化し、行列の長い尾バイアスを取り除くために動的に更新される。 さらに、PCM を述語相関損失関数 (L_{PC}$) に統合し、無注釈クラスの回避勾配を減少させる。 提案手法はVisual Genomeベンチマークで評価され,既存の手法を用いた場合,テールクラスの性能が大幅に向上する。

For a typical Scene Graph Generation (SGG) method, there is often a large gap in the performance of the predicates' head classes and tail classes. This phenomenon is mainly caused by the semantic overlap between different predicates as well as the long-tailed data distribution. In this paper, a Predicate Correlation Learning (PCL) method for SGG is proposed to address the above two problems by taking the correlation between predicates into consideration. To describe the semantic overlap between strong-correlated predicate classes, a Predicate Correlation Matrix (PCM) is defined to quantify the relationship between predicate pairs, which is dynamically updated to remove the matrix's long-tailed bias. In addition, PCM is integrated into a Predicate Correlation Loss function ($L_{PC}$) to reduce discouraging gradients of unannotated classes. The proposed method is evaluated on Visual Genome benchmark, where the performance of the tail classes is significantly improved when built on the existing methods.
翻訳日:2021-07-07 13:44:43 公開日:2021-07-06
# iPOKE:制御された確率的ビデオ合成のための静止画

iPOKE: Poking a Still Image for Controlled Stochastic Video Synthesis ( http://arxiv.org/abs/2107.02790v1 )

ライセンス: Link先を確認
Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj\"orn Ommer(参考訳) 静的なシーンがローカルのpokeにどう反応するか? ローカルにプッシュできれば、オブジェクトの他の部分にどのような影響がありますか? 我々の世界の確率的性質によって引き起こされる明らかな変化にもかかわらず、独特の動きが存在するだろう。 これらの結果は、局所的な相互作用によって引き起こされる全体運動を規定する物体の特徴的な運動学によって支配される。 逆に、物体の動きは、その基礎となる特徴的な運動学とその部分間の相互依存性に関する重要な情報を提供する。 この2方向関係は、対象キネマティクスと有望な将来の画像シーケンスの間の客観的マッピングを学ぶ動機となる。 そこで本稿では,対象キネマティックスの初期フレームと局所ポケを条件として,対象キネマティックスをサンプリングし,対応する可読性映像に対して1対1の対応関係を確立することにより,制御された確率的ビデオ合成を実現する,対象キネマティックスの可逆的予測を提案する。 従来の作品とは対照的に、任意のリアルなビデオは生成しないが、環境の確率的性質とそれに関連する妥当な結果の多様性を把握しながら、動きの効率的な制御を提供する。 さらに、我々の手法は、キネマティックスを新しいオブジェクトインスタンスに転送することができ、特定のオブジェクトクラスに限定されない。 プロジェクトページはhttps://bit.ly/3djn4lfで利用可能

How would a static scene react to a local poke? What are the effects on other parts of an object if you could locally push it? There will be distinctive movement, despite evident variations caused by the stochastic nature of our world. These outcomes are governed by the characteristic kinematics of objects that dictate their overall motion caused by a local interaction. Conversely, the movement of an object provides crucial information about its underlying distinctive kinematics and the interdependencies between its parts. This two-way relation motivates learning a bijective mapping between object kinematics and plausible future image sequences. Therefore, we propose iPOKE - invertible Prediction of Object Kinematics - that, conditioned on an initial frame and a local poke, allows to sample object kinematics and establishes a one-to-one correspondence to the corresponding plausible videos, thereby providing a controlled stochastic video synthesis. In contrast to previous works, we do not generate arbitrary realistic videos, but provide efficient control of movements, while still capturing the stochastic nature of our environment and the diversity of plausible outcomes it entails. Moreover, our approach can transfer kinematics onto novel object instances and is not confined to particular object classes. Project page is available at https://bit.ly/3dJN4Lf
翻訳日:2021-07-07 13:44:28 公開日:2021-07-06
# ディープグラフニューラルネットワークのためのディリクレエネルギー制約学習

Dirichlet Energy Constrained Learning for Deep Graph Neural Networks ( http://arxiv.org/abs/2107.02392v1 )

ライセンス: Link先を確認
Kaixiong Zhou, Xiao Huang, Daochen Zha, Rui Chen, Li Li, Soo-Hyun Choi, Xia Hu(参考訳) グラフニューラルネットワーク(GNN)は、深いアーキテクチャと位相構造モデリングを効果的な方法で統合する。 しかし、既存のGNNの性能は、過度にスムーズな問題のため、多くのレイヤを積み重ねると大幅に低下する。 ノード埋め込みは、GNNが隣人の表現を再帰的に集約し続けると、同様のベクトルに収束する傾向がある。 ディープGNNを実現するために、最近いくつかの方法が検討されている。 しかし、畳み込みニューラルネットワークやヒューリスティック戦略のテクニックから開発されている。 深いGNNの設計を導く一般化可能かつ理論的原理は存在しない。 そこで我々は,ノード埋め込みのディリクレエネルギーを利用してディープGNNのボトルネックを分析し,ディープGNNのトレーニングを導くための一般化可能な原理を提案する。 これに基づいて、新しいディープGNNフレームワーク -- EGNNが設計されている。 オーバースムーシングを避けるために、各層におけるディリクレエネルギーの観点で下層と上層に制約を与えることができる。 実験結果から,EGNNは深い層を用いて最先端の性能を実現することが示された。

Graph neural networks (GNNs) integrate deep architectures and topological structure modeling in an effective way. However, the performance of existing GNNs would decrease significantly when they stack many layers, because of the over-smoothing issue. Node embeddings tend to converge to similar vectors when GNNs keep recursively aggregating the representations of neighbors. To enable deep GNNs, several methods have been explored recently. But they are developed from either techniques in convolutional neural networks or heuristic strategies. There is no generalizable and theoretical principle to guide the design of deep GNNs. To this end, we analyze the bottleneck of deep GNNs by leveraging the Dirichlet energy of node embeddings, and propose a generalizable principle to guide the training of deep GNNs. Based on it, a novel deep GNN framework -- EGNN is designed. It could provide lower and upper constraints in terms of Dirichlet energy at each layer to avoid over-smoothing. Experimental results demonstrate that EGNN achieves state-of-the-art performance by using deep layers.
翻訳日:2021-07-07 13:44:06 公開日:2021-07-06
# GradDiv: 勾配多様性規則化によるランダム化ニューラルネットワークの逆ロバスト性

GradDiv: Adversarial Robustness of Randomized Neural Networks via Gradient Diversity Regularization ( http://arxiv.org/abs/2107.02425v1 )

ライセンス: Link先を確認
Sungyoon Lee, Hoki Kim, Jaewook Lee(参考訳) ディープラーニングは、敵の例に弱い。 ランダム化されたニューラルネットワークに基づく多くのディフェンスがこの問題を解決するために提案されているが、EOT攻撃のようなプロキシ勾配を用いた攻撃に対して堅牢性を達成することはできない。 本研究では,ランダム化ニューラルネットワークに対するプロキシ勾配を用いた逆攻撃の効果を調査し,ランダム化ニューラルネットワークの損失勾配の方向分布に大きく依存することを示す。 特に、勾配が分散している場合、プロキシ勾配は効果が低いことを示す。 この目的のために,ロバストなランダム化ニューラルネットワークを構築するために,勾配の濃度を最小化する勾配多様性(graddiv)正則化を提案する。 mnist, cifar10, stl10を用いた実験により, 提案するgraddiv正規化により, 様々な最先端攻撃手法に対して, ランダム化ニューラルネットワークの対向ロバスト性が向上することを示した。 さらに,ランダム化ニューラルネットワークのサンプルモデル間の転送性を効率的に低減する。

Deep learning is vulnerable to adversarial examples. Many defenses based on randomized neural networks have been proposed to solve the problem, but fail to achieve robustness against attacks using proxy gradients such as the Expectation over Transformation (EOT) attack. We investigate the effect of the adversarial attacks using proxy gradients on randomized neural networks and demonstrate that it highly relies on the directional distribution of the loss gradients of the randomized neural network. We show in particular that proxy gradients are less effective when the gradients are more scattered. To this end, we propose Gradient Diversity (GradDiv) regularizations that minimize the concentration of the gradients to build a robust randomized neural network. Our experiments on MNIST, CIFAR10, and STL10 show that our proposed GradDiv regularizations improve the adversarial robustness of randomized neural networks against a variety of state-of-the-art attack methods. Moreover, our method efficiently reduces the transferability among sample models of randomized neural networks.
翻訳日:2021-07-07 13:43:53 公開日:2021-07-06
# RNNによる予測分類による臨床試験におけるボールキャッチ成功の早期認識

Early Recognition of Ball Catching Success in Clinical Trials with RNN-Based Predictive Classification ( http://arxiv.org/abs/2107.02442v1 )

ライセンス: Link先を確認
Jana Lang, Martin A. Giese, Matthis Synofzik, Winfried Ilg, Sebastian Otte(参考訳) 運動障害はボールをキャッチするなどの動的物体との相互作用に影響を与える可能性がある。 臨床捕集臨床試験の分類は、腕とボールの動きの関係における病理学的変化の存在についての洞察を与えるかもしれない。 正確な、しかし初期の決定は、キャッチャーの最初のボールが接触する前にキャッチトライを分類するために必要である。 臨床的に価値のある結果を得るためには、少なくとも75%の重大な意思決定信頼が必要である。 したがって、3つの競合する目標を同時に最適化する必要がある。 本稿では,早期時系列分類のための統合分類と予測手法を提案する。予測型,生成型リカレントニューラルネットワーク(rnn)は,すでに利用可能な観測結果に基づいて球軌道の次のデータポイントを予測し,識別型rnnは,利用可能なデータポイントと未ロールシーケンス予測に基づいて,分類推測を連続的に生成する。 我々は,予測的逐次分類 (psc) と呼ぶ手法と,様々なrnnおよび時間畳み込みネットワーク (tcn) アーキテクチャを含む最先端の逐次学習者を比較した。 この厳密な実世界のタスクでは、認識のイヤーラインに対する精度と信頼性の観点から、PSCが他のすべてのモデルよりも優れていることを一貫して示すことができる。 具体的には、PSCは最初のボール接触の123ミリ秒前に、試薬を捕獲する成功を確実に分類することができる。 我々はPSCが、正確かつ確実な決定が必要な場合、早期時系列分類において有望なアプローチであると結論付けた。

Motor disturbances can affect the interaction with dynamic objects, such as catching a ball. A classification of clinical catching trials might give insight into the existence of pathological alterations in the relation of arm and ball movements. Accurate, but also early decisions are required to classify a catching attempt before the catcher's first ball contact. To obtain clinically valuable results, a significant decision confidence of at least 75% is required. Hence, three competing objectives have to be optimized at the same time: accuracy, earliness and decision-making confidence. Here we propose a coupled classification and prediction approach for early time series classification: a predictive, generative recurrent neural network (RNN) forecasts the next data points of ball trajectories based on already available observations; a discriminative RNN continuously generates classification guesses based on the available data points and the unrolled sequence predictions. We compare our approach, which we refer to as predictive sequential classification (PSC), to state-of-the-art sequence learners, including various RNN and temporal convolutional network (TCN) architectures. On this hard real-world task we can consistently demonstrate the superiority of PSC over all other models in terms of accuracy and confidence with respect to earliness of recognition. Specifically, PSC is able to confidently classify the success of catching trials as early as 123 milliseconds before the first ball contact. We conclude that PSC is a promising approach for early time series classification, when accurate and confident decisions are required.
翻訳日:2021-07-07 13:43:37 公開日:2021-07-06
# DTGAN: Tabular GAN の個人差分訓練

DTGAN: Differential Private Training for Tabular GANs ( http://arxiv.org/abs/2107.02521v1 )

ライセンス: Link先を確認
Aditya Kunar, Robert Birke, Lydia Chen, Zilong Zhao(参考訳) Tabular Generative Adversarial Network (TGAN)は先日,最も広く使用されているデータフォーマットである表データの合成の必要性に対処するために登場した。 合成表データは、プライバシー規則に従う利点を提供するが、トレーニング中に実際のデータのプロパティを補間するため、推論攻撃によるプライバシー漏洩のリスクは依然として残っている。 differential private (dp) トレーニングアルゴリズムは、プライバシリークを防ぐために統計ノイズを注入することにより、機械学習モデルのトレーニングのための理論的保証を提供する。 しかし、TGANにDPを適用する際の課題は、最も最適なフレームワーク(PATE/DP-SGD)とニューラルネットワーク(Generator/Discriminator)を判断し、データユーティリティが所定のプライバシー保証の下で十分に維持されているようにノイズを注入することである。 本稿では,DTGAN_GとDTGAN_Dの2つの変種を組み合わせた新しい条件付きWasserstein表型GANであるDTGANを提案する。 高品質な表データ合成に必要な複雑な損失関数(分類と情報損失)を持つ生成器のトレーニングに関連するプライバシ解析を導出する。 さらに,DPが提案する理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。 その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。 したがって、(i)dtgan_dは、厳格なプライバシー予算の平均精度スコアであるepsilon = 1の点で、4mlモデルにおける最高データユーティリティを最大18%維持することができ、(ii)dpは、メンバーシップアタックの成功確率を50%に制限することにより、推論攻撃に対するプライバシ損失を効果的に防止できる。

Tabular generative adversarial networks (TGAN) have recently emerged to cater to the need of synthesizing tabular data -- the most widely used data format. While synthetic tabular data offers the advantage of complying with privacy regulations, there still exists a risk of privacy leakage via inference attacks due to interpolating the properties of real data during training. Differential private (DP) training algorithms provide theoretical guarantees for training machine learning models by injecting statistical noise to prevent privacy leaks. However, the challenges of applying DP on TGAN are to determine the most optimal framework (i.e., PATE/DP-SGD) and neural network (i.e., Generator/Discriminator)to inject noise such that the data utility is well maintained under a given privacy guarantee. In this paper, we propose DTGAN, a novel conditional Wasserstein tabular GAN that comes in two variants DTGAN_G and DTGAN_D, for providing a detailed comparison of tabular GANs trained using DP-SGD for the generator vs discriminator, respectively. We elicit the privacy analysis associated with training the generator with complex loss functions (i.e., classification and information losses) needed for high quality tabular data synthesis. Additionally, we rigorously evaluate the theoretical privacy guarantees offered by DP empirically against membership and attribute inference attacks. Our results on 3 datasets show that the DP-SGD framework is superior to PATE and that a DP discriminator is more optimal for training convergence. Thus, we find (i) DTGAN_D is capable of maintaining the highest data utility across 4 ML models by up to 18% in terms of the average precision score for a strict privacy budget, epsilon = 1, as compared to the prior studies and (ii) DP effectively prevents privacy loss against inference attacks by restricting the success probability of membership attacks to be close to 50%.
翻訳日:2021-07-07 13:43:11 公開日:2021-07-06
# 都市を気候変動の影響に適応させるリモートセンシング、AIおよび革新的な予測方法

Remote sensing, AI and innovative prediction methods for adapting cities to the impacts of the climate change ( http://arxiv.org/abs/2107.02693v1 )

ライセンス: Link先を確認
Beril Sirmacek(参考訳) 都市部は気候変動の最大の要因の1つであるだけでなく、人口の多い地域で最も脆弱な地域であり、同時にマイナスの影響も経験している。 本稿では,衛星リモートセンシング画像と人工知能(ai)によってもたらされる,都市の気候適応度を自動的に測定する機会について述べる。 本稿では,リモートセンシング画像から指標を抽出する上で有用なAIベースのフレームワークを提案する。 このようなモデルがより堅牢になり、現実のアプリケーションで使われるようになると、意思決定者や早期応答者が社会、天然資源、生物多様性の幸福を維持するための最善の行動を選択するのに役立つかもしれません。 これは多くの科学者にとってオープンフィールドであり、現在進行中の研究であり、AIベースの手法の課題と限界に関する深い議論と予測モデルについて述べています。

Urban areas are not only one of the biggest contributors to climate change, but also they are one of the most vulnerable areas with high populations who would together experience the negative impacts. In this paper, I address some of the opportunities brought by satellite remote sensing imaging and artificial intelligence (AI) in order to measure climate adaptation of cities automatically. I propose an AI-based framework which might be useful for extracting indicators from remote sensing images and might help with predictive estimation of future states of these climate adaptation related indicators. When such models become more robust and used in real-life applications, they might help decision makers and early responders to choose the best actions to sustain the wellbeing of society, natural resources and biodiversity. I underline that this is an open field and an ongoing research for many scientists, therefore I offer an in depth discussion on the challenges and limitations of AI-based methods and the predictive estimation models in general.
翻訳日:2021-07-07 13:42:34 公開日:2021-07-06
# 都市自律運転における歩行者の出現推定と咬合認識リスク評価

Pedestrian Emergence Estimation and Occlusion-Aware Risk Assessment for Urban Autonomous Driving ( http://arxiv.org/abs/2107.02326v1 )

ライセンス: Link先を確認
Mert Koc, Ekim Yurtsever, Keith Redmill, Umit Ozguner(参考訳) vrus(unseed or partial occluded vulnerable road users)は、都市部の完全自動運転にとって大きな課題である。 しかし, 咬合認識リスクアセスメントシステムは広く研究されていない。 本稿では,都市自律運転における歩行者の出現推定と咬合認識リスク評価システムを提案する。 まず,可視性車や歩行者などのコンテクスト情報を用いて,遮蔽領域における歩行者の出現確率を推定する。 これらの確率はリスク評価の枠組みで使われ、縦方向のモーションコントローラに組み込まれる。 提案したコントローラは、よく見られる運転スタイルを再カプセル化するいくつかのベースラインコントローラに対してテストされる。 シミュレーションされたテストシナリオには、駐車した車や歩行者が無作為に配置されている。 提案するコントローラは,安全性と快適性の観点から,ベースラインを上回った。

Avoiding unseen or partially occluded vulnerable road users (VRUs) is a major challenge for fully autonomous driving in urban scenes. However, occlusion-aware risk assessment systems have not been widely studied. Here, we propose a pedestrian emergence estimation and occlusion-aware risk assessment system for urban autonomous driving. First, the proposed system utilizes available contextual information, such as visible cars and pedestrians, to estimate pedestrian emergence probabilities in occluded regions. These probabilities are then used in a risk assessment framework, and incorporated into a longitudinal motion controller. The proposed controller is tested against several baseline controllers that recapitulate some commonly observed driving styles. The simulated test scenarios include randomly placed parked cars and pedestrians, most of whom are occluded from the ego vehicle's view and emerges randomly. The proposed controller outperformed the baselines in terms of safety and comfort measures.
翻訳日:2021-07-07 13:42:18 公開日:2021-07-06
# オンエッジマルチタスク転送学習:データ駆動タスク割り当てによるモデルと実践

On-edge Multi-task Transfer Learning: Model and Practice with Data-driven Task Allocation ( http://arxiv.org/abs/2107.02466v1 )

ライセンス: Link先を確認
Zimu Zheng, Qiong Chen, Chuang Hu, Dan Wang, Fangming Liu(参考訳) エッジデバイスでは、転送学習が広く推奨される治療として機能する一般的な問題としてデータ不足が発生する。 それにもかかわらず、転送学習はリソース制約のあるエッジデバイスに重い計算負荷を課す。 既存のタスク割当作業は通常、送信されたすべてのタスクが等しく重要であると仮定し、マルチタスク転送学習(mtl)に直接適用される場合、タスクレベルで非効率なリソース割当につながる。 これらの課題に対処するために、まず、タスクが全体的な意思決定性能改善に与える影響を計測し、 \emph{task importance} を定量化することが重要であることを明らかにする。 MTL(TATIM)のタスクの割り当ては、NP完全Knapsack問題の変種であり、この問題を解決するための複雑な計算を、様々な状況下で繰り返し行う必要があることを示す。 高い計算効率でTATIMを解くために,データ駆動型協調タスク割当(DCTA)手法を提案する。 最後に、トレース駆動シミュレーションだけでなく、新しいアーキテクチャとaiopsシステム内の主コンポーネント設計を通してモデルと実践を橋渡しする新しい総合的な実世界のaiopsケーススタディによって、dctaの性能を評価する。 広範な実験により、我々のdctaは3.24倍の処理時間を削減し、タティムを解決するときと比較して48.4\%のエネルギー消費を節約できることが示されている。

On edge devices, data scarcity occurs as a common problem where transfer learning serves as a widely-suggested remedy. Nevertheless, transfer learning imposes a heavy computation burden to resource-constrained edge devices. Existing task allocation works usually assume all submitted tasks are equally important, leading to inefficient resource allocation at a task level when directly applied in Multi-task Transfer Learning (MTL). To address these issues, we first reveal that it is crucial to measure the impact of tasks on overall decision performance improvement and quantify \emph{task importance}. We then show that task allocation with task importance for MTL (TATIM) is a variant of the NP-complete Knapsack problem, where the complicated computation to solve this problem needs to be conducted repeatedly under varying contexts. To solve TATIM with high computational efficiency, we propose a Data-driven Cooperative Task Allocation (DCTA) approach. Finally, we evaluate the performance of DCTA by not only a trace-driven simulation, but also a new comprehensive real-world AIOps case study that bridges model and practice via a new architecture and main components design within the AIOps system. Extensive experiments show that our DCTA reduces 3.24 times of processing time, and saves 48.4\% energy consumption compared with the state-of-the-art when solving TATIM.
翻訳日:2021-07-07 13:42:04 公開日:2021-07-06
# T-LoHo:グラフ上の構造的疎度と滑らか性のベイズ正規化モデル

T-LoHo: A Bayesian Regularization Model for Structured Sparsity and Smoothness on Graphs ( http://arxiv.org/abs/2107.02510v1 )

ライセンス: Link先を確認
Changwoo J. Lee, Zhao Tang Luo, Huiyan Sang(参考訳) 現代の複雑なデータの多くはグラフとして表現できる。 グラフ構造データを扱うモデルでは、多変量パラメータは単にスパースであるだけでなく、ゼロパラメータと非ゼロパラメータの両方が団結する傾向にあるという意味で、スムーズな構造を持つ。 本稿では,多変量設定に先立って,一般的な非変量ベイズ馬頭収縮を一般化し,構造的スパーシティと滑らかさを同時に検出する,木ベースの低ランク馬頭モデル(t-lohoモデル)と呼ばれる,グラフィカルな関係を持つ高次元パラメータに対する新しい前置法を提案する。 前者は多くの階層的高次元モデルに組み込むことができる。 その有用性を説明するために、回帰係数がグラフ上にリンクされているベイズ高次元回帰問題を正則化する。 得られたクラスタは柔軟な形状を持ち、グラフに対するクラスタ連続性制約を満たす。 我々は,クラスタ数を含むモデルパラメータに対する不確実性測度を満たしたベイズ推定を行う効率的なマルコフ連鎖モンテカルロアルゴリズムを設計する。 クラスタリング効果と後部濃度の結果について理論的に検討する。 最後に,道路ネットワークにおける異常検出などの実データアプリケーションとシミュレーションによるモデルの性能について述べる。 その結果, スパース溶解ラッソなどの他の競合手法よりも大幅に改善した。

Many modern complex data can be represented as a graph. In models dealing with graph-structured data, multivariate parameters are not just sparse but have structured sparsity and smoothness in the sense that both zero and non-zero parameters tend to cluster together. We propose a new prior for high dimensional parameters with graphical relations, referred to as a Tree-based Low-rank Horseshoe(T-LoHo) model, that generalizes the popular univariate Bayesian horseshoe shrinkage prior to the multivariate setting to detect structured sparsity and smoothness simultaneously. The prior can be embedded in many hierarchical high dimensional models. To illustrate its utility, we apply it to regularize a Bayesian high-dimensional regression problem where the regression coefficients are linked on a graph. The resulting clusters have flexible shapes and satisfy the cluster contiguity constraint with respect to the graph. We design an efficient Markov chain Monte Carlo algorithm that delivers full Bayesian inference with uncertainty measures for model parameters including the number of clusters. We offer theoretical investigations of the clustering effects and posterior concentration results. Finally, we illustrate the performance of the model with simulation studies and real data applications such as anomaly detection in road networks. The results indicate substantial improvements over other competing methods such as sparse fused lasso.
翻訳日:2021-07-07 13:41:40 公開日:2021-07-06
# コミュニティ検出の超球面形状:距離としてのモジュラリティ

The Hyperspherical Geometry of Community Detection: Modularity as a Distance ( http://arxiv.org/abs/2107.02645v1 )

ライセンス: Link先を確認
Martijn G\"osgens, Remco van der Hofstad, Nelly Litvak(参考訳) Louvainアルゴリズムは、現在最も人気のあるコミュニティ検出手法の1つである。 このアルゴリズムはモジュラリティと呼ばれる量を最大化することでコミュニティを見つける。 本稿では,頂点ペアによってインデックスづけされた2進ベクトルによってクラスタリングを記述する,クラスタリングの計量空間について述べる。 この幾何学を超球面に拡張し、モジュラリティの最大化は、クラスタリングベクトルの集合上のあるモジュラリティベクトルへの角距離を最小化することと同値であることを示す。 この等価性により、ルービンアルゴリズムを、このモジュラリティベクトルまでの距離をほぼ最小化する最寄り探索と見なすことができる。 このモジュラリティベクトルを別のベクトルに置き換えることで、多くの代替のコミュニティ検出方法を得ることができる。 このより広いクラスを探索し、既存のモジュラリティベースのメソッドと比較する。 実験により,これらの代替手段はモジュール性に基づく手法より優れていることが示された。 例えば、コミュニティが頂点付近に比べて大きい場合、近隣住民の数に基づくベクトルは、既存のコミュニティ検出方法より優れている。 本研究の焦点はネットワークにおけるコミュニティ検出であるが,提案手法は,ペア間の類似性が利用可能な任意のクラスタリング問題に適用できる。

The Louvain algorithm is currently one of the most popular community detection methods. This algorithm finds communities by maximizing a quantity called modularity. In this work, we describe a metric space of clusterings, where clusterings are described by a binary vector indexed by the vertex-pairs. We extend this geometry to a hypersphere and prove that maximizing modularity is equivalent to minimizing the angular distance to some modularity vector over the set of clustering vectors. This equivalence allows us to view the Louvain algorithm as a nearest-neighbor search that approximately minimizes the distance to this modularity vector. By replacing this modularity vector by a different vector, many alternative community detection methods can be obtained. We explore this wider class and compare it to existing modularity-based methods. Our experiments show that these alternatives may outperform modularity-based methods. For example, when communities are large compared to vertex neighborhoods, a vector based on numbers of common neighbors outperforms existing community detection methods. While the focus of the present work is community detection in networks, the proposed methodology can be applied to any clustering problem where pair-wise similarity data is available.
翻訳日:2021-07-07 13:41:17 公開日:2021-07-06
# 学習に基づく登録のための二重確認支援時空間正規化重み付け

Double-Uncertainty Assisted Spatial and Temporal Regularization Weighting for Learning-based Registration ( http://arxiv.org/abs/2107.02433v1 )

ライセンス: Link先を確認
Zhe Xu, Jie Luo, Donghuan Lu, Jiangpeng Yan, Jayender Jagadeesan, William Wells III, Sarah Frisken, Kai Ma, Yefeng Zheng, Raymond Kai-yu Tong(参考訳) 画像登録問題に不適切な性質が伴う困難に対処するために、研究者たちは正規化を用いて解空間を制約する。 ほとんどの学習ベースの登録アプローチでは、正規化は通常固定重みを持ち、空間変換のみを制約する。 このような慣習は,(1) 特定の画像対の正規化強度を画像の内容に関連付けること,(2) 変換の空間的規則化(異なる推定の時間的整合性を見越す)だけは,不合理性に対処する最善の戦略ではない,という2つの制限がある。 本研究では,平均教師ベース登録フレームワークを提案する。 このフレームワークは、教師モデルの時間的アンサンブル予測を学生モデルのものと一致させることで、追加の「textit{temporal regularization}」用語を取り入れている。 各トレーニングステップでは、摂動型教師モデルから得られた変換の不確かさと外観不確かさを考慮し、 \textit{spatial regularization} と \textit{temporal regularization} の重みを自動的に調整する。 マルチモーダルおよびユニモーダルな登録タスクの実験を行い、その結果、従来のベンチマーク手法よりも優れた戦略が得られた。

In order to tackle the difficulty associated with the ill-posed nature of the image registration problem, researchers use regularization to constrain the solution space. For most learning-based registration approaches, the regularization usually has a fixed weight and only constrains the spatial transformation. Such convention has two limitations: (1) The regularization strength of a specific image pair should be associated with the content of the images, thus the ``one value fits all'' scheme is not ideal; (2) Only spatially regularizing the transformation (but overlooking the temporal consistency of different estimations) may not be the best strategy to cope with the ill-posedness. In this study, we propose a mean-teacher based registration framework. This framework incorporates an additional \textit{temporal regularization} term by encouraging the teacher model's temporal ensemble prediction to be consistent with that of the student model. At each training step, it also automatically adjusts the weights of the \textit{spatial regularization} and the \textit{temporal regularization} by taking account of the transformation uncertainty and appearance uncertainty derived from the perturbed teacher model. We perform experiments on multi- and uni-modal registration tasks, and the results show that our strategy outperforms the traditional and learning-based benchmark methods.
翻訳日:2021-07-07 13:40:40 公開日:2021-07-06
# 画像偽造ローカライズのための偽造注意を考慮したセルフ・アドバーサルトレーニング

Self-Adversarial Training incorporating Forgery Attention for Image Forgery Localization ( http://arxiv.org/abs/2107.02434v1 )

ライセンス: Link先を確認
Long Zhuo and Shunquan Tan and Bin Li and Jiwu Huang(参考訳) 画像編集技術により、視覚的痕跡を残すことなく画像の内容を変更することができ、重大なセキュリティリスクを引き起こす可能性がある。 したがって、これらの偽造物の検出と位置決めは極めて必要で困難である。 さらに、広範囲なデータを持つ他のタスクとは異なり、アノテーションの難しさのためにトレーニング用の注釈付きイメージが欠如していることが多い。 本稿では,偽造画像における偽造領域のローカライズにセルフアテンション機構を利用する,セルフアドバーサルトレーニング戦略と信頼性の高い粗粒間ネットワークを提案する。 自己保持モジュールはCW-HPF(Channel-Wise High Pass Filter block)に基づいている。 CW-HPFは、チャネル間の特徴関係を活用し、ハイパスフィルタによりノイズ特徴を抽出する。 The CW-HPF, a self-attention mechanism, called forgery attention, was proposed to capture rich contextual dependencies of intmpered region。 具体的には,CW-HPF上に2種類のアテンションモジュールを付加し,チャネル間の空間的相互依存性と外部依存性をモデル化する。 我々は、粗大なネットワークを利用して、元の領域と改ざんされた領域のノイズの不整合を高める。 さらに, トレーニングデータ不足の問題に対処するために, 学習データを動的に拡張し, より堅牢な性能を実現するセルフ・アドバーサル・トレーニング戦略を考案する。 具体的には、トレーニングイテレーション毎に、ネットワークに対して敵の攻撃を行い、敵の例を生成し、モデルをトレーニングします。 大規模な実験結果から,提案アルゴリズムは,異なるベンチマークデータセットにおいて,最先端の手法よりも顕著に優れていた。

Image editing techniques enable people to modify the content of an image without leaving visual traces and thus may cause serious security risks. Hence the detection and localization of these forgeries become quite necessary and challenging. Furthermore, unlike other tasks with extensive data, there is usually a lack of annotated forged images for training due to annotation difficulties. In this paper, we propose a self-adversarial training strategy and a reliable coarse-to-fine network that utilizes a self-attention mechanism to localize forged regions in forgery images. The self-attention module is based on a Channel-Wise High Pass Filter block (CW-HPF). CW-HPF leverages inter-channel relationships of features and extracts noise features by high pass filters. Based on the CW-HPF, a self-attention mechanism, called forgery attention, is proposed to capture rich contextual dependencies of intrinsic inconsistency extracted from tampered regions. Specifically, we append two types of attention modules on top of CW-HPF respectively to model internal interdependencies in spatial dimension and external dependencies among channels. We exploit a coarse-to-fine network to enhance the noise inconsistency between original and tampered regions. More importantly, to address the issue of insufficient training data, we design a self-adversarial training strategy that expands training data dynamically to achieve more robust performance. Specifically, in each training iteration, we perform adversarial attacks against our network to generate adversarial examples and train our model on them. Extensive experimental results demonstrate that our proposed algorithm steadily outperforms state-of-the-art methods by a clear margin in different benchmark datasets.
翻訳日:2021-07-07 13:40:14 公開日:2021-07-06
# 視覚位置認識のための環境・場所別ユーティリティーの階層的双対モデル

A Hierarchical Dual Model of Environment- and Place-Specific Utility for Visual Place Recognition ( http://arxiv.org/abs/2107.02440v1 )

ライセンス: Link先を確認
Nikhil Varma Keetha, Michael Milford and Sourav Garg(参考訳) 視覚位置認識 (vision place recognition, vpr) のアプローチは、特定の場所を特定する際に高い '`utility' を持つ視覚手がかり、画像領域、ランドマークを識別することで、場所と一致させようとする試みである。 しかし、この実用性の概念は特異ではなく、むしろ様々な形態をとることができる。 本稿では,視覚的手がかりの「特定の」環境への活用と,特定の場所への活用という,VPRの2つの重要なユーティリティを推定するための新しいアプローチを提案する。 我々は,局所集計ディスクリプタ(vlad)クラスタのベクトルの環境特性と場所特性の両方を教師なしで推定し,キーポイント選択による局所特徴マッチングを指導するために,対比学習原理を用いる。 これら2つのユーティリティを組み合わせることで、3つの挑戦的なベンチマークデータセットで最先端のパフォーマンスを実現し、必要なストレージと計算時間を短縮する。 さらに、教師なしクラスタ選択が意味論的に意味のある結果をもたらすことを示し、よりきめ細かい分類は、高レベルのセマンティック分類よりもVPRの利便性が高いことを示す。 建設、道路)と、これら2つの実用対策がどのように異なる場所や環境に変化するかを特徴付ける。 ソースコードはhttps://github.com/Nik-V9/HEAPUtil.comで公開されている。

Visual Place Recognition (VPR) approaches have typically attempted to match places by identifying visual cues, image regions or landmarks that have high ``utility'' in identifying a specific place. But this concept of utility is not singular - rather it can take a range of forms. In this paper, we present a novel approach to deduce two key types of utility for VPR: the utility of visual cues `specific' to an environment, and to a particular place. We employ contrastive learning principles to estimate both the environment- and place-specific utility of Vector of Locally Aggregated Descriptors (VLAD) clusters in an unsupervised manner, which is then used to guide local feature matching through keypoint selection. By combining these two utility measures, our approach achieves state-of-the-art performance on three challenging benchmark datasets, while simultaneously reducing the required storage and compute time. We provide further analysis demonstrating that unsupervised cluster selection results in semantically meaningful results, that finer grained categorization often has higher utility for VPR than high level semantic categorization (e.g. building, road), and characterise how these two utility measures vary across different places and environments. Source code is made publicly available at https://github.com/Nik-V9/HEAPUtil.
翻訳日:2021-07-07 13:39:49 公開日:2021-07-06
# 自動走行における車線検出モデルの物理世界対応攻撃に対するロバスト性について

On Robustness of Lane Detection Models to Physical-World Adversarial Attacks in Autonomous Driving ( http://arxiv.org/abs/2107.02488v1 )

ライセンス: Link先を確認
Takami Sato and Qi Alfred Chen(参考訳) 2017年のTuSimple Lane Detection Challengeの後、その精度とF1スコアに基づく評価は、車線検出手法の性能を測定するデファクトスタンダードとなっている。 本研究では,自動運転における実世界の対向攻撃における最先端レーン検出手法のロバスト性を評価するために,最初の大規模実験を行った。 自動走行シナリオにおける従来の評価とエンドツーエンド評価を用いて4種類の車線検出手法を評価し,各車線検出モデルのセキュリティ特性について検討した。 従来の評価は、エンドツーエンドの自動運転シナリオの頑健さを反映しないことを示す。 その結果,実測値に対する最もロバストなモデルは,エンドツーエンド評価において最もロバストではないことがわかった。 競争データセットとそのメトリクスは、ディープニューラルネットワークの急速な発展とともに、高性能レーン検出法の開発において大きな役割を果たしてきたが、従来の評価は時代遅れとなり、メトリクスと実用性のギャップが重要になっている。 我々は,車線検出モデルを評価するためのより包括的なフレームワークの構築において,コミュニティがさらなる進展を期待する。

After the 2017 TuSimple Lane Detection Challenge, its evaluation based on accuracy and F1 score has become the de facto standard to measure the performance of lane detection methods. In this work, we conduct the first large-scale empirical study to evaluate the robustness of state-of-the-art lane detection methods under physical-world adversarial attacks in autonomous driving. We evaluate 4 major types of lane detection approaches with the conventional evaluation and end-to-end evaluation in autonomous driving scenarios and then discuss the security proprieties of each lane detection model. We demonstrate that the conventional evaluation fails to reflect the robustness in end-to-end autonomous driving scenarios. Our results show that the most robust model on the conventional metrics is the least robust in the end-to-end evaluation. Although the competition dataset and its metrics have played a substantial role in developing performant lane detection methods along with the rapid development of deep neural networks, the conventional evaluation is becoming obsolete and the gap between the metrics and practicality is critical. We hope that our study will help the community make further progress in building a more comprehensive framework to evaluate lane detection models.
翻訳日:2021-07-07 13:39:23 公開日:2021-07-06
# 階層的教師なし画像変換のための独立エンコーダ

Independent Encoder for Deep Hierarchical Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2107.02494v1 )

ライセンス: Link先を確認
Kai Ye, Yinru Ye, Minqiang Yang, Bin Hu(参考訳) image-to-image (i2i)翻訳の主な課題は、翻訳画像を現実的なものにし、可能な限りソースドメインからの情報を保持することである。 この問題に対処するために,各ネットワークのエンコーダを除去し,他のネットワークとは独立したエンコーダを導入する,ieganと呼ばれる新しいアーキテクチャを提案する。 第一に、エンコーダはジェネレータや識別器から損失を受けなくなるため、画像情報を直接的かつ包括的に把握することがより困難である。 第二に、独立したエンコーダは、各ネットワークが自身の目標に集中できるようにし、翻訳された画像をよりリアルにする。 第3に、エンコーダ数の減少は、より統一された画像表現を実行する。 しかし、独立エンコーダが2つのダウンサンプリングブロックを適用する場合、意味情報を抽出することは困難である。 この問題に対処するために,特徴情報と意味情報を含む深層・浅層情報空間を提案する。 我々はieganを他のモデルと比較し,セマンティクス情報一貫性とコンポーネントアブレーションの研究を同時に行う。 これらの実験はアーキテクチャの優位性と有効性を示している。 私たちのコードは、https://github.com/Elvinky/IEGAN.comで公開されています。

The main challenges of image-to-image (I2I) translation are to make the translated image realistic and retain as much information from the source domain as possible. To address this issue, we propose a novel architecture, termed as IEGAN, which removes the encoder of each network and introduces an encoder that is independent of other networks. Compared with previous models, it embodies three advantages of our model: Firstly, it is more directly and comprehensively to grasp image information since the encoder no longer receives loss from generator and discriminator. Secondly, the independent encoder allows each network to focus more on its own goal which makes the translated image more realistic. Thirdly, the reduction in the number of encoders performs more unified image representation. However, when the independent encoder applies two down-sampling blocks, it's hard to extract semantic information. To tackle this problem, we propose deep and shallow information space containing characteristic and semantic information, which can guide the model to translate high-quality images under the task with significant shape or texture change. We compare IEGAN with other previous models, and conduct researches on semantic information consistency and component ablation at the same time. These experiments show the superiority and effectiveness of our architecture. Our code is published on: https://github.com/Elvinky/IEGAN.
翻訳日:2021-07-07 13:39:05 公開日:2021-07-06
# ワッサーシュタイン空間における歪み知覚トレードオフの理論

A Theory of the Distortion-Perception Tradeoff in Wasserstein Space ( http://arxiv.org/abs/2107.02555v1 )

ライセンス: Link先を確認
Dror Freirich, Tomer Michaeli, Ron Meir(参考訳) 推定器の歪みが低ければ低いほど、出力の分布は概して推定しようとする信号の分布から逸脱する。 この現象は知覚・ゆがみのトレードオフとして知られるが、画像復元においてかなりの注目を集めており、根拠となる真理画像への忠実さは知覚的品質(自然画像の統計から導かれる)を犠牲にしていることを示している。 しかし、知覚歪曲面の比較を行う人気が高まっているにもかかわらず、重要なオープンな疑問が残る: 与えられた知覚制約の下で達成できる最小の歪みは何か? 本稿では,この歪み知覚(DP)関数に対して,平均二乗誤差(MSE)歪みとワッサーシュタイン2知覚指数の閉形式式を導出する。 DP関数が基底分布によらず常に二次的であることを証明する。 これは、DP曲線上の推定者がワッサーシュタイン空間の測地線を形成するという事実に由来する。 ガウス的設定では、そのような推定器に対して閉形式表現を提供する。 一般的な分布では、これらの推定器がトレードオフの2つの極端にある推定器からどのように構築できるかを示す: グローバルなMSE最小化器と、完全な知覚品質制約の下でのMSE最小化器。 後者は前者の確率変換として得ることができる。

The lower the distortion of an estimator, the more the distribution of its outputs generally deviates from the distribution of the signals it attempts to estimate. This phenomenon, known as the perception-distortion tradeoff, has captured significant attention in image restoration, where it implies that fidelity to ground truth images comes at the expense of perceptual quality (deviation from statistics of natural images). However, despite the increasing popularity of performing comparisons on the perception-distortion plane, there remains an important open question: what is the minimal distortion that can be achieved under a given perception constraint? In this paper, we derive a closed form expression for this distortion-perception (DP) function for the mean squared-error (MSE) distortion and the Wasserstein-2 perception index. We prove that the DP function is always quadratic, regardless of the underlying distribution. This stems from the fact that estimators on the DP curve form a geodesic in Wasserstein space. In the Gaussian setting, we further provide a closed form expression for such estimators. For general distributions, we show how these estimators can be constructed from the estimators at the two extremes of the tradeoff: The global MSE minimizer, and a minimizer of the MSE under a perfect perceptual quality constraint. The latter can be obtained as a stochastic transformation of the former.
翻訳日:2021-07-07 13:38:44 公開日:2021-07-06
# 学習画像再構成のための教師なし知識伝達

Unsupervised Knowledge-Transfer for Learned Image Reconstruction ( http://arxiv.org/abs/2107.02572v1 )

ライセンス: Link先を確認
Riccardo Barbano, Zeljko Kereta, Andreas Hauptmann, Simon R. Arridge, Bangti Jin(参考訳) 深層学習に基づく画像再構成アプローチは、多くの画像モダリティにおいて印象的な経験的性能を示している。 これらのアプローチは一般的に大量の高品質なトレーニングデータを必要とします。 この問題を回避するために,ベイジアンフレームワーク内での反復的再構築を学習するための,教師なしの知識伝達パラダイムを開発した。 提案手法は2段階の反復的再構成ネットワークを学習する。 第1フェーズは、地上真理画像と測定データとからなる一組の順序ペアで再構成ネットワークを訓練する。 第2フェーズは、事前訓練されたネットワークを監視なしで測定データに微調整する。 さらに、再構成された画像に対して不確実性情報を提供する。 低用量・疎視ctの広範な実験結果を示し,提案手法が視覚的にだけでなく,psnrやssimでも定量的に再現性が向上することを示すとともに,最先端の教師なし・教師なしの再構成技術と競合することを示した。

Deep learning-based image reconstruction approaches have demonstrated impressive empirical performance in many imaging modalities. These approaches generally require a large amount of high-quality training data, which is often not available. To circumvent this issue, we develop a novel unsupervised knowledge-transfer paradigm for learned iterative reconstruction within a Bayesian framework. The proposed approach learns an iterative reconstruction network in two phases. The first phase trains a reconstruction network with a set of ordered pairs comprising of ground truth images and measurement data. The second phase fine-tunes the pretrained network to the measurement data without supervision. Furthermore, the framework delivers uncertainty information over the reconstructed image. We present extensive experimental results on low-dose and sparse-view computed tomography, showing that the proposed framework significantly improves reconstruction quality not only visually, but also quantitatively in terms of PSNR and SSIM, and is competitive with several state-of-the-art supervised and unsupervised reconstruction techniques.
翻訳日:2021-07-07 13:38:23 公開日:2021-07-06
# hybrur:非教師付き水中画像復元のためのハイブリッド物理ニューラルソリューション

HybrUR: A Hybrid Physical-Neural Solution for Unsupervised Underwater Image Restoration ( http://arxiv.org/abs/2107.02660v1 )

ライセンス: Link先を確認
Shuaizheng Yan, Xingyu Chen, Zhengxing Wu, Jian Wang, Yue Lu, Min Tan, and Junzhi Yu(参考訳) 水中画像のロバストな視覚復元は依然として難しい課題である。 水中-地上画像ペアの整列が欠如しているため、教師なしの手法はこの課題により適している。 しかし、純粋なデータ駆動非教師なし法は通常、光学的制約の欠如に対して現実的な色補正を達成するのが困難である。 本稿では,不対流な水中画像から水中視力回復を学習するデータおよび物理駆動型教師なしアーキテクチャを提案する。 十分な領域変換と詳細保存のためには、水中の変性は光学的に曖昧な物理法則に基づいて明示的に構築する必要がある。 そこで,jaffe-mcglamery分解理論を用いて生成モデルの設計を行い,ニューラルネットワークを用いて水中の劣化過程を記述する。 さらに, ハイブリッド物理ニューラルモデル最適化時の不適切な勾配問題を克服するために, シーン深度と後方散乱推定の劣化要因との固有相関を徹底的に検討し, 物理的制約による復元性能の向上を図る。 提案手法は,非拘束水中画像の高品質な復元を,監督なしに行うことができることを示す。 複数のベンチマークでは、最先端の教師付きアプローチや教師なしアプローチよりも優れています。 また,本手法が実世界の応用に有効であることを示す。

Robust vision restoration for an underwater image remains a challenging problem. For the lack of aligned underwater-terrestrial image pairs, the unsupervised method is more suited to this task. However, the pure data-driven unsupervised method usually has difficulty in achieving realistic color correction for lack of optical constraint. In this paper, we propose a data- and physics-driven unsupervised architecture that learns underwater vision restoration from unpaired underwater-terrestrial images. For sufficient domain transformation and detail preservation, the underwater degeneration needs to be explicitly constructed based on the optically unambiguous physics law. Thus, we employ the Jaffe-McGlamery degradation theory to design the generation models, and use neural networks to describe the process of underwater degradation. Furthermore, to overcome the problem of invalid gradient when optimizing the hybrid physical-neural model, we fully investigate the intrinsic correlation between the scene depth and the degradation factors for the backscattering estimation, to improve the restoration performance through physical constraints. Our experimental results show that the proposed method is able to perform high-quality restoration for unconstrained underwater images without any supervision. On multiple benchmarks, we outperform several state-of-the-art supervised and unsupervised approaches. We also demonstrate that our methods yield encouraging results on real-world applications.
翻訳日:2021-07-07 13:38:08 公開日:2021-07-06
# 複数のヒューマノイドロボットの画像からのリアルタイム姿勢推定

Real-time Pose Estimation from Images for Multiple Humanoid Robots ( http://arxiv.org/abs/2107.02675v1 )

ライセンス: Link先を確認
Arash Amini, Hafez Farazi, Sven Behnke(参考訳) ポーズ推定は、画像やビデオで人の身体の姿勢を認識するコンピュータビジョンの手法を指すことが多い。 ディープラーニングの最近の進歩により、リアルタイムに問題に取り組むための説得力のあるモデルができました。 これらのモデルは通常人間のイメージ用に設計されているため、既存のモデルをロボットを含む他の生物に適応させる必要がある。 本稿では,ロボカップヒューマノイドリーグ環境におけるヒューマノイドロボットの動作をリアルタイムに行う軽量モデルを提案する。 さらに,HumanoidRobotPoseデータセットという新しいデータセットを提案する。 この研究の成果は、サッカーをするロボットの高度な行動を可能にする可能性を秘めている。

Pose estimation commonly refers to computer vision methods that recognize people's body postures in images or videos. With recent advancements in deep learning, we now have compelling models to tackle the problem in real-time. Since these models are usually designed for human images, one needs to adapt existing models to work on other creatures, including robots. This paper examines different state-of-the-art pose estimation models and proposes a lightweight model that can work in real-time on humanoid robots in the RoboCup Humanoid League environment. Additionally, we present a novel dataset called the HumanoidRobotPose dataset. The results of this work have the potential to enable many advanced behaviors for soccer-playing robots.
翻訳日:2021-07-07 13:37:49 公開日:2021-07-06
# 空中マルチスペクトルイメージングとLIBSによる農業土壌中の全窒素推定

Total Nitrogen Estimation in Agricultural Soils via Aerial Multispectral Imaging and LIBS ( http://arxiv.org/abs/2107.02355v1 )

ライセンス: Link先を確認
Md Abir Hossen, Prasoon K Diwaka, Shankarachary Ragi(参考訳) 土壌の健康指標を測定することは、農家が農地に適用する肥料のタイミング、配置、量に関する決定に影響を及ぼす重要な課題である。 土壌の健康指標(SHIs)を測定する方法の殆どは、実験室の湿式化学または分光法に基づく手法であり、かなりの人間の入力と労力を必要とする。 この課題に対処するために、我々は、土壌の総窒素(TN)を推定する人工知能(AI)駆動の近時無人航空機(UAV)ベースのマルチスペクトルセンシング(UMS)ソリューションを開発し、作物の健康に直接影響を与える重要なマクロ栄養素またはShiを開発した。 土壌TNの正確な予測は、種子植え付けのタイミングと肥料量とタイミングに基づいて情報決定を行うことにより、収穫量を大幅に増加させることができる。 マルチ層パーセプトロンと支持ベクトルマシンを含む2つの機械学習モデルを訓練し、赤、近赤外、緑のスペクトル帯の土壌と作物のマルチスペクトル特性、計算された植生指標、大気温度と相対湿度を含む環境変数を含む一連のデータクラスを用いて土壌窒素を予測する。 機械学習モデルのための地中データやトレーニングデータを生成するために,レーザー誘起分解分析(libs)を用いて土壌試料(農場から採取)の全窒素を測定した。

Measuring soil health indicators is an important and challenging task that affects farmers' decisions on timing, placement, and quantity of fertilizers applied in the farms. Most existing methods to measure soil health indicators (SHIs) are in-lab wet chemistry or spectroscopy-based methods, which require significant human input and effort, time-consuming, costly, and are low-throughput in nature. To address this challenge, we develop an artificial intelligence (AI)-driven near real-time unmanned aerial vehicle (UAV)-based multispectral sensing (UMS) solution to estimate total nitrogen (TN) of the soil, an important macro-nutrient or SHI that directly affects the crop health. Accurate prediction of soil TN can significantly increase crop yield through informed decision making on the timing of seed planting, and fertilizer quantity and timing. We train two machine learning models including multi-layer perceptron and support vector machine to predict the soil nitrogen using a suite of data classes including multispectral characteristics of the soil and crops in red, near-infrared, and green spectral bands, computed vegetation indices, and environmental variables including air temperature and relative humidity. To generate the ground-truth data or the training data for the machine learning models, we measure the total nitrogen of the soil samples (collected from a farm) using laser-induced breakdown spectroscopy (LIBS).
翻訳日:2021-07-07 13:36:02 公開日:2021-07-06
# splitavg : 医用イメージングのためのヘテロゲニティアウェアフェデレート深層学習法

SplitAVG: A heterogeneity-aware federated deep learning method for medical imaging ( http://arxiv.org/abs/2107.02375v1 )

ライセンス: Link先を確認
Miao Zhang, Liangqiong Qu, Praveer Singh, Jayashree Kalpathy-Cramer, Daniel L. Rubin(参考訳) フェデレートラーニングは、患者データを共有せずにディープラーニングモデルを協調的にトレーニングするための、新たな研究パラダイムである。 しかし、異なる機関のデータは通常、組織間で異種であり、連合学習を用いて訓練されたモデルのパフォーマンスを低下させる可能性がある。 本研究では,フェデレーション学習におけるデータ不均質性から性能低下を克服する新しいヘテロゲニティアウェアフェデレーション学習法であるsplitavgを提案する。 複雑なヒューリスティックトレーニングやハイパーパラメータチューニングを必要とする従来のフェデレーション手法とは異なり、SplitAVGは単純なネットワーク分割と特徴マップ結合戦略を利用して、対象データ分布の偏りのない推定器を訓練する。 我々はSplitAVGと7つの最先端のフェデレーション学習手法を比較し、合成および実世界のフェデレーションデータセットのスイートのベースラインとして集中的にホストされたトレーニングデータを使用する。 比較フェデレーション学習法を用いて学習したモデルの性能は,データ不均質度の増加とともに著しく低下した。 対照的にSplitAVG法は, 糖尿病性網膜症二型分類データセットと骨年齢予測データセットで得られた平均絶対誤差の96.2%, 平均絶対誤差の110.4%を, 高度不均一なデータ分割で達成する。 SplitAVG法は,機関間のデータ分散の変動性から得られる性能低下を効果的に克服できると結論付けた。 実験の結果、SplitAVGは様々なベースネットワークに適応し、様々な種類の医療画像タスクに一般化できることがわかった。

Federated learning is an emerging research paradigm for enabling collaboratively training deep learning models without sharing patient data. However, the data from different institutions are usually heterogeneous across institutions, which may reduce the performance of models trained using federated learning. In this study, we propose a novel heterogeneity-aware federated learning method, SplitAVG, to overcome the performance drops from data heterogeneity in federated learning. Unlike previous federated methods that require complex heuristic training or hyper parameter tuning, our SplitAVG leverages the simple network split and feature map concatenation strategies to encourage the federated model training an unbiased estimator of the target data distribution. We compare SplitAVG with seven state-of-the-art federated learning methods, using centrally hosted training data as the baseline on a suite of both synthetic and real-world federated datasets. We find that the performance of models trained using all the comparison federated learning methods degraded significantly with the increasing degrees of data heterogeneity. In contrast, SplitAVG method achieves comparable results to the baseline method under all heterogeneous settings, that it achieves 96.2% of the accuracy and 110.4% of the mean absolute error obtained by the baseline in a diabetic retinopathy binary classification dataset and a bone age prediction dataset, respectively, on highly heterogeneous data partitions. We conclude that SplitAVG method can effectively overcome the performance drops from variability in data distributions across institutions. Experimental results also show that SplitAVG can be adapted to different base networks and generalized to various types of medical imaging tasks.
翻訳日:2021-07-07 13:35:35 公開日:2021-07-06
# S_n$の標準表現に対する等変分岐、二次同変、対称性の破れ

Equivariant bifurcation, quadratic equivariants, and symmetry breaking for the standard representation of $S_n$ ( http://arxiv.org/abs/2107.02422v1 )

ライセンス: Link先を確認
Yossi Arjevani and Michael Field(参考訳) 浅い生徒-教師ニューラルネットワークのクラスの研究から生まれた疑問に動機づけられ、ニューラルネットワークに関連する勾配同変ダイナミクスのクラスにおけるスプリアスミニマの分析法を開発した。 対称の場合、手法は対称群の$n$記号上の既約表現のジェネリック同変分岐理論(英語版)(generic equivariant bifurcation theory)に依存し、特に、$s_n$の標準表現は$s_n$である。 突発性ミニマは自然対称性の破れから生じるのではなく、より一般的な$S_n$-equivariantの分岐によって符号化できるランドスケープ幾何学の複雑な変形によって生じる。 我々は、対称性が存在しないときの急激なミニマムの生成に関わる動的複雑性の低い境界を与える強制対称性破壊の最小モデルを記述する。 この研究は、二次同変が存在するときの解の不安定性に関するIhrig & Golubitsky と Chossat, Lauterback & Melbourne の結果を拡張し、明らかにする。

Motivated by questions originating from the study of a class of shallow student-teacher neural networks, methods are developed for the analysis of spurious minima in classes of gradient equivariant dynamics related to neural nets. In the symmetric case, methods depend on the generic equivariant bifurcation theory of irreducible representations of the symmetric group on $n$ symbols, $S_n$; in particular, the standard representation of $S_n$. It is shown that spurious minima do not arise from spontaneous symmetry breaking but rather through a complex deformation of the landscape geometry that can be encoded by a generic $S_n$-equivariant bifurcation. We describe minimal models for forced symmetry breaking that give a lower bound on the dynamic complexity involved in the creation of spurious minima when there is no symmetry. Results on generic bifurcation when there are quadratic equivariants are also proved; this work extends and clarifies results of Ihrig & Golubitsky and Chossat, Lauterback & Melbourne on the instability of solutions when there are quadratic equivariants.
翻訳日:2021-07-07 13:35:04 公開日:2021-07-06
# DeepDDS: 鎮痛剤の組み合わせを予測する注意機構を備えたディープグラフニューラルネットワーク

DeepDDS: deep graph neural network with attention mechanism to predict synergistic drug combinations ( http://arxiv.org/abs/2107.02467v1 )

ライセンス: Link先を確認
J. Wang, X. Liu, S. Shen, L. Deng, H. Liu*(参考訳) 薬物併用療法は、がんの治療においてますます有望な方法になりつつある。 しかし、薬物の組み合わせの可能性は非常に大きいため、湿式実験によって相乗効果のある薬物の組み合わせをスクリーニングすることは困難である。 そのため、薬物の組み合わせを優先する重要な方法となっている。 グラフニューラルネットワークは、最近化合物-タンパク質相互作用の予測において顕著な性能を示したが、薬物の組み合わせのスクリーニングには適用されていない。 本稿では,特定のがん細胞の生存性を効果的に抑制できる薬剤の組み合わせを特定するための,グラフニューラルネットワークと注意機構に基づくディープラーニングモデルを提案する。 薬物分子構造と遺伝子発現プロファイルの特徴を多層feedforwardニューラルネットワークへの入力として捉え,相乗的薬物の組み合わせを同定した。 ベンチマークデータセット上でのDeepDDSと古典的機械学習手法や他のディープラーニングベースの手法を比較し,DeepDDSが競合手法よりも優れた性能を示した。 また、有名な製薬会社AstraZenecaがリリースした独立したテストセットでは、DeepDDSは16倍以上の予測精度で競合手法よりも優れていた。 さらに,グラフアテンションネットワークの解釈可能性を検討した結果,アトミック特徴の相関行列が薬物の重要な化学サブ構造を明らかにした。 我々は、DeepDDSは、さらなる湿式実験検証のために相乗効果のある薬物の組み合わせを優先する効果的なツールであると考えた。

Drug combination therapy has become a increasingly promising method in the treatment of cancer. However, the number of possible drug combinations is so huge that it is hard to screen synergistic drug combinations through wet-lab experiments. Therefore, computational screening has become an important way to prioritize drug combinations. Graph neural network have recently shown remarkable performance in the prediction of compound-protein interactions, but it has not been applied to the screening of drug combinations. In this paper, we proposed a deep learning model based on graph neural networks and attention mechanism to identify drug combinations that can effectively inhibit the viability of specific cancer cells. The feature embeddings of drug molecule structure and gene expression profiles were taken as input to multi-layer feedforward neural network to identify the synergistic drug combinations. We compared DeepDDS with classical machine learning methods and other deep learning-based methods on benchmark data set, and the leave-one-out experimental results showed that DeepDDS achieved better performance than competitive methods. Also, on an independent test set released by well-known pharmaceutical enterprise AstraZeneca, DeepDDS was superior to competitive methods by more than 16\% predictive precision. Furthermore, we explored the interpretability of the graph attention network, and found the correlation matrix of atomic features revealed important chemical substructures of drugs. We believed that DeepDDS is an effective tool that prioritized synergistic drug combinations for further wet-lab experiment validation.
翻訳日:2021-07-07 13:34:44 公開日:2021-07-06
# DEANN:近似近傍探索によるカーネル密度推定の高速化

DEANN: Speeding up Kernel-Density Estimation using Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2107.02736v1 )

ライセンス: Link先を確認
Matti Karppa and Martin Aum\"uller and Rasmus Pagh(参考訳) 核密度推定 (kde) は、分布からサンプルの集合を与えられた密度関数の形状を推定するための非パラメトリックな方法である。 近年,近傍探索のためのツールとして提案された局所性感応ハッシュは,高速なKDEデータ構造を実現することが示されている。 しかし、これらの手法は、近隣のアルゴリズムのアルゴリズムでなされた他の多くの進歩を生かしていない。 非バイアスkdeを計算するために、近似近接近傍(ann)アルゴリズムをブラックボックスサブルーチンとして適用し、近似近接近傍(deann)から密度推定を行う。 この考え方は、ANNを用いてKDEに多大な貢献をした点を見つけ、その貢献を正確に計算し、残りの点をランダムサンプリング(RS)で近似する。 我々は、ANNサブルーチンが評価を高速化できるという考えを支持する理論的議論を示す。 さらに,任意のANN実装をKDE評価のサブルーチンとして利用できるPythonインターフェースを備えたC++実装を提供する。 実験により,我々の実装は,検討した高次元データセットすべてにおいて,技術実装の状況よりも優れており,ANNが性能を損なう場合のRSの性能に匹敵することを示した。

Kernel Density Estimation (KDE) is a nonparametric method for estimating the shape of a density function, given a set of samples from the distribution. Recently, locality-sensitive hashing, originally proposed as a tool for nearest neighbor search, has been shown to enable fast KDE data structures. However, these approaches do not take advantage of the many other advances that have been made in algorithms for nearest neighbor algorithms. We present an algorithm called Density Estimation from Approximate Nearest Neighbors (DEANN) where we apply Approximate Nearest Neighbor (ANN) algorithms as a black box subroutine to compute an unbiased KDE. The idea is to find points that have a large contribution to the KDE using ANN, compute their contribution exactly, and approximate the remainder with Random Sampling (RS). We present a theoretical argument that supports the idea that an ANN subroutine can speed up the evaluation. Furthermore, we provide a C++ implementation with a Python interface that can make use of an arbitrary ANN implementation as a subroutine for KDE evaluation. We show empirically that our implementation outperforms state of the art implementations in all high dimensional datasets we considered, and matches the performance of RS in cases where the ANN yield no gains in performance.
翻訳日:2021-07-07 13:34:23 公開日:2021-07-06
# 深層学習に基づく画像超解像がバイナリ信号検出に及ぼす影響

Impact of deep learning-based image super-resolution on binary signal detection ( http://arxiv.org/abs/2107.02338v1 )

ライセンス: Link先を確認
Xiaohui Zhang, Varun A. Kelkar, Jason Granstedt, Hua Li, Mark A. Anastasio(参考訳) 深層学習に基づく画像超解像 (DL-SR) は医用画像の応用において非常に有望である。 これまで,提案手法の大部分は,コンピュータビジョンの分野で一般的に用いられている画像品質(IQ)の従来の測定方法によってのみ評価されてきた。 しかし、これらの方法が医用画像の課題にかかわる画質の客観的測定に与える影響はほとんど未解明である。 本研究では,DL-SR法がバイナリ信号検出性能に与える影響について検討する。 超解像畳み込みニューラルネットワーク(SRCNN)と超解像生成対向ネットワーク(SRGAN)の2つの一般的なDL-SR法は、シミュレーションされた医用画像データを用いて訓練された。 背景統計量(SKE/BKS)と信号統計量(SKS/BKS)とを両立する。 ニューラルネットワーク近似理想オブザーバと一般的な線形数値オブザーバを含む数値オブザーバを用いて、DL-SRがタスク性能に与える影響を評価する。 DL-SRネットワークアーキテクチャの複雑さがタスク性能に与える影響を定量化した。 さらに,準最適オブザーバのタスクパフォーマンス向上のためのDL-SRの有用性について検討した。 数値実験により、予想通り、DL-SRは従来のIQ対策を改善できることを確認した。 しかし、多くの研究設計が考慮されたため、DL-SR法はタスク性能をほとんどあるいは全く改善せず、分解する可能性さえあった。 dl-srは特定の条件下でのサブ最適オブザーバのタスク性能を向上させることが観察された。 本研究は, DL-SR法を客観的に評価するための緊急の必要性を強調し, 医用画像の応用における有効性向上への道筋を提案する。

Deep learning-based image super-resolution (DL-SR) has shown great promise in medical imaging applications. To date, most of the proposed methods for DL-SR have only been assessed by use of traditional measures of image quality (IQ) that are commonly employed in the field of computer vision. However, the impact of these methods on objective measures of image quality that are relevant to medical imaging tasks remains largely unexplored. In this study, we investigate the impact of DL-SR methods on binary signal detection performance. Two popular DL-SR methods, the super-resolution convolutional neural network (SRCNN) and the super-resolution generative adversarial network (SRGAN), were trained by use of simulated medical image data. Binary signal-known-exactly with background-known-statistically (SKE/BKS) and signal-known-statistically with background-known-statistically (SKS/BKS) detection tasks were formulated. Numerical observers, which included a neural network-approximated ideal observer and common linear numerical observers, were employed to assess the impact of DL-SR on task performance. The impact of the complexity of the DL-SR network architectures on task-performance was quantified. In addition, the utility of DL-SR for improving the task-performance of sub-optimal observers was investigated. Our numerical experiments confirmed that, as expected, DL-SR could improve traditional measures of IQ. However, for many of the study designs considered, the DL-SR methods provided little or no improvement in task performance and could even degrade it. It was observed that DL-SR could improve the task-performance of sub-optimal observers under certain conditions. The presented study highlights the urgent need for the objective assessment of DL-SR methods and suggests avenues for improving their efficacy in medical imaging applications.
翻訳日:2021-07-07 13:33:41 公開日:2021-07-06
# MRI物理モデルを用いたMRI組織特性の教師なし学習

Unsupervised learning of MRI tissue properties using MRI physics models ( http://arxiv.org/abs/2107.02704v1 )

ライセンス: Link先を確認
Divya Varadarajan, Katherine L. Bouman, Andre van der Kouwe, Bruce Fischl, Adrian V. Dalca(参考訳) 神経イメージングにおいて、MRIの組織特性は神経生物学の基礎を特徴づけ、神経疾患の検出と解析のための定量的なバイオマーカーを提供し、任意のMRIコントラストの合成に使用できる。 全ての臨床スキャナーで利用可能なプロトコルを用いて単一のスキャンセッションから組織特性を推定することにより、スキャン時間とコストを削減し、定期的な臨床スキャンにおける定量的分析を可能にし、疾患のスキャン非依存バイオマーカーを提供する。 しかしながら、既存の組織特性推定手法(しばしば$\mathbf{T_1}$緩和、$\mathbf{T_2^*}$緩和、およびプロトン密度($\mathbf{PD}$))は、複数のスキャンセッションからのデータを必要とし、マルチエコーMRIスキャンのような単一の臨床的に利用可能なMRIプロトコルから全ての特性を推定できない。 加えて、臨床画像サイト全体にわたる非標準取得パラメータの広範な利用には、様々なスキャナパラメータをまたいで一般化できる推定方法が必要となる。 しかし、既存の学習方法は獲得プロトコルに特有であり、異なる画像サイトからの異種臨床データから推定することはできない。 本研究では,MRI物理を用いた教師なし深層学習戦略を提案し,単一のマルチエコーMRIスキャンセッションから3つの組織特性を推定し,様々な取得パラメータを一般化する。 提案手法は, 推定潜伏組織特性から新しいMRIコントラストの正確な合成を最適化し, 教師なしトレーニングを可能にするとともに, 学習中にランダムな取得パラメータを用いて獲得一般化を実現する。 我々は、単一のマルチエコースキャンセッションから全ての組織特性を推定する最初の実演を提供する。 組織特性推定とMRI合成の精度向上と一般化性を示した。

In neuroimaging, MRI tissue properties characterize underlying neurobiology, provide quantitative biomarkers for neurological disease detection and analysis, and can be used to synthesize arbitrary MRI contrasts. Estimating tissue properties from a single scan session using a protocol available on all clinical scanners promises to reduce scan time and cost, enable quantitative analysis in routine clinical scans and provide scan-independent biomarkers of disease. However, existing tissue properties estimation methods - most often $\mathbf{T_1}$ relaxation, $\mathbf{T_2^*}$ relaxation, and proton density ($\mathbf{PD}$) - require data from multiple scan sessions and cannot estimate all properties from a single clinically available MRI protocol such as the multiecho MRI scan. In addition, the widespread use of non-standard acquisition parameters across clinical imaging sites require estimation methods that can generalize across varying scanner parameters. However, existing learning methods are acquisition protocol specific and cannot estimate from heterogenous clinical data from different imaging sites. In this work we propose an unsupervised deep-learning strategy that employs MRI physics to estimate all three tissue properties from a single multiecho MRI scan session, and generalizes across varying acquisition parameters. The proposed strategy optimizes accurate synthesis of new MRI contrasts from estimated latent tissue properties, enabling unsupervised training, we also employ random acquisition parameters during training to achieve acquisition generalization. We provide the first demonstration of estimating all tissue properties from a single multiecho scan session. We demonstrate improved accuracy and generalizability for tissue property estimation and MRI synthesis.
翻訳日:2021-07-07 13:33:13 公開日:2021-07-06
# クラウドデータセンターのエネルギー・熱利用資源管理 : 分類学と今後の方向性

Energy and Thermal-aware Resource Management of Cloud Data Centres: A Taxonomy and Future Directions ( http://arxiv.org/abs/2107.02342v1 )

ライセンス: Link先を確認
Shashikant Ilager and Rajkumar Buyya(参考訳) 本稿では,Cloud Data Centresにおける既存のエネルギー・熱効率管理手法について検討する。 これは、リソース管理システムにおける統合コンピューティングおよび冷却システム管理および学習ベースのソリューションの必要性を特定する。 文献の詳細な分析に基づいて,データセンターにおけるエネルギー・熱効率資源管理の分類法を提案する。 さらに,既存の手法に関する詳細な調査を行い,機械学習に基づく資源管理手法や冷却管理技術など最近の進歩について考察した。

This paper investigates the existing resource management approaches in Cloud Data Centres for energy and thermal efficiency. It identifies the need for integrated computing and cooling systems management and learning-based solutions in resource management systems. A taxonomy on energy and thermal efficient resource management in data centres is proposed based on an in-depth analysis of the literature. Furthermore, a detailed survey on existing approaches is conducted according to the taxonomy and recent advancements including machine learning-based resource management approaches and cooling management technologies are discussed.
翻訳日:2021-07-07 13:31:44 公開日:2021-07-06
# コミュニケーションとしての物理的相互作用: 人間の矯正からオンラインで学習するロボット

Physical Interaction as Communication: Learning Robot Objectives Online from Human Corrections ( http://arxiv.org/abs/2107.02349v1 )

ライセンス: Link先を確認
Dylan P. Losey, Andrea Bajcsy, Marcia K. O'Malley, Anca D. Dragan(参考訳) ロボットが人間の隣でタスクを実行するとき、物理的な相互作用は避けられない。 最先端技術は、これらの相互作用をロボットが拒否または回避すべき障害として扱う。 ロボットは人間が対話している間に無事に反応するが、人間が立ち去ると、ロボットは元の行動に戻るだけだ。 物理的人間とロボットの相互作用(phri)は、しばしば意図的であり、ロボットが正しく仕事をしていないため、人間は意図的に介入する。 そこで本論文では,pHRIが意図的である場合,ロボットはインタラクションを活用して作業の残りを完了させる方法を学ぶことができる。 我々は,pHRIを動的システムとして形式化し,人間はロボットが最適化したい対象機能を念頭に置いているが,ロボットはこの目的のパラメータに直接アクセスすることはできない。 提案する枠組みの中で、人間の相互作用は真の目的についての観察となる。 pHRIから学習し,pHRIに応答する近似をリアルタイムで導入する。 ユーザーはロボットとノイズに反応することが多いので、意図しない学習を減らすことで、pHRIからロボット学習の効率を向上させることができる。 最後に,ロボットマニピュレータのシミュレーションとユーザスタディを行い,提案手法と最先端技術との比較を行った。 以上の結果から,pHRIからの学習がタスクパフォーマンスの向上と満足度の向上につながることが示唆された。

When a robot performs a task next to a human, physical interaction is inevitable: the human might push, pull, twist, or guide the robot. The state-of-the-art treats these interactions as disturbances that the robot should reject or avoid. At best, these robots respond safely while the human interacts; but after the human lets go, these robots simply return to their original behavior. We recognize that physical human-robot interaction (pHRI) is often intentional -- the human intervenes on purpose because the robot is not doing the task correctly. In this paper, we argue that when pHRI is intentional it is also informative: the robot can leverage interactions to learn how it should complete the rest of its current task even after the person lets go. We formalize pHRI as a dynamical system, where the human has in mind an objective function they want the robot to optimize, but the robot does not get direct access to the parameters of this objective -- they are internal to the human. Within our proposed framework human interactions become observations about the true objective. We introduce approximations to learn from and respond to pHRI in real-time. We recognize that not all human corrections are perfect: often users interact with the robot noisily, and so we improve the efficiency of robot learning from pHRI by reducing unintended learning. Finally, we conduct simulations and user studies on a robotic manipulator to compare our proposed approach to the state-of-the-art. Our results indicate that learning from pHRI leads to better task performance and improved human satisfaction.
翻訳日:2021-07-07 13:31:36 公開日:2021-07-06
# CAP-RAM: 高精度で精度の高いCNN推論用6T-SRAM

CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and Precision-Programmable CNN Inference ( http://arxiv.org/abs/2107.02388v1 )

ライセンス: Link先を確認
Zhiyu Chen, Zhanghao Yu, Qing Jin, Yan He, Jingyu Wang, Sheng Lin, Dai Li, Yanzhi Wang, Kaiyuan Yang(参考訳) エネルギー効率のよい畳み込みニューラルネットワーク(CNN)の推論には、CAP-RAMと呼ばれる、コンパクトで正確でビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロが使用される。 これは、新しい電荷領域乗算(MAC)機構と回路を活用し、従来のIMC設計と比較してプロセスの変動下で優れた線形性を実現する。 採用したセミ並列アーキテクチャは、8つの標準6T SRAMセルを1つの電荷領域MAC回路で共有することにより、複数のCNN層からのフィルタを効率的に保存する。 さらに、2つのエンコーディングスキームと8レベルの入力アクティベーションを持つ最大6レベルのビット幅のウェイトがサポートされている。 7ビット帯電SAR(ciSAR)アナログデジタルコンバータ(ADC)はサンプルとホールド(S&H)と入力/参照バッファを除去し、全体的なエネルギー効率とスループットをさらに向上させる。 65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。 単一の512x128マクロは、MNISTデータセットで98.8%、CIFAR-10データセットで89.0%、ピークスループットで573.4ギガ/秒(GOPS)、毎秒49.4テラ/秒(TOPS)/Wエネルギー効率で完全なプルーニングおよび量子化されたCNNモデルを格納する。

A compact, accurate, and bitwidth-programmable in-memory computing (IMC) static random-access memory (SRAM) macro, named CAP-RAM, is presented for energy-efficient convolutional neural network (CNN) inference. It leverages a novel charge-domain multiply-and-accumulate (MAC) mechanism and circuitry to achieve superior linearity under process variations compared to conventional IMC designs. The adopted semi-parallel architecture efficiently stores filters from multiple CNN layers by sharing eight standard 6T SRAM cells with one charge-domain MAC circuit. Moreover, up to six levels of bit-width of weights with two encoding schemes and eight levels of input activations are supported. A 7-bit charge-injection SAR (ciSAR) analog-to-digital converter (ADC) getting rid of sample and hold (S&H) and input/reference buffers further improves the overall energy efficiency and throughput. A 65-nm prototype validates the excellent linearity and computing accuracy of CAP-RAM. A single 512x128 macro stores a complete pruned and quantized CNN model to achieve 98.8% inference accuracy on the MNIST data set and 89.0% on the CIFAR-10 data set, with a 573.4-giga operations per second (GOPS) peak throughput and a 49.4-tera operations per second (TOPS)/W energy efficiency.
翻訳日:2021-07-07 13:31:12 公開日:2021-07-06
# クラウド無線アクセスネットワークにおけるビームフォーミングとフロントホール量子化の協調最適化のための深層学習手法

Deep Learning Methods for Joint Optimization of Beamforming and Fronthaul Quantization in Cloud Radio Access Networks ( http://arxiv.org/abs/2107.02520v1 )

ライセンス: Link先を確認
Daesung Yu, Hoon Lee, Seok-Hwan Park, Seung-Eun Hong(参考訳) クラウド無線アクセスネットワーク(c-ran)システムでは、アクセスポイント間の協調ビームフォーミングとフロントホール量子化戦略が不可欠である。 C-RAN最適化問題の非凸性は、AP単位のパワーとフロントホール容量の制約に起因するが、反復アルゴリズムの実行には高い計算複雑性を必要とする。 この問題を解決するために,最適化モジュールをよく訓練されたディープニューラルネットワーク(dnn)に置き換える深層学習手法を検討する。 最適ビームフォーミングおよび量子化戦略の低次元表現を生成するためにDNNを構築する効率的な学習ソリューションを提案する。 提案手法の利点を数値計算により検証した。

Cooperative beamforming across access points (APs) and fronthaul quantization strategies are essential for cloud radio access network (C-RAN) systems. The nonconvexity of the C-RAN optimization problems, which is stemmed from per-AP power and fronthaul capacity constraints, requires high computational complexity for executing iterative algorithms. To resolve this issue, we investigate a deep learning approach where the optimization module is replaced with a well-trained deep neural network (DNN). An efficient learning solution is proposed which constructs a DNN to produce a low-dimensional representation of optimal beamforming and quantization strategies. Numerical results validate the advantages of the proposed learning solution.
翻訳日:2021-07-07 13:30:42 公開日:2021-07-06
# 演算子推論データからの安定縮小モデル学習のための物理インフォームド正規化と構造保存

Physics-informed regularization and structure preservation for learning stable reduced models from data with operator inference ( http://arxiv.org/abs/2107.02597v1 )

ライセンス: Link先を確認
Nihar Sawant, Boris Kramer, Benjamin Peherstorfer(参考訳) 作用素推論は、高次元物理系の軌道から多項式非線形項を持つ低次元力学系モデルを学習する。 この研究は、二次非線形項を持つモデルによってよく説明できる物理系の大きなクラスに焦点を当て、二次モデルに安定性バイアスを誘導する作用素推論の正則化子を提案する。 提案された正則化器は、大きなノルムで二次項をペナライズし、基礎となる物理学によって与えられる二次モデル形式を明示的に活用するという意味で、物理学に通知される。 これは、提案されたアプローチが、データまたは物理のみからではなく、データと物理的な洞察を組み合わせることで、公平に学習することを意味する。 さらに、線形項における対称性や定性のような構造を保存するためのモデル制約を強制する演算子推論の定式化が提案される。 数値計算の結果, 演算子推論と提案する正則化と構造保存により学習したモデルは, 正則化やチホノフ正則化を使わずに不安定なモデルに導かれる場合でも, 正確かつ安定であることがわかった。

Operator inference learns low-dimensional dynamical-system models with polynomial nonlinear terms from trajectories of high-dimensional physical systems (non-intrusive model reduction). This work focuses on the large class of physical systems that can be well described by models with quadratic nonlinear terms and proposes a regularizer for operator inference that induces a stability bias onto quadratic models. The proposed regularizer is physics informed in the sense that it penalizes quadratic terms with large norms and so explicitly leverages the quadratic model form that is given by the underlying physics. This means that the proposed approach judiciously learns from data and physical insights combined, rather than from either data or physics alone. Additionally, a formulation of operator inference is proposed that enforces model constraints for preserving structure such as symmetry and definiteness in the linear terms. Numerical results demonstrate that models learned with operator inference and the proposed regularizer and structure preservation are accurate and stable even in cases where using no regularization or Tikhonov regularization leads to models that are unstable.
翻訳日:2021-07-07 13:30:30 公開日:2021-07-06
# 持続可能生成音響モデルに対する多目的アプローチ

A Multi-Objective Approach for Sustainable Generative Audio Models ( http://arxiv.org/abs/2107.02621v1 )

ライセンス: Link先を確認
Constance Douwes, Philippe Esling and Jean-Pierre Briot(参考訳) 近年、ディープラーニングコミュニティは、深層生成モデルの精度に大きく焦点を合わせており、いくつかの研究分野において顕著に改善されている。 しかし、この科学的な品質競争は膨大な計算コストを伴い、膨大なエネルギー消費と温室効果ガス排出を引き起こす。 計算消費の現在の指数的な増加が続くと、人工知能(AI)は悲しいことに地球温暖化にかなりの貢献をする。 この問題の核心にあるのが,私たちの仕事を評価するための科学的コミュニティとして使用する手段です。 現在、AI判断科学の分野の研究者は、主に精度、ログライク、再構築、意見スコアの改善に基づいており、これらすべてが生成モデルの実際の計算コストを完全に消している。 本稿では,Paretoの最適度に基づく多目的尺度に頼りながら,モデル精度とトレーニングの環境影響を同時に統合する手法を提案する。 生成音響モデルにおける現状にこの尺度を適用することで、この分野における結果の認知的意義を劇的に変化させ、最適なトレーニング手法と資源配分を奨励することを示す。 この種の措置が広く採用され、コミュニティが彼らの仕事の重要性をよりよく評価できるようにし、AI研究の焦点に計算コスト、そして二酸化炭素排出量をもたらすことを期待しています。

In recent years, the deep learning community has largely focused on the accuracy of deep generative models, resulting in impressive improvements in several research fields. However, this scientific race for quality comes at a tremendous computational cost, which incurs vast energy consumption and greenhouse gas emissions. If the current exponential growth of computational consumption persists, Artificial Intelligence (AI) will sadly become a considerable contributor to global warming. At the heart of this problem are the measures that we use as a scientific community to evaluate our work. Currently, researchers in the field of AI judge scientific works mostly based on the improvement in accuracy, log-likelihood, reconstruction or opinion scores, all of which entirely obliterates the actual computational cost of generative models. In this paper, we introduce the idea of relying on a multi-objective measure based on Pareto optimality, which simultaneously integrates the models accuracy, as well as the environmental impact of their training. By applying this measure on the current state-of-the-art in generative audio models, we show that this measure drastically changes the perceived significance of the results in the field, encouraging optimal training techniques and resource allocation. We hope that this type of measure will be widely adopted, in order to help the community to better evaluate the significance of their work, while bringing computational cost -- and in fine carbon emissions -- in the spotlight of AI research.
翻訳日:2021-07-07 13:30:10 公開日:2021-07-06