このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210420となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# トラップされたイオンビットレジスタの高速同時検出 High-Fidelity Simultaneous Detection of Trapped Ion Qubit Register ( http://arxiv.org/abs/2006.12801v2 ) ライセンス: Link先を確認 | Liudmila A. Zhukas, Peter Svihra, Andrei Nomerotski, Boris B. Blinov | (参考訳) 量子ビット状態検出は量子計算の重要な部分である。
量子レジスタの量子ビット数が増加するにつれて、マルチキュービット状態を正確に測定するためには、高忠実度検出を維持する必要がある。
本稿では, 高速データ収集, 時空間分解能, 低インストゥルメンタルクロストークを用いた, 単一量子ビット検出誤差4.2(1.5) ppm, 4量子ビット状態検出誤差17(2) ppmのマルチ量子ビットトラップ型イオンレジスタの高精度検出実験を行った。 Qubit state detection is an important part of a quantum computation. As number of qubits in a quantum register increases, it is necessary to maintain high fidelity detection to accurately measure the multi-qubit state. Here we present experimental demonstration of high-fidelity detection of a multi-qubit trapped ion register with average single qubit detection error of 4.2(1.5) ppm and a 4-qubit state detection error of 17(2) ppm, limited by the decay lifetime of the qubit, using a novel single-photon-sensitive camera with fast data collection, excellent temporal and spatial resolution, and low instrumental crosstalk. | 翻訳日:2023-05-13 01:01:40 公開日:2021-04-20 |
# covid19.analytics: コロナウイルスのパンデミックからのデータを取得し、分析し、視覚化するためのRパッケージ covid19.analytics: An R Package to Obtain, Analyze and Visualize Data from the Coronavirus Disease Pandemic ( http://arxiv.org/abs/2009.01091v2 ) ライセンス: Link先を確認 | Marcelo Ponce, Amit Sandhel | (参考訳) 世界的な新しいパンデミックの出現に伴い、そのアプローチに向けた新たな戦略が出現した。
オープンサイエンス」の傘下にあるいくつかのイニシアチブがこの前例のない状況に対処するために貢献している。
特に、「統計コンピューティングのためのR言語と環境」は、オープンサイエンスと再現可能な結果に焦点を当てたアプローチのための優れたツールとエコシステムを提供する。
したがって、パンデミックの開始とともに、多くのRパッケージや資源がパンデミックで働く研究に利用できるようになったことは驚くべきことではない。
本稿では,ユーザが利用可能なリソースから世界中のデータにアクセスし,分析できるRパッケージを提案する。
我々は、コビッド19.analyticsパッケージを導入し、その能力に焦点を合わせ、「COVID19.ANALYTICS Dashboard Explorer」の展開方法を説明する特定の研究事例を提示します。 With the emergence of a new pandemic worldwide, a novel strategy to approach it has emerged. Several initiatives under the umbrella of "open science" are contributing to tackle this unprecedented situation. In particular, the "R Language and Environment for Statistical Computing" offers an excellent tool and ecosystem for approaches focusing on open science and reproducible results. Hence it is not surprising that with the onset of the pandemic, a large number of R packages and resources were made available for researches working in the pandemic. In this paper, we present an R package that allows users to access and analyze worldwide data from resources publicly available. We will introduce the covid19.analytics package, focusing in its capabilities and presenting a particular study case where we describe how to deploy the "COVID19.ANALYTICS Dashboard Explorer". | 翻訳日:2023-05-04 01:03:00 公開日:2021-04-20 |
# 2次元2層量子磁石のマグノントポロジーと谷分極に関する知見 Insights on magnon topology and valley-polarization in 2D bilayer quantum magnets ( http://arxiv.org/abs/2010.08621v4 ) ライセンス: Link先を確認 | Doried Ghader | (参考訳) 層状2次元磁石のリッチで非伝統的な物理学は、トポロジカル・マグノニクスとマグノン・バレートロニクスの新しい道を開くことができる。
特に、磁気スピン軌道結合(SOCs)によって引き起こされる2次元(2次元)二層磁性体は、興味深い積層依存性の磁性、制御可能な基底状態、およびトポロジカル励起により注目を集めている。
これらの材料に関するかなりの研究にもかかわらず、そのトポロジカルな特徴は現在でも広く研究されていない。
本研究は,ハニカム二層膜における磁気秩序を持つマグノントポロジとマグノン谷偏極を包括的に研究する。
我々は, 位相相, マグノン谷輸送, ホールおよびネルンスト効果に対するsoc, 磁気基底状態, 積み重ね秩序および反転対称性の破れの分離および複合効果を解明する。
包括的な分析は、SOCの性質を決定する手がかりを示唆し、トポロジカルに自明な位相における非伝統的なホールとナーンスト伝導度を予測する。
さらに,層状反強磁性体における新しいバンドギャップ閉鎖について報告し,そのトポロジカルな意味を詳述する。
本研究は, トポロジカル2次元マグノンの基礎物理と技術ポテンシャルに関する重要な知見を提供する。 The rich and unconventional physics in layered 2D magnets can open new avenues for topological magnonics and magnon valleytronics. In particular, two-dimensional (2D) bilayer quantum magnets are gaining increasing attention due to their intriguing stacking-dependent magnetism, controllable ground states, and topological excitations induced by magnetic spin-orbit couplings (SOCs). Despite the substantial research on these materials, their topological features remain widely unexplored to date. The present study comprehensively investigates the magnon topology and magnon valley-polarization in honeycomb bilayers with collinear magnetic order. We elucidate the separate and combined effects of the SOC, magnetic ground-states, stacking order, and inversion symmetry breaking on the topological phases, magnon valley transport, and the Hall and Nernst effects. The comprehensive analysis suggests clues to determine the SOC's nature and predicts unconventional Hall and Nernst conductivities in topologically trivial phases. We further report on novel bandgap closures in layered antiferromagnets and detail their topological implications. We believe the present study provides important insights into the fundamental physics and technological potentials of topological 2D magnons. | 翻訳日:2023-04-28 21:52:23 公開日:2021-04-20 |
# 単一光子の複数自由度を有する量子制御SWAPゲートの実験的実証 Experimental Demonstration of a Quantum Controlled-SWAP Gate with Multiple Degrees of Freedom of a Single Photon ( http://arxiv.org/abs/2011.02581v3 ) ライセンス: Link先を確認 | Feiran Wang, Shihao Ru, Yunlong Wang, Min An, Pei Zhang, and Fuli Li | (参考訳) 量子ゲートの物理的実現を最適化することは量子コンピュータを構築する上で重要である。
制御スワップゲートはフレドキンゲート(fredkin gate)とも呼ばれ、様々な量子情報処理方式に広く適用できる。
本研究では,単一光子ハイブリッド度自由度系における量子フレドキンゲートの提案と実験を行う。
偏極は制御量子ビットとして使われ、スワップ操作は光子軌道角運動量にまたがる4次元ヒルベルト空間で達成される。
我々の実験における量子フレドキンゲートの有効変換レート$\mathcal{p}$は$(95.4\pm 2.6)\%$である。
さらに、グリーンベルガー・ホルン・ザイリンガー状態の一種は、我々の量子フレドキンゲートを用いて準備でき、これらの非孤立状態は、メルミン不等式に違反してその量子文脈特性を示すことができる。
提案手法は,高次元およびハイブリッド符号化量子システムにおける量子コンピューティングおよび量子基礎研究に有用である。 Optimizing the physical realization of quantum gates is important to build a quantum computer. The controlled-SWAP gate, also named Fredkin gate, can be widely applicable in various quantum information processing schemes. In the present research, we propose and experimentally implement quantum Fredkin gate in a single-photon hybrid-degrees-of-freedom system. Polarization is used as the control qubit, and SWAP operation is achieved in a four-dimensional Hilbert space spanned by photonic orbital angular momentum. The effective conversion rate $\mathcal{P}$ of the quantum Fredkin gate in our experiment is $(95.4\pm 2.6)\%$. Besides, we find that a kind of Greenberger-Horne-Zeilinger-like states can be prepared by using our quantum Fredkin gate, and these nonseparale states can show its quantum contextual characteristic by the violation of Mermin inequality. Our experimental design and coding method are useful for quantum computing and quantum fundamental study in high-dimensional and hybrid coding quantum systems. | 翻訳日:2023-04-25 07:24:00 公開日:2021-04-20 |
# 量子多体系におけるほぼ完全復活 Almost complete revivals in quantum many-body systems ( http://arxiv.org/abs/2011.02848v3 ) ライセンス: Link先を確認 | Igor Ermakov, Boris V. Fine | (参考訳) 初期非平衡状態の復活は、多体量子系における動的熱化の理論に対する常にある関心事である。
ここでは、相互作用するスピン 1/2 の非可積分格子を考え、与えられたスピン 1/2 が最初は極大偏極であるような量子状態を構築する方法を示し、その後、所定時間に初期偏極のほぼ完全な回復を示す。
このようなリバイバルの実験的な観測は、1つの局所観測可能な測定値で量子シミュレーターのベンチマークに利用することができる。
さらに、これらのリバイバルを秘密開示の遅れに活用することを提案する。 Revivals of initial non-equilibrium states is an ever-present concern for the theory of dynamic thermalization in many-body quantum systems. Here we consider a nonintegrable lattice of interacting spins 1/2 and show how to construct a quantum state such that a given spin 1/2 is maximally polarized initially and then exhibits an almost complete recovery of the initial polarization at a predetermined moment of time. An experimental observation of such revivals may be utilized to benchmark quantum simulators with a measurement of only one local observable. We further propose to utilize these revivals for a delayed disclosure of a secret. | 翻訳日:2023-04-25 05:16:03 公開日:2021-04-20 |
# パウリ力学写像の特異性、混合および非マルコフ性 Singularities, mixing and non-Markovianity of Pauli dynamical maps ( http://arxiv.org/abs/2011.04053v2 ) ライセンス: Link先を確認 | Shrikant Utagi, Vinod N. Rao, R. Srikanth, Subhashish Banerjee | (参考訳) チャネルの量子的非マルコフ性は、最近様々な著者によって観察されたマルコフチャネルを混合することによって生成することができる。
我々は、チャネルの特異性が非特異なチャネル、すなわちチャネルを欠くチャネルを混合することによって生成できるかどうかという類似の問題を考える。
ここでは、qubit pauliチャネルの文脈における否定的な疑問に答える。
一方、特異点を持つ混合チャネルは、結果のチャネルにおける特異点の除去につながる可能性がある。
我々は、2種類の特異チャネルを区別するが、これは混合によって、結果のチャネルの特異性の広範囲に異なる性質をもたらす。
非マルコビアン性(完全正の可分性という意味で)への接続が指摘される。
これらの結果は、チャネル混合による非可逆量子チャネルの実験的実現に非自明な制限を与える。 Quantum non-Markovianity of channels can be produced by mixing Markovian channels, as observed recently by various authors. We consider an analogous question of whether singularities of the channel can be produced by mixing non-singular channels, i.e., ones that lack them. Here we answer the question in the negative in the context of qubit Pauli channels. On the other hand, mixing channels with a singularity can lead to the elimination of singularities in the resultant channel. We distinguish between two types of singular channels, which lead under mixing to broadly quite different properties of the singularity in the resultant channel. The connection to non-Markovianity (in the sense of completely positive indivisibility) is pointed out. These results impose nontrivial restrictions on the experimental realization of non-invertible quantum channels by a process of channel mixing. | 翻訳日:2023-04-24 23:19:35 公開日:2021-04-20 |
# 非局所理論における時間依存ポテンシャルによる共鳴粒子生成 Resonant particle creation by a time-dependent potential in a nonlocal theory ( http://arxiv.org/abs/2011.12929v2 ) ライセンス: Link先を確認 | Jens Boos, Valeri P. Frolov, Andrei Zelnikov | (参考訳) デルタ$形状の時間依存ポテンシャルと相互作用するスカラー場の正確に解ける局所量子論を考えると、ボゴリューボフ係数を解析的に計算し、生成された粒子のスペクトルを決定する。
次に、これらの考察が、特定の非局所「無限微分」量子論に適切に一般化された場合、非局所性の存在によってどのように影響されるかを示す。
このモデルでは、非局所性は特定のモードの有意な共鳴増幅をもたらし、そのインプリントは粒子スペクトルだけでなく生成粒子の総数密度にも残される。 Considering an exactly solvable local quantum theory of a scalar field interacting with a $\delta$-shaped time-dependent potential we calculate the Bogoliubov coefficients analytically and determine the spectrum of created particles. We then show how these considerations, when suitably generalized to a specific nonlocal "infinite-derivative" quantum theory, are impacted by the presence of nonlocality. In this model, nonlocality leads to a significant resonant amplification of certain modes, leaving its imprint not only in the particle spectrum but also in the total number density of created particles. | 翻訳日:2023-04-23 00:47:16 公開日:2021-04-20 |
# 重力の非古典性試験におけるデコヒーレンス効果 Decoherence effects in non-classicality tests of gravity ( http://arxiv.org/abs/2012.06230v2 ) ライセンス: Link先を確認 | Simone Rijavec, Matteo Carlesso, Angelo Bassi, Vlatko Vedral, Chiara Marletto | (参考訳) 重力の明確な量子署名の実験的観察は、現在の技術の把握から外れていると考えられている。
しかし、重力の非古典的特徴が存在する可能性をテストするための最近のいくつかの有望な提案は、最先端のテーブルトップ実験によってアクセス可能であるように思われる。
このうち、重力によって引き起こされる2つの質量間の絡み合いを測定することを目的としている者もいる。
これらの提案のうち2つにおいて,エンタングルメントの程度を観測することにより,デコヒーレンスがシステムのダイナミクスに与える影響を明示的に検討した。
実験を成功させるために必要な実験条件を明らかにする。
並行して,自発的波動関数崩壊モデルの中で最もよく知られている連続的自発的局所化(csl)モデルの効果についても考察した。
CSLモデルのパラメータの任意の値が、重力によって引き起こされる絡み合いの発生を完全に阻害することを発見した。 The experimental observation of a clear quantum signature of gravity is believed to be out of the grasp of current technology. However, several recent promising proposals to test the possible existence of non-classical features of gravity seem to be accessible by the state-of-art table-top experiments. Among them, some aim at measuring the gravitationally induced entanglement between two masses which would be a distinct non-classical signature of gravity. We explicitly study, in two of these proposals, the effects of decoherence on the system's dynamics by monitoring the corresponding degree of entanglement. We identify the required experimental conditions necessary to perform successfully the experiments. In parallel, we account also for the possible effects of the Continuous Spontaneous Localization (CSL) model, which is the most known among the models of spontaneous wavefunction collapse. We find that any value of the parameters of the CSL model would completely hinder the generation of gravitationally induced entanglement. | 翻訳日:2023-04-21 03:25:11 公開日:2021-04-20 |
# クエンチダイナミクスによる曲線空間における非エルミート相転移の探索 Probing non-Hermitian phase transitions in curved space via quench dynamics ( http://arxiv.org/abs/2012.07909v2 ) ライセンス: Link先を確認 | Ygor Par\'a and Giandomenico Palumbo and Tommaso Macr\`i | (参考訳) 非エルミート・ハミルトン派は、フォトニクスや原子・分子系から核物理学やメソスコピック電子系まで幅広い物理現象の特徴を記述することに関係している。
重要な質問は、非エルミート系の静的および動的性質に対する曲面背景の影響の理解に依存している。
本研究では,曲率に依存しない非エルミート相転移の存在を明らかにすることにより,幾何学と非エルミート力学の相互作用を研究する。
虚数質量項を持つ球面上のディラックフェルミオンの原型モデルについて検討する。
この完全解決可能なモデルは、曲率依存の擬ランダウ準位を無限に持つ。
これらの位相を擬似磁化によって与えられる順序パラメータと、独立に非エルミート忠実性感受性を計算することで特徴付ける。
最後に、仮想質量の量子クエンチ後の(一般化された)ロシミットエコーと動的忠実度を計算し、非エルミート相転移を探索し、球の例外半径に対応する特異点を求める。 Non-Hermitian Hamiltonians are relevant to describe the features of a broad class of physical phenomena, ranging from photonics and atomic and molecular systems to nuclear physics and mesoscopic electronic systems. An important question relies on the understanding of the influence of curved background on the static and dynamical properties of non-Hermitian systems. In this work, we study the interplay of geometry and non-Hermitian dynamics by unveiling the existence of curvature-dependent non-Hermitian phase transitions. We investigate a prototypical model of Dirac fermions on a sphere with an imaginary mass term. This exactly-solvable model admits an infinite set of curvature-dependent pseudo-Landau levels. We characterize these phases by computing an order parameter given by the pseudo-magnetization and, independently, the non-Hermitian fidelity susceptibility. Finally, we probe the non-Hermitian phase transitions by computing the (generalized) Loschmidt echo and the dynamical fidelity after a quantum quench of the imaginary mass and find singularities in correspondence of exceptional radii of the sphere. | 翻訳日:2023-04-20 21:04:20 公開日:2021-04-20 |
# 2点エネルギー測定プロトコルの自己整合性 Self-consistency of the two-point energy measurement protocol ( http://arxiv.org/abs/2012.09716v3 ) ライセンス: Link先を確認 | M. Hamed Mohammady | (参考訳) 熱的に孤立した量子系は、外部のワークソースと相互作用してユニタリ進化を行う。
2点エネルギー測定(TPM)プロトコルは、システムの前後で理想的なエネルギー測定を行うことにより、システムとワークソースの間で交換された作業を定義する。
しかし、TPMプロトコルで使用される理想的なエネルギー測定は、最終的に外部の作業源との相互作用を必要とする測定装置とのユニタリ結合から生じる。
TPMプロトコルが自己整合であるためには、システム+機器の複合体上でTPMプロトコルを実行できなければならないので、機器の自由度を無視した場合、興味のあるシステムのためのオリジナルのTPMワーク分布を復元する、全体の作業分布を明らかにする必要がある。
本書では,この自己整合性は,当初はエネルギー固有状態に設定されていた限り満足していることを示す。
さらに、ハミルトニアン装置が「ポインター可観測」(pointer observable)と同値であれば、次のようになる。
(i)全作業分布は、すべての系状態及びシステムのみのユニタリ過程に対する熱力学の「保証されていない」第一法則を満たす。
(ii)すべてのシステム状態及びシステムのみのユニタリプロセスにおいて、システムと機器のユニタリ結合による測定されていない作業が全てのシステム状態に対してゼロである場合に限り、全体の作業分布はシステムのみの作業分布と同一となる。 A thermally isolated quantum system undergoes unitary evolution by interacting with an external work source. The two-point energy measurement (TPM) protocol defines the work exchanged between the system and the work source by performing ideal energy measurements on the system before, and after, the unitary evolution. However, the ideal energy measurements used in the TPM protocol ultimately result from a unitary coupling with a measurement apparatus, which requires an interaction with an external work source. For the TPM protocol to be self-consistent, we must be able to perform the TPM protocol on the compound of system plus apparatus, thus revealing the total work distribution, such that when ignoring the apparatus degrees of freedom, we recover the original TPM work distribution for the system of interest. In the present manuscript, we show that such self-consistency is satisfied so long as the apparatus is initially prepared in an energy eigenstate. Moreover, we demonstrate that if the apparatus Hamiltonian is equivalent to the "pointer observable", then: (i) the total work distribution will satisfy the "unmeasured" first law of thermodynamics for all system states and system-only unitary processes; and (ii) the total work distribution will be identical to the system-only work distribution, for all system states and system-only unitary processes, if and only if the unmeasured work due to the unitary coupling between system and apparatus is zero for all system states. | 翻訳日:2023-04-20 08:25:57 公開日:2021-04-20 |
# 多色レーザーパルス衝突における量子真空シグネチャ Quantum vacuum signatures in multi-color laser pulse collisions ( http://arxiv.org/abs/2101.04461v2 ) ライセンス: Link先を確認 | Holger Gies, Felix Karbstein and Leonhard Klar | (参考訳) 量子真空ゆらぎは、電磁界間の効果的な非線形相互作用をもたらす。
マクロ磁場によって駆動される量子真空非線形性の顕著な特徴は、周波数、伝播方向、駆動場からの偏光といった特性が異なる信号光子である。
本稿では, 真空変動を媒介とする様々な相互作用プロセスの効率的なトレース戦略を考案し, 信号光子チャネルを同定する。
例えば、最大4個の光レーザーパルスの衝突について検討し、総和と差分周波数の発生に注意を払う。
レーザーパルス衝突における信号光子収率を高めるために, この情報を用いて, 与えられた全レーザエネルギーの信号光子収率を高める方法を示す。 Quantum vacuum fluctuations give rise to effective non-linear interactions between electromagnetic fields. A prominent signature of quantum vacuum nonlinearities driven by macroscopic fields are signal photons differing in characteristic properties such as frequency, propagation direction and polarization from the driving fields. We devise a strategy for the efficient tracing of the various vacuum-fluctuation-mediated interaction processes in order to identify the most prospective signal photon channels. As an example, we study the collision of up to four optical laser pulses and pay attention to sum and difference frequency generation. We demonstrate how this information can be used to enhance the signal photon yield in laser pulse collisions for a given total laser energy. | 翻訳日:2023-04-17 00:44:48 公開日:2021-04-20 |
# グローバルビームによるM{\o}lmer-S{\o}rensenゲートの量子プロセストモグラフィー Quantum process tomography of a M{\o}lmer-S{\o}rensen gate via a global beam ( http://arxiv.org/abs/2101.04648v2 ) ライセンス: Link先を確認 | Holly N Tinkey, Adam M Meier, Craig R Clark, Christopher M Seck, and Kenton R Brown | (参考訳) 本稿では,大域レーザービームからのトラップ電位と複合パルスの変調を利用した2イオン相互作用の量子プロセストモグラフィーのためのフレームワークを提案する。
個人識別と遅延過程のトモグラフィー解析により, レーザーデコヒーレンスとスローキュービット周波数ドリフトの誤差寄与が認められた。
このフレームワークは、最適化されたM{\o}lmer-S{\o}rensenゲートと過電力なM{\o}lmer-S{\o}rensenゲートの両方を解析するために、2つの同時トラッピングされた$^{40}$Ca$^+$イオンを用いており、この分析結果を、より情報に乏しいベル状態トモグラフィー測定と単純化されたノイズモデルに基づく予測と比較する。
これらの結果から,この手法は2イオン量子プロセスのキャラクタリゼーションやシステムに存在する誤りに関する有意義な情報抽出に有効であることが示された。
この手法の実験的有用性により, 密閉ゲートのキャラクタリゼーションにプロセストモグラフィーをより広範囲に利用することが可能となる。 We present a framework for quantum process tomography of two-ion interactions that leverages modulations of the trapping potential and composite pulses from a global laser beam to achieve individual-ion addressing. Tomographic analysis of identity and delay processes reveals dominant error contributions from laser decoherence and slow qubit frequency drift during the tomography experiment. We use this framework on two co-trapped $^{40}$Ca$^+$ ions to analyze both an optimized and an overpowered M{\o}lmer-S{\o}rensen gate and to compare the results of this analysis to a less informative Bell-state tomography measurement and to predictions based on a simplified noise model. These results show that the technique is effective for the characterization of two-ion quantum processes and for the extraction of meaningful information about the errors present in the system. The experimental convenience of this method will allow for more widespread use of process tomography for characterizing entangling gates in trapped-ion systems. | 翻訳日:2023-04-17 00:35:02 公開日:2021-04-20 |
# 1次元カイラル対称位相絶縁体に対する巻数の実空間表現 Real-space representation of winding number for one-dimensional chiral-symmetric topological insulator ( http://arxiv.org/abs/2101.08546v2 ) ライセンス: Link先を確認 | Ling Lin, Yongguan Ke, Chaohong Lee | (参考訳) 巻線数は1次元キラル対称系における位相位相の診断の不変量として広く使われている。
我々は巻数に対する実空間表現を提出した。
注目すべきは, 翻訳対称性を破るがキラル対称性を保った障害が存在する場合でも, 正確に量子化された巻数を再現する手法である。
我々は, 回転数の実空間表現, ねじれ境界条件で定義される回転数, および[phys. rev. lett. 113, 046802 (2014)] で導出される実空間巻数を, 半充填の熱力学的限界において等価であることを証明した。
本手法は, 巻線数が必ずしも量子化されない場合, 半分以下で満たす場合にも有効である。
乱れ誘起位相相転移の周辺では、実空間巻線数は異なる乱れ標本に対して大きなゆらぎを持つが、乱れサンプルのアンサンブルの平均値が位相相転移を識別できる。
さらに、我々の実空間の巻線数は、二次元系のチャーン数を表すために用いられるボット指数として表現できることが示される。 The winding number has been widely used as an invariant for diagnosing topological phases in one-dimensional chiral-symmetric systems. We put forward a real-space representation for the winding number. Remarkably, our method reproduces an exactly quantized winding number even in the presence of disorders that break translation symmetry but preserve chiral symmetry. We prove that our real-space representation of the winding number, the winding number defined through the twisted boundary condition, and the real-space winding number derived previously in [Phys. Rev. Lett. 113, 046802 (2014)], are equivalent in the thermodynamic limit at half filling. Our method also works for the case of filling less than one half, where the winding number is not necessarily quantized. Around the disorder-induced topological phase transition, the real-space winding number has large fluctuations for different disordered samples, however, its average over an ensemble of disorder samples may well identify the topological phase transition. Besides, we show that our real-space winding number can be expressed as a Bott index, which has been used to represent the Chern number for two-dimensional systems. | 翻訳日:2023-04-14 08:37:25 公開日:2021-04-20 |
# 2ビット状態の実験的絡み合い特性 Experimental entanglement characterization of two-rebit states ( http://arxiv.org/abs/2102.01450v2 ) ライセンス: Link先を確認 | Nidhin Prasannan, Syamsundar De, Sonja Barkhofen, Benjamin Brecht, Christine Silberhorn, Jan Sperling | (参考訳) 我々は、実および複素複合量子系に対するその定義に基づく絡み合いを特徴づける。
特に、選択された数系に関する量子相関を評価する手法が確立され、なぜ量子状態が複素数を介して記述されるのかという疑問が深く根付いているが、ほとんど議論されていない。
実験では、実数上の2つの2レベル系からなる2つのrebitの概念に絡み合う2つの光子偏極状態を実現する。
同時に、生成された状態は2つの複素量子ビットに対して分離可能である。
以上の結果から,生成状態の最適近似を,実数値的局所展開の観点から再構成し,不完全なデータ記述が得られることを示す。
逆に、生成された状態は複素波動関数を持つテンソル積状態によって完全に分解可能であることが示される。
そこで,我々は,量子情報科学や科学技術の応用に関連し,自然の量子記述の基礎と結びついた,現代的な理論ツールと実験プラットフォームを用いて,量子物理学のパラダイムを探究する。 We characterize entanglement subject to its definition over real and complex, composite quantum systems. In particular, a method is established to assess quantum correlations with respect to a selected number system, illuminating the deeply rooted, yet rarely discussed question of why quantum states are described via complex numbers. With our experiment, we then realize two-photon polarization states that are entangled with respect to the notion of two rebits, comprising two two-level systems over real numbers. At the same time, the generated states are separable with respect to two complex qubits. Among other results, we reconstruct the best approximation of the generated states in terms of a real-valued, local expansion and show that this yields an incomplete description of our data. Conversely, the generated states are shown to be fully decomposable in terms of tensor-product states with complex wave functions. Thereby, we probe paradigms of quantum physics with modern theoretical tools and experimental platforms that are relevant for applications in quantum information science and technology and connected to the fundamentals of the quantum description of nature. | 翻訳日:2023-04-13 00:37:12 公開日:2021-04-20 |
# 真空サンドボックスでカシミールと遊ぶ Playing with Casimir in the vacuum sandbox ( http://arxiv.org/abs/2102.11326v2 ) ライセンス: Link先を確認 | S. Kauffman, S. Succi, A. Tiribocchi, P. G. Tello | (参考訳) カシミール効果は、量子場の変動による真空エネルギーとの関係やそれの欠如に関する議論の対象であり続けている。
本稿では,典型的な静的カシミールの真空変動に類似した想像過程を考慮したゲダンケン実験を提案する。
この思考実験は、プランクスケールに近づく際のプレート間の最小距離に関する興味深い結論をもたらす。
より具体的には、プレート間の距離が$(L/L_P)^{2/3}$プランク長以下には達せず、プランク長は$L_P$$、プレートの典型的な横延長は$L$である。
さらなる発見により、2つのプレート間のこの最小分離距離へのアプローチは漸近的であるという結論が得られた。 The Casimir effect continues to be a subject of discussion regarding its relationship, or the lack of it, with the vacuum energy of fluctuating quantum fields. In this note, we propose a Gedankenexperiment considering an imaginary process similar to a vacuum fluctuation in a typical static Casimir set up. The thought experiment leads to intriguing conclusions regarding the minimum distance between the plates when approaching the Planck scale. More specifically, it is found that distance between the plates cannot reach a value below $(L/L_P)^{2/3}$ Planck lengths, being $L_P$ the Planck length and $L$ the typical lateral extension of the plates. Additional findings allow the conclusion that the approach between the two plates towards this minimum separation distance is asymptotic. | 翻訳日:2023-04-10 17:49:13 公開日:2021-04-20 |
# 高分解能分光法による気体相の衝突誘起脱コヒーレンスを記述するリンドブラッドパラメーター -アセチレンへの応用- Lindblad parameters from high resolution spectroscopy to describe collision induced decoherence in the gas phase -- Application to acetylene ( http://arxiv.org/abs/2102.11144v2 ) ライセンス: Link先を確認 | Antoine Aerts, Jean Vander Auwera and Nathalie Vaeck | (参考訳) リンドブラッドマスター方程式の枠組みの中で,希薄な気体相における系に対する環境の影響を記述する一般的な手法を提案する。
衝突によって引き起こされる系の振動状態間の遷移を特徴づける現象論的パラメータは、エネルギーギャップフィット則に依存する実験遷移速度定数から抽出することができる。
この種の実験データの可利用性は限られているため,本研究は実験線幅拡大係数に依存するが,エネルギーギャップフィッティング則を用いている。
アセチレンの3ドルの赤外線スペクトル範囲は、提案されたアプローチを説明するために選ばれた。
この手法は計算量的に安価でありながら利用可能な実験データと公正な一致を示す。
結果は状態レーザー量子制御の文脈で議論される。 Within the framework of the Lindblad master equation, we propose a general methodology to describe the effects of the environment on a system in dilute gas phase. The phenomenological parameters characterizing the transitions between rovibrational states of the system induced by collisions can be extracted from experimental transition kinetic constants, relying on Energy Gap fitting laws. As the availability of this kind of experimental data can be limited, the present work relied on experimental line broadening coefficients, however still using Energy Gap fitting laws. The 3 $\mu$m infrared spectral range of acetylene was chosen to illustrate the proposed approach. The method shows fair agreement with available experimental data while being computationally inexpensive. The results are discussed in the context of state laser quantum control. | 翻訳日:2023-04-10 05:52:08 公開日:2021-04-20 |
# 電子流体力学における非スリップ境界条件と熱カシミール圧力 No-slip boundary conditions for electron hydrodynamics and the thermal Casimir pressure ( http://arxiv.org/abs/2104.00334v2 ) ライセンス: Link先を確認 | Mandy Hannemann and Gino Wegner and Carsten Henkel | (参考訳) 我々は、THzおよび遠赤外域の電磁波に対する修正反射係数を導出した。
このアイデアは、金属伝導電子の流体力学的境界条件に基づいている。
金属板間のカシミール圧力の温度依存性について評価した。
結果は、導電性金属の標準揺らぎ電気力学から測定値が逸脱する「熱的異常」に光を当てるべきである。 We derive modified reflection coefficients for electromagnetic waves in the THz and far infrared range. The idea is based on hydrodynamic boundary conditions for metallic conduction electrons. The temperature-dependent part of the Casimir pressure between metal plates is evaluated. The results should shed light on the "thermal anomaly" where measurements deviate from the standard fluctuation electrodynamics for conducting metals. | 翻訳日:2023-04-05 22:19:53 公開日:2021-04-20 |
# 量子力学系における分布に関する一考察 A note on the distributions in quantum mechanical systems ( http://arxiv.org/abs/2104.05530v3 ) ライセンス: Link先を確認 | Layth M. Alabdulsada | (参考訳) 本稿では,量子力学系の分布とアフィン分布について検討する。
また、量子力学系の制御性について、ユニタリ進化$U(0)=I$から所望のユニタリプロパゲータ$U_f$まで、量子システムを操るのに必要な最小時間について、関連する疑問を議論する。
さらに、任意の初期状態 $U(0)=I$ から対象状態 $U_f$ へ量子力学系を駆動する問題と同等の測地線を持つ$\mathfrak{k} \oplus \mathfrak{p}$ sub-Finsler多様体について記述する。
フィンスラー対称多様体上のリー群$G$が$G/K$を$KAK$に分解できることを示す。 In this paper, we study the distributions and the affine distributions of the quantum mechanical system. Also, we discuss the controllability of the quantum mechanical system with the related question concerning the minimum time needed to steer a quantum system from a unitary evolution $U(0)=I$ of the unitary propagator to a desired unitary propagator $U_f$. Furthermore, the paper introduces a description of a $\mathfrak{k} \oplus \mathfrak{p}$ sub-Finsler manifold with its geodesics, which equivalents to the problem of driving the quantum mechanical system from an arbitrary initial state $U(0)=I$ to the target state $U_f$, some illustrative examples are included. We prove that the Lie group $G$ on a Finsler symmetric manifold $G/K$ can be decomposed into $KAK$. | 翻訳日:2023-04-04 01:53:03 公開日:2021-04-20 |
# 三部量子系の状態空間構造について On the state space structure of tripartite quantum systems ( http://arxiv.org/abs/2104.06938v2 ) ライセンス: Link先を確認 | Hari Krishnan S V, Ashish Ranjan, and Manik Banik | (参考訳) 三部量子系の状態空間構造を解析する。
特に、3つの二分詞 [例えば$\mathcal{b}^{int}(abc)$] で分離可能な状態の集合は、3つの二分詞の切断に対して正の部分的転位 (ppt) を持つ状態の集合の厳密な部分集合である(例えば$\mathcal{p}^{int}(abc)$] すべての三分詞ヒルベルト空間に対して$\mathbb{c}_a^{d_1}\otimes\mathbb{c}_b^{d_2}\otimes\mathbb{c}_c^{d_3}$ と$\min\{d_1,d_2,d_3\}\}\ge2$ を満たす)。
この主張は、集合 $\mathcal{p}^{int}(abc)$ に属するが、$\mathcal{b}^{int}(abc)$ に属するものではない状態を構成することによって証明される。
$(\mathbb{C}^{d})^{\otimes3}$ を$d\ge3$ とすると、構成は特定の種類の多部的拡張不可能な積ベースから従う。
しかしながら、そのような構成は$(\mathbb{C}^{2})^{\otimes3}$に対して不可能であり、なぜなら任意の$n$に対して双分数系 $\mathbb{C}^2\otimes\mathbb{C}^n$ は拡張不可能な積基底を持たないからである(Phys. Rev. 82, 5385 (1999)]。
3ドル(約3,400円)のキュービットシステムでは、異なる構成が生まれます。 State space structure of tripartite quantum systems is analyzed. In particular, it has been shown that the set of states separable across all the three bipartitions [say $\mathcal{B}^{int}(ABC)$] is a strict subset of the set of states having positive partial transposition (PPT) across the three bipartite cuts [say $\mathcal{P}^{int}(ABC)$] for all the tripartite Hilbert spaces $\mathbb{C}_A^{d_1}\otimes\mathbb{C}_B^{d_2}\otimes\mathbb{C}_C^{d_3}$ with $\min\{d_1,d_2,d_3\}\ge2$. The claim is proved by constructing state belonging to the set $\mathcal{P}^{int}(ABC)$ but not belonging to $\mathcal{B}^{int}(ABC)$. For $(\mathbb{C}^{d})^{\otimes3}$ with $d\ge3$, the construction follows from specific type of multipartite unextendible product bases. However, such a construction is not possible for $(\mathbb{C}^{2})^{\otimes3}$ since for any $n$ the bipartite system $\mathbb{C}^2\otimes\mathbb{C}^n$ cannot have any unextendible product bases [Phys. Rev. Lett. 82, 5385 (1999)]. For the $3$-qubit system we, therefore, come up with a different construction. | 翻訳日:2023-04-03 21:02:40 公開日:2021-04-20 |
# 障害Bose-Hubbard鎖における多体局在 Many-body localization in a disorder Bose-Hubbard chain ( http://arxiv.org/abs/2104.08582v2 ) ライセンス: Link先を確認 | Jie Chen and Xiaoqun Wang | (参考訳) 一次元で相互作用するボソン系の多体局在を、レベル統計量、局所圧縮性、相関関数、絡み合いエントロピーの観点から、充填係数が半減すると数値的に研究する。
フォン・ノイマンの絡み合いエントロピーは粒子数エントロピーと配置エントロピーに分解される。
粒子数エントロピーは、乱れスピンチェーンの全エントロピーに対応する領域則を満たす一方、十分に強い障害に対する最近の実験観察(a. lukin, m. rispoli, r. schittko, et al., science 364, 256 (2019))を確認するために、配置の絡み合いエントロピーに対して異常なボリュームロー挙動が認められる。
ローカライゼーション長は、多体ローカライゼーション状態と対応する時間進化状態の2体相関関数から抽出される。
障害強度とエネルギー密度のパラメータ空間におけるエルゴード熱化領域と多体局在領域とからなる位相図を作成する。
2つの領域は、粒子番号のエンタングルメントエントロピーの標準偏差から控除された多体移動エッジによって分離される。
対数的時間依存性を特徴とするスローダイナミクスは、粒子数エントロピーとそれらの時間進化の中間状態における構成エントロピーの両方に対して明らかに示され、アンダーソン局在化の場合、すなわち非相互作用障害系では現れない。 Many-body localization of a disorder interacting boson system in one dimension is studied numerically at the filling factor being one-half, in terms of level statistics, local compressibility, correlation function and entanglement entropies. The von Neumann entanglement entropy is decoupled into a particle number entropy and a configuration entropy. An anomalous volume-law behavior is found for the configuration entanglement entropy to confirm a recent experimental observation [A. Lukin, M. Rispoli, R. Schittko, et al., Science 364, 256 (2019)] for sufficient strong disorder, while the particle number entropy fulfills an area-law corresponding to the total entropy for disordered spin chain. The localization length are extracted from a two-body correlation function for many-body localization states and corresponding time-evolutions states as well. A phase diagrams is established with consisting of an ergodic thermalized region and a many-body-localization region in a parameter space of the disorder strength and the energy density. Two regions are separated by a many-body mobility edge deducted from the standard deviation of the particle-number entanglement entropy, which appears consistent with that based on the localization length. Slow dynamics characterized by a logarithmic time-dependence is explicitly shown for both the particle number entropy and the configuration entropy in an intermediate regime of their time-evolutions, which does not show up in the Anderson localization case, i.e. non-interacting disorder systems. | 翻訳日:2023-04-03 08:38:22 公開日:2021-04-20 |
# 実地学習ビデオ符号化のための条件付き符号化と可変ビットレート Conditional Coding and Variable Bitrate for Practical Learned Video Coding ( http://arxiv.org/abs/2104.09103v2 ) ライセンス: Link先を確認 | Th\'eo Ladune (IETR), Pierrick Philippe, Wassim Hamidouche (IETR), Lu Zhang (IETR), Olivier D\'eforges (IETR) | (参考訳) 本稿では,実用的な学習ビデオコーデックを提案する。
条件付き符号化と量子化ゲインベクトルは、可変ビットレートでビデオシーケンスを圧縮できる単一のエンコーダ/デコーダペアに柔軟性を与えるために使用される。
フレキシビリティは、レートとGOP構造を選択して、レート歪曲コストを最適化することで、テスト時に活用される。
CLIC21ビデオテスト条件を用いて、提案手法はHEVCと同等のパフォーマンスを示す。 This paper introduces a practical learned video codec. Conditional coding and quantization gain vectors are used to provide flexibility to a single encoder/decoder pair, which is able to compress video sequences at a variable bitrate. The flexibility is leveraged at test time by choosing the rate and GOP structure to optimize a rate-distortion cost. Using the CLIC21 video test conditions, the proposed approach shows performance on par with HEVC. | 翻訳日:2023-04-03 05:00:36 公開日:2021-04-20 |
# ダイヤモンド中の負電荷NV中心の光イオン化:理論とアブ初期計算 Photoionization of negatively charged NV centers in diamond: theory and ab initio calculations ( http://arxiv.org/abs/2104.09144v2 ) ライセンス: Link先を確認 | Lukas Razinkovas, Marek Maciaszek, Friedemann Reinhard, Marcus W. Doherty and Audrius Alkauskas | (参考訳) ダイヤモンド中における負電荷窒素空孔(NV)中心の光イオン化しきい値と断面積のab-initio計算を$^{3}\!
A_2$と興奮した$^{3}\!
E$州。
イオン化後、$^{3}\!
e$ レベル nv センターは、メタ安定$^{4}\!
A_2$中性欠陥の電子状態。
我々は、$\mathrm{NV}^{-}$のスピン偏極が$^{4}\!
A_2$状態、電子スピン共鳴実験の説明を提供する。
超セルの人工周期性によって生じるバンド構造の歪みを補正するために、ブリルアンゾーン統合のための高密度な$k$-pointメッシュとバンド展開技術を用いてスムーズな光イオン化断面積を得る。
我々の計算は、$\mathrm{nv}^{-} の光イオン化機構の包括的な図示を提供する。
それらは、NVセンターでの電荷状態ダイナミクスの実験の解釈と設計に有用である。
特に、NV中心のスピン-電荷変換の最近の結果について一貫した説明を提供する。 We present ab-initio calculations of photoionization thresholds and cross sections of the negatively charged nitrogen-vacancy (NV) center in diamond from the ground $^{3}\!A_2$ and the excited $^{3}\!E$ states. We show that after the ionization from the $^{3}\!E$ level the NV center transitions into the metastable $^{4}\!A_2$ electronic state of the neutral defect. We reveal how spin polarization of $\mathrm{NV}^{-}$ gives rise to spin polarization of the $^{4}\!A_2$ state, providing an explanation of electron spin resonance experiments. We obtain smooth photoionization cross sections by employing dense $k$-point meshes for the Brillouin zone integration together with the band unfolding technique to rectify the distortions of the band structure induced by artificial periodicity of the supercell approach. Our calculations provide a comprehensive picture of photoionization mechanisms of $\mathrm{NV}^{-}$. They will be useful in interpreting and designing experiments on charge-state dynamics at NV centers. In particular, we offer a consistent explanation of recent results of spin-to-charge conversion of NV centers. | 翻訳日:2023-04-03 04:49:28 公開日:2021-04-20 |
# 微分進化を用いた高対称性材料の結晶構造予測 Crystal structure prediction of materials with high symmetry using differential evolution ( http://arxiv.org/abs/2104.09764v1 ) ライセンス: Link先を確認 | Wenhui Yang, Edirisuriya M. Dilanga Siriwardane, Rongzhi Dong, Yuxin Li, Jianjun Hu | (参考訳) 結晶構造は材料の特性を決定する。
化学物質の結晶構造により、第一原理計算や機械学習モデルによって多くの物理的および化学的性質を予測できる。
理論的に妥当な化学式を生成するのは比較的容易であるため、結晶構造予測は新しい材料を発見する重要な方法となる。
本研究では, 遺伝的アルゴリズムなどの大域的最適化アルゴリズムを用いて, 予測した構造の接触マップと実結晶構造の接触マップとのマッチングを最大化し, ワイコフ位置(wp)における座標を探索するコンタクトマップに基づく結晶構造予測手法を提案する。
しかし, 結晶構造を高対称性で予測すると, 大域最適化アルゴリズムは, 予測された結晶構造の接触マップの次元とターゲット結晶構造の接触マップの次元との矛盾が主な原因である化学式を満たすWPの有効組み合わせを見つけるのが困難であることが判明した。
このため、高対称性結晶の結晶構造を予測することは困難である。
そこで本研究では,pyxtalを用いて化学式や空間群などの情報に基づいて,与えられた対称性制約を持つランダム結晶構造を生成・フィルタリングする手法を提案する。
接点マップを最適化の目標とし,wyckoff位置における非特殊座標の探索に微分進化アルゴリズムを用い,高対称性結晶材料の構造予測を実現する。
実験の結果,提案アルゴリズムCMCrystalHSは不整合接触地図次元の問題を効果的に解き,結晶構造を高対称性で予測できることがわかった。 Crystal structure determines properties of materials. With the crystal structure of a chemical substance, many physical and chemical properties can be predicted by first-principles calculations or machine learning models. Since it is relatively easy to generate a hypothetical chemically valid formula, crystal structure prediction becomes an important method for discovering new materials. In our previous work, we proposed a contact map-based crystal structure prediction method, which uses global optimization algorithms such as genetic algorithms to maximize the match between the contact map of the predicted structure and the contact map of the real crystal structure to search for the coordinates at the Wyckoff Positions(WP). However, when predicting the crystal structure with high symmetry, we found that the global optimization algorithm has difficulty to find an effective combination of WPs that satisfies the chemical formula, which is mainly caused by the inconsistency between the dimensionality of the contact map of the predicted crystal structure and the dimensionality of the contact map of the target crystal structure. This makes it challenging to predict the crystal structures of high-symmetry crystals. In order to solve this problem, here we propose to use PyXtal to generate and filter random crystal structures with given symmetry constraints based on the information such as chemical formulas and space groups. With contact map as the optimization goal, we use differential evolution algorithms to search for non-special coordinates at the Wyckoff positions to realize the structure prediction of high-symmetry crystal materials. Our experimental results show that our proposed algorithm CMCrystalHS can effectively solve the problem of inconsistent contact map dimensions and predict the crystal structures with high symmetry. | 翻訳日:2023-04-03 02:47:17 公開日:2021-04-20 |
# 超体積最適$\mu$-3次元線/平板型パレートフロントの分布 Hypervolume-Optimal $\mu$-Distributions on Line/Plane-based Pareto Fronts in Three Dimensions ( http://arxiv.org/abs/2104.09736v1 ) ライセンス: Link先を確認 | Ke Shang, Hisao Ishibuchi, Weiyu Chen, Yang Nan, Weiduo Liao | (参考訳) ハイパーボリュームは、解集合の品質を評価するために進化的多目的最適化(emo)の分野で広く使われている。
pareto の面に $\mu$ の解を持つ解集合に対して、より大きなハイパーボリュームはより良い解集合を意味する。
最大の超体積を持つ解集合の分布を調べることは、いわゆる超体積最適$\mu$-分散であるemoの重要な話題である。
理論的な結果は、$\mu$の解は2次元の線型パレート面に一様分布していることを示している。
しかし、$\mu$の解は、必ずしも一直線のパレート面に3次元で均一に分布するとは限らない。
単線パレートフロントが1つの一定の目的を持つときのみ一様である。
本稿では,3次元の超体積最適$\mu$-分布について検討する。
直線面と平面面のパレート面を考える。
ラインベースのパレートフロントでは、シングルラインのパレートフロントを2行と3行のパレートフロントに拡張し、各ラインに一定の目的がある。
平面ベースのパレートフロントでは、線形三角形と逆三角形パレートフロントが考慮される。
まず、$\mu$のソリューションが必ずしもラインベースのParetoフロントに均一に分散されているとは限らないことを示す。
統一性は、ラインの結合方法によって異なる。
すると、平面上のパレート面上の一様解が常に超体積最大化に最適であるとは限らないことを示す。
これは$(\mu+1)$選択スキームに関して局所的に最適である。
我々の結果は、コミュニティの研究者がハイパーボリューム指標をよりよく理解し活用するのに役立ちます。 Hypervolume is widely used in the evolutionary multi-objective optimization (EMO) field to evaluate the quality of a solution set. For a solution set with $\mu$ solutions on a Pareto front, a larger hypervolume means a better solution set. Investigating the distribution of the solution set with the largest hypervolume is an important topic in EMO, which is the so-called hypervolume optimal $\mu$-distribution. Theoretical results have shown that the $\mu$ solutions are uniformly distributed on a linear Pareto front in two dimensions. However, the $\mu$ solutions are not always uniformly distributed on a single-line Pareto front in three dimensions. They are only uniform when the single-line Pareto front has one constant objective. In this paper, we further investigate the hypervolume optimal $\mu$-distribution in three dimensions. We consider the line- and plane-based Pareto fronts. For the line-based Pareto fronts, we extend the single-line Pareto front to two-line and three-line Pareto fronts, where each line has one constant objective. For the plane-based Pareto fronts, the linear triangular and inverted triangular Pareto fronts are considered. First, we show that the $\mu$ solutions are not always uniformly distributed on the line-based Pareto fronts. The uniformity depends on how the lines are combined. Then, we show that a uniform solution set on the plane-based Pareto front is not always optimal for hypervolume maximization. It is locally optimal with respect to a $(\mu+1)$ selection scheme. Our results can help researchers in the community to better understand and utilize the hypervolume indicator. | 翻訳日:2023-04-03 02:46:37 公開日:2021-04-20 |
# ループ量子宇宙論におけるトモグラフィー Tomography in Loop Quantum Cosmology ( http://arxiv.org/abs/2104.09721v1 ) ライセンス: Link先を確認 | Jasel Berra-Montiel, Alberto Molgado | (参考訳) ループ量子宇宙論フレームワークにおけるFriedmann-Robertson-Walker(FRW)モデルのトモグラフィー表現を解析する。
ガウス状態やシュル=オディンガー状態に関連するウィグナー準確率分布に着目し、それらのウィグナー関数に対してラドン積分変換を適用することで、我々の関心の量子モデルを完全に特徴づける測定可能な確率分布を定義するシンプレクティックなトモグラムを得ることができる。
回転およびスクイーズされた二次作用素に対する量子分散を位置と運動量の観点から適切に導入することにより、ハイゼンベルクの不確実性原理に相当し、それらの断層の性質を効率的に解釈する。
また, 双対トモグラフィ記号を用いて, 文献で報告された値と一致するボリューム演算子の期待値を求める。
量子光学と量子情報理論の分野において十分に発達した計測手法の恩恵を受ける可能性があるため,本研究は興味深い結果をもたらすと期待する。 We analyze the tomographic representation for the Friedmann-Robertson-Walker (FRW) model within the Loop Quantum Cosmology framework. We focus on the Wigner quasi-probability distributions associated with Gaussian and Schr\"odinger cat states, and then, by applying a Radon integral transform for those Wigner functions, we are able to obtain the symplectic tomograms which define measurable probability distributions that fully characterize the quantum model of our interest. By appropriately introducing the quantum dispersion for a rotated and squeezed quadrature operator in terms of the position and momentum, we efficiently interpret the properties of such tomograms, being consequent with Heisenberg's uncertainty principle. We also obtain, by means of the dual tomographic symbols, the expectation value for the volume operator, which coincides with the values reported in the literature. We expect that our findings result interesting as the introduced tomographic representation may be further benefited from the well-developed measure techniques in the areas of Quantum optics and Quantum information theory. | 翻訳日:2023-04-03 02:46:11 公開日:2021-04-20 |
# パリティ測定によるSU(1,1)干渉計 SU(1,1) interferometry with parity measurement ( http://arxiv.org/abs/2104.09718v1 ) ライセンス: Link先を確認 | Shuai Wang and Jiandong Zhang | (参考訳) 損失のないSU(1,1)干渉計内でパリティ測定の信号を得るために,ハイゼンベルク表現に新たな演算子法を提案する。
この方法に基づいて、一般ガウス状態や非ガウス状態を含む入力状態の観点からパリティ信号を直接導出することは便利である。
応用として、コヒーレント状態や熱状態や圧縮真空状態が入力状態である場合、SU(1,1)干渉計内でのパリティ測定の信号を再検討する。
さらに,SU(1,1)干渉計を通過させるとFock状態のパリティ信号も得られ,これも新たな結果である。
したがって、本研究で提案されている演算子法は、特にsu(1,1)干渉計に基づく位相推定の研究に便益をもたらすかもしれない。 We present a new operator method in the Heisenberg representation to obtain the signal of parity measurement within a lossless SU(1,1) interferometer. Based on this method, it is convenient to derive the parity signal directly in terms of input states, including general Gaussian or non-Gaussian state. As applications, we revisit the signal of parity measurement within an SU(1,1) interferometer when a coherent or thermal state and a squeezed vacuum state are considered as input states. In addition, we also obtain the parity signal of a Fock state when it passes through an SU(1,1) interferometer, which is also a new result. Therefore, the operator method proposed in this work may bring convenience to the study of quantum metrology, particularly the phase estimation based on an SU(1,1) interferometer. | 翻訳日:2023-04-03 02:45:55 公開日:2021-04-20 |
# 同一粒子波動関数の空間的変形による絡み合い剛性 Entanglement robustness via spatial deformation of identical particle wave functions ( http://arxiv.org/abs/2104.09714v1 ) ライセンス: Link先を確認 | Matteo Piccolini, Farzam Nosrati, Giuseppe Compagno, Patrizia Livreri, Roberto Morandotti, and Rosario Lo Franco | (参考訳) 同一サブシステムの空間的非識別性を適切に活用する手法により,周囲の雑音に対する絡み合い保護の問題に対処する。
この目的のために、2つの独立雑音環境と相互作用する2つの初期分離および絡み合った同一量子ビットをとる。
振幅減衰チャネル、位相減衰チャネル、脱分極チャネルの3つの典型的なモデルが検討されている。
相互作用の後、2つの量子ビットの波動関数を変形させ、空間的局所化演算と古典的通信(sLOCC)を行い、最終的には状態の絡み合いを計算する。
このようにして、同一の量子ビットの空間的不明瞭性は、sLOCC運用フレームワーク内で利用でき、環境が損なう量子相関を部分的に回復できることを示す。
変形によって達成される空間的非識別性が高いほど、回収された絡み合いの量が大きくなる。 We address the problem of entanglement protection against surrounding noise by a procedure suitably exploiting spatial indistinguishability of identical subsystems. To this purpose, we take two initially separated and entangled identical qubits interacting with two independent noisy environments. Three typical models of environments are considered: amplitude damping channel, phase damping channel and depolarizing channel. After the interaction, we deform the wave functions of the two qubits to make them spatially overlap before performing spatially localized operations and classical communication (sLOCC) and eventually computing the entanglement of the resulting state. This way, we show that spatial indistinguishability of identical qubits can be utilized within the sLOCC operational framework to partially recover the quantum correlations spoiled by the environment. A general behavior emerges: the higher the spatial indistinguishability achieved via deformation, the larger the amount of recovered entanglement. | 翻訳日:2023-04-03 02:45:41 公開日:2021-04-20 |
# 複数の有向頂点を持つ2次元格子上のラカダシカル量子ウォーク Lackadaisical quantum walks on 2D grids with multiple marked vertices ( http://arxiv.org/abs/2104.09955v1 ) ライセンス: Link先を確認 | Nikolajs Nahimovs and Raqueline A. M. Santos | (参考訳) Lackadaisical quantum walk (LQW) は古典的な遅延ウォークの量子アナログであり、各頂点は重量$l$の自己ループを持つ。
通常の$\sqrt{n}\times\sqrt{n}$ 2d grid lqw では、$l = d/n$ で$o(1)$確率を持つ単一のマークされた頂点を見つけることができ、ここで $d$ はグリッドの頂点の次数である。
しかし、複数のマークされた頂点に対して、l = d/n$ は、マークされた頂点数の増加とともに成功確率が減少するため最適ではない。
本稿では,LQWによる三角格子,長方形格子,ハニカム格子の3種類の2次元格子の探索を複数の頂点で数値的に検討する。
すべての場合、重量$l = m\cdot d/N$で、m$はマークされた頂点の数であり、それでも成功確率は$O(1)$である。 Lackadaisical quantum walk (LQW) is a quantum analog of a classical lazy walk, where each vertex has a self-loop of weight $l$. For a regular $\sqrt{N}\times\sqrt{N}$ 2D grid LQW can find a single marked vertex with $O(1)$ probability in $O(\sqrt{N\log N})$ steps using $l = d/N$, where $d$ is the degree of the vertices of the grid. For multiple marked vertices, however, $l = d/N$ is not optimal as the success probability decreases with the increase of the number of marked vertices. In this paper, we numerically study search by LQW for different types of 2D grids -- triangular, rectangular and honeycomb -- with multiple marked vertices. We show that in all cases the weight $l = m\cdot d/N$, where $m$ is the number of marked vertices, still leads to $O(1)$ success probability. | 翻訳日:2023-04-03 02:40:23 公開日:2021-04-20 |
# 現在の量子力学は The quantum mechanics of the present ( http://arxiv.org/abs/2104.09945v1 ) ライセンス: Link先を確認 | Lee Smolin and Clelia Verde | (参考訳) 定値と非定値の区別が基本原始となる量子力学の再構成を提案する。
ハイゼンベルク、シュレーディンガー、ダイソンの提案に触発されて、過去は波動関数と作用素で説明できないので、不確実性原理は過去の事象には適用されないので、過去、現在、未来の間の区別は不定性と定値の根本的な区別の微分である。
%) が量子世界と古典世界におけるコペンハーゲン解釈の区別についても同様である。
次に、イベントの表現論に基づいて、イベントを不定と定の遷移の事例として定義する、新しい表現主義の形式を概説する。
過去も未来も完全には存在しないが、異なる理由がある。
最終的に、将来のイベントの現在時刻が、そのイベントが起こる瞬間のカウントダウンを測定する新しい時間座標のクラスの観点から、物理学の改革を提案する。 We propose a reformulation of quantum mechanics in which the distinction between definite and indefinite becomes the fundamental primitive. Inspired by suggestions of Heisenberg, Schrodinger and Dyson that the past can't be described in terms of wavefunctions and operators, so that the uncertainty principle does not apply to past events, we propose that the distinction between past, present and future is derivative of the fundamental distinction between indefinite and definite. %The same is the case for the quantum world versus classical world distinction of the Copenhagen interpretation. We then outline a novel form of presentism based on a phenomonology of events, where an event is defined as an instance of transition between indefinite and definite. Neither the past nor the future fully exist, but for different reasons. We finally suggest reformulating physics in terms of a new class of time coordinates in which the present time of a future event measures a countdown to the present moment in which that event will happen. | 翻訳日:2023-04-03 02:40:00 公開日:2021-04-20 |
# 超伝導量子回路におけるパラメトリックダウン変換によるマイクロ波スクイージングの促進 Enhancement of microwave squeezing via parametric down-conversion in a superconducting quantum circuit ( http://arxiv.org/abs/2104.09932v1 ) ライセンス: Link先を確認 | Kong Han, Yimin Wang, and Guo-Qiang Zhang | (参考訳) 本研究では、2つのコプラナー導波路共振器(CWR)からなる実験的にアクセス可能な超伝導量子回路を提案する。
この方式では、2つのCWRはCWRの1つに埋め込まれた超伝導量子干渉デバイスを介して非線形に結合される。
これは、フラックス駆動のジョセフソンパラメトリック増幅器(JPA)の伝送線をCWRで置き換えることと等価であり、量子化されたマイクロ波場によってJPAを駆動することができる。
この設計により、PDC係数は数十メガヘルツ程度に大きく増加し、強い結合条件を満たすことができる。
Heisenberg-Langevin 法を用いて,提案方式におけるマイクロ波スクイージングの強化を数値的に示す。
JPAとは対照的に,提案システムは臨界点付近で安定し,より強い過渡的スクイーズを生成することができる。
さらに、強い結合性PDCを使用して光子遮断を工学することができる。 We propose an experimentally accessible superconducting quantum circuit, consisting of two coplanar waveguide resonators (CWRs), to enhance the microwave squeezing via parametric down-conversion (PDC). In our scheme, the two CWRs are nonlinearly coupled through a superconducting quantum interference device embedded in one of the CWRs. This is equivalent to replacing the transmission line in a flux-driven Josephson parametric amplifier (JPA) by a CWR, which makes it possible to drive the JPA by a quantized microwave field. Owing to this design, the PDC coefficient can be considerably increased to be about tens of megahertz, satisfying the strong-coupling condition. Using the Heisenberg-Langevin approach, we numerically show the enhancement of the microwave squeezing in our scheme. In contrast to the JPA, our proposed system becomes stable around the critical point and can generate stronger transient squeezing. In addition, the strong-coupling PDC can be used to engineer the photon blockade. | 翻訳日:2023-04-03 02:39:43 公開日:2021-04-20 |
# 非エルミートハミルトン力学の境界条件独立性 Boundary Condition Independence of Non-Hermitian Hamiltonian Dynamics ( http://arxiv.org/abs/2104.09896v1 ) ライセンス: Link先を確認 | Liang Mao, Tianshu Deng and Pengfei Zhang | (参考訳) 非エルミート皮膚効果、すなわち非エルミート密結合ハミルトニアンの固有値と固有状態が開あるいは周期境界条件下で有意な差を持つことは、非エルミート系の顕著な現象である。
非エルミート皮膚効果の存在に触発されて、単一粒子グリーン関数を用いて決定できる非エルミート系における波束の進化を研究する。
驚くべきことに、熱力学的限界において、グリーンの機能は皮膚効果が存在するにもかかわらず境界条件に依存しない。
我々は、有限ホッピング範囲の任意の次元において、この文の一般証明を非エルミート的su-シュリフェッファー-ヘーガーモデルに明示的な挿絵で証明する。
また、マスター方程式によって記述された非相互作用的開量子系におけるその応用について検討し、密度行列の進化が境界条件とは独立であることを示す。 Non-Hermitian skin effect, namely that the eigenvalues and eigenstates of a non-Hermitian tight-binding Hamiltonian have significant differences under open or periodic boundary conditions, is a remarkable phenomenon of non-Hermitian systems. Inspired by the presence of the non-Hermitian skin effect, we study the evolution of wave-packets in non-Hermitian systems, which can be determined using the single-particle Green's function. Surprisingly, we find that in the thermodynamical limit, the Green's function does not depend on boundary conditions, despite the presence of skin effect. We proffer a general proof for this statement in arbitrary dimension with finite hopping range, with an explicit illustration in the non-Hermitian Su-Schrieffer-Heeger model. We also explore its applications in non-interacting open quantum systems described by the master equation, where we demonstrate that the evolution of the density matrix is independent of the boundary condition. | 翻訳日:2023-04-03 02:39:26 公開日:2021-04-20 |
# フォトニック結晶スラブの摂動ディラックコーンバンド構造における制御可能な有限超ナロー品質因子ピーク Controllable finite ultra-narrow quality-factor peak in a perturbed Dirac-cone band structure of a photonic crystal slab ( http://arxiv.org/abs/2104.09818v1 ) ライセンス: Link先を確認 | Alex Y. Song, Akhil Raj Kumar Kalapala, Ricky Gibson, Kevin James Reilly, Thomas Rotter, Sadhvikas Addamane, Haiwen Wang, Cheng Guo, Ganesh Balakrishnan, Robert Bedford, Weidong Zhou, Shanhui Fan | (参考訳) 摂動型フォトニックディラック円錐を用いることで、ピーク値と幅を独立に調整可能なウェーブベクトル空間における超ナローおよび有限のq因子ピークを実現することができる。
また、モード間の十分なQ差を維持しつつ、ピークQ値が与えられた最小生存幅の低い境界についても論じる。
強い角度と周波数のq選択は、強い角度と周波数選択が必要な光学デバイスに応用される。 We show that by using a perturbed photonic Dirac-cone, one can realize ultra-narrow and finite Q-factor peak in the wavevector space, with both the peak value and the width separately tunable. We also discuss a lower bound in the minimal viable width given a peak Q-value while maintaining sufficient Q differentiation among modes. The strong angular and frequency Q-selection finds applications in optical devices where strong angle- and frequency-selection is needed. | 翻訳日:2023-04-03 02:38:41 公開日:2021-04-20 |
# ハイブリッド量子システムにおける例外点と相互緩和効果 Exceptional Point and Cross-Relaxation Effect in a Hybrid Quantum System ( http://arxiv.org/abs/2104.09811v1 ) ライセンス: Link先を確認 | Guo-Qiang Zhang, Zhen Chen, Da Xu, Nathan Shammah, Meiyong Liao, Tie-Fu Li, Limin Tong, Shi-Yao Zhu, Franco Nori, and J. Q. You | (参考訳) 例外点(EP)は非エルミート系のエキゾチックな退化であり、固有値と対応する固有ベクトルは同時にパラメータ空間に結合し、これらの退化は系の小さな摂動に敏感である。
本稿では,コプラナー導波路共振器に結合したダイヤモンド中の高密度窒素(p1)中心からなるハイブリッド量子系のepを実験的に観察する。
これらのp1中心は3つのスピンのサブセンスに分けられ、それらの間に交差緩和が起こる。
このEPを示す新しい方法として、所定のスピンサブアンサンブルを駆動場に入力し、広い範囲でマグノン-光子結合をチューニングする。
共振モードに結合した中間スピンサブセンスブルのepを観測し、スピンサブセンスブルが実際に駆動されているかどうかを検証した。
このEPのポンプに対する堅牢性は、P1中心における交差緩和の鍵となる役割を明らかにする。
EPを介して相互緩和効果の存在を確実に証明する新しい方法を提供する。 Exceptional points (EPs) are exotic degeneracies of non-Hermitian systems, where the eigenvalues and the corresponding eigenvectors simultaneously coalesce in parameter space, and these degeneracies are sensitive to tiny perturbations on the system. Here we report an experimental observation of the EP in a hybrid quantum system consisting of dense nitrogen (P1) centers in diamond coupled to a coplanar-waveguide resonator. These P1 centers can be divided into three subensembles of spins, and cross relaxation occurs among them. As a new method to demonstrate this EP, we pump a given spin subensemble with a drive field to tune the magnon-photon coupling in a wide range. We observe the EP in the middle spin subensemble coupled to the resonator mode, irrespective of which spin subensemble is actually driven. This robustness of the EP against pumping reveals the key role of the cross relaxation in P1 centers. It offers a novel way to convincingly prove the existence of the cross-relaxation effect via the EP. | 翻訳日:2023-04-03 02:38:32 公開日:2021-04-20 |
# 空間ゲージ電磁界のハイゼンベルク不確かさ Heisenberg-Uncertainty of Spatially-Gated Electromagnetic Fields ( http://arxiv.org/abs/2104.10109v1 ) ライセンス: Link先を確認 | Vladimir Y. Chernyak and Shaul Mukamel | (参考訳) 空間的に制御された電気と磁場のゆらぎに対してハイゼンベルクの不確かさ関係が導かれる。
小さいゲーティングサイズの不確実性は、閉じ込められた空間において電磁場の量子的性質を考慮する必要があることを意味する。
磁場を犠牲にして電気を最小化するために光の状態を最適化し、その逆も可能であるべきである。
空間閉じ込めや量子場は、磁場とナノ構造との相互作用によってゲーティングすることなく実現できる。
応用例としては、ナノ構造、光学キャビティ、キラル信号の非線形分光がある。 A Heisenberg uncertainty relation is derived for spatially-gated electric and magnetic field fluctuations. The uncertainty increases for small gating sizes which implies that in confined spaces the quantum nature of the electromagnetic field must be taken into account. Optimizing the state of light to minimize the electric at the expense of the magnetic field, and vice versa should be possible. Spatial confinements and quantum fields may alternatively be realized without gating by interaction of the field with a nanostructure. Possible applications include nonlinear spectroscopy of nanostructures and optical cavities and chiral signals. | 翻訳日:2023-04-03 02:30:46 公開日:2021-04-20 |
# 量子コンピューティングによる高分子物理 Polymer Physics by Quantum Computing ( http://arxiv.org/abs/2104.10102v1 ) ライセンス: Link先を確認 | Cristian Micheletti, Philipp Hauke, and Pietro Faccioli | (参考訳) 密度の強いポリマー混合物の平衡アンサンブルのサンプリングは、格子モデルにおいても計算物理学においてパラダイム的に難しい問題である。
ここでは,量子アニーリングマシンを用いてこの問題に取り組むことを可能にする,相互作用する二進テンソルに基づく形式論を展開する。
我々のアプローチは一般に、自己回避、分岐、ループといった性質はすべてテンソルの二次的相互作用の観点で指定できる。
異なる格子ポリマーアンサンブルのマイクロステートの実現は、適切な離散エネルギー最小化問題を解くことによってシームレスに生成される。
この方法では,d-wave量子コンピュータを用いて高分子混合物を低密度から高密度にサンプリングすることで,量子アニーリングマシンの強みを活かすことができる。
本手法は,量子コンピュータの急速な発展を活かし,フィラメントソフトマッターシステムの離散モデルをサンプリングする有望な手法である。 Sampling equilibrium ensembles of dense polymer mixtures is a paradigmatically hard problem in computational physics, even in lattice-based models. Here, we develop a formalism based on interacting binary tensors that allows for tackling this problem using quantum annealing machines. Our approach is general in that properties such as self-avoidance, branching, and looping can all be specified in terms of quadratic interactions of the tensors. Microstates realizations of different lattice polymer ensembles are then seamlessly generated by solving suitable discrete energy-minimization problems. This approach enables us to capitalize on the strengths of quantum annealing machines, as we demonstrate by sampling polymer mixtures from low to high densities, using the D-Wave quantum computer. Our systematic approach offers a promising avenue to harness the rapid development of quantum computers for sampling discrete models of filamentous soft-matter systems. | 翻訳日:2023-04-03 02:30:38 公開日:2021-04-20 |
# グラフ上のランダムウォークに対する一般化量子古典対応 Generalized quantum-classical correspondence for random walks on graphs ( http://arxiv.org/abs/2104.10091v1 ) ライセンス: Link先を確認 | Massimo Frigerio, Claudia Benedetti, Stefano Olivares and Matteo G. A. Paris | (参考訳) 連続時間量子ウォークのハミルトニアン h は、与えられたグラフ上の古典的ランダムウォークの量子対を適切に表現するために満足すべきという、物理的に動機づけられた最小限の仮定を導入する。
その結果、これらの条件は無限に多くの量子ハミルトニアンによって満たされ、量子拡張プロトコル、特にオンサイトエネルギー、すなわちhの対角要素、およびオフ対角要素の位相は量子側では拘束されないことがわかった。
対角要素は量子ウォークのポテンシャルエネルギーのランドスケープを表し、古典スカラー場との相互作用によって制御できるが、一般次元の正則格子では、h のオフ対角位相は、電荷付きウォーカーの電磁ベクトルポテンシャルのようなエッジに存在する古典ゲージ場との相互作用によって調整することができる。 We introduce a minimal set of physically motivated postulates that the Hamiltonian H of a continuous-time quantum walk should satisfy in order to properly represent the quantum counterpart of the classical random walk on a given graph. We found that these conditions are satisfied by infinitely many quantum Hamiltonians, which provide novel degrees of freedom for quantum enhanced protocols, In particular, the on-site energies, i.e. the diagonal elements of H, and the phases of the off-diagonal elements are unconstrained on the quantum side. The diagonal elements represent a potential energy landscape for the quantum walk, and may be controlled by the interaction with a classical scalar field, whereas, for regular lattices in generic dimension, the off-diagonal phases of H may be tuned by the interaction with a classical gauge field residing on the edges, e.g., the electro-magnetic vector potential for a charged walker. | 翻訳日:2023-04-03 02:30:24 公開日:2021-04-20 |
# open-ended digital evolution systemにおける多細胞生命史の解明 Exploring Evolved Multicellular Life Histories in a Open-Ended Digital Evolution System ( http://arxiv.org/abs/2104.10081v1 ) ライセンス: Link先を確認 | Matthew Andres Moreno, Charles Ofria | (参考訳) 進化的な遷移は、以前独立した複製エンティティがより複雑な個人を形成するために団結するときに起こる。
このような遷移は、自然進化の歴史を深く形成し、2つの形態で起こる: フラタナル遷移は、親類である低レベルの実体(例えば、多細胞性や共生コロニーへの移行)、一方平等遷移は無関係な個人(例えば、ミトコンドリアの起源)である。
これらの遷移に必要な条件と進化のメカニズムは、科学的な関心の対象となっている。
本稿では,オープンエンドの自己複製型コンピュータプログラムの個体群におけるフラクタル遷移について検討する。
これらのデジタル細胞は、娘細胞を選択的に結合または放出することにより、キン群を形成、複製することが許された。
親族メンバーシップを認識する能力は、細胞間の優先的なコミュニケーションと協調を可能にした。
フラタニアル遷移の特徴である群レベルの特性を繰り返し観察した。
これには、労働の生殖分業、キングループ内の資源共有、子孫グループへの資源投資、メッセージによる非対称行動、形態的パターン化、適応的アポトーシスなどが含まれる。
移行が生じた複製から8つのケーススタディを報告し,多種多様な適応型多細胞戦略を探求した。 Evolutionary transitions occur when previously-independent replicating entities unite to form more complex individuals. Such transitions have profoundly shaped natural evolutionary history and occur in two forms: fraternal transitions involve lower-level entities that are kin (e.g., transitions to multicellularity or to eusocial colonies), while egalitarian transitions involve unrelated individuals (e.g., the origins of mitochondria). The necessary conditions and evolutionary mechanisms for these transitions to arise continue to be fruitful targets of scientific interest. Here, we examine a range of fraternal transitions in populations of open-ended self-replicating computer programs. These digital cells were allowed to form and replicate kin groups by selectively adjoining or expelling daughter cells. The capability to recognize kin-group membership enabled preferential communication and cooperation between cells. We repeatedly observed group-level traits that are characteristic of a fraternal transition. These included reproductive division of labor, resource sharing within kin groups, resource investment in offspring groups, asymmetrical behaviors mediated by messaging, morphological patterning, and adaptive apoptosis. We report eight case studies from replicates where transitions occurred and explore the diverse range of adaptive evolved multicellular strategies. | 翻訳日:2023-04-03 02:29:52 公開日:2021-04-20 |
# Gabor アンサンブルを用いた COVID-19 CT 深層学習モデルの一般化に関する系統的研究 Systematic investigation into generalization of COVID-19 CT deep learning models with Gabor ensemble for lung involvement scoring ( http://arxiv.org/abs/2105.15094v1 ) ライセンス: Link先を確認 | Michael J. Horry, Subrata Chakraborty, Biswajeet Pradhan, Maryam Fallahpoor, Chegeni Hossein, Manoranjan Paul | (参考訳) 新型コロナウイルス(covid-19)のパンデミックは、医療画像から新型コロナウイルスの診断と階層化に焦点を当て、世界中の前例のないデータ収集とコンピュータビジョンのモデリングに影響を与えた。
このような大規模な研究努力にもかかわらず、これらのモデルは、ソース研究を超えてこれらのモデルの証明されていない一般化のために、実用的応用が限定されている。
本研究では、クロスデータセット検証を通じて、公開可能なCOVID-19 Computed Tomographyデータを用いたキーパブリッシュモデルの一般化可能性について検討する。
次に、covid-19の重症度に対する予測能力を、covid-19の肺への関与を階層化する独立した新しいデータセットを用いて評価する。
ヒストグラム等化とコントラスト制限適応ヒストグラム等化を用いて、学習ガバーフィルタの有無にかかわらず各データセット間研究を行う。
本研究は、これらのデータセット上で訓練されたモデルの一般化において、様々なサンプル画像の出現と他の要因による獲得過程により、高いばらつきを示す。
特定の条件下では、内部一貫性のあるデータセットは、f1スコアが最大86%であるこれらのデータセットの構造的な違いにもかかわらず、外部データセットにうまく一般化できる。
肺への関与スコアの予測精度は,専門的にラベル付けされた肺への関与階層化が可能な独立したデータセットに対して高い精度を示す。
疾患陰性予測のための最良モデルと, min-max関数を用いた疾患陰性予測モデルとのアンサンブルを作成した結果, 平均肺関与率75%, 75-100%肺関与率96%, ほぼ線形関係を有する肺関与予測モデルが得られた。 The COVID-19 pandemic has inspired unprecedented data collection and computer vision modelling efforts worldwide, focusing on diagnosis and stratification of COVID-19 from medical images. Despite this large-scale research effort, these models have found limited practical application due in part to unproven generalization of these models beyond their source study. This study investigates the generalizability of key published models using the publicly available COVID-19 Computed Tomography data through cross dataset validation. We then assess the predictive ability of these models for COVID-19 severity using an independent new dataset that is stratified for COVID-19 lung involvement. Each inter-dataset study is performed using histogram equalization, and contrast limited adaptive histogram equalization with and without a learning Gabor filter. The study shows high variability in the generalization of models trained on these datasets due to varied sample image provenances and acquisition processes amongst other factors. We show that under certain conditions, an internally consistent dataset can generalize well to an external dataset despite structural differences between these datasets with f1 scores up to 86%. Our best performing model shows high predictive accuracy for lung involvement score for an independent dataset for which expertly labelled lung involvement stratification is available. Creating an ensemble of our best model for disease positive prediction with our best model for disease negative prediction using a min-max function resulted in a superior model for lung involvement prediction with average predictive accuracy of 75% for zero lung involvement and 96% for 75-100% lung involvement with almost linear relationship between these stratifications. | 翻訳日:2023-04-03 02:22:00 公開日:2021-04-20 |
# DRL:知的ロボット制御のための深層強化学習 -概念・文学・未来- DRL: Deep Reinforcement Learning for Intelligent Robot Control -- Concept, Literature, and Future ( http://arxiv.org/abs/2105.13806v1 ) ライセンス: Link先を確認 | Aras Dargazany | (参考訳) 機械学習(機械学習生成用)、コンピュータビジョン(環境認識改善用)、ロボットシステム(環境相互作用制御用)を組み合わせることで、インテリジェントロボット制御のための視覚ベースの学習フレームワークを究極の目標(ビジョンベース学習ロボット)として提案する。
この研究は、アプリケーション非依存とプラットフォーム非依存を意味するAI(AGI)のための汎用フレームワークである学習フレームワークとして、深層強化学習を紹介している。
ロボット制御の観点では、このフレームワークは特に低レベル制御とは独立して高レベル制御アーキテクチャを提案する。
この面では、高レベル制御は、トレーナーが生成した同じプラットフォームから記録された低レベル制御データを使用して、プラットフォームの制御に必要なインテリジェンスを生成する。
記録された低レベル制御データは、単に同じロボットプラットフォームを使用してトレーナーが行った成功し失敗した経験または実験のシーケンスを示す。
記録されたデータのシーケンスは、観測データ(入力センサ)、生成された報酬(フィードバック値)、およびアクションデータ(出力コントローラ)からなる。
実験用プラットフォームや実験用では、視覚センサが環境の知覚に使われ、異なるキネマティックコントローラがプラットフォームアプリケーションに基づいて必要な動作コマンドを作成し、深層学習アプローチが必要な知性を生成し、最終的にロボットによってミッションが達成されるまで、生成されたインテリジェンスを漸進的に改善する。 Combination of machine learning (for generating machine intelligence), computer vision (for better environment perception), and robotic systems (for controlled environment interaction) motivates this work toward proposing a vision-based learning framework for intelligent robot control as the ultimate goal (vision-based learning robot). This work specifically introduces deep reinforcement learning as the the learning framework, a General-purpose framework for AI (AGI) meaning application-independent and platform-independent. In terms of robot control, this framework is proposing specifically a high-level control architecture independent of the low-level control, meaning these two required level of control can be developed separately from each other. In this aspect, the high-level control creates the required intelligence for the control of the platform using the recorded low-level controlling data from that same platform generated by a trainer. The recorded low-level controlling data is simply indicating the successful and failed experiences or sequences of experiments conducted by a trainer using the same robotic platform. The sequences of the recorded data are composed of observation data (input sensor), generated reward (feedback value) and action data (output controller). For experimental platform and experiments, vision sensors are used for perception of the environment, different kinematic controllers create the required motion commands based on the platform application, deep learning approaches generate the required intelligence, and finally reinforcement learning techniques incrementally improve the generated intelligence until the mission is accomplished by the robot. | 翻訳日:2023-04-03 02:21:34 公開日:2021-04-20 |
# 新型コロナウイルス(covid-19)の流行後、同義者の医療慣行が変化したか : ビッグデータ公開感情分析 Whether the Health Care Practices For the Patients With Comorbidities Have Changed After the Outbreak of COVID-19; Big Data Public Sentiment Analysis ( http://arxiv.org/abs/2104.12559v1 ) ライセンス: Link先を確認 | Bilal Ahmad, Sun Jun | (参考訳) SARS-CoV-2のパンデミックの後、世界中の医療実践に影響を及ぼした。
初期の調査では、このSARS-CoV-2感染より合併症のある患者の方が脆弱であることが示されている。
彼らはがん患者の定期治療の延期を提案した。
しかし、一部のメタアナリシスは、がん患者のcovid-19への弱体性の主張を維持するには十分な証拠がないと示唆しており、それらは予定された手続きを棚上げすることを望んでいない。
近年では、医療従事者が、この重要な感染症に対処するために、適用可能な治療資源の管理方法を変えることを指している研究がある。
本研究は, がん患者が今年のパンデミックで, 医療慣行がどう変化したかという視点を明らかにする別の研究である。
彼らは治療に満足していますか?
目的を達成するために、世界中のがん患者の感情を分析するために、twitterから60000以上の関連ツイートを集めました。
以上の結果から,covid-19流行後のがんとその治療に関する議論が急増していることが判明した。
ほとんどのツイート(52.6%)は、否定的なツイート(24.3)と比べて妥当である。
我々は,感情の肯定性/否定性をよりよく認識するために,極性と主観性分布を開発した。
その結果,ポジティブツイートの極性範囲は0~0.5の範囲内であることが判明した。
つまり、ツイートの傾向はそれほどポジティブではないが、確実にネガティブではない。
これは、自然言語処理(nlp)が患者の行動をリアルタイムでよりよく理解するためにどのように受け入れられるかを裏付ける控えめな統計証拠であり、がん患者の日常的な管理を組織するためのより良い判断を医療専門家に促す可能性がある。 After the pandemic of SARS-CoV-2, it has influenced the health care practices around the world. Initial investigations indicate that patients with comorbidities are more fragile to this SARS-CoV-2 infection. They suggested postponing the routine treatment of cancer patients. However, few meta-analyses suggested evidences are not sufficient to hold the claim of the frailty of cancer patients to COVID-19, and they are not in favour of shelving the scheduled procedures. There are recent studies in which medical professionals, according to their competence, are referring to change the routine practices on how to manage the applicable therapeutic resources judiciously to combat this vital infection. This is a different study that reveals the cancer patients' viewpoint about how health care practices have been changed in their opinion during this pandemic year? Are they satisfied with their treatment or not? To serve the purpose, we gathered more than 60000 relevant tweets from Twitter to analyse the sentiment of cancer patients around the world. Our findings demonstrate that there is a surge in argument about cancer and its treatment after the outbreak of COVID-19. Most of the tweets are reasonable (52.6%) compared to the negative ones (24.3). We developed polarity and subjectivity distribution to better recognise the positivity/negativity in the sentiment. Results reveal that the polarity range of positive tweets is within the range of 0 to 0.5. Which means the tendency in the tweets is not so much positive but surely not negative. It is a piece of modest statistical evidence in support of how natural language processing (NLP) can be accepted to better understand the patient's behaviour in real-time, and it may facilitate the medical professional to make better decision to organise the routine management of cancer patients. | 翻訳日:2023-04-03 02:21:08 公開日:2021-04-20 |
# EduPalは教授を残さず:ピアパワーレコメンデーターシステムによる教員支援 EduPal leaves no professor behind: Supporting faculty via a peer-powered recommender system ( http://arxiv.org/abs/2104.12558v1 ) ライセンス: Link先を確認 | Nourhan Sakr, Aya Salama, Nadeen Tameesh, Gihan Osman | (参考訳) 新型コロナウイルス(COVID-19)感染拡大後の高等教育の急激な転換は、教員が利用できる教育支援のギャップを識別した。
本稿では,知識蒸留の課題に対処し,教職にパーソナライズドレコメンデーションを提供するスマートな知識ベースのチャットボットを提案する。
共同システムでは, 有用な教育実践をクラウドソースし, 理論とユーザフィードバックに基づくレコメンデーションを継続的にフィルタリングする。
我々は、ローカルSTEM学部のプロトタイプを実証概念として構築し、開発とアウトリーチの拡大を奨励する好意的なフィードバックを受け取ります。 The swift transitions in higher education after the COVID-19 outbreak identified a gap in the pedagogical support available to faculty. We propose a smart, knowledge-based chatbot that addresses issues of knowledge distillation and provides faculty with personalized recommendations. Our collaborative system crowdsources useful pedagogical practices and continuously filters recommendations based on theory and user feedback, thus enhancing the experiences of subsequent peers. We build a prototype for our local STEM faculty as a proof concept and receive favorable feedback that encourages us to extend our development and outreach, especially to underresourced faculty. | 翻訳日:2023-04-03 02:20:41 公開日:2021-04-20 |
# ハイブリッド量子システムのための高分子担持三次元マイクロ波空洞 Polymer-loaded three dimensional microwave cavities for hybrid quantum systems ( http://arxiv.org/abs/2104.10237v1 ) ライセンス: Link先を確認 | Myles Ruether, Clinton A. Potts, John P. Davis, and Lindsay J. LeBlanc | (参考訳) マイクロ波キャビティ共振器は多くの量子技術の重要コンポーネントであり、そのオープンアーキテクチャはキャビティ体積内の複数のサブシステムの統合を可能にするため、ハイブリッド量子システムにとって有望なプラットフォームである。
キャビティ内のこれらのサブシステムをサポートするためには、補助構造を必要とすることが多いが、マイクロ波キャビティモードに対するこれらの構造の影響は、マイクロ波系における材料反応の事前知識がないために予測が難しい。
これらの効果を理解することは、周波数マッチングが重要であり、例えばマイクロ波モードと原子共鳴をマッチングする場合、チューニングが制限されるとさらに重要になる。
本稿では, 一般的な3種類の被削性高分子の存在下でのマイクロ波キャビティモードについて検討し, 共鳴の変化とエネルギーの散逸に着目した。
本研究では, 高分子充填3次元マイクロ波空洞をルビジウムの超微細転移に適合させる実験ケースにおいて, 誘電率と損失接点パラメータをキャビティ設計に用いる方法を示す。 Microwave cavity resonators are crucial components of many quantum technologies and are a promising platform for hybrid quantum systems, as their open architecture enables the integration of multiple subsystems inside the cavity volume. To support these subsystems within the cavity, auxiliary structures are often required, but the effects of these structures on the microwave cavity mode are difficult to predict due to a lack of a priori knowledge of the materials' response in the microwave regime. Understanding these effects becomes even more important when frequency matching is critical and tuning is limited, for example, when matching microwave modes to atomic resonances. Here, we study the microwave cavity mode in the presence of three commonly-used machinable polymers, paying particular attention to the change in resonance and the dissipation of energy. We demonstrate how to use the derived dielectric coefficient and loss tangent parameters for cavity design in a test case, wherein we match a polymer-filled 3D microwave cavity to a hyperfine transition in rubidium. | 翻訳日:2023-04-03 02:19:53 公開日:2021-04-20 |
# エンタングルメント鍛造による量子シミュレータのサイズ2倍化 Doubling the size of quantum simulators by entanglement forging ( http://arxiv.org/abs/2104.10220v1 ) ライセンス: Link先を確認 | Andrew Eddins, Mario Motta, Tanvi P. Gujarati, Sergey Bravyi, Antonio Mezzacapo, Charles Hadfield, Sarah Sheldon | (参考訳) 量子コンピュータは化学系や物理系のシミュレーションに有望であるが、今日の量子プロセッサの能力の制限は小さく、しばしば近似的なシミュレーションしか許さない。
本稿では,量子相関を捕捉し,量子ハードウェア上でシミュレート可能なシステムのサイズを2倍にするために,古典的資源を利用する古典的エンタングルメント鍛造法を提案する。
計算の一部を古典的な後処理にシフトすることで、ibm量子プロセッサの5量子ビット上で10個のスピン軌道を表現でき、これまでで最も正確なシミュレーションで水分子の基底状態エネルギーを計算することができる。
古典的絡み合い鍛造の適用可能性の条件を議論し,より大きな問題へのスケーリングのロードマップを示す。 Quantum computers are promising for simulations of chemical and physical systems, but the limited capabilities of today's quantum processors permit only small, and often approximate, simulations. Here we present a method, classical entanglement forging, that harnesses classical resources to capture quantum correlations and double the size of the system that can be simulated on quantum hardware. Shifting some of the computation to classical post-processing allows us to represent ten spin-orbitals on five qubits of an IBM Quantum processor to compute the ground state energy of the water molecule in the most accurate simulation to date. We discuss conditions for applicability of classical entanglement forging and present a roadmap for scaling to larger problems. | 翻訳日:2023-04-03 02:19:14 公開日:2021-04-20 |
# 磁気障害mott絶縁体の電荷動態 Charge dynamics in magnetically disordered Mott insulators ( http://arxiv.org/abs/2104.10158v1 ) ライセンス: Link先を確認 | Philip Bleicker, Dag-Bj\"orn Hering, G\"otz S. Uhrig | (参考訳) 半解析的および数値的厳密な方法の助けを借りて、フェルミ・ハバードモデルから導かれた1次元および2次元の2次元モデルにおける半充填近傍の電荷ダイナミクスを、大きな相互作用の上限である u$ と、それゆえ小さな交換結合 $j$ で検討する。
自由のスピン度は乱される。
したがって、$w$ がバンド幅である場合の制限 $0 < j \ll t \ll w$ を考える。
本研究では, 単一ホール励起のスペクトル密度と, 上部と下部のハバードバンドを分離する電荷ギャップを評価することに集中する。
重要な発見の1つは、ハバードバンドの鋭い縁がないことの証拠であり、代わりにガウスの尾が現れる。 With the aid of both a semi-analytical and a numerically exact method we investigate the charge dynamics in the vicinity of half-filling in the one- and two-dimensional $t$-$J$ model derived from a Fermi-Hubbard model in the limit of large interaction $U$ and hence small exchange coupling $J$. The spin degrees of freedom are taken to be disordered. So we consider the limit $0 < J \ll T \ll W$ where $W$ is the band width. We focus on evaluating the spectral density of a single hole excitation and the charge gap which separates the upper and the lower Hubbard band. One of the key findings is the evidence for the absence of sharp edges of the Hubbard band, instead Gaussian tails appear. | 翻訳日:2023-04-03 02:19:02 公開日:2021-04-20 |
# 統合回帰における構造破壊の効率的な推定法 Oracle Efficient Estimation of Structural Breaks in Cointegrating Regressions ( http://arxiv.org/abs/2001.07949v4 ) ライセンス: Link先を確認 | Karsten Schweikert | (参考訳) 本稿では,協調回帰における構造的破壊を効率的に推定する適応型グループラッソ法を提案する。
グループlasso推定器は、構造的ブレーク設定において一貫性とモデル選択を同時に推定するわけではないことがよく知られている。
したがって、第1ステップ群lasso推定により、分岐するブレークポイント候補数を推定し、第2適応群lasso推定のための重み付けを生成する。
パラメータの変化はラッソ群によって一貫して推定され、推定されたブレーク数は真の数よりも大きいが、それに十分近いことを証明している。
そして、これらの結果を用いて、第一段階推定から重みが得られた場合、適応群ラッソがオラクル特性を持つことを示す。
シミュレーションの結果,提案手法が期待される結果をもたらすことがわかった。
長期の米国の貨幣需要関数に対する経済的な応用は、この方法論の実践的重要性を示している。 In this paper, we propose an adaptive group lasso procedure to efficiently estimate structural breaks in cointegrating regressions. It is well-known that the group lasso estimator is not simultaneously estimation consistent and model selection consistent in structural break settings. Hence, we use a first step group lasso estimation of a diverging number of breakpoint candidates to produce weights for a second adaptive group lasso estimation. We prove that parameter changes are estimated consistently by group lasso and show that the number of estimated breaks is greater than the true number but still sufficiently close to it. Then, we use these results and prove that the adaptive group lasso has oracle properties if weights are obtained from our first step estimation. Simulation results show that the proposed estimator delivers the expected results. An economic application to the long-run US money demand function demonstrates the practical importance of this methodology. | 翻訳日:2023-01-07 18:47:10 公開日:2021-04-20 |
# 潜在性多源相関表現による欠失型脳腫瘍の分節化 Brain tumor segmentation with missing modalities via latent multi-source correlation representation ( http://arxiv.org/abs/2003.08870v5 ) ライセンス: Link先を確認 | Tongxue Zhou, St\'ephane Canu, Pierre Vera, Su Ruan | (参考訳) マルチモーダルMR画像は、正確な脳腫瘍セグメンテーションのための補完情報を提供することができる。
しかし、臨床で画像のモダリティを欠くのが一般的である。
マルチモダリティの間には強い相関関係が存在するため、潜在的マルチソース相関を特に発見するために新しい相関表現ブロックが提案されている。
得られた相関表現のおかげで、欠落したモダリティの場合、セグメンテーションはより堅牢になる。
モデルパラメータ推定モジュールは、まず、各エンコーダによって生成された個々の表現をマッピングして独立したパラメータを得る。
最後に、モダリティ間の相関表現をアテンション機構を介して共有表現に融合させ、セグメンテーションの最も重要な特徴を強調する。
brats 2018データセットのモデルを評価し,現在のstate-of-the-artメソッドを上回り,1つ以上のモダリティが欠けている場合に堅牢な結果を生成する。 Multimodal MR images can provide complementary information for accurate brain tumor segmentation. However, it's common to have missing imaging modalities in clinical practice. Since there exists a strong correlation between multi modalities, a novel correlation representation block is proposed to specially discover the latent multi-source correlation. Thanks to the obtained correlation representation, the segmentation becomes more robust in the case of missing modalities. The model parameter estimation module first maps the individual representation produced by each encoder to obtain independent parameters, then, under these parameters, the correlation expression module transforms all the individual representations to form a latent multi-source correlation representation. Finally, the correlation representations across modalities are fused via the attention mechanism into a shared representation to emphasize the most important features for segmentation. We evaluate our model on BraTS 2018 datasets, it outperforms the current state-of-the-art method and produces robust results when one or more modalities are missing. | 翻訳日:2022-12-22 04:06:27 公開日:2021-04-20 |
# エンコーダ層におけるトランスフォーマとトレーディングデコーダにおける単語翻訳の探索 Probing Word Translations in the Transformer and Trading Decoder for Encoder Layers ( http://arxiv.org/abs/2003.09586v2 ) ライセンス: Link先を確認 | Hongfei Xu and Josef van Genabith and Qiuhui Liu and Deyi Xiong | (参考訳) その効果と性能のため、変圧器の翻訳モデルは、最近はプロービングに基づくアプローチで広く注目を集めている。
以前の研究は、エンコーダのソース言語的特徴の使用または調査に焦点を当てていた。
現在までトランスフォーマー層における単語翻訳の進化は研究されていない。
典型的には、エンコーダ層がソース情報をキャプチャし、デコーダ層が翻訳すると仮定する。
翻訳はすでにエンコーダ層や入力埋め込み層で徐々に行われています。
さらに驚くことに、下位のデコーダレイヤのいくつかは、実際にはそれほどデコードを行わない。
我々は、トランスフォーマーデコーダの最終的な訓練および凍結された分類器レベルに解析された層の表現を投影し、単語の翻訳精度を計測するプロービングアプローチの観点から、これらすべてを示す。
もし変換が既にエンコーダ層で発生しているなら、おそらくエンコーダ層数を増加させ、デコーダ層数を減少させ、デコーダ速度を増加させ、変換品質を損なうことなく、デコーダ層を増加させることができるだろうか?
翻訳品質の小さな向上で最大2.3倍の速度向上が可能で、18-4のディープエンコーダ構成で1.42 bleu (en-de) の高速化を実現しています。 Due to its effectiveness and performance, the Transformer translation model has attracted wide attention, most recently in terms of probing-based approaches. Previous work focuses on using or probing source linguistic features in the encoder. To date, the way word translation evolves in Transformer layers has not yet been investigated. Naively, one might assume that encoder layers capture source information while decoder layers translate. In this work, we show that this is not quite the case: translation already happens progressively in encoder layers and even in the input embeddings. More surprisingly, we find that some of the lower decoder layers do not actually do that much decoding. We show all of this in terms of a probing approach where we project representations of the layer analyzed to the final trained and frozen classifier level of the Transformer decoder to measure word translation accuracy. Our findings motivate and explain a Transformer configuration change: if translation already happens in the encoder layers, perhaps we can increase the number of encoder layers, while decreasing the number of decoder layers, boosting decoding speed, without loss in translation quality? Our experiments show that this is indeed the case: we can increase speed by up to a factor 2.3 with small gains in translation quality, while an 18-4 deep encoder configuration boosts translation quality by +1.42 BLEU (En-De) at a speed-up of 1.4. | 翻訳日:2022-12-21 12:58:31 公開日:2021-04-20 |
# モデルベースアクター批判:GAN(モデルジェネレータ)+DRL(アクター批判)→AGI Model-based actor-critic: GAN (model generator) + DRL (actor-critic) => AGI ( http://arxiv.org/abs/2004.04574v9 ) ライセンス: Link先を確認 | Aras Dargazany | (参考訳) Our effort is toward unifying GAN and DRL algorithms into a unifying AI model (AGI or general-purpose AI or artificial general intelligence which has general-purpose applications to: (A) offline learning (of stored data) like GAN in (un/semi-/fully-)SL setting such as big data analytics (mining) and visualization; (B) online learning (of real or simulated devices) like DRL in RL setting (with/out environment reward) such as (real or simulated) robotics and control; Our core proposal is adding an (generative/predictive) environment model to the actor-critic (model-free) architecture which results in a model-based actor-critic architecture with temporal-differencing (TD) error and an episodic memory.
提案するAIモデルは(モデルフリーの)DDPGに似ているため、モデルベースDDPGと呼ばれる。
これを評価するために,OpenAI Gym と Unity Agents の独立したロボット・制御タスク環境の多種多様(広範囲)に適用し,DDPG と比較した。
モデルベースアクター批判におけるDRLとGANは,各タスクを(モデルフリーの)DDPGと同等の性能で解決するために,段階的な目標駆動知性を必要とすることを示した。
a) モデルベース(プラネット)とモデルフリー(d4pg)のアプローチと比較して、競争力のあるパフォーマンスを生み出すことによって、ai内部のdrlフィールドを統一すること(b) デモによって報奨機能を学ぶことで、報奨工学の重要な問題を解決して、aiとロボティクスコミュニティの間のギャップを埋めること。 Our effort is toward unifying GAN and DRL algorithms into a unifying AI model (AGI or general-purpose AI or artificial general intelligence which has general-purpose applications to: (A) offline learning (of stored data) like GAN in (un/semi-/fully-)SL setting such as big data analytics (mining) and visualization; (B) online learning (of real or simulated devices) like DRL in RL setting (with/out environment reward) such as (real or simulated) robotics and control; Our core proposal is adding an (generative/predictive) environment model to the actor-critic (model-free) architecture which results in a model-based actor-critic architecture with temporal-differencing (TD) error and an episodic memory. The proposed AI model is similar to (model-free) DDPG and therefore it's called model-based DDPG. To evaluate it, we compare it with (model-free) DDPG by applying them both to a variety (wide range) of independent simulated robotic and control task environments in OpenAI Gym and Unity Agents. Our initial limited experiments show that DRL and GAN in model-based actor-critic results in an incremental goal-driven intellignce required to solve each task with similar performance to (model-free) DDPG. Our future focus is to investigate the proposed AI model potential to: (A) unify DRL field inside AI by producing competitive performance compared to the best of model-based (PlaNet) and model-free (D4PG) approaches; (B) bridge the gap between AI and robotics communities by solving the important problem of reward engineering with learning the reward function by demonstration. | 翻訳日:2022-12-16 22:44:50 公開日:2021-04-20 |
# ブラインドマルチフレーム映像に対する自己教師付き学習 Self-Supervised training for blind multi-frame video denoising ( http://arxiv.org/abs/2004.06957v4 ) ライセンス: Link先を確認 | Val\'ery Dewil, J\'er\'emy Anger, Axel Davy, Thibaud Ehret, Pablo Arias, Gabriele Facciolo | (参考訳) 本稿では,マルチフレーム映像デノイジングネットワークを学習するための自己教師あり手法を提案する。
これらのネットワークは、t 周辺のフレームのウィンドウからフレーム t を予測する。
自己教師付きアプローチは、予測されたフレームtと隣接するターゲットフレームとの損失を光学フローを用いてペナルティ化することにより、映像の時間的一貫性を享受する。
提案手法は,事前学習されたネットワークを微調整し,未知の未知の雑音を単一映像から検出するオンライン内部学習に活用する。
数フレームの後に提案された微調整は、監視によって訓練された最先端のネットワークのパフォーマンスを超えている。
また、幅広い種類のノイズに対して、ノイズ分布を知らずに盲目的に適用することができる。
我々は、異なる合成ノイズと現実ノイズのブラインドデノナイジング結果を示すことでこれを実証する。 We propose a self-supervised approach for training multi-frame video denoising networks. These networks predict frame t from a window of frames around t. Our self-supervised approach benefits from the video temporal consistency by penalizing a loss between the predicted frame t and a neighboring target frame, which are aligned using an optical flow. We use the proposed strategy for online internal learning, where a pre-trained network is fine-tuned to denoise a new unknown noise type from a single video. After a few frames, the proposed fine-tuning reaches and sometimes surpasses the performance of a state-of-the-art network trained with supervision. In addition, for a wide range of noise types, it can be applied blindly without knowing the noise distribution. We demonstrate this by showing results on blind denoising of different synthetic and realistic noises. | 翻訳日:2022-12-13 03:40:42 公開日:2021-04-20 |
# dynonet: 動的システム学習のためのニューラルネットワークアーキテクチャ dynoNet: a neural network architecture for learning dynamical systems ( http://arxiv.org/abs/2006.02250v2 ) ライセンス: Link先を確認 | Marco Forgione, Dario Piga | (参考訳) 本稿では, 線形動的演算子を基本構造として利用したネットワークアーキテクチャ, dynoNetを提案する。
これらのブロックの動的性質のため、dynonetネットワークはシーケンスモデリングとシステム同定のために調整されている。
そのパラメータと入力シーケンスの両方に関して線形力学演算子のバックプロパゲーション挙動が定義される。
これにより、線形動的演算子やその他の微分可能なユニットを含む構造化ネットワークのエンドツーエンドトレーニングが可能になり、既存のディープラーニングソフトウェアを活用することができる。
例として,システム同定ベンチマークにおける提案手法の有効性を示す。
例えば、よく知られたシステム識別ベンチマークに対する提案手法の有効性を示す。 This paper introduces a network architecture, called dynoNet, utilizing linear dynamical operators as elementary building blocks. Owing to the dynamical nature of these blocks, dynoNet networks are tailored for sequence modeling and system identification purposes. The back-propagation behavior of the linear dynamical operator with respect to both its parameters and its input sequence is defined. This enables end-to-end training of structured networks containing linear dynamical operators and other differentiable units, exploiting existing deep learning software. Examples show the effectiveness of the proposed approach on well-known system identification benchmarks. Examples show the effectiveness of the proposed approach against well-known system identification benchmarks. | 翻訳日:2022-11-25 17:47:25 公開日:2021-04-20 |
# 時空間行動定位のためのアクター・コンテキスト・アクター関係ネットワーク Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization ( http://arxiv.org/abs/2006.07976v3 ) ライセンス: Link先を確認 | Junting Pan, Siyu Chen, Mike Zheng Shou, Yu Liu, Jing Shao, Hongsheng Li | (参考訳) 人物をローカライズし、ビデオから行動を認識することは、ハイレベルなビデオ理解にとって難しい課題である。
最近の進歩は、エンティティ間の直接対関係をモデル化することで達成されている。
本稿では、ペア間の直接関係をモデル化するだけでなく、複数の要素上に構築された間接的高次関係も考慮する。
本稿では,アクター-コンテキスト-アクター関係(アクター-アクター関係)を明示的にモデル化することを提案する。
本研究では,新たな高次関係推論演算子とアクタ-コンテキスト特徴バンクを基盤とするアクタ-コンテキスト-アクタ関係ネットワーク(acar-net)を設計し,時空間的行動局所化のための間接的関係推論を可能にする。
AVAとUCF101-24データセットの実験はアクター・コンテキスト・アクター関係のモデル化の利点を示し、アテンションマップの可視化により、我々のモデルがアクション検出をサポートするための関連する高次関係を見つけることができることがさらに検証された。
特に,AVA-Kineticsaction Localization task of ActivityNet Challenge 2020では,他の項目よりも有意な差(+6.71mAP)が認められた。
トレーニングコードとモデルはhttps://github.com/Siyu-C/ACAR-Net.comから入手できる。 Localizing persons and recognizing their actions from videos is a challenging task towards high-level video understanding. Recent advances have been achieved by modeling direct pairwise relations between entities. In this paper, we take one step further, not only model direct relations between pairs but also take into account indirect higher-order relations established upon multiple elements. We propose to explicitly model the Actor-Context-Actor Relation, which is the relation between two actors based on their interactions with the context. To this end, we design an Actor-Context-Actor Relation Network (ACAR-Net) which builds upon a novel High-order Relation Reasoning Operator and an Actor-Context Feature Bank to enable indirect relation reasoning for spatio-temporal action localization. Experiments on AVA and UCF101-24 datasets show the advantages of modeling actor-context-actor relations, and visualization of attention maps further verifies that our model is capable of finding relevant higher-order relations to support action detection. Notably, our method ranks first in the AVA-Kineticsaction localization task of ActivityNet Challenge 2020, out-performing other entries by a significant margin (+6.71mAP). Training code and models will be available at https://github.com/Siyu-C/ACAR-Net. | 翻訳日:2022-11-21 12:46:19 公開日:2021-04-20 |
# キャプションシステムにおけるジェンダーバイアスの緩和 Mitigating Gender Bias in Captioning Systems ( http://arxiv.org/abs/2006.08315v7 ) ライセンス: Link先を確認 | Ruixiang Tang, Mengnan Du, Yuening Li, Zirui Liu, Na Zou, Xia Hu | (参考訳) 画像キャプションは、Webからの膨大なサポートイメージコレクションによって大きく進歩している。
しかし、最近の研究では、COCOのようなキャプションデータセットには、ウェブコーパスに見られる性別バイアスが含まれていることが指摘されている。
その結果、学習モデルは、学習した事前情報やイメージコンテキストを性別識別に大きく依存し、誤りや攻撃的な誤りにつながる可能性がある。
モデルが正しい性別特徴を学習できるように、COCOデータセットを再編成し、2つの新しいCOCO-GB V1データセットとV2データセットを提示する。
文脈的手がかりに依存するモデルは、アンチステレオタイプテストデータに対する大きな性別予測誤差に悩まされる。
ベンチマーク実験により、ほとんどのキャプションモデルが性別バイアスを学習し、特に女性にとって高い性別予測誤差をもたらすことが明らかとなった。
このバイアスを軽減するために,視覚的注意を自己指導し,正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
実験の結果,GAICは競争力のあるキャプション品質で性別予測誤差を大幅に低減できることがわかった。
私たちのコードと設計されたベンチマークデータセットは、https://github.com/datamllab/mitigating_gender_in_captioning_systemで利用可能です。 Image captioning has made substantial progress with huge supporting image collections sourced from the web. However, recent studies have pointed out that captioning datasets, such as COCO, contain gender bias found in web corpora. As a result, learning models could heavily rely on the learned priors and image context for gender identification, leading to incorrect or even offensive errors. To encourage models to learn correct gender features, we reorganize the COCO dataset and present two new splits COCO-GB V1 and V2 datasets where the train and test sets have different gender-context joint distribution. Models relying on contextual cues will suffer from huge gender prediction errors on the anti-stereotypical test data. Benchmarking experiments reveal that most captioning models learn gender bias, leading to high gender prediction errors, especially for women. To alleviate the unwanted bias, we propose a new Guided Attention Image Captioning model (GAIC) which provides self-guidance on visual attention to encourage the model to capture correct gender visual evidence. Experimental results validate that GAIC can significantly reduce gender prediction errors with a competitive caption quality. Our codes and the designed benchmark datasets are available at https://github.com/datamllab/Mitigating_Gender_Bias_In_Captioning_System. | 翻訳日:2022-11-21 04:53:16 公開日:2021-04-20 |
# 縦型変分オートエンコーダ Longitudinal Variational Autoencoder ( http://arxiv.org/abs/2006.09763v3 ) ライセンス: Link先を確認 | Siddharth Ramchandran, Gleb Tikhonov, Kalle Kujanp\"a\"a, Miika Koskinen and Harri L\"ahdesm\"aki | (参考訳) 個人から繰り返し測定される縦断的データセットは、多くの生体医学、心理学、社会、その他の研究に現れる。
不足値を含む高次元データを解析するための一般的なアプローチは、変動オートエンコーダ(VAE)を用いて低次元表現を学ぶことである。
しかし、標準vaesは学習表現はi.i.d.であると仮定し、データサンプル間の相関を捉えることができない。
本研究では,多出力加法ガウス過程(gp)を用いて,補助共変量情報によって課される構造的低次元表現を学習し,そのようなgpsのための新しいkl発散上限を導出する縦方向vae(l-vae)を提案する。
本手法は,時変共有効果とランダム効果の両方を同時に考慮し,構造化された低次元表現と,個々の共変量とその相互作用による不等角効果を生成し,高精度な予測性能を実現する。
我々は,従来の合成および臨床データセットの手法と比較し,データ計算,再構成,長期予測タスクにおける最先端性能を実証した。 Longitudinal datasets measured repeatedly over time from individual subjects, arise in many biomedical, psychological, social, and other studies. A common approach to analyse high-dimensional data that contains missing values is to learn a low-dimensional representation using variational autoencoders (VAEs). However, standard VAEs assume that the learnt representations are i.i.d., and fail to capture the correlations between the data samples. We propose the Longitudinal VAE (L-VAE), that uses a multi-output additive Gaussian process (GP) prior to extend the VAE's capability to learn structured low-dimensional representations imposed by auxiliary covariate information, and derive a new KL divergence upper bound for such GPs. Our approach can simultaneously accommodate both time-varying shared and random effects, produce structured low-dimensional representations, disentangle effects of individual covariates or their interactions, and achieve highly accurate predictive performance. We compare our model against previous methods on synthetic as well as clinical datasets, and demonstrate the state-of-the-art performance in data imputation, reconstruction, and long-term prediction tasks. | 翻訳日:2022-11-19 19:33:30 公開日:2021-04-20 |
# 通信・プライバシー・正確性三要素法を破る Breaking the Communication-Privacy-Accuracy Trilemma ( http://arxiv.org/abs/2007.11707v3 ) ライセンス: Link先を確認 | Wei-Ning Chen, Peter Kairouz, Ayfer \"Ozg\"ur | (参考訳) 分散学習と見積もりの2つの大きな課題は
1) 現地サンプルのプライバシーを守ること,及び
2) エンド・ツー・エンドのタスクに対して高い精度を確保しつつ, 効率よく中央サーバに通信する。
最近の文献ではこれらの課題を個別に扱うことには大きな関心が寄せられているが、両方の課題に同時に対処する治療法はいまだにほとんど失われている。
本論文では,種々の標準設定における最適プライバシーと通信効率を同時に達成する新しい符号化・復号機構を開発する。
特に,$\varepsilon$-local differential privacy と $b$-bit の通信制約の下での平均推定と周波数推定の問題を考える。
平均推定のために,両制約下での順序最適推定誤差を伴う,kashinの表現とランダムサンプリングに基づくスキームを提案する。
周波数推定のために,walsh-hadamard行列の帰納的構造を活用し,すべてのプライバシーレベルと通信予算に対して順序最適推定誤差を達成する機構を提案する。
副産物として、すべてのプライバシ体制と通信制約に最適である分布推定機構を構築し、最近の作業が$b=1$と$\varepsilon=O(1)$に制限されるように拡張する。
以上の結果から,プライバシと通信の制約が組み合わさったインテリジェントエンコーディングは,いずれの制約でも実現可能な最適な精度に匹敵する性能が得られることを示す。 Two major challenges in distributed learning and estimation are 1) preserving the privacy of the local samples; and 2) communicating them efficiently to a central server, while achieving high accuracy for the end-to-end task. While there has been significant interest in addressing each of these challenges separately in the recent literature, treatments that simultaneously address both challenges are still largely missing. In this paper, we develop novel encoding and decoding mechanisms that simultaneously achieve optimal privacy and communication efficiency in various canonical settings. In particular, we consider the problems of mean estimation and frequency estimation under $\varepsilon$-local differential privacy and $b$-bit communication constraints. For mean estimation, we propose a scheme based on Kashin's representation and random sampling, with order-optimal estimation error under both constraints. For frequency estimation, we present a mechanism that leverages the recursive structure of Walsh-Hadamard matrices and achieves order-optimal estimation error for all privacy levels and communication budgets. As a by-product, we also construct a distribution estimation mechanism that is rate-optimal for all privacy regimes and communication constraints, extending recent work that is limited to $b=1$ and $\varepsilon=O(1)$. Our results demonstrate that intelligent encoding under joint privacy and communication constraints can yield a performance that matches the optimal accuracy achievable under either constraint alone. | 翻訳日:2022-11-07 22:39:12 公開日:2021-04-20 |
# コスト感受性因果分類の基礎 The foundations of cost-sensitive causal classification ( http://arxiv.org/abs/2007.12582v5 ) ライセンス: Link先を確認 | Wouter Verbeke, Diego Olaya, Jeroen Berrevoets, Sam Verboven, Sebasti\'an Maldonado | (参考訳) 分類は、一連の結果に対するインスタンスの割り当てに関する、よく研究された機械学習タスクである。
分類モデルは、さまざまな運用ビジネスプロセスにわたる管理的意思決定の最適化をサポートする。
例えば、ターゲットとする顧客選択を最適化することにより、保持キャンペーンの効率を高めるために顧客チャーン予測モデルが採用されている。
コスト感受性および因果分類法は独立に,分類モデルの性能向上のために提案されている。
前者は、顧客の利益のような正当で不正な分類の利点とコストを考慮し、後者は、保持キャンペーンのような行動の因果効果が利害関係の結果に与える影響を推定する。
本研究は,統一評価フレームワークの試作により,コスト感受性と因果分類を統合した。
このフレームワークは、因果分類モデルと従来の分類モデルの両方を、コストに敏感かつコストに敏感な方法で評価するための、既存のおよび新しいパフォーマンス指標を含む。
我々は,従来の分類が,行動回数が1に等しい場合に,パフォーマンス指標の範囲において,因果分類の特定の事例であることを証明した。
このフレームワークは、顧客の維持と対応強化モデルを評価するために最近提案されたアプリケーション固有のコスト依存パフォーマンス対策をインスタンス化し、意思決定を最適化するための因果分類モデルを採用する際の利益率を最大化することができる。
提案されたフレームワークは、コストに敏感な因果学習手法の開発への道を開き、データ駆動型ビジネス意思決定を改善するための様々な機会を開く。 Classification is a well-studied machine learning task which concerns the assignment of instances to a set of outcomes. Classification models support the optimization of managerial decision-making across a variety of operational business processes. For instance, customer churn prediction models are adopted to increase the efficiency of retention campaigns by optimizing the selection of customers that are to be targeted. Cost-sensitive and causal classification methods have independently been proposed to improve the performance of classification models. The former considers the benefits and costs of correct and incorrect classifications, such as the benefit of a retained customer, whereas the latter estimates the causal effect of an action, such as a retention campaign, on the outcome of interest. This study integrates cost-sensitive and causal classification by elaborating a unifying evaluation framework. The framework encompasses a range of existing and novel performance measures for evaluating both causal and conventional classification models in a cost-sensitive as well as a cost-insensitive manner. We proof that conventional classification is a specific case of causal classification in terms of a range of performance measures when the number of actions is equal to one. The framework is shown to instantiate to application-specific cost-sensitive performance measures that have been recently proposed for evaluating customer retention and response uplift models, and allows to maximize profitability when adopting a causal classification model for optimizing decision-making. The proposed framework paves the way toward the development of cost-sensitive causal learning methods and opens a range of opportunities for improving data-driven business decision-making. | 翻訳日:2022-11-07 05:45:16 公開日:2021-04-20 |
# Faster Mean-shift:コサイン埋め込みによる細胞セグメンテーションとトラッキングのためのGPUアクセラレーションクラスタリング Faster Mean-shift: GPU-accelerated clustering for cosine embedding-based cell segmentation and tracking ( http://arxiv.org/abs/2007.14283v2 ) ライセンス: Link先を確認 | Mengyang Zhao, Aadarsh Jha, Quan Liu, Bryan A. Millis, Anita Mahadevan-Jansen, Le Lu, Bennett A. Landman, Matthew J.Tyskac and Yuankai Huo | (参考訳) 近年,単段埋め込み型ディープラーニングアルゴリズムがセルセグメンテーションやトラッキングに注目が集まっている。
従来の"segment-then-associate"二段階アプローチと比較して、シングルステージアルゴリズムは、一貫性のあるインスタンスセルのセグメンテーションとトラッキングを同時に達成するだけでなく、境界と重なりの曖昧なピクセルを区別する際にも優れた性能を発揮する。
しかし、埋め込みベースのアルゴリズムの展開は、遅い推論速度(例えば、1フレームあたり約1-2分)によって制限される。
本研究では,組込み型セルセグメンテーションと追跡の計算ボトルネックに対処する,新しい高速平均シフトアルゴリズムを提案する。
従来のGPUアクセラレーションによる高速平均シフトアルゴリズムとは異なり、最小数のシードを適応的に決定し、計算を高速化し、GPUメモリを節約するために、新しいオンラインシード最適化ポリシー(OSOP)が導入されている。
isbiセルトラッキングチャレンジの4つのコホートによる埋め込みシミュレーションと経験的検証の両方により、提案する平均シフトアルゴリズムは、最先端の組込みセルインスタンスのセグメンテーションとトラッキングアルゴリズムと比較して、7~10倍の高速化を達成した。
我々の高速平均シフトアルゴリズムは、メモリ消費を最適化した他のGPUベンチマークと比較して計算速度も高い。
Faster Mean-shiftはプラグアンドプレイモデルであり、他のピクセル埋め込みベースのクラスタリング推論を用いて医療画像解析を行うことができる。
(プラグアンドプレイモデルは、https://github.com/masqm/faster-mean-shift) Recently, single-stage embedding based deep learning algorithms gain increasing attention in cell segmentation and tracking. Compared with the traditional "segment-then-associate" two-stage approach, a single-stage algorithm not only simultaneously achieves consistent instance cell segmentation and tracking but also gains superior performance when distinguishing ambiguous pixels on boundaries and overlaps. However, the deployment of an embedding based algorithm is restricted by slow inference speed (e.g., around 1-2 mins per frame). In this study, we propose a novel Faster Mean-shift algorithm, which tackles the computational bottleneck of embedding based cell segmentation and tracking. Different from previous GPU-accelerated fast mean-shift algorithms, a new online seed optimization policy (OSOP) is introduced to adaptively determine the minimal number of seeds, accelerate computation, and save GPU memory. With both embedding simulation and empirical validation via the four cohorts from the ISBI cell tracking challenge, the proposed Faster Mean-shift algorithm achieved 7-10 times speedup compared to the state-of-the-art embedding based cell instance segmentation and tracking algorithm. Our Faster Mean-shift algorithm also achieved the highest computational speed compared to other GPU benchmarks with optimized memory consumption. The Faster Mean-shift is a plug-and-play model, which can be employed on other pixel embedding based clustering inference for medical image analysis. (Plug-and-play model is publicly available: https://github.com/masqm/Faster-Mean-Shift) | 翻訳日:2022-11-06 02:12:39 公開日:2021-04-20 |
# ドメイン適応のためのハードクラス整形 Hard Class Rectification for Domain Adaptation ( http://arxiv.org/abs/2008.03455v2 ) ライセンス: Link先を確認 | Yunlong Zhang, Changxing Jing, Huangxing Lin, Chaoqi Chen, Yue Huang, Xinghao Ding, Yang Zou | (参考訳) ドメイン適応(da)は、知識をラベルリッチな関連ドメイン(ソースドメイン)からラベルキャリアドメイン(ターゲットドメイン)に転送することを目的としている。
Pseudo-labelingは近年,DAで広く研究されている。
しかし、この研究はいまだに擬似ラベルの不正確さに限られている。
本稿では,ドメインシフトが大きいクラスに属するターゲットサンプルは,他のクラスに比べて誤分類しやすいという興味深い知見を示す。
これらのクラスはハードクラスと呼ばれ、DAのパフォーマンスを低下させ、DAの適用を制限する。
ハードクラス修正擬似ラベル(hcrpl, hard class rectification pseudo-labeling)と呼ばれる,ハードクラス問題を2つの側面から緩和するための新しいフレームワークを提案する。
まず, 対象サンプルをハードクラスとして識別することが困難であるため, 適応予測校正 (Adaptive Prediction Calibration, APC) と呼ばれる簡易かつ効果的な手法を提案し, 各分類の難易度に応じて, 対象サンプルの予測を校正する。
第2に,ハードクラスに属するターゲットサンプルの予測は摂動に対して脆弱であると考えられる。
これらのサンプルの誤分類を防止するため,時間センシング(te)と自己センシング(se)を導入し,一貫した予測を得る。
提案手法はunsupervised domain adaptation (uda) と semi-supervised domain adaptation (ssda) の両方で評価される。
ImageCLEF, Office-31, Office-Home などの実世界のクロスドメインベンチマーク実験の結果,提案手法の優位性を実証した。 Domain adaptation (DA) aims to transfer knowledge from a label-rich and related domain (source domain) to a label-scare domain (target domain). Pseudo-labeling has recently been widely explored and used in DA. However, this line of research is still confined to the inaccuracy of pseudo-labels. In this paper, we reveal an interesting observation that the target samples belonging to the classes with larger domain shift are easier to be misclassified compared with the other classes. These classes are called hard class, which deteriorates the performance of DA and restricts the applications of DA. We propose a novel framework, called Hard Class Rectification Pseudo-labeling (HCRPL), to alleviate the hard class problem from two aspects. First, as is difficult to identify the target samples as hard class, we propose a simple yet effective scheme, named Adaptive Prediction Calibration (APC), to calibrate the predictions of the target samples according to the difficulty degree for each class. Second, we further consider that the predictions of target samples belonging to the hard class are vulnerable to perturbations. To prevent these samples to be misclassified easily, we introduce Temporal-Ensembling (TE) and Self-Ensembling (SE) to obtain consistent predictions. The proposed method is evaluated in both unsupervised domain adaptation (UDA) and semi-supervised domain adaptation (SSDA). The experimental results on several real-world cross-domain benchmarks, including ImageCLEF, Office-31 and Office-Home, substantiates the superiority of the proposed method. | 翻訳日:2022-11-01 09:12:18 公開日:2021-04-20 |
# 構造MRIを用いた関節萎縮の局所化とアルツハイマー病診断のための3次元残効型深部ニューラルネットワーク An Explainable 3D Residual Self-Attention Deep Neural Network FOR Joint Atrophy Localization and Alzheimer's Disease Diagnosis using Structural MRI ( http://arxiv.org/abs/2008.04024v2 ) ライセンス: Link先を確認 | Xin Zhang, Liangxiu Han, Wenyong Zhu, Liang Sun, Daoqiang Zhang | (参考訳) 構造磁気共鳴画像(smri)に基づくアルツハイマー病(ad)の早期診断と、その前兆型軽度認知障害(mci)は、疾患の進行を早期に予防し治療するための費用対効果と客観的な方法を提供し、患者のケアを改善する。
本研究では,3D Residual Attention Deep Neural Network(3D ResAttNet)を導入し,SMRIスキャンによるエンドツーエンド学習を実現することによって,ADの早期診断を支援する新しい手法を提案する。
既存のアプローチとは異なり、私たちのアプローチのノベルティは3倍です。
1) MR画像の局所的・大域的・空間的情報をキャプチャして診断性能を向上させるための残差自己注意型深部ニューラルネットワークが提案されている。
2)グラディエントに基づく局所化クラス活性化マッピング(Grad-CAM)を用いた説明手法を導入し,提案手法の妥当性を向上した。
3) 本研究は, 自動診断のためのエンドツーエンド学習ソリューションを提供する。
提案した3D ResAttNet法は,2つの変化する分類課題(アルツハイマー病(AD)と正常コホート(NC)と進行性MCI(pMCI)と安定型MCI(sMCI))の実際のデータセットから,多数の被験者を対象に評価した。
実験結果から,提案手法は精度と一般化性の観点から,最先端モデルに対して競争上の優位性を有することが示された。
このアプローチの説明可能なメカニズムは、透明な決定のための重要な脳部分(海馬、側室、大脳皮質のほとんどの部分など)を識別し、強調することができる。 Computer-aided early diagnosis of Alzheimer's disease (AD) and its prodromal form mild cognitive impairment (MCI) based on structure Magnetic Resonance Imaging (sMRI) has provided a cost-effective and objective way for early prevention and treatment of disease progression, leading to improved patient care. In this work, we have proposed a novel computer-aided approach for early diagnosis of AD by introducing an explainable 3D Residual Attention Deep Neural Network (3D ResAttNet) for end-to-end learning from sMRI scans. Different from the existing approaches, the novelty of our approach is three-fold: 1) A Residual Self-Attention Deep Neural Network has been proposed to capture local, global and spatial information of MR images to improve diagnostic performance; 2) An explanation method using Gradient-based Localization Class Activation mapping (Grad-CAM) has been introduced to improve the explainable of the proposed method; 3) This work has provided a full end-to-end learning solution for automated disease diagnosis. Our proposed 3D ResAttNet method has been evaluated on a large cohort of subjects from real datasets for two changeling classification tasks (i.e., Alzheimer's disease (AD) vs. Normal cohort (NC) and progressive MCI (pMCI) vs. stable MCI (sMCI)). The experimental results show that the proposed approach has a competitive advantage over the state-of-the-art models in terms of accuracy performance and generalizability. The explainable mechanism in our approach is able to identify and highlight the contribution of the important brain parts (e.g., hippocampus, lateral ventricle and most parts of the cortex) for transparent decisions. | 翻訳日:2022-10-31 23:21:43 公開日:2021-04-20 |
# ディープラーニングアプリケーションのためのスケーラブルで分散インフラストラクチャを目指して Towards a Scalable and Distributed Infrastructure for Deep Learning Applications ( http://arxiv.org/abs/2010.03012v2 ) ライセンス: Link先を確認 | Bita Hasheminezhad, Shahrzad Shirzad, Nanmiao Wu, Patrick Diehl, Hannes Schulz, Hartmut Kaiser | (参考訳) ディープニューラルネットワークのトレーニングに対する最近のスケールアップアプローチは有効であることが証明されているが、大規模で複雑なモデルの計算強度と大規模データセットの可用性は、スケーリングアウトテクニックを利用するためのディープラーニングフレームワークを必要としている。
並列化アプローチと分散要件は、ほとんどの利用可能な分散ディープラーニングフレームワークの予備設計では考慮されていない。
これらの欠点を緩和する可能性を持つPhylanxを提示する。
Phylanxは生産性指向のフロントエンドを提供する。ユーザPythonコードが未来的な実行ツリーに変換され、並列性と並列性(HPX)のためのC++標準ライブラリを使用して複数のノードで効率的に実行できる。 Although recent scaling up approaches to training deep neural networks have proven to be effective, the computational intensity of large and complex models, as well as the availability of large-scale datasets, require deep learning frameworks to utilize scaling out techniques. Parallelization approaches and distribution requirements are not considered in the preliminary designs of most available distributed deep learning frameworks, and most of them still are not able to perform effective and efficient fine-grained inter-node communication. We present Phylanx that has the potential to alleviate these shortcomings. Phylanx offers a productivity-oriented frontend where user Python code is translated to a futurized execution tree that can be executed efficiently on multiple nodes using the C++ standard library for parallelism and concurrency (HPX), leveraging fine-grained threading and an active messaging task-based runtime system. | 翻訳日:2022-10-10 08:08:47 公開日:2021-04-20 |
# 重力波分類のための遺伝的アルゴリズム最適化ニューラルネットワーク Genetic-algorithm-optimized neural networks for gravitational wave classification ( http://arxiv.org/abs/2010.04340v2 ) ライセンス: Link先を確認 | Dwyer S. Deighan, Scott E. Field, Collin D. Capano, Gaurav Khanna | (参考訳) 重力波検出戦略は、マッチングフィルタリングと呼ばれる信号解析技術に基づいている。
マッチングフィルタリングの成功にもかかわらず、その計算コストのため、近年は信号検出のための深層畳み込みニューラルネットワーク(cnns)の開発に注目が集まっている。
これらのネットワークの設計は、ほとんどの手順がハイパーパラメータ値を設定するために試行錯誤戦略を採用するため、依然として課題である。
本稿では遺伝的アルゴリズム(GA)に基づくハイパーパラメータ最適化手法を提案する。
6つのGA変種を比較し、GA最適化フィットネススコアの異なる選択を探索する。
GAは、初期ハイパーパラメータのシード値が良い解には程遠い場合や、既に良いネットワークを精錬する場合に、高品質なアーキテクチャを発見できることを示す。
例えば、George and Huerta氏が提案したアーキテクチャから始めると、20次元のハイパーパラメータ空間に最適化されたネットワークは、トレーニング可能なパラメータを78%少なくし、テスト問題の精度は11%向上する。
遺伝的アルゴリズムの最適化を使って既存のネットワークを洗練することは、問題コンテキスト(例えばノイズや信号モデルの統計的特性)が変化し、ネットワークを再構築する必要がある場合に特に有用である。
全ての実験で、GAはシードネットワークに比べてネットワークの複雑度が著しく低いことを発見し、無駄なネットワーク構造を創り出すのに使えることを示唆している。
我々はCNN分類器に注意を絞ったが、GAハイパーパラメータ最適化戦略は他の機械学習設定にも適用できる。 Gravitational-wave detection strategies are based on a signal analysis technique known as matched filtering. Despite the success of matched filtering, due to its computational cost, there has been recent interest in developing deep convolutional neural networks (CNNs) for signal detection. Designing these networks remains a challenge as most procedures adopt a trial and error strategy to set the hyperparameter values. We propose a new method for hyperparameter optimization based on genetic algorithms (GAs). We compare six different GA variants and explore different choices for the GA-optimized fitness score. We show that the GA can discover high-quality architectures when the initial hyperparameter seed values are far from a good solution as well as refining already good networks. For example, when starting from the architecture proposed by George and Huerta, the network optimized over the 20-dimensional hyperparameter space has 78% fewer trainable parameters while obtaining an 11% increase in accuracy for our test problem. Using genetic algorithm optimization to refine an existing network should be especially useful if the problem context (e.g. statistical properties of the noise, signal model, etc) changes and one needs to rebuild a network. In all of our experiments, we find the GA discovers significantly less complicated networks as compared to the seed network, suggesting it can be used to prune wasteful network structures. While we have restricted our attention to CNN classifiers, our GA hyperparameter optimization strategy can be applied within other machine learning settings. | 翻訳日:2022-10-09 04:20:59 公開日:2021-04-20 |
# 順序結果に対する深い解釈可能な回帰モデル Deep and interpretable regression models for ordinal outcomes ( http://arxiv.org/abs/2010.08376v4 ) ライセンス: Link先を確認 | Lucas Kook, Lisa Herzog, Torsten Hothorn, Oliver D\"urr, Beate Sick | (参考訳) 自然順の出力は予測タスクでよく起こり、しばしば利用可能な入力データは画像や表の予測器のような複雑なデータの混合である。
ディープラーニング(DL)モデルは、画像分類タスクの最先端技術であるが、順序のない結果や解釈可能性の欠如としてしばしば扱われる。
対照的に、古典的な順序回帰モデルは結果の順序を考慮し、解釈可能な予測子効果をもたらすが、表のデータに限られる。
本稿では,従来の順序回帰法とdlを結合したordinal neural network transformation model (ontrams)を提案する。
ONTRAMは、変換関数を画像と表データに付加的に分解することで、変換モデルと柔軟性と解釈性をトレードオフする特別なケースである。
最もフレキシブルなONTRAMの性能は、標準の多クラスDLモデルと同等であり、クロスエントロピーで訓練され、通常の結果に直面するとより高速である。
最後に、利用可能な2つのデータセット上で、表データと画像データの両方のモデルコンポーネントを解釈する方法について議論する。 Outcomes with a natural order commonly occur in prediction tasks and often the available input data are a mixture of complex data like images and tabular predictors. Deep Learning (DL) models are state-of-the-art for image classification tasks but frequently treat ordinal outcomes as unordered and lack interpretability. In contrast, classical ordinal regression models consider the outcome's order and yield interpretable predictor effects but are limited to tabular data. We present ordinal neural network transformation models (ONTRAMs), which unite DL with classical ordinal regression approaches. ONTRAMs are a special case of transformation models and trade off flexibility and interpretability by additively decomposing the transformation function into terms for image and tabular data using jointly trained neural networks. The performance of the most flexible ONTRAM is by definition equivalent to a standard multi-class DL model trained with cross-entropy while being faster in training when facing ordinal outcomes. Lastly, we discuss how to interpret model components for both tabular and image data on two publicly available datasets. | 翻訳日:2022-10-06 20:21:13 公開日:2021-04-20 |
# 逆グラフと解釈可能な3次元ニューラルレンダリングのための画像GANの差分レンダリング Image GANs meet Differentiable Rendering for Inverse Graphics and Interpretable 3D Neural Rendering ( http://arxiv.org/abs/2010.09125v2 ) ライセンス: Link先を確認 | Yuxuan Zhang, Wenzheng Chen, Huan Ling, Jun Gao, Yinan Zhang, Antonio Torralba, Sanja Fidler | (参考訳) 微分可能レンダリングは、モノクロ写真から3d幾何学を予測するといった「逆グラフィックス」タスクを実行するためにニューラルネットワークを訓練する方法を広げた。
ハイパフォーマンスモデルのトレーニングには、現在のアプローチのほとんどが、実際に利用できないマルチビューイメージに依存している。
画像合成を行う最近のgans(generative adversarial network)は、トレーニング中に暗黙的に3d知識を取得しているように見える。
しかし、これらの潜伏符号はさらなる物理的解釈を欠いているため、GANは容易に3D推論を行うことができない。
本稿では,微分可能なレンダラーを用いて生成モデルから学習した3次元知識を抽出・解離することを目的とする。
我々のアプローチの鍵は、GANをマルチビューデータジェネレータとして活用し、オフザシェルの微分可能なレンダラを用いて逆グラフィックネットワークをトレーニングし、トレーニングされた逆グラフィックネットワークを教師として、GANの潜在コードを解釈可能な3Dプロパティに切り離すことである。
アーキテクチャ全体は、サイクル一貫性の損失を使って反復的に訓練される。
本手法は,既存のデータセット上でトレーニングされた最先端の逆グラフィックスネットワークを定量的に,ユーザ研究によって大きく上回っていることを示す。
さらに, 従来のグラフィックレンダラーを補完する制御可能な3次元「ニューラルレンダラー」として, GANを展示する。 Differentiable rendering has paved the way to training neural networks to perform "inverse graphics" tasks such as predicting 3D geometry from monocular photographs. To train high performing models, most of the current approaches rely on multi-view imagery which are not readily available in practice. Recent Generative Adversarial Networks (GANs) that synthesize images, in contrast, seem to acquire 3D knowledge implicitly during training: object viewpoints can be manipulated by simply manipulating the latent codes. However, these latent codes often lack further physical interpretation and thus GANs cannot easily be inverted to perform explicit 3D reasoning. In this paper, we aim to extract and disentangle 3D knowledge learned by generative models by utilizing differentiable renderers. Key to our approach is to exploit GANs as a multi-view data generator to train an inverse graphics network using an off-the-shelf differentiable renderer, and the trained inverse graphics network as a teacher to disentangle the GAN's latent code into interpretable 3D properties. The entire architecture is trained iteratively using cycle consistency losses. We show that our approach significantly outperforms state-of-the-art inverse graphics networks trained on existing datasets, both quantitatively and via user studies. We further showcase the disentangled GAN as a controllable 3D "neural renderer", complementing traditional graphics renderers. | 翻訳日:2022-10-06 04:06:26 公開日:2021-04-20 |
# 神経論理復号:述語論理制約を用いた(Un)教師付きニューラルテキスト生成 NeuroLogic Decoding: (Un)supervised Neural Text Generation with Predicate Logic Constraints ( http://arxiv.org/abs/2010.12884v2 ) ライセンス: Link先を確認 | Ximing Lu, Peter West, Rowan Zellers, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi | (参考訳) 条件付きテキスト生成は、しばしば語彙的な制約を必要とする。
条件付きテキスト生成の主要なレシピは、タスク固有のトレーニングデータに基づいて微調整された大規模な事前訓練言語モデルであるが、そのようなモデルは、タスク固有の大量の例を監督しても、基礎となる制約を確実に従うことを学ばない。
我々は,複雑な語彙制約を満たしながら,精巧なテキストを生成するニューラルネットワークモデルを実現する,単純かつ効果的なアルゴリズムを提案する。
我々のアプローチは強力だが効率的だ。
述語論理の下で表現可能な語彙制約の組を処理し、漸近ランタイムは従来のビーム探索と等価である。
4つのベンチマークによる実証的な結果から、NeuroLogic Decodingは、制約のサブセットを処理するアルゴリズムを含む、従来のアプローチよりも優れていた。
さらに,ニューロロジック復号法を用いた教師なしモデルは,比較的大きなネットワークをベースとした場合であっても,従来の復号法により教師付きモデルよりも優れていることが判明した。
その結果,細粒度制御可能な生成のための大規模ニューラルネットワークの限界と推論時間アルゴリズムの期待が示唆された。 Conditional text generation often requires lexical constraints, i.e., which words should or shouldn't be included in the output text. While the dominant recipe for conditional text generation has been large-scale pretrained language models that are finetuned on the task-specific training data, such models do not learn to follow the underlying constraints reliably, even when supervised with large amounts of task-specific examples. We propose NeuroLogic Decoding, a simple yet effective algorithm that enables neural language models -- supervised or not -- to generate fluent text while satisfying complex lexical constraints. Our approach is powerful yet efficient. It handles any set of lexical constraints that is expressible under predicate logic, while its asymptotic runtime is equivalent to conventional beam search. Empirical results on four benchmarks show that NeuroLogic Decoding outperforms previous approaches, including algorithms that handle a subset of our constraints. Moreover, we find that unsupervised models with NeuroLogic Decoding often outperform supervised models with conventional decoding, even when the latter is based on considerably larger networks. Our results suggest the limit of large-scale neural networks for fine-grained controllable generation and the promise of inference-time algorithms. | 翻訳日:2022-10-03 13:10:44 公開日:2021-04-20 |
# SUREMap: スタインの異常リスク推定を用いたCNN画像再構成の不確かさ予測 SUREMap: Predicting Uncertainty in CNN-based Image Reconstruction Using Stein's Unbiased Risk Estimate ( http://arxiv.org/abs/2010.13214v2 ) ライセンス: Link先を確認 | Ruangrawee Kitichotkul, Christopher A. Metzler, Frank Ong, Gordon Wetzstein | (参考訳) 畳み込みニューラルネットワーク(cnn)は、計算画像再構成問題を解決する強力なツールとして登場した。
しかし、cnnは一般に理解が難しいブラックボックスである。
それゆえ、彼らがいつ働くのか、そしてもっと重要なことに、いつ失敗するのかを知ることは困難である。
この制限は、医療画像のような安全クリティカルなアプリケーションでの使用において、大きな障壁となる。
この研究では、steinのunbiased risk estimation (sure) を用いて、cnnベースのデノイザを用いた近似メッセージパッシング(amp)フレームワークを用いた圧縮センシング再構成のために、ヒートマップの形でピクセル毎の信頼区間を開発する。
これらのヒートマップは、CNNが生成した画像の信頼度をエンドユーザに伝えるもので、様々な計算イメージングアプリケーションにおけるCNNの有用性を大幅に改善する可能性がある。 Convolutional neural networks (CNN) have emerged as a powerful tool for solving computational imaging reconstruction problems. However, CNNs are generally difficult-to-understand black-boxes. Accordingly, it is challenging to know when they will work and, more importantly, when they will fail. This limitation is a major barrier to their use in safety-critical applications like medical imaging: Is that blob in the reconstruction an artifact or a tumor? In this work we use Stein's unbiased risk estimate (SURE) to develop per-pixel confidence intervals, in the form of heatmaps, for compressive sensing reconstruction using the approximate message passing (AMP) framework with CNN-based denoisers. These heatmaps tell end-users how much to trust an image formed by a CNN, which could greatly improve the utility of CNNs in various computational imaging applications. | 翻訳日:2022-10-03 05:07:36 公開日:2021-04-20 |
# 網膜画像品質評価のための暗・明チャンネル事前誘導深層ネットワーク A Dark and Bright Channel Prior Guided Deep Network for Retinal Image Quality Assessment ( http://arxiv.org/abs/2010.13313v2 ) ライセンス: Link先を確認 | Ziwen Xu, Beiji Zou, Qing Liu | (参考訳) 網膜画像品質評価は網膜疾患の診断に欠かせない課題である。
近年,網膜画像の画質向上のための深層モデルが登場している。
現在の最先端技術は、もともと自然画像用に設計された分類網を直接網膜画像の品質分類に転送するか、複数のCNNブランチまたは独立したCNNを介して追加の画像品質の事前を導入している。
本稿では、網膜画像品質評価のための暗く明るいチャンネル事前ガイド付き深層ネットワークであるguidednetを提案する。
具体的には、深い特徴の識別能力を向上させるために、暗くて明るいチャネル事前をネットワークの開始層に埋め込む。
さらに、RIQA-RFMiDと呼ばれる新しい網膜画像品質データセットを再注釈し、さらなる検証を行う。
パブリック網膜画像品質データセットEye-Qualityと再注釈データセットRIQA-RFMiDの実験結果から,提案したガイドネットの有効性が示された。 Retinal image quality assessment is an essential task in the diagnosis of retinal diseases. Recently, there are emerging deep models to grade quality of retinal images. Current state-of-the-arts either directly transfer classification networks originally designed for natural images to quality classification of retinal images or introduce extra image quality priors via multiple CNN branches or independent CNNs. This paper proposes a dark and bright channel prior guided deep network for retinal image quality assessment called GuidedNet. Specifically, the dark and bright channel priors are embedded into the start layer of network to improve the discriminate ability of deep features. In addition, we re-annotate a new retinal image quality dataset called RIQA-RFMiD for further validation. Experimental results on a public retinal image quality dataset Eye-Quality and our re-annotated dataset RIQA-RFMiD demonstrate the effectiveness of the proposed GuidedNet. | 翻訳日:2022-10-02 19:49:30 公開日:2021-04-20 |
# 大語彙音声認識のための音素ベースニューラルトランスデューサ Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition ( http://arxiv.org/abs/2010.16368v4 ) ライセンス: Link先を確認 | Wei Zhou and Simon Berger and Ralf Schl\"uter and Hermann Ney | (参考訳) 本稿では,音素に基づくニューラルトランスデューサモデリングにおいて,従来型およびエンドツーエンドの音声認識手法の利点を活かし,シンプルで斬新で競争力のある手法を提案する。
異なるアライメントラベルトポロジを比較し, 語末に基づく音素ラベル拡張を提案し, 性能向上を図る。
音素の局所的依存を利用して,ニューラルネットワーク構造を単純化し,外部単語レベルの言語モデルと直接統合することで,seq-to-seqモデリングの一貫性を維持する。
また,フレームワイドクロスエントロピー損失を用いた簡易かつ安定かつ効率的なトレーニング手法を提案する。
音素のコンテキストサイズは、最高のパフォーマンスに十分であることが示される。
簡略化されたサンプリング手法を改良に応用し、異なる復号法を簡潔に比較する。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。 To join the advantages of classical and end-to-end approaches for speech recognition, we present a simple, novel and competitive approach for phoneme-based neural transducer modeling. Different alignment label topologies are compared and word-end-based phoneme label augmentation is proposed to improve performance. Utilizing the local dependency of phonemes, we adopt a simplified neural network structure and a straightforward integration with the external word-level language model to preserve the consistency of seq-to-seq modeling. We also present a simple, stable and efficient training procedure using frame-wise cross-entropy loss. A phonetic context size of one is shown to be sufficient for the best performance. A simplified scheduled sampling approach is applied for further improvement and different decoding approaches are briefly compared. The overall performance of our best model is comparable to state-of-the-art (SOTA) results for the TED-LIUM Release 2 and Switchboard corpora. | 翻訳日:2022-10-01 17:02:22 公開日:2021-04-20 |
# 深層畳み込みニューラルネットワークによる局所原始星形成の予測 Predicting Localized Primordial Star Formation with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2011.01358v2 ) ライセンス: Link先を確認 | Azton I. Wells and Michael L. Norman | (参考訳) 第1銀河の流体力学的宇宙論的シミュレーションにおいて、原始星の形成とフィードバック効果の高速サーロゲートモデルとして3次元深層畳み込みニューラルネットワークを適用した。
ここでは、局所主星形成を予測するための代理モデルを提示し、その後の論文でフィードバックモデルを示す。
星形成予測モデルは2つのサブモデルから構成される: 1つは、(10の共役kpc)$^3$の体積が主星形成を予測する3Dボリューム分類器であり、次に、どのボクセルが主星を形成するかを予測する3DインセプションベースのU-netボクセルセグメンテーションモデルである。
組み合わせたモデルでは、F_1 >0.995$と真のスキルスコア$>0.994$で主星形成量を予測する。
星形成は、体積内で$\lesssim5^3$~voxels (\sim1.6$~comoving kpc$^3$) にローカライズされ、$f_1>0.399$、true skill score $>0.857$である。
空間分解能の低いシミュレーションでは、主星の形成とフィードバックを明示的にモデル化する完全な物理シミュレーションにおいて、同じ位置と同様の赤方偏移で星形成領域を予測する。
質量分解能の低いシミュレーションに適用すると、質量分解能の低下による遅延構造の形成により、後続の赤方偏移で星形成領域を予測することが分かる。
本モデルでは、ハロ星を発見せずに原始星形成を予測できるため、ハロ星形成を解決できない空間的に未解決のシミュレーションに有用である。
我々の知る限り、これは高解像度の宇宙シミュレーションと一致する原始星形成領域を予測できる最初のモデルである。 We investigate applying 3D deep convolutional neural networks as fast surrogate models of the formation and feedback effects of primordial stars in hydrodynamic cosmological simulations of the first galaxies. Here, we present the surrogate model to predict localized primordial star formation; the feedback model will be presented in a subsequent paper. The star formation prediction model consists of two sub-models: the first is a 3D volume classifier that predicts which (10 comoving kpc)$^3$ volumes will host star formation, followed by a 3D Inception-based U-net voxel segmentation model that predicts which voxels will form primordial stars. We find that the combined model predicts primordial star forming volumes with high skill, with $F_1 >0.995$ and true skill score $>0.994$. The star formation is localized within the volume to $\lesssim5^3$~voxels ($\sim1.6$~comoving kpc$^3$) with $F_1>0.399$ and true skill score $>0.857$. Applied to simulations with low spatial resolution, the model predicts star forming regions in the same locations and at similar redshifts as sites in resolved full-physics simulations that explicitly model primordial star formation and feedback. When applied to simulations with lower mass resolution, we find that the model predicts star forming regions at later redshift due to delayed structure formation resulting from lower mass resolution. Our model predicts primordial star formation without halo finding, so will be useful in spatially under-resolved simulations that cannot resolve primordial star forming halos. To our knowledge, this is the first model that can predict primordial star forming regions that match highly-resolved cosmological simulations. | 翻訳日:2022-09-30 13:27:58 公開日:2021-04-20 |
# 機械学習のリー構造と物理への応用 Machine Learning Lie Structures & Applications to Physics ( http://arxiv.org/abs/2011.00871v2 ) ライセンス: Link先を確認 | Heng-Yu Chen, Yang-Hui He, Shailesh Lal, Suvajit Majumder | (参考訳) 古典的および例外的なリー代数とその表現は、物理系における対称性の分析において最も重要なツールである。
このレターでは、テンソル積の計算と既約表現の分岐規則が機械学習可能であることを示し、非MLアルゴリズムと比較して相対的な桁数の高速化を実現する。 Classical and exceptional Lie algebras and their representations are among the most important tools in the analysis of symmetry in physical systems. In this letter we show how the computation of tensor products and branching rules of irreducible representations are machine-learnable, and can achieve relative speed-ups of orders of magnitude in comparison to the non-ML algorithms. | 翻訳日:2022-09-30 11:38:01 公開日:2021-04-20 |
# 重み依存に基づくマルチクリトリアによるチャネルプルーニング Channel Pruning via Multi-Criteria based on Weight Dependency ( http://arxiv.org/abs/2011.03240v4 ) ライセンス: Link先を確認 | Yangchun Yan, Rongzuo Guo, Chao Li, Kang Yang, Yongjun Xu | (参考訳) チャネルプルーニングは、ConvNetを圧縮する効果を示した。
多くの関連する芸術において、出力特徴写像の重要性は関連するフィルターによってのみ決定される。
しかし、これらの手法は、特徴写像が削除されるにつれて消える次の層の重みの一部を無視する。
彼らは体重依存の現象を無視する。
また,多くのプルーニング手法では,評価に1つの基準しか使用せず,試行錯誤的な方法でプルーニング構造と精度のスイートスポットを見つけることができる。
本稿では,事前学習モデルを直接圧縮できる重み依存型cpmc(multi-criteria)を用いたチャネルプルーニングアルゴリズムを提案する。
CPMCはチャネルの重要性を、関連する重み値、計算コスト、パラメータ量を含む3つの側面で定義している。
重み依存現象により、cpmcは、その関連フィルタとそれに対応する部分重みを次の層で評価することで、チャネルの重要性を得る。
CPMCはグローバル正規化を用いて層間比較を行う。
最後に、CPMCはグローバルランキングによって重要でないチャンネルを除去する。
CPMCは、様々な画像分類データセット上で、VGGNet、ResNet、DenseNetを含む様々なCNNモデルを圧縮することができる。
大規模な実験ではCPMCは他よりも著しく優れていた。 Channel pruning has demonstrated its effectiveness in compressing ConvNets. In many related arts, the importance of an output feature map is only determined by its associated filter. However, these methods ignore a small part of weights in the next layer which disappears as the feature map is removed. They ignore the phenomenon of weight dependency. Besides, many pruning methods use only one criterion for evaluation and find a sweet spot of pruning structure and accuracy in a trial-and-error fashion, which can be time-consuming. In this paper, we proposed a channel pruning algorithm via multi-criteria based on weight dependency, CPMC, which can compress a pre-trained model directly. CPMC defines channel importance in three aspects, including its associated weight value, computational cost, and parameter quantity. According to the phenomenon of weight dependency, CPMC gets channel importance by assessing its associated filter and the corresponding partial weights in the next layer. Then CPMC uses global normalization to achieve cross-layer comparison. Finally, CPMC removes less important channels by global ranking. CPMC can compress various CNN models, including VGGNet, ResNet, and DenseNet on various image classification datasets. Extensive experiments have shown CPMC outperforms the others significantly. | 翻訳日:2022-09-29 04:41:12 公開日:2021-04-20 |
# ステレオ画像の超解像に対する対称視差注意法 Symmetric Parallax Attention for Stereo Image Super-Resolution ( http://arxiv.org/abs/2011.03802v2 ) ライセンス: Link先を確認 | Yingqian Wang, Xinyi Ying, Longguang Wang, Jungang Yang, Wei An, Yulan Guo | (参考訳) 近年、ステレオ画像超解像(SR)の進歩が見られたが、双眼鏡システムが提供する有益な情報は十分に利用されていない。
ステレオ画像はエピポーラ制約下では高度に対称であるため,ステレオ画像ペアの対称性を活用し,ステレオ画像srの性能を向上させる。
具体的には、対称な双方向パララックスアテンションモジュール(biPAM)と、クロスビュー情報を効果的に相互作用するインラインオクルージョンハンドリングスキームを提案する。
次に,ビューの両側を高度に対称な方法で超解くために,bipamを備えたシャムネットワークを設計する。
最後に,複数の照度ロバスト損失をデザインし,ステレオ一貫性を高める。
4つの公開データセットの実験により,提案手法の優れた性能が示された。
ソースコードはhttps://github.com/yingqianwang/ipassr。 Although recent years have witnessed the great advances in stereo image super-resolution (SR), the beneficial information provided by binocular systems has not been fully used. Since stereo images are highly symmetric under epipolar constraint, in this paper, we improve the performance of stereo image SR by exploiting symmetry cues in stereo image pairs. Specifically, we propose a symmetric bi-directional parallax attention module (biPAM) and an inline occlusion handling scheme to effectively interact cross-view information. Then, we design a Siamese network equipped with a biPAM to super-resolve both sides of views in a highly symmetric manner. Finally, we design several illuminance-robust losses to enhance stereo consistency. Experiments on four public datasets demonstrate the superior performance of our method. Source code is available at https://github.com/YingqianWang/iPASSR. | 翻訳日:2022-09-28 22:43:48 公開日:2021-04-20 |
# Bi-ISCA:ユーザ生成ノイズショートテキストにおけるサルカズム検出のための双方向文間コンテキストアテンション機構 Bi-ISCA: Bidirectional Inter-Sentence Contextual Attention Mechanism for Detecting Sarcasm in User Generated Noisy Short Text ( http://arxiv.org/abs/2011.11465v3 ) ライセンス: Link先を確認 | Prakamya Mishra, Saroj Kaushik and Kuntal Dey | (参考訳) ソーシャルメディアプラットフォームに関する多くのオンラインコメントは、憎悪、ユーモア、皮肉である。
これらのコメント(特に短いコメント)の皮肉な性質は、実際の暗黙の感情を変化させ、既存の感情分析モデルによる誤解につながる。
テキスト中の皮肉を検出するために,ユーザベース,話題情報,会話情報を用いてすでに多くの研究がなされているが,文間文脈情報を用いて検出する作業はあまり行われていない。
本稿では, 対話型文脈のみを用いて, ユーザ生成した短文の皮肉を検出するために, 双方向のコンテキスト認識機構 (Bidirectional Inter-Sentence Contextual Attention mechanism, Bi-ISCA) を新たに提案する。
提案する深層学習モデルでは,暗黙的,文脈的に不一致な単語やフレーズをキャプチャし,皮肉を誘発する能力を示す。
bi-iscaは、サルカズム検出タスク(redditとtwitter)のために広く使われている2つのベンチマークデータセットで最新の結果を生成する。
我々の知る限り、既存の最先端モデルは、会話コンテキストのみを用いて、ユーザ生成短文の皮肉を検出するために、文間コンテキストアテンションメカニズムを使用していない。 Many online comments on social media platforms are hateful, humorous, or sarcastic. The sarcastic nature of these comments (especially the short ones) alters their actual implied sentiments, which leads to misinterpretations by the existing sentiment analysis models. A lot of research has already been done to detect sarcasm in the text using user-based, topical, and conversational information but not much work has been done to use inter-sentence contextual information for detecting the same. This paper proposes a new state-of-the-art deep learning architecture that uses a novel Bidirectional Inter-Sentence Contextual Attention mechanism (Bi-ISCA) to capture inter-sentence dependencies for detecting sarcasm in the user-generated short text using only the conversational context. The proposed deep learning model demonstrates the capability to capture explicit, implicit, and contextual incongruous words & phrases responsible for invoking sarcasm. Bi-ISCA generates state-of-the-art results on two widely used benchmark datasets for the sarcasm detection task (Reddit and Twitter). To the best of our knowledge, none of the existing state-of-the-art models use an inter-sentence contextual attention mechanism to detect sarcasm in the user-generated short text using only conversational context. | 翻訳日:2022-09-22 02:02:49 公開日:2021-04-20 |
# 学習に基づく3次元点雲形状の無損失圧縮 Learning-based lossless compression of 3D point cloud geometry ( http://arxiv.org/abs/2011.14700v2 ) ライセンス: Link先を確認 | Dat Thanh Nguyen, Maurice Quach, Giuseppe Valenzise, Pierre Duhamel | (参考訳) 本稿では,文脈適応型算術符号に基づく静的点雲幾何の学習に基づく無損失圧縮手法を提案する。
octreeドメインで動作するほとんどの既存のメソッドとは異なり、我々のエンコーダはoctreeとvoxelベースのコーディングを混合したハイブリッドモードで動作します。
我々は点雲構造に従って点雲を多分解能ボクセルブロックに適応的に分割し,オクツリーを用いて分割を信号する。
一方、octree表現はポイントクラウドのスパーシティを排除することができる。
一方、ボクセル領域では、畳み込みは自然に表現でき、幾何学的情報(平面、表面など)も表現できる。
ニューラルネットワークによって明示的に処理されます
我々の文脈モデルはこれらの特性から恩恵を受け、VoxelDNNと呼ばれるマスク付きフィルタを用いた深層畳み込みニューラルネットワークを用いてボクセルの確率分布を学習する。
実験の結果,Microsoft Voxelized Upper Bodies (MVUB) と MPEG の多種多様な点群において,MPEG G-PCC 標準を平均28%の削減率で上回った。
実装はhttps://github.com/Weafre/VoxelDNNで公開されている。 This paper presents a learning-based, lossless compression method for static point cloud geometry, based on context-adaptive arithmetic coding. Unlike most existing methods working in the octree domain, our encoder operates in a hybrid mode, mixing octree and voxel-based coding. We adaptively partition the point cloud into multi-resolution voxel blocks according to the point cloud structure, and use octree to signal the partitioning. On the one hand, octree representation can eliminate the sparsity in the point cloud. On the other hand, in the voxel domain, convolutions can be naturally expressed, and geometric information (i.e., planes, surfaces, etc.) is explicitly processed by a neural network. Our context model benefits from these properties and learns a probability distribution of the voxels using a deep convolutional neural network with masked filters, called VoxelDNN. Experiments show that our method outperforms the state-of-the-art MPEG G-PCC standard with average rate savings of 28% on a diverse set of point clouds from the Microsoft Voxelized Upper Bodies (MVUB) and MPEG. The implementation is available at https://github.com/Weafre/VoxelDNN. | 翻訳日:2021-06-06 14:54:51 公開日:2021-04-20 |
# アノテーション効率のよいビデオ行動認識 Annotation-Efficient Untrimmed Video Action Recognition ( http://arxiv.org/abs/2011.14478v2 ) ライセンス: Link先を確認 | Yixiong Zou, Shanghang Zhang, Guangyao Chen, Yonghong Tian, Kurt Keutzer, Jos\'e M. F. Moura | (参考訳) 深層学習はビデオ行動の認識において大きな成功を収めてきたが、トレーニングデータの収集とアノテーションは、主に、(1)必要な注釈付きデータの量が大きい、(2)各アクションの位置を時間的にアノテートする、という2つの側面に大きく依存している。
数発学習や未撮影の映像認識といった作品は、どちらか一方の側面を扱うために提案されている。
しかし、両方の問題を同時に処理できる既存の作品はほとんどない。
本稿では,大量のサンプルとアクションロケーションの両方に対するアノテーションの必要量を削減するために,アノテーション効率の高いビデオ認識という新たな課題をターゲットにする。
これらの問題は,(1)未トリミング映像が弱い監督しか持たない,(2)現在の興味の行動(背景,bg)に関係のない映像セグメントは,新規なクラスにおいて興味の行動(フォアグラウンド,fg)を含む可能性がある,という2つの側面から困難である。
この目的を達成するために,BGの特性を解析することにより,BGを情報的BG(IBG)と非情報的BG(NBG)に分類し,(1)NBGとFGを見つけるためのオープンセット検出ベース手法を提案する。
ActivityNet v1.2とActivityNet v1.3の広範な実験は、提案手法の理論的および有効性を検証する。 Deep learning has achieved great success in recognizing video actions, but the collection and annotation of training data are still quite laborious, which mainly lies in two aspects: (1) the amount of required annotated data is large; (2) temporally annotating the location of each action is time-consuming. Works such as few-shot learning or untrimmed video recognition have been proposed to handle either one aspect or the other. However, very few existing works can handle both issues simultaneously. In this paper, we target a new problem, Annotation-Efficient Video Recognition, to reduce the requirement of annotations for both large amount of samples and the action location. Such problem is challenging due to two aspects: (1) the untrimmed videos only have weak supervision; (2) video segments not relevant to current actions of interests (background, BG) could contain actions of interests (foreground, FG) in novel classes, which is a widely existing phenomenon but has rarely been studied in few-shot untrimmed video recognition. To achieve this goal, by analyzing the property of BG, we categorize BG into informative BG (IBG) and non-informative BG (NBG), and we propose (1) an open-set detection based method to find the NBG and FG, (2) a contrastive learning method to learn IBG and distinguish NBG in a self-supervised way, and (3) a self-weighting mechanism for the better distinguishing of IBG and FG. Extensive experiments on ActivityNet v1.2 and ActivityNet v1.3 verify the rationale and effectiveness of the proposed methods. | 翻訳日:2021-06-06 14:50:43 公開日:2021-04-20 |
# ホテルのマルチリビュー要約生成のための拡張手段 An Enhanced MeanSum Method For Generating Hotel Multi-Review Summarizations ( http://arxiv.org/abs/2012.03656v2 ) ライセンス: Link先を確認 | Saibo Geng, Diego Antognini | (参考訳) 多文書要約は、複数のテキストを入力として取り、入力テキストの内容に基づいて短い要約テキストを生成するプロセスである。
最近まで、マルチドキュメント要約は概ね教師付き抽出である。
しかし、教師付きメソッドには、稀でコストがかかる、大きなペアのドキュメント要約例のデータセットが必要となる。
2018年、ChuとLiuにより教師なし多文書抽象要約法(Meansum)が提案され、抽出法と比較して競合性能が示された。
自動メトリクスに関する優れた評価結果にもかかわらず、Meansumには複数の制限があり、特に複数の側面を扱うことができない。
本研究の目的は,マルチアスペクトマスカ(mam)をコンテンツセレクタとして使用し,マルチアスペクトでこの問題に対処することである。
また,生成した要約の長さを制御する正規化器を提案する。
Trip Advisorによるホテルのデータセットに関する一連の実験を通じて、我々の仮定を検証し、改良されたモデルが元のMeansum法よりも高いROUGE、知覚精度を実現し、教師付きベースラインに打ち勝つことを示します。 Multi-document summaritazion is the process of taking multiple texts as input and producing a short summary text based on the content of input texts. Up until recently, multi-document summarizers are mostly supervised extractive. However, supervised methods require datasets of large, paired document-summary examples which are rare and expensive to produce. In 2018, an unsupervised multi-document abstractive summarization method(Meansum) was proposed by Chu and Liu, and demonstrated competitive performances comparing to extractive methods. Despite good evaluation results on automatic metrics, Meansum has multiple limitations, notably the inability of dealing with multiple aspects. The aim of this work was to use Multi-Aspect Masker(MAM) as content selector to address the issue with multi-aspect. Moreover, we propose a regularizer to control the length of the generated summaries. Through a series of experiments on the hotel dataset from Trip Advisor, we validate our assumption and show that our improved model achieves higher ROUGE, Sentiment Accuracy than the original Meansum method and also beats/ comprarable/close to the supervised baseline. | 翻訳日:2021-05-16 21:54:02 公開日:2021-04-20 |
# LogNNet貯水池ニューラルネットワークを用いた低メモリ2KbRAMArduino基板上の手書きMNIST桁の認識 Recognition of handwritten MNIST digits on low-memory 2 Kb RAM Arduino board using LogNNet reservoir neural network ( http://arxiv.org/abs/2105.02953v1 ) ライセンス: Link先を確認 | Y. A. Izotov, A. A. Velichko, A. A. Ivshin and R. E. Novitskiy | (参考訳) lognnet storage neural networkで開発されたmnistデータベースの手書き桁を認識可能なコンパクトアルゴリズムは,認識精度82%に達した。
このアルゴリズムは、2Kbの静的RAM低消費電力マイクロコントローラを備えた低メモリArduinoボード上でテストされた。
貯水池内のニューロン数に対する画像認識の精度と時間依存性について検討した。
メモリアロケーションは、追加のデータストレージを使わずに全ての必要な情報をRAMに格納し、予備処理なしで元のイメージで動作させることを示す。
アルゴリズムの単純な構造は、適切なトレーニングとともに、医学における有害事象の早期診断のためのモバイルバイオセンサーの作成など、幅広い応用に適応することができる。
研究結果は、周辺拘束型IoTデバイスやエッジコンピューティングにおける人工知能の実装において重要である。 The presented compact algorithm for recognizing handwritten digits of the MNIST database, created on the LogNNet reservoir neural network, reaches the recognition accuracy of 82%. The algorithm was tested on a low-memory Arduino board with 2 Kb static RAM low-power microcontroller. The dependences of the accuracy and time of image recognition on the number of neurons in the reservoir have been investigated. The memory allocation demonstrates that the algorithm stores all the necessary information in RAM without using additional data storage, and operates with original images without preliminary processing. The simple structure of the algorithm, with appropriate training, can be adapted for wide practical application, for example, for creating mobile biosensors for early diagnosis of adverse events in medicine. The study results are important for the implementation of artificial intelligence on peripheral constrained IoT devices and for edge computing. | 翻訳日:2021-05-11 08:33:49 公開日:2021-04-20 |
# 塗装誤差最大化による情報理論セグメンテーション Information-Theoretic Segmentation by Inpainting Error Maximization ( http://arxiv.org/abs/2012.07287v2 ) ライセンス: Link先を確認 | Pedro Savarese and Sunnie S. Y. Kim and Michael Maire and Greg Shakhnarovich and David McAllester | (参考訳) 情報理論的な観点から画像分割を考察し,画像を最大独立集合に分割して教師なしセグメンテーションを行う新しい逆法を提案する。
より具体的には、画像ピクセルを前景と背景にグループ化し、一方のセットの予測可能性を最小限に抑えることを目的としています。
容易に計算された損失は、この分割を塗りつぶすエラーを最大化するために欲深い検索プロセスを駆動する。
本手法はディープネットワークのトレーニングを含まず,計算量的に安価であり,クラス非依存であり,単一のラベルなし画像に対して単独で適用可能である。
実験では、教師なしのセグメンテーション品質で新たな最先端を達成し、競合するアプローチよりも大幅に高速で汎用的であることを実証する。 We study image segmentation from an information-theoretic perspective, proposing a novel adversarial method that performs unsupervised segmentation by partitioning images into maximally independent sets. More specifically, we group image pixels into foreground and background, with the goal of minimizing predictability of one set from the other. An easily computed loss drives a greedy search process to maximize inpainting error over these partitions. Our method does not involve training deep networks, is computationally cheap, class-agnostic, and even applicable in isolation to a single unlabeled image. Experiments demonstrate that it achieves a new state-of-the-art in unsupervised segmentation quality, while being substantially faster and more general than competing approaches. | 翻訳日:2021-05-08 14:32:16 公開日:2021-04-20 |
# (参考訳) 人工知能による再生可能エネルギーシステムの予測的保守:技術・課題・今後の研究方向のレビュー Artificial Intelligence Based Prognostic Maintenance of Renewable Energy Systems: A Review of Techniques, Challenges, and Future Research Directions ( http://arxiv.org/abs/2104.12561v1 ) ライセンス: CC BY 4.0 | Yasir Saleem Afridi, Kashif Ahmad, Laiq Hassan | (参考訳) 化石燃料の枯渇以来、世界は再生可能エネルギー源に大きく依存し始めている。
毎年、再生可能エネルギー源への依存は指数関数的に増加しています。
その結果、複雑でハイブリッドな発電システムは、エネルギー需要を満たし、国家のエネルギーセキュリティを確保するために設計・開発されている。
この技術の継続的な改善とエンドユーザーへの不断の電力供給への取り組みは、効果的で耐障害性のある運転維持システム(O&M)に強く依存している。
そのため、設備の最小化とダウンタイムの植え付けを目的として、創発的なアルゴリズムと技術が導入されている。
障害発生前に障害を識別可能な堅牢な予後維持システムの開発が進められている。
この目的のために、複雑なデータ分析と機械学習(ML)技術が、これらの予後維持システムの全体的な効率を高めるために使われています。
本稿では,文献で報告されている予測・予測保守フレームワークの概要について述べる。
私たちは特に、データとデータ監査の可用性と品質、機能エンジニアリング、解釈可能性、セキュリティ問題といったデータ関連の問題を含むアプローチや課題に焦点を合わせています。
MLベースのソリューションのキーとなる側面として、ドメインで一般的に使用されている公開データセットについても論じます。
この論文は将来の研究の方向性も示している。
このような詳細な分析が今後の研究のベースラインになると考えています。 Since the depletion of fossil fuels, the world has started to rely heavily on renewable sources of energy. With every passing year, our dependency on the renewable sources of energy is increasing exponentially. As a result, complex and hybrid generation systems are being designed and developed to meet the energy demands and ensure energy security in a country. The continual improvement in the technology and an effort towards the provision of uninterrupted power to the end-users is strongly dependent on an effective and fault resilient Operation and Maintenance (O&M) system. Ingenious algorithms and techniques are hence been introduced aiming to minimize equipment and plant downtime. Efforts are being made to develop robust Prognostic Maintenance systems that can identify the faults before they occur. To this aim, complex Data Analytics and Machine Learning (ML) techniques are being used to increase the overall efficiency of these prognostic maintenance systems. This paper provides an overview of the predictive/prognostic maintenance frameworks reported in the literature. We pay a particular focus to the approaches, challenges including data-related issues, such as the availability and quality of the data and data auditing, feature engineering, interpretability, and security issues. Being a key aspect of ML-based solutions, we also discuss some of the commonly used publicly available datasets in the domain. The paper also identifies key future research directions. We believe such detailed analysis will provide a baseline for future research in the domain. | 翻訳日:2021-05-04 05:25:01 公開日:2021-04-20 |
# インターベンショナル・アスペクトに基づく感性分析 Interventional Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2104.11681v1 ) ライセンス: Link先を確認 | Zhen Bi, Ningyu Zhang, Ganqiang Ye, Haiyang Yu, Xi Chen, Huajun Chen | (参考訳) 最近のニューラルベースアスペクトベースの感情分析アプローチは、ベンチマークデータセットで有望な改善を達成しているが、ターゲット外のアスペクトのような共同創設者に遭遇する際の堅牢性の低下を報告している。
本稿では,この問題に対処するための因果的考察を行う。
本稿では,これらの要因を解消するために,バックドア調整を適用した簡易かつ効果的な手法,すなわちセンチメント調整(SENTA)を提案する。
Aspect Robustness Test Set (ARTS) データセットの実験結果から,本手法は元のテストセットの精度を維持しつつ,性能の向上を図っている。 Recent neural-based aspect-based sentiment analysis approaches, though achieving promising improvement on benchmark datasets, have reported suffering from poor robustness when encountering confounder such as non-target aspects. In this paper, we take a causal view to addressing this issue. We propose a simple yet effective method, namely, Sentiment Adjustment (SENTA), by applying a backdoor adjustment to disentangle those confounding factors. Experimental results on the Aspect Robustness Test Set (ARTS) dataset demonstrate that our approach improves the performance while maintaining accuracy in the original test set. | 翻訳日:2021-05-03 19:50:51 公開日:2021-04-20 |
# (参考訳) Sync-Switch:分散ディープラーニングのためのハイブリッドパラメータ同期 Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep Learning ( http://arxiv.org/abs/2104.08364v2 ) ライセンス: CC0 1.0 | Shijian Li, Oren Mangoubi, Lijie Xu, Tian Guo | (参考訳) Stochastic Gradient Descent (SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
例えば、バルク同期並列(BSP)はしばしばより収束した精度を達成するが、対応するトレーニングスループットはストラグラーによって負の影響を受け得る。
対照的に、非同期並列(ASP)は高いスループットを持つことができるが、その収束と精度は安定した勾配の影響を受け得る。
同期プロトコルの性能を向上させるため、最近の研究は、ハードトゥーチューンハイパーパラメータに依存する新しいプロトコルの設計に重点を置いていることが多い。
本稿では、bspとaspの両方の利点、すなわち、収束精度を維持しながらトレーニング時間を短縮するハイブリッド同期方式を考案する。
広範な経験的プロファイリングに基づいて、同期プロトコル間の切り替え方法とタイミングを決定する適応ポリシーの集合を考案する。
当社のポリシーには、繰り返しジョブをターゲットとするオフライン版と、一時的なストラグラーを扱うオンライン版の両方が含まれています。
tensorflow上にsync-switchと呼ばれるプロトタイプシステムで提案するポリシを実装し,一般的なディープラーニングモデルとデータセットによるトレーニング性能の評価を行う。
実験の結果, Sync-Switchのスループットは最大5.13倍に向上し, BSPとの比較では類似の収束精度が得られた。
さらに、Sync-Switchは、ASP.NETでのトレーニングに比べてトレーニング時間のわずか1.23倍の収束精度を3.8%達成している。
さらに、aspでのトレーニングが分岐エラーにつながる場合、sync-switchは設定で使用できる。
Sync-Switchはこれらのすべての利点を非常に低いオーバーヘッドで実現している。例えば、フレームワークのオーバーヘッドはトレーニング時間の1.7%にも達する。 Stochastic Gradient Descent (SGD) has become the de facto way to train deep neural networks in distributed clusters. A critical factor in determining the training throughput and model accuracy is the choice of the parameter synchronization protocol. For example, while Bulk Synchronous Parallel (BSP) often achieves better converged accuracy, the corresponding training throughput can be negatively impacted by stragglers. In contrast, Asynchronous Parallel (ASP) can have higher throughput, but its convergence and accuracy can be impacted by stale gradients. To improve the performance of synchronization protocol, recent work often focuses on designing new protocols with a heavy reliance on hard-to-tune hyper-parameters. In this paper, we design a hybrid synchronization approach that exploits the benefits of both BSP and ASP, i.e., reducing training time while simultaneously maintaining the converged accuracy. Based on extensive empirical profiling, we devise a collection of adaptive policies that determine how and when to switch between synchronization protocols. Our policies include both offline ones that target recurring jobs and online ones for handling transient stragglers. We implement the proposed policies in a prototype system, called Sync-Switch, on top of TensorFlow, and evaluate the training performance with popular deep learning models and datasets. Our experiments show that Sync-Switch achieves up to 5.13X throughput speedup and similar converged accuracy when comparing to BSP. Further, we observe that Sync-Switch achieves 3.8% higher converged accuracy with just 1.23X the training time compared to training with ASP. Moreover, Sync-Switch can be used in settings when training with ASP leads to divergence errors. Sync-Switch achieves all of these benefits with very low overhead, e.g., the framework overhead can be as low as 1.7% of the total training time. | 翻訳日:2021-04-24 12:27:31 公開日:2021-04-20 |
# (参考訳) Fashion-Guided Adversarial Attack on Person Segmentation Fashion-Guided Adversarial Attack on Person Segmentation ( http://arxiv.org/abs/2104.08422v2 ) ライセンス: CC BY 4.0 | Marc Treu, Trung-Nghia Le, Huy H. Nguyen, Junichi Yamagishi, Isao Echizen | (参考訳) 本稿では,人間インスタンスセグメンテーションネットワーク,すなわち,個人セグメンテーションネットワークを攻撃対象とする,第1の逆例ベース手法を提案する。
本稿では,対象画像中の攻撃可能な領域を自動的に識別し,画質への影響を最小限に抑えるファッショナリアタック(fashionadv)フレームワークを提案する。
ファッションスタイルの画像から学習した敵対的なテクスチャを生成し、元の画像の衣服領域にオーバーレイすることで、画像内のすべての人が、人のセグメンテーションネットワークに見えないようにする。
合成された逆境のテクスチャは目立たず、人間の目に自然に見える。
提案手法の有効性は、ロバストネストレーニングと、ターゲットネットワークの複数のコンポーネントを共同攻撃することで向上する。
大規模な実験は、人間の目に自然に見えるだけでなく、サイバー空間における画像操作と保存に対する堅牢性の観点から、FashionAdvの有効性を実証した。
コードとデータはプロジェクトのページ https://github.com/nii-yamagishilab/fashion_adv で公開されています。 This paper presents the first adversarial example based method for attacking human instance segmentation networks, namely person segmentation networks in short, which are harder to fool than classification networks. We propose a novel Fashion-Guided Adversarial Attack (FashionAdv) framework to automatically identify attackable regions in the target image to minimize the effect on image quality. It generates adversarial textures learned from fashion style images and then overlays them on the clothing regions in the original image to make all persons in the image invisible to person segmentation networks. The synthesized adversarial textures are inconspicuous and appear natural to the human eye. The effectiveness of the proposed method is enhanced by robustness training and by jointly attacking multiple components of the target network. Extensive experiments demonstrated the effectiveness of FashionAdv in terms of robustness to image manipulations and storage in cyberspace as well as appearing natural to the human eye. The code and data are publicly released on our project page https://github.com/nii-yamagishilab/fashion_adv | 翻訳日:2021-04-24 07:42:05 公開日:2021-04-20 |
# (参考訳) 効果的なクロスドメインレコメンデーションのためのデュアルメトリック学習 Dual Metric Learning for Effective and Efficient Cross-Domain Recommendations ( http://arxiv.org/abs/2104.08490v2 ) ライセンス: CC BY 4.0 | Pan Li and Alexander Tuzhilin | (参考訳) クロスドメインレコメンデータシステムは、消費者が異なるアプリケーションで有用なアイテムを識別するのを助けるためにますます重要になっている。
しかし、既存のクロスドメインモデルは一般的に多くの重複するユーザーを必要とし、一部のアプリケーションでは入手が困難である。
また、クロスドメインレコメンデーションタスクの双対性構造を考慮せず、ユーザとアイテム間の双方向潜時関係を考慮せず、最適なレコメンデーション性能を達成できなかった。
そこで本稿では,学習プロセスが安定化するまで,二つのドメイン間で情報を反復的に伝達する,二重学習に基づく新しいドメイン間推薦モデルを提案する。
本研究では,複数のドメインにまたがるユーザ嗜好を抽出し,異なる潜在空間にまたがるユーザ間の関係を保ちながら,新しい潜在直交マッピングを開発する。
さらに、二重学習法とメトリック学習法を組み合わせることで、2つのドメイン間の共通ユーザオーバーラップを大幅に削減し、ドメイン間の推薦性能をより向上させることができる。
提案モデルを2つの大規模産業データセットと6つのドメインペアでテストし,最先端のベースラインを一貫して大幅に上回っていることを示す。
また,提案モデルは,オーバーラップユーザが多い最先端のベースラインに匹敵する満足度の高いレコメンデーション性能を得るために,非常に少ないオーバラップユーザでも機能することを示した。 Cross domain recommender systems have been increasingly valuable for helping consumers identify useful items in different applications. However, existing cross-domain models typically require large number of overlap users, which can be difficult to obtain in some applications. In addition, they did not consider the duality structure of cross-domain recommendation tasks, thus failing to take into account bidirectional latent relations between users and items and achieve optimal recommendation performance. To address these issues, in this paper we propose a novel cross-domain recommendation model based on dual learning that transfers information between two related domains in an iterative manner until the learning process stabilizes. We develop a novel latent orthogonal mapping to extract user preferences over multiple domains while preserving relations between users across different latent spaces. Furthermore, we combine the dual learning method with the metric learning approach, which allows us to significantly reduce the required common user overlap across the two domains and leads to even better cross-domain recommendation performance. We test the proposed model on two large-scale industrial datasets and six domain pairs, demonstrating that it consistently and significantly outperforms all the state-of-the-art baselines. We also show that the proposed model works well with very few overlap users to obtain satisfying recommendation performance comparable to the state-of-the-art baselines that use many overlap users. | 翻訳日:2021-04-24 04:42:18 公開日:2021-04-20 |
# (参考訳) 有料道路の歴史的データを用いた動的料金予測:I-66内ベルトウェイを事例として Dynamic Toll Prediction Using Historical Data on Toll Roads: Case Study of the I-66 Inner Beltway ( http://arxiv.org/abs/2104.10684v1 ) ライセンス: CC BY 4.0 | Sara Zahedian, Amir Nohekhan, Kaveh Farokhi Sadabadi | (参考訳) 動的料金体系の利用者に対して、料金の値上げと有料道路と代替ルートの走行時間差の予測を提供することで、旅行開始前に旅行決定を行うことができる。
本研究の目的は、ランダムフォレスト、多層パーセプトロン、長期記憶モデルのトレーニングおよびテストを通じて、トーリング価格の正確な予測を行い、それらを現在のトーリング価格を次のタイムステップまで延ばすという現在の状況と比較することである。
予測時間軸は、現在時刻より5分前の6分間の時間間隔を含む。
テストセット上でのモデルの予測性能は、すべてのモデルがベースモデルよりも著しく優れているが、ランダムフォレストがすべてのモデルを上回ることを示している。
例えば、トレーニングされたモデルでは、平均的な絶対エラー範囲は次の6分間で1.5ドルから2.5ドルから次の30分までですが、ベースモデルでも同じ尺度は2.5ドルから6ドルの範囲です。
有料道路沿いの走行時間差の予測と最短走行時間での代替経路の予測により,多層パーセプトロンはベースモデルよりも極端に優れた性能を示した。
しかし、比較的安定した移動時間差のため、現在の移動時間差は次の30分間の予測地平線に対して許容できる予測である。 Providing the users of a dynamic tolling system with predictions of tolling prices and the travel time difference between the toll road and the alternative routes enables them to make their travel decisions before starting their trip. This study aims to provide accurate predictions of tolling price through training and testing random forest, multilayer perceptron, and long short-term memory models and compare them with the current situation that the best prediction is extending the current toll to the next timesteps. The prediction time horizon includes five 6-minute time intervals ahead of the present time. The prediction performance of models over the testing set reveals that while all the models were significantly better than the base model, the random forest outperforms all models. For instance, while in the trained models, the mean absolute error range is from $1.5 to $2.5 for the next six minutes to the next 30 minutes, respectively, the same measure in the base model is in the range of $2.5 to $6. The prediction of travel time difference along the toll road and its alternative route with the shortest travel time revealed that the multilayer perceptron performs marginally better than the base model. However, due to a relatively stable travel time difference, the current travel time difference is an acceptable prediction for the next 30 minutes prediction horizon. | 翻訳日:2021-04-24 04:16:27 公開日:2021-04-20 |
# 力学のための説明可能な人工知能:構成モデルのための物理インフォーメーションニューラルネットワーク Explainable artificial intelligence for mechanics: physics-informing neural networks for constitutive models ( http://arxiv.org/abs/2104.10683v1 ) ライセンス: Link先を確認 | Arnd Koeppe and Franz Bamer and Michael Selzer and Britta Nestler and Bernd Markert | (参考訳) (人工)ニューラルネットワークは, モデルオーダー低減技術による計算の高速化や, 幅広い材料に対する普遍モデルとして, メカニクスにおいてますます普及している。
しかし、ニューラルネットワークの大きな欠点は、多くのパラメータが解釈と説明を困難にしていることである。
したがって、ニューラルネットワークはしばしばブラックボックスとしてラベル付けされ、その結果はしばしば人間の解釈を損なう。
メカニクスにおいて、物理インフォームドニューラルネットワークの新しい活発な分野は、機械的知識に基づいてディープニューラルネットワークを設計することによって、この欠点を緩和しようとする。
これを用いることで、機械的な仮定が説明できるため、より深く複雑なニューラルネットワークが実現可能になる。
しかし、ニューラルネットワークパラメータの内部推論と説明は謎のままである。
物理学を応用したアプローチと相補的に、機械データにトレーニングされたニューラルネットワークを後方から説明する物理計算アプローチへの第一歩を提案する。
この説明可能な人工知能アプローチは、ニューラルネットワークのブラックボックスとその高次元表現の解明を目的としている。
そこで主成分分析は、rnnの細胞状態における分散表現を分離し、既知の機能と基本機能の比較を可能にする。
この新しいアプローチは、最高のニューラルネットワークアーキテクチャとトレーニングパラメータを識別する、体系的なハイパーパラメータ検索戦略によって支持されている。
基本構成モデル (超弾性, エラスト塑性, 粘弾性) に関する3つの事例研究の結果, 提案手法は, 新しい材料を特徴付ける数値的および解析的閉形式解の同定に有効であることが示唆された。 (Artificial) neural networks have become increasingly popular in mechanics as means to accelerate computations with model order reduction techniques and as universal models for a wide variety of materials. However, the major disadvantage of neural networks remains: their numerous parameters are challenging to interpret and explain. Thus, neural networks are often labeled as black boxes, and their results often elude human interpretation. In mechanics, the new and active field of physics-informed neural networks attempts to mitigate this disadvantage by designing deep neural networks on the basis of mechanical knowledge. By using this a priori knowledge, deeper and more complex neural networks became feasible, since the mechanical assumptions could be explained. However, the internal reasoning and explanation of neural network parameters remain mysterious. Complementary to the physics-informed approach, we propose a first step towards a physics-informing approach, which explains neural networks trained on mechanical data a posteriori. This novel explainable artificial intelligence approach aims at elucidating the black box of neural networks and their high-dimensional representations. Therein, the principal component analysis decorrelates the distributed representations in cell states of RNNs and allows the comparison to known and fundamental functions. The novel approach is supported by a systematic hyperparameter search strategy that identifies the best neural network architectures and training parameters. The findings of three case studies on fundamental constitutive models (hyperelasticity, elastoplasticity, and viscoelasticity) imply that the proposed strategy can help identify numerical and analytical closed-form solutions to characterize new materials. | 翻訳日:2021-04-23 14:06:29 公開日:2021-04-20 |
# (参考訳) GANによる皮膚病変解析のためのデータ拡張と匿名化:批判的レビュー GAN-Based Data Augmentation and Anonymization for Skin-Lesion Analysis: A Critical Review ( http://arxiv.org/abs/2104.10603v1 ) ライセンス: CC BY 4.0 | Alceu Bissoto, Eduardo Valle, Sandra Avila | (参考訳) 高品質な公開データセットが利用可能になっているにもかかわらず、トレーニングサンプルの欠如は、皮膚病変解析におけるディープラーニングの主な課題の1つである。
GAN(Generative Adversarial Networks)は、実際の画像と区別できないサンプルを合成することで、問題を緩和するための魅力的な代替手段として現れる。
それにもかかわらず、GANベースのデータ拡張による皮膚病変診断のための慎重に設計された実験は、配布外テストセットでのみ好ましい結果を示す。
GANベースのデータ匿名化$-$では、合成画像が実際の画像を置き換える$-$は、配布外テストセットにのみ表示される。
ganの使用に伴うコストとリスクのため、これらの結果は医療への応用に注意を喚起する。 Despite the growing availability of high-quality public datasets, the lack of training samples is still one of the main challenges of deep-learning for skin lesion analysis. Generative Adversarial Networks (GANs) appear as an enticing alternative to alleviate the issue, by synthesizing samples indistinguishable from real images, with a plethora of works employing them for medical applications. Nevertheless, carefully designed experiments for skin-lesion diagnosis with GAN-based data augmentation show favorable results only on out-of-distribution test sets. For GAN-based data anonymization $-$ where the synthetic images replace the real ones $-$ favorable results also only appear for out-of-distribution test sets. Because of the costs and risks associated with GAN usage, those results suggest caution in their adoption for medical applications. | 翻訳日:2021-04-23 03:26:18 公開日:2021-04-20 |
# (参考訳) 手話認識におけるポーズ推定の即時適用性の評価 Evaluating the Immediate Applicability of Pose Estimation for Sign Language Recognition ( http://arxiv.org/abs/2104.10166v1 ) ライセンス: CC BY 4.0 | Amit Moryossef, Ioannis Tsochantaridis, Joe Dinn, Necati Cihan Camg\"oz, Richard Bowden, Tao Jiang, Annette Rios, Mathias M\"uller, Sarah Ebling | (参考訳) 符号付き言語は、手、顔、体の動きによって生成される視覚言語である。
本稿では,説明可能であり,人に依存しない,プライバシーを保護し,低次元表現であるスケルトンポーズに基づく表現を評価する。
基本的に、骨格表現は個人の外見と背景を一般化し、動きの認識に焦点を合わせることができる。
しかし、骨格表現によってどれだけ情報が失われるのか?
我々は2つの最先端ポーズ推定システムを用いて2つの独立した研究を行う。
ポーズ推定システムの手話認識への適用性について,認識モデルの故障事例を評価することにより検討した。
重要なことに、手話認識における骨格ポーズ推定アプローチの現在の制限を特徴付けることができる。 Signed languages are visual languages produced by the movement of the hands, face, and body. In this paper, we evaluate representations based on skeleton poses, as these are explainable, person-independent, privacy-preserving, low-dimensional representations. Basically, skeletal representations generalize over an individual's appearance and background, allowing us to focus on the recognition of motion. But how much information is lost by the skeletal representation? We perform two independent studies using two state-of-the-art pose estimation systems. We analyze the applicability of the pose estimation systems to sign language recognition by evaluating the failure cases of the recognition models. Importantly, this allows us to characterize the current limitations of skeletal pose estimation approaches in sign language recognition. | 翻訳日:2021-04-23 03:11:14 公開日:2021-04-20 |
# (参考訳) シフト不変データのデコード:バンド励起走査プローブ顕微鏡への応用 Decoding the shift-invariant data: applications for band-excitation scanning probe microscopy ( http://arxiv.org/abs/2104.10207v1 ) ライセンス: CC BY 4.0 | Yongtao Liu, Rama K. Vasudevan, Kyle Kelley, Dohyung Kim, Yogesh Sharma, Mahshid Ahmadi, Sergei V. Kalinin, and Maxim Ziatdinov | (参考訳) シフト不変変分オートエンコーダ (shift-VAE) は、パラメータ軸に沿ったシフトが存在する場合のスペクトルデータを解析し、他の潜伏変数から物理的に関連するシフトを分離するための教師なし手法として開発された。
合成データセットを用いて,シフト-VAE潜伏変数が基底真理パラメータと密接に一致することを示す。
シフトVAEは、ピーク形状パラメータから共振周波数シフトを無教師で遠ざけ、バンド励起圧電力顕微鏡(BE-PFM)データの解析に向けて拡張される。
画像データおよび分光データのモデルフリーな次元性低減に向けたこのアプローチの拡張がさらに実証されている。
このアプローチは普遍的であり、X線回折、フォトルミネッセンス、ラマンスペクトル、その他のデータセットの解析にも拡張できる。 A shift-invariant variational autoencoder (shift-VAE) is developed as an unsupervised method for the analysis of spectral data in the presence of shifts along the parameter axis, disentangling the physically-relevant shifts from other latent variables. Using synthetic data sets, we show that the shift-VAE latent variables closely match the ground truth parameters. The shift VAE is extended towards the analysis of band-excitation piezoresponse force microscopy (BE-PFM) data, disentangling the resonance frequency shifts from the peak shape parameters in a model-free unsupervised manner. The extensions of this approach towards denoising of data and model-free dimensionality reduction in imaging and spectroscopic data are further demonstrated. This approach is universal and can also be extended to analysis of X-ray diffraction, photoluminescence, Raman spectra, and other data sets. | 翻訳日:2021-04-23 03:01:35 公開日:2021-04-20 |
# (参考訳) 個人が言語を変える方法 How individuals change language ( http://arxiv.org/abs/2104.10210v1 ) ライセンス: CC BY 4.0 | Richard A Blythe and William Croft | (参考訳) 言語は、個々の話者間の相互作用にもかかわらず、人口レベルで時間とともに出現し、変化する。
しかし、単一の話者の言語革新が言語全体の変化をいかに生み出すかを直接観察することは困難であり、多くの理論的提案が存在する。
多様な個人レベルの言語行動を含む非常に一般的な数学的モデルを導入し、それらから生じる人口レベルの変化を統計的に予測する。
このモデルにより、個人が言語を学習・使用する過程で異なる仮定の下で、複数の言語における定性的・不定性的な記事の実証的な変化の可能性を比較することができる。
幼児期の言語習得における誤りに強く訴える言語変化の報告は、歴史的データによって非常に弱く支持されているのに対し、話者が生涯にわたって段階的に変化できるものは、特にソーシャルネットワークの効果と組み合わせれば、より妥当である。 Languages emerge and change over time at the population level though interactions between individual speakers. It is, however, hard to directly observe how a single speaker's linguistic innovation precipitates a population-wide change in the language, and many theoretical proposals exist. We introduce a very general mathematical model that encompasses a wide variety of individual-level linguistic behaviours and provides statistical predictions for the population-level changes that result from them. This model allows us to compare the likelihood of empirically-attested changes in definite and indefinite articles in multiple languages under different assumptions on the way in which individuals learn and use language. We find that accounts of language change that appeal primarily to errors in childhood language acquisition are very weakly supported by the historical data, whereas those that allow speakers to change incrementally across the lifespan are more plausible, particularly when combined with social network effects. | 翻訳日:2021-04-23 02:49:03 公開日:2021-04-20 |
# (参考訳) 階層的談話表現がエンティティ参照解決性能に及ぼす影響の評価 Evaluating the Impact of a Hierarchical Discourse Representation on Entity Coreference Resolution Performance ( http://arxiv.org/abs/2104.10215v1 ) ライセンス: CC BY 4.0 | Sopan Khosla, James Fiacco, Carolyn Rose | (参考訳) エンティティコリファレンスレゾリューション(cr)に関する最近の研究は、埋め込みや比較的単純なタスク関連機能に適用されるディープラーニングの最近のトレンドに従っている。
SOTAモデルは、談話構造の階層的表現を使用しない。
本研究では,ニューラルアプローチで自動構築された談話構文解析木を活用し,2つのベンチマークエンティティのコリファレンス解決データセットにおいて有意な改善を示す。
我々は、言及の種類によって影響がどう変わるかを探る。 Recent work on entity coreference resolution (CR) follows current trends in Deep Learning applied to embeddings and relatively simple task-related features. SOTA models do not make use of hierarchical representations of discourse structure. In this work, we leverage automatically constructed discourse parse trees within a neural approach and demonstrate a significant improvement on two benchmark entity coreference-resolution datasets. We explore how the impact varies depending upon the type of mention. | 翻訳日:2021-04-23 02:48:05 公開日:2021-04-20 |
# (参考訳) 深層強化学習における検証制御器のスケーラブルな合成 Scalable Synthesis of Verified Controllers in Deep Reinforcement Learning ( http://arxiv.org/abs/2104.10219v1 ) ライセンス: CC BY 4.0 | Zikang Xiong and Suresh Jagannathan | (参考訳) 近年,安全クリティカルシステムを管理する学習支援コントローラ(LEC)の検証技術開発への関心が高まっている。
このようなコントローラの動作を管理する神経ポリシーの不透明さと解釈性の欠如を考えると、既存の多くのアプローチはシールド(LECが所望の安全条件に反するアクションを放出しないことを保証する動的監視と修復機構)を使用して安全性を強制する。
しかし、これらの手法は、問題次元と客観的複雑さが増加するにつれて検証コストが増加するため、スケーラビリティに重大な制限があることが示されている。
本稿では,問題領域が数百次元を含む場合や,確率的摂動,生活性考慮,その他の複雑な非機能的特性を対象とする場合にも,高品質な安全シールドを合成できる新しい自動検証パイプラインを提案する。
我々の重要な洞察は、安全検証をニューラルネットワークから分離することであり、安全に焦点をあてるだけでなく、ニューラルネットワークのトレーニングを制約するために、事前に計算済みの安全シールドを使用することである。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。 There has been significant recent interest in devising verification techniques for learning-enabled controllers (LECs) that manage safety-critical systems. Given the opacity and lack of interpretability of the neural policies that govern the behavior of such controllers, many existing approaches enforce safety properties through the use of shields, a dynamic monitoring and repair mechanism that ensures a LEC does not emit actions that would violate desired safety conditions. These methods, however, have shown to have significant scalability limitations because verification costs grow as problem dimensionality and objective complexity increase. In this paper, we propose a new automated verification pipeline capable of synthesizing high-quality safety shields even when the problem domain involves hundreds of dimensions, or when the desired objective involves stochastic perturbations, liveness considerations, and other complex non-functional properties. Our key insight involves separating safety verification from neural controller, using pre-computed verified safety shields to constrain neural controller training which does not only focus on safety. Experimental results over a range of realistic high-dimensional deep RL benchmarks demonstrate the effectiveness of our approach. | 翻訳日:2021-04-23 02:40:12 公開日:2021-04-20 |
# (参考訳) 非IIDデータによる半教師あり学習 More Than Meets The Eye: Semi-supervised Learning Under Non-IID Data ( http://arxiv.org/abs/2104.10223v1 ) ライセンス: CC BY 4.0 | Saul Calderon-Ramirez and Luis Oala | (参考訳) 半教師付きディープラーニング(SSDL)における一般的なヒューリスティックは、ラベル付きデータとのセマンティックな類似性の概念に基づいて、非ラベル付きデータを選択することである。
例えば、数字のラベル付き画像は、例えば車のラベル付き画像ではなく、数字のラベル付き画像と組み合わせるべきである。
私たちはこのプラクティスをセマンティックデータセットマッチングと呼んでいる。
本研究では,セマンティックデータセットマッチングの限界を示す。
また,最先端のSSDLアルゴリズムの性能を劣化させることも可能であることを示した。
本研究では,ラベル付きデータセットとラベルなしデータセットの分布ミスマッチの程度が異なるssdlアルゴリズムをストレステストするために,非iid-ssdlと呼ばれる総合的なシミュレーションサンドボックスを提案する。
さらに,一般分類器の特徴空間における単純密度に基づく異種性尺度は,ssdl訓練前にラベルなしデータを選択するための有望で信頼性の高い量的マッチング基準を提供することを示す。 A common heuristic in semi-supervised deep learning (SSDL) is to select unlabelled data based on a notion of semantic similarity to the labelled data. For example, labelled images of numbers should be paired with unlabelled images of numbers instead of, say, unlabelled images of cars. We refer to this practice as semantic data set matching. In this work, we demonstrate the limits of semantic data set matching. We show that it can sometimes even degrade the performance for a state of the art SSDL algorithm. We present and make available a comprehensive simulation sandbox, called non-IID-SSDL, for stress testing an SSDL algorithm under different degrees of distribution mismatch between the labelled and unlabelled data sets. In addition, we demonstrate that simple density based dissimilarity measures in the feature space of a generic classifier offer a promising and more reliable quantitative matching criterion to select unlabelled data before SSDL training. | 翻訳日:2021-04-23 02:12:07 公開日:2021-04-20 |
# (参考訳) 一貫性概念抽象化によるイベント可塑性のモデル化 Modeling Event Plausibility with Consistent Conceptual Abstraction ( http://arxiv.org/abs/2104.10247v1 ) ライセンス: CC BY 4.0 | Ian Porada, Kaheer Suleman, Adam Trischler, and Jackie Chi Kit Cheung | (参考訳) 自然言語を理解するには常識が必要であるが、その1つの側面は出来事の妥当性を識別する能力である。
分散モデル — 最近ではトレーニング済みのTransformer言語モデル — は、イベントの可視性モデリングの改善を実証しているが、そのパフォーマンスは依然として人間に劣っている。
本研究は, トランスフォーマティブ・プルーサビリティモデルが語彙階層の概念クラス間で著しく矛盾していることを示し, 例えば「呼吸する人」は「呼吸する人」は「呼吸する歯医者」はそうではないと推測する。
我々は,モデルに語彙的知識をソフトに注入しても,この不整合が持続することを見いだし,モデルの一貫性を強制する簡単なポストホックな手法を提案する。 Understanding natural language requires common sense, one aspect of which is the ability to discern the plausibility of events. While distributional models -- most recently pre-trained, Transformer language models -- have demonstrated improvements in modeling event plausibility, their performance still falls short of humans'. In this work, we show that Transformer-based plausibility models are markedly inconsistent across the conceptual classes of a lexical hierarchy, inferring that "a person breathing" is plausible while "a dentist breathing" is not, for example. We find this inconsistency persists even when models are softly injected with lexical knowledge, and we present a simple post-hoc method of forcing model consistency that improves correlation with human plausibility judgements. | 翻訳日:2021-04-23 01:59:06 公開日:2021-04-20 |
# (参考訳) 逆学習を用いたヒト脳の階層的機能結合成分の抽出 Extraction of Hierarchical Functional Connectivity Components in human brain using Adversarial Learning ( http://arxiv.org/abs/2104.10255v1 ) ライセンス: CC BY 4.0 | Dushyant Sahoo and Christos Davatzikos | (参考訳) RSfMRIデータから脳の機能的接続パターンを反映したスパース階層成分の推定は、脳の機能的組織に対する理解に寄与し、疾患のバイオマーカーにつながる可能性がある。
しかし、走査間変異やその他の要因は、機能的に解釈可能な脳ネットワーク、特に再現可能な生体マーカーの堅牢で再現可能な推定に挑戦する。
さらに、脳は階層的に組織されていると信じられているため、単一スケールの分解はこの階層を欠いている。
本稿では, 対人学習における現在の進歩を利用して, RSfMRIデータを用いて人間の脳の解釈可能な階層パターンを推定することを目的としている。
推定問題を最小化問題として記述し,交互更新を用いて解く。
シミュレーションと実世界のデータセットに関する広範な実験は、他のよく知られた方法と比較して高い再現性を示している。 The estimation of sparse hierarchical components reflecting patterns of the brain's functional connectivity from rsfMRI data can contribute to our understanding of the brain's functional organization, and can lead to biomarkers of diseases. However, inter-scanner variations and other confounding factors pose a challenge to the robust and reproducible estimation of functionally-interpretable brain networks, and especially to reproducible biomarkers. Moreover, the brain is believed to be organized hierarchically, and hence single-scale decompositions miss this hierarchy. The paper aims to use current advancements in adversarial learning to estimate interpretable hierarchical patterns in the human brain using rsfMRI data, which are robust to "adversarial effects" such as inter-scanner variations. We write the estimation problem as a minimization problem and solve it using alternating updates. Extensive experiments on simulation and a real-world dataset show high reproducibility of the components compared to other well-known methods. | 翻訳日:2021-04-23 01:42:08 公開日:2021-04-20 |
# (参考訳) オフライン強化学習による生徒の侵入最小化支援策の発見 Discovering an Aid Policy to Minimize Student Evasion Using Offline Reinforcement Learning ( http://arxiv.org/abs/2104.10258v1 ) ライセンス: CC BY 4.0 | Leandro M. de Lima, Renato A. Krohling | (参考訳) 第三次教育における高いドロップアウト率は、期待と財政的無駄のフラストレーションを引き起こす効率の欠如を露呈する。
リスクのある生徒を予測するだけでは、学生の退学は避けられない。
通常、適切な援助行動は各学生の適切な時間に発見され、適用されなければならない。
この逐次的意思決定問題に対処するため,オフライン強化学習を用いた学生の援助行動選択のための意思決定支援手法を提案し,学生の退学を効果的に回避する。
さらに,2つの異なるクラスタリング手法を適用した学生の状態空間の離散化を評価する。
実学生のログデータを用いた実験では,非政治評価により,ログ政策の約1.0倍から1.5倍の累積報酬を得られることが判明した。
したがって、意思決定者が適切な援助行動を適用するのを助け、おそらく学生の退学を減らすことができる。 High dropout rates in tertiary education expose a lack of efficiency that causes frustration of expectations and financial waste. Predicting students at risk is not enough to avoid student dropout. Usually, an appropriate aid action must be discovered and applied in the proper time for each student. To tackle this sequential decision-making problem, we propose a decision support method to the selection of aid actions for students using offline reinforcement learning to support decision-makers effectively avoid student dropout. Additionally, a discretization of student's state space applying two different clustering methods is evaluated. Our experiments using logged data of real students shows, through off-policy evaluation, that the method should achieve roughly 1.0 to 1.5 times as much cumulative reward as the logged policy. So, it is feasible to help decision-makers apply appropriate aid actions and, possibly, reduce student dropout. | 翻訳日:2021-04-23 01:31:38 公開日:2021-04-20 |
# (参考訳) \textit{statecensuslaws.org}: 法的談話学習を利用・注釈するwebアプリケーション \textit{StateCensusLaws.org}: A Web Application for Consuming and Annotating Legal Discourse Learning ( http://arxiv.org/abs/2104.10263v1 ) ライセンス: CC BY 4.0 | Alexander Spangher and Jonathan May | (参考訳) 本研究では,法文中の言論セグメントを解析・ラベル付けするために訓練されたNLPモデルの出力をハイライトするWebアプリケーションを作成する。
当社の制度は主にジャーナリストや法律通訳を念頭に構築されており、米国国勢調査人口数を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てている。
当社のシステムは、米国国勢調査に関連する6000の州レベルの法律を収集したコーパスを公開し、州法ウェブサイトをクロールするために構築した25のスクレーパーを使って公開します。
また、任意の入力テキスト文書にスパンタグや関係タグを付け、任意のWebページに埋め込むことができる新しいフレキシブルなアノテーションフレームワークを構築します。
このフレームワークにより、ジャーナリストや研究者は、新しいデータを修正してタグ付けすることで、アノテーションデータベースに追加することができます。 In this work, we create a web application to highlight the output of NLP models trained to parse and label discourse segments in law text. Our system is built primarily with journalists and legal interpreters in mind, and we focus on state-level law that uses U.S. Census population numbers to allocate resources and organize government. Our system exposes a corpus we collect of 6,000 state-level laws that pertain to the U.S. census, using 25 scrapers we built to crawl state law websites, which we release. We also build a novel, flexible annotation framework that can handle span-tagging and relation tagging on an arbitrary input text document and be embedded simply into any webpage. This framework allows journalists and researchers to add to our annotation database by correcting and tagging new data. | 翻訳日:2021-04-23 01:13:10 公開日:2021-04-20 |
# (参考訳) TWIST-GAN:時空間超解像のためのウェーブレット変換と転送GAN TWIST-GAN: Towards Wavelet Transform and Transferred GAN for Spatio-Temporal Single Image Super Resolution ( http://arxiv.org/abs/2104.10268v1 ) ライセンス: CC BY 4.0 | Fayaz Ali Dharejo, Farah Deeba, Yuanchun Zhou, Bhagwan Das, Munsif Ali Jatoi, Muhammad Zawish, Yi Du, and Xuezhi Wang | (参考訳) シングルイメージ・スーパーレゾリューション(sisr)は、低空間解像度の画像から微細な空間解像度を持つ高解像度画像を生成する。
近年,GAN(Deep Learning and Generative Adversarial Network)は,単一画像超解像(SISR)の課題を突破した。
しかし、生成された画像は、テクスチャの特徴表現や高周波情報がないなど、いまだに望ましくないアーティファクトに苦しんでいる。
本稿では,様々な周波数帯域(TWIST-GAN)上のGAN(Generative Adversarialnetworks)と組み合わせてHRイメージを再構成する,周波数領域に基づく時空間リモートセンシング技術を提案する。
我々は,Wavelet Transform (WT) 特性と変換対向ネットワークを取り入れた新しい手法を導入した。
LR画像はWTを用いて様々な周波数帯域に分割するが、転送生成逆ネットワークは提案アーキテクチャにより高周波成分を予測する。
最後に、ウェーブレットの逆転送は超高解像度で再構成された画像を生成する。
モデルはまず外部のDIV2 Kdatasetでトレーニングされ、UC Merceed LandsatリモートセンシングデータセットとSet14で256x256の画像サイズで検証される。
その後、転送されたGANを用いて時空間リモートセンシング画像を順番に処理し、計算コストの差を最小化し、テクスチャ情報を改善する。
調査結果は、現在の最先端のアプローチと比較され、定性的に比較される。
さらに、トレーニング中にGPUメモリの約43%を節約し、バッチ正規化レイヤを排除して、単純化したバージョンの実行を加速しました。 Single Image Super-resolution (SISR) produces high-resolution images with fine spatial resolutions from aremotely sensed image with low spatial resolution. Recently, deep learning and generative adversarial networks(GANs) have made breakthroughs for the challenging task of single image super-resolution (SISR). However, thegenerated image still suffers from undesirable artifacts such as, the absence of texture-feature representationand high-frequency information. We propose a frequency domain-based spatio-temporal remote sensingsingle image super-resolution technique to reconstruct the HR image combined with generative adversarialnetworks (GANs) on various frequency bands (TWIST-GAN). We have introduced a new method incorporatingWavelet Transform (WT) characteristics and transferred generative adversarial network. The LR image hasbeen split into various frequency bands by using the WT, whereas, the transfer generative adversarial networkpredicts high-frequency components via a proposed architecture. Finally, the inverse transfer of waveletsproduces a reconstructed image with super-resolution. The model is first trained on an external DIV2 Kdataset and validated with the UC Merceed Landsat remote sensing dataset and Set14 with each image sizeof 256x256. Following that, transferred GANs are used to process spatio-temporal remote sensing images inorder to minimize computation cost differences and improve texture information. The findings are comparedqualitatively and qualitatively with the current state-of-art approaches. In addition, we saved about 43% of theGPU memory during training and accelerated the execution of our simplified version by eliminating batchnormalization layers. | 翻訳日:2021-04-23 01:02:30 公開日:2021-04-20 |
# (参考訳) 連立3次元顔認識と表現中性化のための不整形顔識別表現 Disentangled Face Identity Representations for joint 3D Face Recognition and Expression Neutralisation ( http://arxiv.org/abs/2104.10273v1 ) ライセンス: CC BY 4.0 | Anis Kacem, Kseniya Cherenkova, Djamila Aouada | (参考訳) 本稿では,表現型3d顔から顔識別表現を分離する深層学習に基づく新しいアプローチを提案する。
提案手法は,3次元顔が与えられた場合,不整合性表現を抽出するだけでなく,その同一性を予測しながら中性表現を伴う現実的な3次元顔を生成する。
提案するネットワークは,(1)3次元面を潜在表現に変換するグラフ畳み込みオートエンコーダ(gca),(2)表現面の潜在表現を中性面の表現に変換する生成逆ネットワーク(gan),(3)中性化された潜在表現を活用した識別サブネットワーク,の3つの構成要素からなる。
ネットワーク全体がエンドツーエンドでトレーニングされる。
提案手法の有効性を示す3つの公開データセットで実験を行った。 In this paper, we propose a new deep learning-based approach for disentangling face identity representations from expressive 3D faces. Given a 3D face, our approach not only extracts a disentangled identity representation but also generates a realistic 3D face with a neutral expression while predicting its identity. The proposed network consists of three components; (1) a Graph Convolutional Autoencoder (GCA) to encode the 3D faces into latent representations, (2) a Generative Adversarial Network (GAN) that translates the latent representations of expressive faces into those of neutral faces, (3) and an identity recognition sub-network taking advantage of the neutralized latent representations for 3D face recognition. The whole network is trained in an end-to-end manner. Experiments are conducted on three publicly available datasets showing the effectiveness of the proposed approach. | 翻訳日:2021-04-23 00:46:23 公開日:2021-04-20 |
# 変分推論による結果駆動強化学習 Outcome-Driven Reinforcement Learning via Variational Inference ( http://arxiv.org/abs/2104.10190v1 ) ライセンス: Link先を確認 | Tim G. J. Rudner and Vitchyr H. Pong and Rowan McAllister and Yarin Gal and Sergey Levine | (参考訳) 強化学習アルゴリズムは最適なポリシーを自動で取得するが、そのような手法の実践的な応用には、タスクを定義するだけでなく、それを達成するのに十分な形状の報酬関数を手動で設計するなど、多くの設計上の決定が必要である。
本稿では,強化学習に関する新たな視点について論じ,報酬を最大化するよりも,望ましい成果を達成するための行動を推測する問題として再キャストする。
結果指向推論の課題を解決するため,環境相互作用から直接学習可能な,良好な形状の報酬関数を導出可能な,新しい変分推論の定式化を確立した。
また, 標準ベルマンバックアップ演算子を連想させる確率的ベルマンバックアップ演算子を考案し, 目標指向タスクを解くために, オフ政治アルゴリズムの開発に利用した。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。 While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we discuss a new perspective on reinforcement learning, recasting it as the problem of inferring actions that achieve desired outcomes, rather than a problem of maximizing rewards. To solve the resulting outcome-directed inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator reminiscent of the standard Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to design reward functions and leads to effective goal-directed behaviors. | 翻訳日:2021-04-22 14:39:57 公開日:2021-04-20 |
# Bayesian Optimization is Superior to Random Search for Machine Learning Hyperparameter Tuning: Analysis of the Black-Box Optimization Challenge 2020 Bayesian Optimization is Superior to Random Search for Machine Learning Hyperparameter Tuning: Analysis of the Black-Box Optimization Challenge 2020 ( http://arxiv.org/abs/2104.10201v1 ) ライセンス: Link先を確認 | Ryan Turner, David Eriksson, Michael McCourt, Juha Kiili, Eero Laaksonen, Zhen Xu, Isabelle Guyon | (参考訳) 本稿では,2020年7月から10月にかけて開催されたneurips 2020 における black-box optimization (bbo) challenge の結果と知見を紹介する。
この課題は、機械学習モデルのハイパーパラメータをチューニングするためのデリバティブフリーオプティマイザの評価の重要性を強調した。
これは機械学習を重視した最初のブラックボックス最適化チャレンジだった。
これは、実際のデータセット上での標準機械学習モデルのチューニング(バリデーションセット)パフォーマンスに基づいている。
この競争は、ブラックボックス最適化(ベイズ最適化など)が、ほぼすべての機械学習プロジェクトおよび機械学習以外の多くのアプリケーションにおいてハイパーパラメータチューニングに関係しているため、広く影響している。
最終リーダーボードは、人間の介入なしにオプティマイザが実行される(隠れた)目的関数の最適化性能を用いて決定された。
ベースラインは、いくつかのオープンソースのブラックボックス最適化パッケージのデフォルト設定とランダム検索を使用して設定された。 This paper presents the results and insights from the black-box optimization (BBO) challenge at NeurIPS 2020 which ran from July-October, 2020. The challenge emphasized the importance of evaluating derivative-free optimizers for tuning the hyperparameters of machine learning models. This was the first black-box optimization challenge with a machine learning emphasis. It was based on tuning (validation set) performance of standard machine learning models on real datasets. This competition has widespread impact as black-box optimization (e.g., Bayesian optimization) is relevant for hyperparameter tuning in almost every machine learning project as well as many applications outside of machine learning. The final leaderboard was determined using the optimization performance on held-out (hidden) objective functions, where the optimizers ran without human intervention. Baselines were set using the default settings of several open-source black-box optimization packages as well as random search. | 翻訳日:2021-04-22 14:39:40 公開日:2021-04-20 |
# Identify, Align, and Integrate: 知識グラフと常識推論タスクのマッチング Identify, Align, and Integrate: Matching Knowledge Graphs to Commonsense Reasoning Tasks ( http://arxiv.org/abs/2104.10193v1 ) ライセンス: Link先を確認 | Lisa Bauer, Mohit Bansal | (参考訳) 外部知識を常識推論タスクに統合することは、これらのタスクにおける知識のギャップを解消する進歩を示す。
知識統合がピーク性能を得るためには、与えられたタスクの目的に整合した知識グラフ(KG)を選択することが重要である。
提案手法は,KG-to-task マッチング(KG-to-task match)と呼ばれるタスクの推論のギャップを正しく識別し,正確に埋める手法である。
このkg-to-taskマッチングを,知識-タスク識別,知識-タスクアライメント,知識-タスク統合という3つのフェーズで示す。
また, 変圧器を用いたkg-to-taskモデルをcommonsenseプローブを用いて解析し, kg統合前後のモデルにおける知識の獲得度を測定した。
ATOMIC(Sap et al., 2019a),ConceptNet(Speer et al., 2017), WikiHow(Koupaee and Wang, 2018), MCScript2.0(Ostermann et al., 2019)の3種類のKGデータセットを用いて,SocialIQA(Sap et al., 2019b), Physical IQA(PIQA)(Bisk et al., 2020), MCScript2.0(Ostermann et al., 2019)のKGマッチについて検討を行った。
我々の方法では、イベント推論に焦点を当てたKGであるATOMICが、SIQAとMCScript2.0にとってベストマッチであり、分類学的ConceptNetとWikiHowベースのKGが、3つの分析フェーズでPIQAのベストマッチであることを示すことができる。
我々はその方法と知見を人的評価で検証する。 Integrating external knowledge into commonsense reasoning tasks has shown progress in resolving some, but not all, knowledge gaps in these tasks. For knowledge integration to yield peak performance, it is critical to select a knowledge graph (KG) that is well-aligned with the given task's objective. We present an approach to assess how well a candidate KG can correctly identify and accurately fill in gaps of reasoning for a task, which we call KG-to-task match. We show this KG-to-task match in 3 phases: knowledge-task identification, knowledge-task alignment, and knowledge-task integration. We also analyze our transformer-based KG-to-task models via commonsense probes to measure how much knowledge is captured in these models before and after KG integration. Empirically, we investigate KG matches for the SocialIQA (SIQA) (Sap et al., 2019b), Physical IQA (PIQA) (Bisk et al., 2020), and MCScript2.0 (Ostermann et al., 2019) datasets with 3 diverse KGs: ATOMIC (Sap et al., 2019a), ConceptNet (Speer et al., 2017), and an automatically constructed instructional KG based on WikiHow (Koupaee and Wang, 2018). With our methods we are able to demonstrate that ATOMIC, an event-inference focused KG, is the best match for SIQA and MCScript2.0, and that the taxonomic ConceptNet and WikiHow-based KGs are the best matches for PIQA across all 3 analysis phases. We verify our methods and findings with human evaluation. | 翻訳日:2021-04-22 14:38:31 公開日:2021-04-20 |
# new aficionados and doppelg\"angers: a referenceential task for semantic representations of individual entities Novel Aficionados and Doppelg\"angers: a referential task for semantic representations of individual entities ( http://arxiv.org/abs/2104.10270v1 ) ライセンス: Link先を確認 | Andrea Bruera and Aur\'elie Herbelot | (参考訳) 人間の意味認識では、固有名(個々の実体を指す名前)は一般的な名詞よりも学習し、取り出すのが難しい。
機械学習アルゴリズムもそうであるように思えるが、この行動の言語的および分布的な理由は、これまで深く研究されていない。
この問題に対処するため, 固有名と共通名詞のセマンティックな区別は, 分散セマンティクスの本来のタスク, Doppelg\"anger test, 広範囲のモデル, および新しいデータセットである Novel Aficionados データセットを用いて, 言語分布に反映されていることを示す。
その結果, 個々の個体の分布表現は, 共通名詞と区別しにくく, 人間の認知を反映させる結果が得られた。 In human semantic cognition, proper names (names which refer to individual entities) are harder to learn and retrieve than common nouns. This seems to be the case for machine learning algorithms too, but the linguistic and distributional reasons for this behaviour have not been investigated in depth so far. To tackle this issue, we show that the semantic distinction between proper names and common nouns is reflected in their linguistic distributions by employing an original task for distributional semantics, the Doppelg\"anger test, an extensive set of models, and a new dataset, the Novel Aficionados dataset. The results indicate that the distributional representations of different individual entities are less clearly distinguishable from each other than those of common nouns, an outcome which intriguingly mirrors human cognition. | 翻訳日:2021-04-22 14:37:52 公開日:2021-04-20 |
# GraghVQA: グラフベースのビジュアル質問回答のための言語ガイド型グラフニューラルネットワーク GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual Question Answering ( http://arxiv.org/abs/2104.10283v1 ) ライセンス: Link先を確認 | Weixin Liang, Yanhao Jiang and Zixuan Liu | (参考訳) イメージはオブジェクトや属性の集まり以上のものです -- 相互接続されたオブジェクト間の関係のwebを表しています。
scene graphは画像の構造化グラフィカル表現として新しいモダリティとして登場した。
scene graphはオブジェクトをエッジとしてペアリレーションを介して接続されたノードとしてエンコードする。
シーングラフ上での質問応答を支援するために,グラフノード間のメッセージパッシングの繰り返しとして自然言語質問を翻訳・実行する言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。
GraphVQAフレームワークの設計領域について検討し、異なる設計選択のトレードオフについて議論する。
GQAデータセットに関する我々の実験は、GraphVQAが最先端の精度を大きなマージン(88.43%対94.78%)で上回っていることを示している。 Images are more than a collection of objects or attributes -- they represent a web of relationships among interconnected objects. Scene Graph has emerged as a new modality as a structured graphical representation of images. Scene Graph encodes objects as nodes connected via pairwise relations as edges. To support question answering on scene graphs, we propose GraphVQA, a language-guided graph neural network framework that translates and executes a natural language question as multiple iterations of message passing among graph nodes. We explore the design space of GraphVQA framework, and discuss the trade-off of different design choices. Our experiments on GQA dataset show that GraphVQA outperforms the state-of-the-art accuracy by a large margin (88.43% vs. 94.78%). | 翻訳日:2021-04-22 14:36:44 公開日:2021-04-20 |
# ドメイン転送における適応知識の可視化 Visualizing Adapted Knowledge in Domain Transfer ( http://arxiv.org/abs/2104.10602v1 ) ライセンス: Link先を確認 | Yunzhong Hou, Liang Zheng | (参考訳) ソースデータに基づいて訓練されたソースモデルと、教師なしドメイン適応(UDA)を通じて学習されたターゲットモデルは通常、異なる知識を符号化する。
適応過程を理解するために,画像翻訳による知識差を表現した。
具体的には、翻訳画像とその原版を2つのモデルにそれぞれ供給し、2つのブランチを定式化する。
翻訳画像の更新により、2つの枝から同様の出力を強制する。
このような要件を満たすと、2つの画像の違いが補償され、モデル間の知識の違いを表す。
そこで本研究では,対象画像と2つのモデルのみを用いて,ソーススタイルの画像を生成する,ソースフリーな画像翻訳手法を提案する。
異なるUDA手法で複数のデータセットに適応した知識を視覚化し、生成した画像が2つのドメイン間のスタイルの違いをうまく捉えていることを確かめる。
アプリケーションの場合、生成した画像はソースデータにアクセスせずにターゲットモデルのさらなるチューニングを可能にする。
コードはhttps://github.com/hou-yz/da_visualizationで入手できる。 A source model trained on source data and a target model learned through unsupervised domain adaptation (UDA) usually encode different knowledge. To understand the adaptation process, we portray their knowledge difference with image translation. Specifically, we feed a translated image and its original version to the two models respectively, formulating two branches. Through updating the translated image, we force similar outputs from the two branches. When such requirements are met, differences between the two images can compensate for and hence represent the knowledge difference between models. To enforce similar outputs from the two branches and depict the adapted knowledge, we propose a source-free image translation method that generates source-style images using only target images and the two models. We visualize the adapted knowledge on several datasets with different UDA methods and find that generated images successfully capture the style difference between the two domains. For application, we show that generated images enable further tuning of the target model without accessing source data. Code available at https://github.com/hou-yz/DA_visualization. | 翻訳日:2021-04-22 14:35:41 公開日:2021-04-20 |
# 学習パターンとマッチングパターンによる人間の軌跡予測 Predicting Human Trajectories by Learning and Matching Patterns ( http://arxiv.org/abs/2104.10241v1 ) ライセンス: Link先を確認 | Dapeng Zhao | (参考訳) thesis document of the degree of science in robotics of carnegie mellon university of computer science(英語) Thesis document of the degree of Master of Science in Robotics of Carnegie Mellon University School of Computer Science. | 翻訳日:2021-04-22 14:35:25 公開日:2021-04-20 |
# 超ピクセルとグラフ畳み込みニューラルネットワークによる空中画像からの栄養不足ストレスの効率的な検出 Superpixels and Graph Convolutional Neural Networks for Efficient Detection of Nutrient Deficiency Stress from Aerial Imagery ( http://arxiv.org/abs/2104.10249v1 ) ライセンス: Link先を確認 | Saba Dadsetan, David Pichler, David Wilson, Naira Hovakimyan, Jennifer Hobbs | (参考訳) リモートセンシング技術の進歩は、膨大な量のデータの収集につながった。
画像解像度の向上、再訪回数の頻繁化、スペクトルチャネルの追加により、農業を含む各領域にまたがる分析と知性を提供するデータ量が爆発的に増加した。
しかし、このデータの処理には計算時間と費用の面でコストが伴うため、アルゴリズムの目的が効率を改善するためにリアルタイムインテリジェンスを提供することである場合、どちらも考慮する必要がある。
具体的には、養分不足地域をリモートで検知したデータから特定し、農夫に注意を要する地域へ警告する。
過去の手法はピクセルレベルの分類(すなわちピクセルレベルの分類)に重点を置いてきた。
セマンティックセグメンテーション(セマンティックセグメンテーション)は、これらのタスクを達成するためのフィールドであり、しばしば数万のパラメータを持つディープラーニングモデルを使用する。
対照的に,ノードベースの分類を行うためのより軽量なグラフベース手法を提案する。
まず、フィールド全体にわたってスーパーピクセルを生成するためにSimple Linear Iterative Cluster(SLIC)を使用します。
次に,超画素の非ユークリッド領域のセグメンテーションを行うために,グラフ畳み込みニューラルネットワーク(GCN)を利用する。
このモデルは、cnnモデルよりも4桁少ないパラメータを持ち、数分で列車が走る。 Advances in remote sensing technology have led to the capture of massive amounts of data. Increased image resolution, more frequent revisit times, and additional spectral channels have created an explosion in the amount of data that is available to provide analyses and intelligence across domains, including agriculture. However, the processing of this data comes with a cost in terms of computation time and money, both of which must be considered when the goal of an algorithm is to provide real-time intelligence to improve efficiencies. Specifically, we seek to identify nutrient deficient areas from remotely sensed data to alert farmers to regions that require attention; detection of nutrient deficient areas is a key task in precision agriculture as farmers must quickly respond to struggling areas to protect their harvests. Past methods have focused on pixel-level classification (i.e. semantic segmentation) of the field to achieve these tasks, often using deep learning models with tens-of-millions of parameters. In contrast, we propose a much lighter graph-based method to perform node-based classification. We first use Simple Linear Iterative Cluster (SLIC) to produce superpixels across the field. Then, to perform segmentation across the non-Euclidean domain of superpixels, we leverage a Graph Convolutional Neural Network (GCN). This model has 4-orders-of-magnitude fewer parameters than a CNN model and trains in a matter of minutes. | 翻訳日:2021-04-22 14:33:51 公開日:2021-04-20 |
# 説明可能性のためのクラスアクティベーションマッピングの評価を再考する:新しいメトリクスと実験的分析 Revisiting The Evaluation of Class Activation Mapping for Explainability: A Novel Metric and Experimental Analysis ( http://arxiv.org/abs/2104.10252v1 ) ライセンス: Link先を確認 | Samuele Poppi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara | (参考訳) ディープラーニングソリューションの要求が増加するにつれて、説明可能性の必要性はさらに根本的になる。
この設定では、ネットワークの出力に対して各入力画素に適切な関連性を持たせようとする可視化技術に特に注意が向けられている。
本稿では,活性化マップの重み付き平均値を用いて効果的に可視化する,クラス活性化マッピング(CAM)アプローチに焦点を当てる。
このようなアプローチの評価と再現性を高めるために,説明地図を定量化するための新しいメトリクスセットを提案する。
提案手法の妥当性を評価するため,ImageNetの検証セット全体に対して異なるCAMベースの可視化手法を比較し,適切な比較と再現性を育成する。 As the request for deep learning solutions increases, the need for explainability is even more fundamental. In this setting, particular attention has been given to visualization techniques, that try to attribute the right relevance to each input pixel with respect to the output of the network. In this paper, we focus on Class Activation Mapping (CAM) approaches, which provide an effective visualization by taking weighted averages of the activation maps. To enhance the evaluation and the reproducibility of such approaches, we propose a novel set of metrics to quantify explanation maps, which show better effectiveness and simplify comparisons between approaches. To evaluate the appropriateness of the proposal, we compare different CAM-based visualization methods on the entire ImageNet validation set, fostering proper comparisons and reproducibility. | 翻訳日:2021-04-22 14:27:35 公開日:2021-04-20 |
# スケッチに基づく画像検索のためのコンパクトで効果的な表現 Compact and Effective Representations for Sketch-based Image Retrieval ( http://arxiv.org/abs/2104.10278v1 ) ライセンス: Link先を確認 | Pablo Torres and Jose M. Saavedra | (参考訳) スケッチベースの画像検索(SBIR)は、コンピュータビジョンのコミュニティへの関心が高まっ、実際のアプリケーションに大きな影響を与えている。
たとえばSBIRは、ユーザが何を買うかを描くだけで、クエリを定式化できるので、eコマース検索エンジンの利点が増す。
しかし,高次元空間における検索の精度を示す現在の手法は,メモリ消費や時間処理といった側面に悪影響を及ぼす。
一部の著者はコンパクト表現も提案しているが、これらは低次元での性能を劇的に低下させた。
そこで本研究では,スケッチベース画像検索の文脈において,コンパクトな埋め込みを生成するための異なる手法の評価結果を示す。
我々の主な関心は、元の空間の局所的な構造を維持する戦略である。
最近の非教師付き局所位相保存次元減少法UMAPは,我々の要求に適合し,優れた性能を示し,SOTA法による精度も向上した。
2つの異なるデータセットで6つの手法を評価する。
私たちはflickr15kとeコマースデータセットを使っています。
umapによって、16バイトのフィーチャーベクターが35%以上精度が向上することを示した。 Sketch-based image retrieval (SBIR) has undergone an increasing interest in the community of computer vision bringing high impact in real applications. For instance, SBIR brings an increased benefit to eCommerce search engines because it allows users to formulate a query just by drawing what they need to buy. However, current methods showing high precision in retrieval work in a high dimensional space, which negatively affects aspects like memory consumption and time processing. Although some authors have also proposed compact representations, these drastically degrade the performance in a low dimension. Therefore in this work, we present different results of evaluating methods for producing compact embeddings in the context of sketch-based image retrieval. Our main interest is in strategies aiming to keep the local structure of the original space. The recent unsupervised local-topology preserving dimension reduction method UMAP fits our requirements and shows outstanding performance, improving even the precision achieved by SOTA methods. We evaluate six methods in two different datasets. We use Flickr15K and eCommerce datasets; the latter is another contribution of this work. We show that UMAP allows us to have feature vectors of 16 bytes improving precision by more than 35%. | 翻訳日:2021-04-22 14:27:22 公開日:2021-04-20 |
# トランスフォーマー言語モデルを用いたcovid-19ツイートの分析 Analyzing COVID-19 Tweets with Transformer-based Language Models ( http://arxiv.org/abs/2104.10259v1 ) ライセンス: Link先を確認 | Philip Feldman, Sim Tiwari, Charissa S. L. Cheah, James R. Foulds, Shimei Pan | (参考訳) 本稿では,トランスフォーマーに基づく言語モデル(TLM)を用いて,ソーシャルメディア投稿から世論を理解する手法について述べる。
このアプローチでは、いくつかのCOVID-19ツイートコーパスで一連のGPTモデルをトレーニングする。
次に、プロンプトベースのクエリを使用してこれらのモデルを探索し、ソーシャルメディアユーザーの意見に関する洞察を明らかにする。
様々な社会的、政治的、公衆衛生問題に対する世論調査に類似した結果を生み出すために、このアプローチをどのように利用できるかを実証する。
新型コロナウイルス(COVID-19)のツイートデータによると、トランスフォーマー言語モデルは、ソーシャルメディアに関する世論を大規模に理解するための有望なツールである。 This paper describes a method for using Transformer-based Language Models (TLMs) to understand public opinion from social media posts. In this approach, we train a set of GPT models on several COVID-19 tweet corpora. We then use prompt-based queries to probe these models to reveal insights into the opinions of social media users. We demonstrate how this approach can be used to produce results which resemble polling the public on diverse social, political and public health issues. The results on the COVID-19 tweet data show that transformer language models are promising tools that can help us understand public opinions on social media at scale. | 翻訳日:2021-04-22 14:22:47 公開日:2021-04-20 |
# 多種不均衡データストリームからの概念ドリフト検出 Concept Drift Detection from Multi-Class Imbalanced Data Streams ( http://arxiv.org/abs/2104.10228v1 ) ライセンス: Link先を確認 | {\L}ukasz Korycki, Bartosz Krawczyk | (参考訳) データストリームからの継続的な学習は、現代の機械学習において最も重要なトピックである。
この領域で最大の課題のひとつは、到着したデータに継続的に適応可能なアルゴリズムを作成することだ。
しかし、ストリームが時間とともに進化するにつれて、以前に学んだ知識は時代遅れになる可能性がある。
この現象は概念ドリフトと呼ばれ、学習モデルの効率的な適応を容易にするために検出されなければならない。
ドリフト検出器は多数存在するが、いずれも私たちが概ねバランスの取れたクラスを扱っていると仮定している。
不均衡なデータストリームの場合、これらの検出器は多数派クラスに偏り、少数派で起こる変化を無視します。
さらに、クラス不均衡は時間とともに進化し、クラスはその役割を変える(多数派が少数派になり、その逆も)。
これはクラス間の関係が複雑になるマルチクラス設定において特に難しい。
本稿では,マルチクラス不均衡データストリームにおける概念ドリフトによって生じる課題の詳細な分類と,制限ボルツマンマシンに基づく新しい学習可能な概念ドリフト検出器を提案する。
複数のクラスを同時に監視し、レコンストラクションエラーを使用して各クラスの変更を独立して検出することができる。
この検出器はスキュー非感受性損失関数を利用して複数の不均衡分布を処理できる。
訓練可能な性質のため、ストリームの変更と進化するクラスの役割を追従できるだけでなく、マイノリティクラスで発生するローカルな概念のドリフトに対処することができる。
局所的なドリフトの影響と不均衡率の変化を詳細に分析したマルチクラスドリフトデータストリームの大規模実験により,本手法の有効性を確認した。 Continual learning from data streams is among the most important topics in contemporary machine learning. One of the biggest challenges in this domain lies in creating algorithms that can continuously adapt to arriving data. However, previously learned knowledge may become outdated, as streams evolve over time. This phenomenon is known as concept drift and must be detected to facilitate efficient adaptation of the learning model. While there exists a plethora of drift detectors, all of them assume that we are dealing with roughly balanced classes. In the case of imbalanced data streams, those detectors will be biased towards the majority classes, ignoring changes happening in the minority ones. Furthermore, class imbalance may evolve over time and classes may change their roles (majority becoming minority and vice versa). This is especially challenging in the multi-class setting, where relationships among classes become complex. In this paper, we propose a detailed taxonomy of challenges posed by concept drift in multi-class imbalanced data streams, as well as a novel trainable concept drift detector based on Restricted Boltzmann Machine. It is capable of monitoring multiple classes at once and using reconstruction error to detect changes in each of them independently. Our detector utilizes a skew-insensitive loss function that allows it to handle multiple imbalanced distributions. Due to its trainable nature, it is capable of following changes in a stream and evolving class roles, as well as it can deal with local concept drift occurring in minority classes. Extensive experimental study on multi-class drifting data streams, enriched with a detailed analysis of the impact of local drifts and changing imbalance ratios, confirms the high efficacy of our approach. | 翻訳日:2021-04-22 14:22:36 公開日:2021-04-20 |
# ネットワーク防衛はゲームではない Network Defense is Not a Game ( http://arxiv.org/abs/2104.10262v1 ) ライセンス: Link先を確認 | Andres Molina-Markham, Ransom K. Winder, Ahmad Ridley | (参考訳) 研究は、人工知能(AI)を人間のオペレーターがネットワークを守る能力を拡大し拡張することを目指している。
成功しているAIアプローチの一般化を妨げる根本的な問題は、人間をゲームで打ち負かすことであり、ネットワーク防御は一定のルールのセットを持つ単一のゲームとして定義できないことである。
我々の立場は、ネットワーク・ディフェンスは不確実でおそらく漂流するルールを持つゲームの集合として特徴づけられる。
そこで,ネットワーク防御タスクをネットワーク環境の分布として定義することを提案する。 (i) 教師なしカリキュラム学習や強化学習などの最新のAI技術をネットワーク防御に適用し, (ii) 自律型サイバー防御のアプローチを比較するために使用可能な,明確に定義された課題の設計を容易にする。
自律的ネットワーク防衛のアプローチが実用的であることを示すためには,その適用可能性の境界を判断することが重要である。
したがって、敵の戦術、技術、手順(TTP)、QoS(Quality of Service)要件、および防衛担当者が利用できるTPをキャプチャするネットワーク防御タスクを定義する必要がある。
さらに、これらのタスクを定義するための抽象化は拡張可能でなければならない;環境の分布を推論できる、明確に定義されたセマンティクスによって支援されなければならない;エージェントが学習できるデータと経験の生成を可能にする必要がある。
我々のアプローチは、自律サイバーディフェンスのためのネットワーク環境設計(Network Environment Design for Autonomous Cyberdefense)という、自律ネットワークディフェンスのための高度な強化学習フレームワークであるFARLANDのアーキテクチャにインスピレーションを与えました。 Research seeks to apply Artificial Intelligence (AI) to scale and extend the capabilities of human operators to defend networks. A fundamental problem that hinders the generalization of successful AI approaches -- i.e., beating humans at playing games -- is that network defense cannot be defined as a single game with a fixed set of rules. Our position is that network defense is better characterized as a collection of games with uncertain and possibly drifting rules. Hence, we propose to define network defense tasks as distributions of network environments, to: (i) enable research to apply modern AI techniques, such as unsupervised curriculum learning and reinforcement learning for network defense; and, (ii) facilitate the design of well-defined challenges that can be used to compare approaches for autonomous cyberdefense. To demonstrate that an approach for autonomous network defense is practical it is important to be able to reason about the boundaries of its applicability. Hence, we need to be able to define network defense tasks that capture sets of adversarial tactics, techniques, and procedures (TTPs); quality of service (QoS) requirements; and TTPs available to defenders. Furthermore, the abstractions to define these tasks must be extensible; must be backed by well-defined semantics that allow us to reason about distributions of environments; and should enable the generation of data and experiences from which an agent can learn. Our approach named Network Environment Design for Autonomous Cyberdefense inspired the architecture of FARLAND, a Framework for Advanced Reinforcement Learning for Autonomous Network Defense, which we use at MITRE to develop RL network defenders that perform blue actions from the MITRE Shield matrix against attackers with TTPs that drift from MITRE ATT&CK TTPs. | 翻訳日:2021-04-22 14:19:07 公開日:2021-04-20 |
# Auto-FedAvg:多施設画像分割のための学習可能なフェデレーション Auto-FedAvg: Learnable Federated Averaging for Multi-Institutional Medical Image Segmentation ( http://arxiv.org/abs/2104.10195v1 ) ライセンス: Link先を確認 | Yingda Xia, Dong Yang, Wenqi Li, Andriy Myronenko, Daguang Xu, Hirofumi Obinata, Hitoshi Mori, Peng An, Stephanie Harmon, Evrim Turkbey, Baris Turkbey, Bradford Wood, Francesca Patella, Elvira Stellato, Gianpaolo Carrafiello, Anna Ierardi, Alan Yuille, Holger Roth | (参考訳) 連合学習(英語: federated learning, ffl)は、各参加者のプライバシーを保ちながら、協調的なモデルトレーニングを可能にする。
FedAvgは、FLプロセス中にサーバ上で分散学習されたモデルを集約するために、各クライアントのデータセットサイズに由来する固定重みを使用する標準的なアルゴリズムである。
しかし、FLの非i.d問題として知られるクライアント間での非同一データ分布は、固定集約重みを準最適に設定する前提となる。
本研究では,データサイロ間のデータ分布やモデルの現在のトレーニング進捗に応じて,アグリゲーションの重み付けを動的に調整する,Auto-FedAvgという新しいデータ駆動型アプローチを設計する。
パラメータを局所モデルパラメータとグローバルアグリゲーションパラメータの2つの部分に分割し,通信効率のよいアルゴリズムで反復的に更新する。
まず,cifar-10の異種データ分割による画像認識における最先端fl法の有効性を示す。
さらに,胸部CTのCOVID-19病変分画と腹部CTの膵臓分画という2つの多施設医療画像解析課題に対して,本アルゴリズムの有効性を実証した。 Federated learning (FL) enables collaborative model training while preserving each participant's privacy, which is particularly beneficial to the medical field. FedAvg is a standard algorithm that uses fixed weights, often originating from the dataset sizes at each client, to aggregate the distributed learned models on a server during the FL process. However, non-identical data distribution across clients, known as the non-i.i.d problem in FL, could make this assumption for setting fixed aggregation weights sub-optimal. In this work, we design a new data-driven approach, namely Auto-FedAvg, where aggregation weights are dynamically adjusted, depending on data distributions across data silos and the current training progress of the models. We disentangle the parameter set into two parts, local model parameters and global aggregation parameters, and update them iteratively with a communication-efficient algorithm. We first show the validity of our approach by outperforming state-of-the-art FL methods for image recognition on a heterogeneous data split of CIFAR-10. Furthermore, we demonstrate our algorithm's effectiveness on two multi-institutional medical image analysis tasks, i.e., COVID-19 lesion segmentation in chest CT and pancreas segmentation in abdominal CT. | 翻訳日:2021-04-22 14:18:35 公開日:2021-04-20 |
# ジョイント不変変分オートエンコーダによる画像データのロバストな特徴偏角:カードから原子へ Robust Feature Disentanglement in Imaging Data via Joint Invariant Variational Autoencoders: from Cards to Atoms ( http://arxiv.org/abs/2104.10180v1 ) ライセンス: Link先を確認 | Maxim Ziatdinov, Sergei Kalinin | (参考訳) 光と電波望遠鏡で見える天体から電子とプローブ顕微鏡で解決された原子や分子への画像化の最近の進歩は、原子から天体レベルまでの宇宙の構造に関する情報を含む膨大な画像データを生み出している。
古典的な深層畳み込みニューラルネットワークアーキテクチャは、伝統的に重要な向き付け障害を持つデータセット、すなわち画像平面の任意の方向において同一または類似のオブジェクトのコピーを複数持つ場合において、パフォーマンスが劣る。
同様に、クラスタリング法は離散クラスに分類するのに適しており、多様体学習と変分オートエンコーダ法はデータの表現をアンタングル化することができるが、結合問題は古典的な非教師あり学習パラダイムに不適である。
本稿では,そのような問題の解法に理想的に適している共振型不変変分オートエンコーダ(j-trvae)を導入する。
本手法の性能をいくつかの合成データセットで検証し,電子顕微鏡および走査型プローブ顕微鏡の高分解能イメージングデータに拡張した。
強誘電体や量子系の既知の物理に直結する潜在空間の挙動を示す。
さらに, 付帯トポロジカルな構造や有向グラフ関係による潜在空間構造の工学は, トポロジカルな発見や因果的物理学習に応用できることを示す。 Recent advances in imaging from celestial objects in astronomy visualized via optical and radio telescopes to atoms and molecules resolved via electron and probe microscopes are generating immense volumes of imaging data, containing information about the structure of the universe from atomic to astronomic levels. The classical deep convolutional neural network architectures traditionally perform poorly on the data sets having a significant orientational disorder, that is, having multiple copies of the same or similar object in arbitrary orientation in the image plane. Similarly, while clustering methods are well suited for classification into discrete classes and manifold learning and variational autoencoders methods can disentangle representations of the data, the combined problem is ill-suited to a classical non-supervised learning paradigm. Here we introduce a joint rotationally (and translationally) invariant variational autoencoder (j-trVAE) that is ideally suited to the solution of such a problem. The performance of this method is validated on several synthetic data sets and extended to high-resolution imaging data of electron and scanning probe microscopy. We show that latent space behaviors directly comport to the known physics of ferroelectric materials and quantum systems. We further note that the engineering of the latent space structure via imposed topological structure or directed graph relationship allows for applications in topological discovery and causal physical learning. | 翻訳日:2021-04-22 14:15:31 公開日:2021-04-20 |
# 複数のデータセットからの画像と音声品質予測モデルのバイアス認識損失 Bias-Aware Loss for Training Image and Speech Quality Prediction Models from Multiple Datasets ( http://arxiv.org/abs/2104.10217v1 ) ライセンス: Link先を確認 | Gabriel Mittag, Saman Zadtootaghaj, Thilo Michael, Babak Naderi, Sebastian M\"oller | (参考訳) 画像、映像、音声品質予測モデルの訓練に用いられる基礎的真実は、主観的実験から得られた平均世論スコア(mos)に基づいている。
通常、機械学習に基づいて品質モデルをトレーニングするのに十分なデータを得るためには、主に異なるテスト参加者で複数の実験を行う必要がある。
これらの実験はそれぞれ実験固有のバイアスを受けており、同じファイルの格付けは2つの実験(例えば)で大きく異なる可能性がある。
全体的な品質分布による)。
同じ歪みレベルのこれらの異なる評価は、トレーニング中にニューラルネットワークを混乱させ、パフォーマンスを低下させる。
そこで本研究では,学習中の各データセットのバイアスを線形関数で推定し,ネットワーク重みを最適化しながら検討するバイアス認識損失関数を提案する。
合成および主観的画像および音声品質データセットにおける品質予測モデルの訓練と検証により,提案手法の有効性を実証する。 The ground truth used for training image, video, or speech quality prediction models is based on the Mean Opinion Scores (MOS) obtained from subjective experiments. Usually, it is necessary to conduct multiple experiments, mostly with different test participants, to obtain enough data to train quality models based on machine learning. Each of these experiments is subject to an experiment-specific bias, where the rating of the same file may be substantially different in two experiments (e.g. depending on the overall quality distribution). These different ratings for the same distortion levels confuse neural networks during training and lead to lower performance. To overcome this problem, we propose a bias-aware loss function that estimates each dataset's biases during training with a linear function and considers it while optimising the network weights. We prove the efficiency of the proposed method by training and validating quality prediction models on synthetic and subjective image and speech quality datasets. | 翻訳日:2021-04-22 14:11:37 公開日:2021-04-20 |
# (参考訳) 変圧器の高効率予習目標 Efficient pre-training objectives for Transformers ( http://arxiv.org/abs/2104.09694v1 ) ライセンス: CC BY 4.0 | Luca Di Liello, Matteo Gabburo, Alessandro Moschitti | (参考訳) Transformerアーキテクチャは自然言語処理を深く変え、これまでの最先端モデルよりも優れていた。
しかし、BERT、RoBERTa、GPT-2のようなよく知られたトランスフォーマーモデルは、高品質な文脈表現を作成するために膨大な計算予算を必要とする。
本稿では,トランスフォーマーモデルのための高効率事前学習目標について検討する。
これらの目的を異なるタスクでテストすることにより、ELECTRAモデルの新機能のどれが最も重要かを決定する。
入力にマスク付きトークンを含まない場合,トランスフォーマーの事前学習が向上し,損失を計算するための出力全体の使用がトレーニング時間を短縮することを確認した。
さらに,electraに触発されて,判別器と単純な生成器という,計算性能に影響を与えない統計モデルに基づく2つのブロックからなるモデルについて検討した。
さらに,MASKトークンを排除し,損失計算における全出力を考慮することが,性能向上に不可欠であることを示す。
さらに,エレクトラのように識別的アプローチを用いて,複雑な生成器を使わずに効率的にbert様モデルを訓練できることを示す。
最後に、ELECTRAは最先端のハイパーパラメーター探索の恩恵が大きいことを示す。 The Transformer architecture deeply changed the natural language processing, outperforming all previous state-of-the-art models. However, well-known Transformer models like BERT, RoBERTa, and GPT-2 require a huge compute budget to create a high quality contextualised representation. In this paper, we study several efficient pre-training objectives for Transformers-based models. By testing these objectives on different tasks, we determine which of the ELECTRA model's new features is the most relevant. We confirm that Transformers pre-training is improved when the input does not contain masked tokens and that the usage of the whole output to compute the loss reduces training time. Moreover, inspired by ELECTRA, we study a model composed of two blocks; a discriminator and a simple generator based on a statistical model with no impact on the computational performances. Besides, we prove that eliminating the MASK token and considering the whole output during the loss computation are essential choices to improve performance. Furthermore, we show that it is possible to efficiently train BERT-like models using a discriminative approach as in ELECTRA but without a complex generator, which is expensive. Finally, we show that ELECTRA benefits heavily from a state-of-the-art hyper-parameters search. | 翻訳日:2021-04-22 02:34:27 公開日:2021-04-20 |
# (参考訳) X-METRA-ADA:自然言語理解と質問応答への言語間メタトランスファー学習適応 X-METRA-ADA: Cross-lingual Meta-Transfer Learning Adaptation to Natural Language Understanding and Question Answering ( http://arxiv.org/abs/2104.09696v1 ) ライセンス: CC BY 4.0 | Meryem M'hamdi, Doo Soon Kim, Franck Dernoncourt, Trung Bui, Xiang Ren, and Jonathan May | (参考訳) M-BERTやXLM-Rのような多言語モデルは、ゼロショットのクロスリンガル変換学習能力によって人気が高まっている。
しかし、それらの一般化能力は、タイポロジー的に多様な言語と異なるベンチマーク間では相容れない。
近年,メタラーニングは,低リソースシナリオ(特に自然言語理解における言語間変換(NLU))において,トランスファーラーニングを向上するための有望な手法として注目されている。
本研究では,NLUのための言語横断型メタトランシュファー学習アプローチであるX-METRA-ADAを提案する。
我々のアプローチは、最適化に基づくメタ学習アプローチであるMAMLに適応し、新しい言語に適応することを学ぶ。
我々は,多言語タスク指向の対話と,類型的に多様な質問応答という,難易度の高い2つのNLUタスクに関する枠組みを広く評価した。
提案手法は難解な微調整に優れており,ほとんどの言語において両タスクの競合性能に到達している。
解析の結果,X-METRA-ADAは限られたデータを利用してより高速な適応が可能であることが判明した。 Multilingual models, such as M-BERT and XLM-R, have gained increasing popularity, due to their zero-shot cross-lingual transfer learning capabilities. However, their generalization ability is still inconsistent for typologically diverse languages and across different benchmarks. Recently, meta-learning has garnered attention as a promising technique for enhancing transfer learning under low-resource scenarios: particularly for cross-lingual transfer in Natural Language Understanding (NLU). In this work, we propose X-METRA-ADA, a cross-lingual MEta-TRAnsfer learning ADAptation approach for NLU. Our approach adapts MAML, an optimization-based meta-learning approach, to learn to adapt to new languages. We extensively evaluate our framework on two challenging cross-lingual NLU tasks: multilingual task-oriented dialog and typologically diverse question answering. We show that our approach outperforms naive fine-tuning, reaching competitive performance on both tasks for most languages. Our analysis reveals that X-METRA-ADA can leverage limited data for faster adaptation. | 翻訳日:2021-04-22 02:21:27 公開日:2021-04-20 |
# (参考訳) 隠れマルコフモデルと長期記憶を用いた株式市場の動向分析 Stock Market Trend Analysis Using Hidden Markov Model and Long Short Term Memory ( http://arxiv.org/abs/2104.09700v1 ) ライセンス: CC BY 4.0 | Mingwen Liu, Junbang Huo, Yulin Wu, Jinge Wu | (参考訳) 本稿では,隠れマルコフモデルを株式市場に適用し,予測を行う。
さらに, GMM-HMM, XGB-HMM, GMM-HMM+LSTM, XGB-HMM+LSTMの4つの改良法について, それぞれ実験結果について考察する。
その後、さまざまなモデルの長所と短所を分析します。
そして最後に、タイミング戦略のために株式市場で使われるのがベストの1つだ。 This paper intends to apply the Hidden Markov Model into stock market and and make predictions. Moreover, four different methods of improvement, which are GMM-HMM, XGB-HMM, GMM-HMM+LSTM and XGB-HMM+LSTM, will be discussed later with the results of experiment respectively. After that we will analyze the pros and cons of different models. And finally, one of the best will be used into stock market for timing strategy. | 翻訳日:2021-04-22 02:02:07 公開日:2021-04-20 |
# (参考訳) 自然言語処理評価における課題と対策 Problems and Countermeasures in Natural Language Processing Evaluation ( http://arxiv.org/abs/2104.09712v1 ) ライセンス: CC BY-SA 4.0 | Qingxiu Dong, Zhifang Sui, Weidong Zhan and Baobao Chang | (参考訳) 自然言語処理ガイドの評価とモデルと手法の研究を促進する。
近年,新たな評価データセットや評価タスクが提案されている。
同時に,既存の評価によって明らかになった問題も,自然言語処理技術の進歩を阻害している。
本稿では, 自然言語評価の概念, 構成, 開発, 意味から, 主流な自然言語評価の課題と課題を分類し, 要約し, その問題と原因を要約する。
最後に,ヒューマン・ランゲージ能力評価基準について言及し,ヒューマン・ライク・マシン言語能力評価の概念を概説するとともに,信頼性,難易度,妥当性の3つの側面から,ヒューマン的マシン言語能力評価の基本原則と実装概念を提案する。 Evaluation in natural language processing guides and promotes research on models and methods. In recent years, new evalua-tion data sets and evaluation tasks have been continuously proposed. At the same time, a series of problems exposed by ex-isting evaluation have also restricted the progress of natural language processing technology. Starting from the concept, com-position, development and meaning of natural language evaluation, this article classifies and summarizes the tasks and char-acteristics of mainstream natural language evaluation, and then summarizes the problems and causes of natural language pro-cessing evaluation. Finally, this article refers to the human language ability evaluation standard, puts forward the concept of human-like machine language ability evaluation, and proposes a series of basic principles and implementation ideas for hu-man-like machine language ability evaluation from the three aspects of reliability, difficulty and validity. | 翻訳日:2021-04-22 01:53:20 公開日:2021-04-20 |
# (参考訳) adaspeech 2: untranscribeed dataを用いた音声への適応テキスト AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data ( http://arxiv.org/abs/2104.09715v1 ) ライセンス: CC BY 4.0 | Yuzi Yan, Xu Tan, Bohan Li, Tao Qin, Sheng Zhao, Yuan Shen, Tie-Yan Liu | (参考訳) テキスト・トゥ・スピーチ(TTS)は、ターゲット話者の個人音声の合成に広く用いられており、十分に訓練されたソースTSモデルは、このターゲット話者のペア適応データ(音声とその転写)をほとんど含まない微調整される。
しかし、多くのシナリオでは、書き起こされていない音声データのみが適応可能であり、以前のTS適応パイプライン(例えばAdaSpeech)に課題をもたらす。
本稿では,書き起こされていない音声データのみを活用した適応型ttsシステムadaspeech 2を開発した。
具体的には、よく訓練されたTSモデルにメルスペクトルエンコーダを導入して音声再構成を行うと同時に、メルスペクトルエンコーダの出力シーケンスを元の音素エンコーダに近いものに制限する。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
AdaSpeech 2 には2つの利点がある: 1) プラガブル: 既存のトレーニング済み TTS モデルにシステムを再トレーニングせずに簡単に適用できる。
2) 実効性: このシステムは, 書き起こしTTS適応(例: AdaSpeech)と同一量の書き起こしデータを用いてオンパー音声品質を達成し, 従来の書き起こしなし適応法よりも優れた音声品質を実現する。
合成音声サンプルはhttps://speechresearch.github.io/adaspeech2/で見ることができる。 Text to speech (TTS) is widely used to synthesize personal voice for a target speaker, where a well-trained source TTS model is fine-tuned with few paired adaptation data (speech and its transcripts) on this target speaker. However, in many scenarios, only untranscribed speech data is available for adaptation, which brings challenges to the previous TTS adaptation pipelines (e.g., AdaSpeech). In this paper, we develop AdaSpeech 2, an adaptive TTS system that only leverages untranscribed speech data for adaptation. Specifically, we introduce a mel-spectrogram encoder to a well-trained TTS model to conduct speech reconstruction, and at the same time constrain the output sequence of the mel-spectrogram encoder to be close to that of the original phoneme encoder. In adaptation, we use untranscribed speech data for speech reconstruction and only fine-tune the TTS decoder. AdaSpeech 2 has two advantages: 1) Pluggable: our system can be easily applied to existing trained TTS models without re-training. 2) Effective: our system achieves on-par voice quality with the transcribed TTS adaptation (e.g., AdaSpeech) with the same amount of untranscribed data, and achieves better voice quality than previous untranscribed adaptation methods. Synthesized speech samples can be found at https://speechresearch.github.io/adaspeech2/. | 翻訳日:2021-04-22 00:32:50 公開日:2021-04-20 |
# (参考訳) テンポラリドリフトの緩和 - nerモデルを明確にするシンプルなアプローチ Mitigating Temporal-Drift: A Simple Approach to Keep NER Models Crisp ( http://arxiv.org/abs/2104.09742v1 ) ライセンス: CC BY 4.0 | Shuguang Chen, Leonardo Neves, and Thamar Solorio | (参考訳) 名前付きエンティティ認識のためのニューラルモデルのパフォーマンスは時間とともに劣化し、停滞する。
この劣化は、時間とともに対象変数の統計的性質が変化する時間的ドリフトに起因する。
この問題は、トピックが急速に変化するソーシャルメディアデータでは特に問題となる。
この問題を解決するために、モデルのデータアノテーションと再トレーニングが一般的である。
その有用性にもかかわらず、このプロセスは高価で時間がかかり、効率的なモデル更新に関する新しい研究の動機となる。
本稿では,ツイートの潜在的な傾向を測定するための直感的アプローチを提案し,この指標を用いて,学習に使用する最も有意義なインスタンスを選択する。
我々はTemporal Twitter Datasetで3つの最先端モデルの実験を行った。
提案手法は,代替データよりも少ないトレーニングデータで予測精度が向上し,魅力的な実用的なソリューションとなることを示す。 Performance of neural models for named entity recognition degrades over time, becoming stale. This degradation is due to temporal drift, the change in our target variables' statistical properties over time. This issue is especially problematic for social media data, where topics change rapidly. In order to mitigate the problem, data annotation and retraining of models is common. Despite its usefulness, this process is expensive and time-consuming, which motivates new research on efficient model updating. In this paper, we propose an intuitive approach to measure the potential trendiness of tweets and use this metric to select the most informative instances to use for training. We conduct experiments on three state-of-the-art models on the Temporal Twitter Dataset. Our approach shows larger increases in prediction accuracy with less training data than the alternatives, making it an attractive, practical solution. | 翻訳日:2021-04-22 00:22:07 公開日:2021-04-20 |
# (参考訳) 画像の構造を理解するための階層的エントロピーとドメイン相互作用 Hierarchical entropy and domain interaction to understand the structure in an image ( http://arxiv.org/abs/2104.09754v1 ) ライセンス: CC BY 4.0 | Nao Uehara, Teruaki Hayashi, Yukio Ohsawa | (参考訳) 本研究では,情報エントロピーに2つの階層を導入するモデルを提案する。
2つの階層はエントロピーが計算される領域のサイズであり、画像内の構造が統合されているか否かを決定するコンポーネントのサイズである。
このモデルは2つの指標、階層エントロピーとドメイン相互作用を使用する。
どちらの指標も画像内の構造の統合や断片化によって増大または減少する。
画像の構造が、領域とコンポーネントのサイズに応じて変化する2つの指標からどのように見えるかを解釈し、説明することを目的としている。
まず,画像を用いて実験を行い,この2つの指標がどのように変化するかを定性的に評価する。
次に,階層的エントロピーの変化を用いて,真珠イヤリングを持つヴェルメールの少女の隠れ構造との関係を説明する。
最後に,領域間相互作用の変化と画像の適切なセグメント結果との関係を,アンケートによる実験により明らかにした。 In this study, we devise a model that introduces two hierarchies into information entropy. The two hierarchies are the size of the region for which entropy is calculated and the size of the component that determines whether the structures in the image are integrated or not. And this model uses two indicators, hierarchical entropy and domain interaction. Both indicators increase or decrease due to the integration or fragmentation of the structure in the image. It aims to help people interpret and explain what the structure in an image looks like from two indicators that change with the size of the region and the component. First, we conduct experiments using images and qualitatively evaluate how the two indicators change. Next, we explain the relationship with the hidden structure of Vermeer's girl with a pearl earring using the change of hierarchical entropy. Finally, we clarify the relationship between the change of domain interaction and the appropriate segment result of the image by an experiment using a questionnaire. | 翻訳日:2021-04-22 00:15:17 公開日:2021-04-20 |
# (参考訳) Imaginative Walks: 未知の学習表現を改善するための生成ランダムウォーク逸脱 Imaginative Walks: Generative Random Walk Deviation Loss for Improved Unseen Learning Representation ( http://arxiv.org/abs/2104.09757v1 ) ライセンス: CC BY 4.0 | Mohamed Elhoseiny, Divyansh Jha, Kai Yi, Ivan Skorokhodov | (参考訳) 本稿では,未探索の視覚空間の学習表現を改善するために,grawd (generative random walk deviation) と呼ばれる生成モデルに対する新しい損失を提案する。
目立たないクラス(またはスタイル)の品質学習表現は、新しい画像生成を促進し、目立たない視覚クラスのより優れた生成的理解を促進するために不可欠である。
Zero-Shot Learning, ZSL)。
Generative ZSLは、属性やテキストなどのセマンティック記述から目に見えないクラスの表現を生成することで、目に見えないカテゴリを識別することを目的としている。
我々はGRaWDを定義し、クラス/スタイルセンターと現在のミニバッチで生成されたサンプルを含む動的なグラフを構築する。
私たちの喪失は、幻覚のないクラスから生み出された視覚的世代を通じて、各センターからランダムな歩行確率が始まります。
偏差信号として、ランダムウォークは最終的にtステップの後に、見たどのクラスにも分類が難しい特徴表現に着地することを奨励する。
CUBとNABirdsの4つのテキストベースのZSLベンチマークと、AWA2、SUN、aPYの3つの属性ベースのZSLベンチマークにおいて、この損失によりクラス表現の品質が向上することを示す。
また、ウィキアートデータセット上で意味のある新しいビジュアルアート世代を生成できるロスの能力についても検討した。
実験と人体実験により,StyleGAN1とStyleGAN2の生成品質が向上し,新たな芸術作品がより好まれることがわかった。
コードは利用可能になる。 We propose a novel loss for generative models, dubbed as GRaWD (Generative Random Walk Deviation), to improve learning representations of unexplored visual spaces. Quality learning representation of unseen classes (or styles) is crucial to facilitate novel image generation and better generative understanding of unseen visual classes (a.k.a. Zero-Shot Learning, ZSL). By generating representations of unseen classes from their semantic descriptions, such as attributes or text, Generative ZSL aims at identifying unseen categories discriminatively from seen ones. We define GRaWD by constructing a dynamic graph, including the seen class/style centers and generated samples in the current mini-batch. Our loss starts a random walk probability from each center through visual generations produced from hallucinated unseen classes. As a deviation signal, we encourage the random walk to eventually land after t steps in a feature representation that is hard to classify to any of the seen classes. We show that our loss can improve unseen class representation quality on four text-based ZSL benchmarks on CUB and NABirds datasets and three attribute-based ZSL benchmarks on AWA2, SUN, and aPY datasets. We also study our loss's ability to produce meaningful novel visual art generations on WikiArt dataset. Our experiments and human studies show that our loss can improve StyleGAN1 and StyleGAN2 generation quality, creating novel art that is significantly more preferred. Code will be made available. | 翻訳日:2021-04-22 00:05:54 公開日:2021-04-20 |
# (参考訳) 教師なし誤り推定を用いた弱教師付きテキスト分類のためのシードワード選択 Seed Word Selection for Weakly-Supervised Text Classification with Unsupervised Error Estimation ( http://arxiv.org/abs/2104.09765v1 ) ライセンス: CC BY 4.0 | Yiping Jin, Akshay Bhatia, Dittaya Wanvarie | (参考訳) 弱い教師付きテキスト分類は、少数のユーザーが提供するシード単語からテキスト分類を誘導することを目的としている。
以前の作品の大多数は、高品質のシード語が与えられると仮定している。
しかし、専門家がアノテートしたシードワードを思いつくのは簡単ではない。
さらに, 弱教師付き学習設定では, 種単語の有効性を計測するためのラベル付き文書は存在せず, 種単語選択過程を"a walk in the dark"とした。
本研究では,カテゴリー名に関連付けられた候補種単語を最初にマイニングすることで,専門家による種単語の抽出の必要性を解消する。
次に、個々の候補種単語で中間モデルを訓練する。
最後に,中間モデルの誤差率を教師なしで推定する。
最終シードワードセットには、最小推定誤差率となるシードワードが加算される。
4つの一般的なデータセットに対する6つのバイナリ分類タスクの総合評価により,提案手法はカテゴリ名シードワードのみを用いてベースラインを上回り,専門家注釈付きシードワードと同等の性能を得た。 Weakly-supervised text classification aims to induce text classifiers from only a few user-provided seed words. The vast majority of previous work assumes high-quality seed words are given. However, the expert-annotated seed words are sometimes non-trivial to come up with. Furthermore, in the weakly-supervised learning setting, we do not have any labeled document to measure the seed words' efficacy, making the seed word selection process "a walk in the dark". In this work, we remove the need for expert-curated seed words by first mining (noisy) candidate seed words associated with the category names. We then train interim models with individual candidate seed words. Lastly, we estimate the interim models' error rate in an unsupervised manner. The seed words that yield the lowest estimated error rates are added to the final seed word set. A comprehensive evaluation of six binary classification tasks on four popular datasets demonstrates that the proposed method outperforms a baseline using only category name seed words and obtained comparable performance as a counterpart using expert-annotated seed words. | 翻訳日:2021-04-21 23:48:57 公開日:2021-04-20 |
# (参考訳) m2tr: ディープフェイク検出用マルチモーダルマルチスケールトランス M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection ( http://arxiv.org/abs/2104.09770v1 ) ライセンス: CC BY 4.0 | Junke Wang, Zuxuan Wu, Jingjing Chen, and Yu-Gang Jiang | (参考訳) ディープフェイク技術が生み出した偽画像の普及は、デジタル情報の信頼性に深刻な脅威をもたらしている。
これにより、高度な操作技術によって生じる知覚的に説得力のあるディープフェイクを検出する効果的なアプローチが要求される。
既存のアプローチのほとんどは、入力画像を異なるピクセル間の一貫性を捉えることなくバイナリ予測にマッピングすることで、ディープニューラルネットワークによるディープフェイクと戦う。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
我々は近年,コンピュータビジョンにおける様々な認識タスクに対する画素間の依存関係のモデリングにおいて,優れた性能を示すトランスフォーマーモデルでこれを実現する。
特に,M2TR(Multi-modal Multi-scale TRansformer)を導入し,異なる大きさのパッチで動作するマルチスケールトランスフォーマーを用いて局所的不整合を異なる空間レベルで検出する。
検出結果を改善し,画像圧縮に対するロバスト性を高めるため,m2trは,クロスモダリティ融合モジュールを用いたrgb機能と組み合わせた周波数情報も取得する。
Deepfake検出手法の開発と評価には大規模なデータセットが必要である。
しかし、既存のベンチマークのサンプルには深刻なアーティファクトが含まれ、多様性が欠如している。
これは、最先端の顔交換と顔の再現によって生成される4000のDeepFakeビデオからなる高品質なDeepFakeデータセットSR-DFの導入を動機付けています。
3つのDeepfakeデータセットにおいて,提案手法の有効性を検証するための実験を行った。 The widespread dissemination of forged images generated by Deepfake techniques has posed a serious threat to the trustworthiness of digital information. This demands effective approaches that can detect perceptually convincing Deepfakes generated by advanced manipulation techniques. Most existing approaches combat Deepfakes with deep neural networks by mapping the input image to a binary prediction without capturing the consistency among different pixels. In this paper, we aim to capture the subtle manipulation artifacts at different scales for Deepfake detection. We achieve this with transformer models, which have recently demonstrated superior performance in modeling dependencies between pixels for a variety of recognition tasks in computer vision. In particular, we introduce a Multi-modal Multi-scale TRansformer (M2TR), which uses a multi-scale transformer that operates on patches of different sizes to detect the local inconsistency at different spatial levels. To improve the detection results and enhance the robustness of our method to image compression, M2TR also takes frequency information, which is further combined with RGB features using a cross modality fusion module. Developing and evaluating Deepfake detection methods requires large-scale datasets. However, we observe that samples in existing benchmarks contain severe artifacts and lack diversity. This motivates us to introduce a high-quality Deepfake dataset, SR-DF, which consists of 4,000 DeepFake videos generated by state-of-the-art face swapping and facial reenactment methods. On three Deepfake datasets, we conduct extensive experiments to verify the effectiveness of the proposed method, which outperforms state-of-the-art Deepfake detection methods. | 翻訳日:2021-04-21 23:39:57 公開日:2021-04-20 |
# (参考訳) GLiDE:Centroidal Modelを用いた異種環境における一般化可能な四足歩行 GLiDE: Generalizable Quadrupedal Locomotion in Diverse Environments with a Centroidal Model ( http://arxiv.org/abs/2104.09771v1 ) ライセンス: CC BY 4.0 | Zhaoming Xie, Xingye Da, Buck Babich, Animesh Garg, Michiel van de Panne | (参考訳) 足歩行のためのモデルフリー強化学習(RL)は、通常、ロボットのあらゆる自由度の振る舞いを正確に予測できる物理シミュレータに依存している。
対照的に、近似還元次モデルは、多くのモデルベースの制御戦略に十分であることが多い。
本研究では,RLを中心運動モデルで効果的に利用して,四足歩行に対するロバストな制御ポリシを生成する方法について検討する。
フルオーダーモデルによるRLよりも優れているのは、単純な報酬構造、計算コストの削減、堅牢なsim-to-real転送である。
さらに,ステップストーン移動,2本足内バランス,バランスビーム移動,シム・トゥ・リアル移動を,さらに適応することなく示すことにより,その可能性を示す。 Model-free reinforcement learning (RL) for legged locomotion commonly relies on a physics simulator that can accurately predict the behaviors of every degree of freedom of the robot. In contrast, approximate reduced-order models are often sufficient for many model-based control strategies. In this work we explore how RL can be effectively used with a centroidal model to generate robust control policies for quadrupedal locomotion. Advantages over RL with a full-order model include a simple reward structure, reduced computational costs, and robust sim-to-real transfer. We further show the potential of the method by demonstrating stepping-stone locomotion, two-legged in-place balance, balance beam locomotion, and sim-to-real transfer without further adaptations. | 翻訳日:2021-04-21 23:21:45 公開日:2021-04-20 |
# (参考訳) 包括的深層学習言語モデルを用いたテキストからの文抽出 Subsentence Extraction from Text Using Coverage-Based Deep Learning Language Models ( http://arxiv.org/abs/2104.09777v1 ) ライセンス: CC BY 4.0 | JongYoon Lim, Inkyu Sa, Ho Seok Ahn, Norina Gasteiger, Sanghyub John Lee, Bruce MacDonald | (参考訳) 感覚予測は、心理学、神経科学、コンピュータ科学を含む様々な研究分野において、困難で未解決の課題である。
これは、その高い主観性と実際の感情を効果的に捉えることのできる限られた入力源に由来する。
テキストベースの入力だけでは、これはさらに難しくなります。
一方、ディープラーニングの台頭と前例のない大量のデータによって、人工知能が驚くほど正確な予測や人間レベルの推論を行う方法が整っている。
そこで本稿では,入力テキストのスパンを推定し,その情報をネットワークに再帰的にフィードバックする,カバレッジに基づく感情とサブ文抽出システムを提案する。
予測サブ文は、感情を表す補助情報からなる。
本論文は,テキスト要約やQ&Aなどの自然言語処理タスクにおいて,鮮明かつエピックな感情配信を可能にする重要なビルディングブロックである。
提案手法は, 最先端の手法よりも, サブセンテンス予測において大きなマージン(平均jaccardスコアが 0.72 から 0.89 まで)を上回っている。
評価のために24のアブレーション実験からなる厳密な実験を考案した。
最後に,本論文で提示した結果を再現可能なソフトウェアパッケージと公開データセットを共有することで,学習した教訓をコミュニティに返却する。 Sentiment prediction remains a challenging and unresolved task in various research fields, including psychology, neuroscience, and computer science. This stems from its high degree of subjectivity and limited input sources that can effectively capture the actual sentiment. This can be even more challenging with only text-based input. Meanwhile, the rise of deep learning and an unprecedented large volume of data have paved the way for artificial intelligence to perform impressively accurate predictions or even human-level reasoning. Drawing inspiration from this, we propose a coverage-based sentiment and subsentence extraction system that estimates a span of input text and recursively feeds this information back to the networks. The predicted subsentence consists of auxiliary information expressing a sentiment. This is an important building block for enabling vivid and epic sentiment delivery (within the scope of this paper) and for other natural language processing tasks such as text summarisation and Q&A. Our approach outperforms the state-of-the-art approaches by a large margin in subsentence prediction (i.e., Average Jaccard scores from 0.72 to 0.89). For the evaluation, we designed rigorous experiments consisting of 24 ablation studies. Finally, our learned lessons are returned to the community by sharing software packages and a public dataset that can reproduce the results presented in this paper. | 翻訳日:2021-04-21 23:01:11 公開日:2021-04-20 |
# (参考訳) 形状バイアスの強化は、ニューラルネットワークの堅牢性を改善するか? Does enhanced shape bias improve neural network robustness to common corruptions? ( http://arxiv.org/abs/2104.09789v1 ) ライセンス: CC BY-SA 4.0 | Chaithanya Kumar Mummadi, Ranjitha Subramaniam, Robin Hutmacher, Julien Vitay, Volker Fischer, Jan Hendrik Metzen | (参考訳) 畳み込みニューラルネットワーク(CNN)は、画像認識タスクを解決するために、オブジェクトの形状やテクスチャなどの複雑な特徴の表現を抽出することを学ぶ。
近年の研究では、imagenetでトレーニングされたcnnはテクスチャをエンコードする機能に偏っており、これらはトレーニングデータと同じ分布から取得したテストデータを一般化するのに十分であるが、分散データへの一般化に失敗することがしばしばある。
異なる画像スタイルでトレーニングデータを増強すると、このテクスチャバイアスが減少し、形状バイアスが増大する一方、ノイズやぼやけなどの一般的な汚損に対する堅牢性が向上することが示されている。
一般的にこれは、腐敗の堅牢性を高める形バイアスとして解釈される。
しかし、この関係は仮定に過ぎなかった。
自然画像や明示的なエッジ情報,スタイライゼーションに基づいて,入力を構成するさまざまな方法に関する体系的な研究を行う。
高汚損性を達成するためにはスタイリゼーションが不可欠であるが, 形状バイアスとロバスト性との間に明確な相関関係は見つからない。
形態変化によるデータ増大は, 腐敗の堅牢性の向上と形状バイアスの増大は副産物に過ぎないと結論づける。 Convolutional neural networks (CNNs) learn to extract representations of complex features, such as object shapes and textures to solve image recognition tasks. Recent work indicates that CNNs trained on ImageNet are biased towards features that encode textures and that these alone are sufficient to generalize to unseen test data from the same distribution as the training data but often fail to generalize to out-of-distribution data. It has been shown that augmenting the training data with different image styles decreases this texture bias in favor of increased shape bias while at the same time improving robustness to common corruptions, such as noise and blur. Commonly, this is interpreted as shape bias increasing corruption robustness. However, this relationship is only hypothesized. We perform a systematic study of different ways of composing inputs based on natural images, explicit edge information, and stylization. While stylization is essential for achieving high corruption robustness, we do not find a clear correlation between shape bias and robustness. We conclude that the data augmentation caused by style-variation accounts for the improved corruption robustness and increased shape bias is only a byproduct. | 翻訳日:2021-04-21 22:40:19 公開日:2021-04-20 |
# (参考訳) 製品レビューにおける有用な文の特定 Identifying Helpful Sentences in Product Reviews ( http://arxiv.org/abs/2104.09792v1 ) ライセンス: CC BY 4.0 | Iftah Gamzu, Hila Gonen, Gilad Kutiel, Ran Levy, Eugene Agichtein | (参考訳) 近年、オンラインショッピングは勢いを増し、時間を節約し、買い物プロセスを簡素化したい顧客にとって重要な場所となっている。
オンラインショッピングの大きな利点は、他の顧客が関心のある製品について言っていることを読むことだ。
本研究は,例えば音声による買い物などにおいて,極端な簡潔さを必要とする状況において,この優位性を維持することを目的としている。
提案手法では,ある製品に対する評価のセットから,一つの代表的助詞を抽出する新しいタスクを提案する。
選択された文は2つの条件を満たすべきである: 第一に、購入決定に役立ち、第二に、表現した意見は複数のレビュアーによって支持されるべきである。
このタスクは、製品レビュードメインにおけるマルチドキュメント要約のタスクと密接に関連しているが、目的と簡潔さのレベルが異なる。
日本語の文助力スコアのデータセットをクラウドソーシングで収集し,本質的な主観性にも拘わらず信頼性を示す。
次に,製品に対する肯定的および否定的感情を持つ代表的有益文を抽出し,複数のベースラインを上回ることを示すモデルについて述べる。 In recent years online shopping has gained momentum and became an important venue for customers wishing to save time and simplify their shopping process. A key advantage of shopping online is the ability to read what other customers are saying about products of interest. In this work, we aim to maintain this advantage in situations where extreme brevity is needed, for example, when shopping by voice. We suggest a novel task of extracting a single representative helpful sentence from a set of reviews for a given product. The selected sentence should meet two conditions: first, it should be helpful for a purchase decision and second, the opinion it expresses should be supported by multiple reviewers. This task is closely related to the task of Multi Document Summarization in the product reviews domain but differs in its objective and its level of conciseness. We collect a dataset in English of sentence helpfulness scores via crowd-sourcing and demonstrate its reliability despite the inherent subjectivity involved. Next, we describe a complete model that extracts representative helpful sentences with positive and negative sentiment towards the product and demonstrate that it outperforms several baselines. | 翻訳日:2021-04-21 22:22:19 公開日:2021-04-20 |
# (参考訳) 1クラス異常検出で何が問題か? What is Wrong with One-Class Anomaly Detection? ( http://arxiv.org/abs/2104.09793v1 ) ライセンス: CC BY 4.0 | JuneKyu Park, Jeong-Hyeon Moon, Namhyuk Ahn and Kyung-Ah Sohn | (参考訳) 安全性の観点からは、現実のアプリケーションに埋め込まれた機械学習手法は、不規則な状況を区別するために必要である。
このため、異常検出(AD)タスクへの関心が高まっている。
多くの症例で異常サンプルは観察できないため,最近のAD法では,サンプルが正常かどうかを分類する作業として定式化しようとしている。
しかし、与えられた通常のサンプルが多様なセマンティックラベルから受け継がれると失敗する可能性がある。
この問題に対処するために,クラス条件に基づくADシナリオを導入する。
また,提案シナリオに合わせた信頼性に基づく自己ラベル型ADフレームワークを提案する。
本手法は,隠されたクラス情報を活用するため,一級メソッドが抱える望ましくないゆるい決定領域の生成を回避できる。
提案するフレームワークは,近年の潜在マルチクラスシナリオにおいて,一級ADメソッドよりも優れている。 From a safety perspective, a machine learning method embedded in real-world applications is required to distinguish irregular situations. For this reason, there has been a growing interest in the anomaly detection (AD) task. Since we cannot observe abnormal samples for most of the cases, recent AD methods attempt to formulate it as a task of classifying whether the sample is normal or not. However, they potentially fail when the given normal samples are inherited from diverse semantic labels. To tackle this problem, we introduce a latent class-condition-based AD scenario. In addition, we propose a confidence-based self-labeling AD framework tailored to our proposed scenario. Since our method leverages the hidden class information, it successfully avoids generating the undesirable loose decision region that one-class methods suffer. Our proposed framework outperforms the recent one-class AD methods in the latent multi-class scenarios. | 翻訳日:2021-04-21 22:07:07 公開日:2021-04-20 |
# (参考訳) CoDR: CNNアクセラレータを意識した計算とデータ再利用 CoDR: Computation and Data Reuse Aware CNN Accelerator ( http://arxiv.org/abs/2104.09798v1 ) ライセンス: CC BY 4.0 | Alireza Khadem, Haojie Ye, Trevor Mudge | (参考訳) 計算とデータの再利用は、リソース制限畳み込みニューラルネットワーク(cnn)アクセラレータにとって重要である。
本稿では,畳み込み層内での重み付け,繰り返し,類似性を同時に活用するためのユニバーサル計算再利用法を提案する。
さらに、CoDRは、カスタマイズしたRun-Length Encodingスキームを提案し、入力および出力定常データフローを導入して中間結果へのメモリアクセス数を減少させる。
最近の2つの圧縮CNN加速器の面積が2.85mm^2であるのに対し、CoDRはSRAMアクセスを5.08xと7.99xに減らし、エネルギーを3.76xと6.84xに減らした。 Computation and Data Reuse is critical for the resource-limited Convolutional Neural Network (CNN) accelerators. This paper presents Universal Computation Reuse to exploit weight sparsity, repetition, and similarity simultaneously in a convolutional layer. Moreover, CoDR decreases the cost of weight memory access by proposing a customized Run-Length Encoding scheme and the number of memory accesses to the intermediate results by introducing an input and output stationary dataflow. Compared to two recent compressed CNN accelerators with the same area of 2.85 mm^2, CoDR decreases SRAM access by 5.08x and 7.99x, and consumes 3.76x and 6.84x less energy. | 翻訳日:2021-04-21 21:57:31 公開日:2021-04-20 |
# (参考訳) ハイパースペクトルイメージングとディープラーニングによる果実の熟度測定 Measuring the Ripeness of Fruit with Hyperspectral Imaging and Deep Learning ( http://arxiv.org/abs/2104.09808v1 ) ライセンス: CC BY-SA 4.0 | Leon Amadeus Varga, Jan Makowski and Andreas Zell | (参考訳) 本稿では,ハイパースペクトルカメラと適切なディープニューラルネットワークアーキテクチャを用いて果実の熟度を測定するシステムを提案する。
このアーキテクチャは果実の熟度状態の予測において競争ベースラインモデルより優れていた。
そのために我々は、熟成するアボカドとキウイのデータセットを記録し、それを公開しました。
また,他の果実への適応が容易であるように,データ収集のプロセスについても述べる。
訓練されたネットワークは実証的に検証され、訓練された特徴を調べる。
さらに, 熟成過程を可視化する技術を導入する。 We present a system to measure the ripeness of fruit with a hyperspectral camera and a suitable deep neural network architecture. This architecture did outperform competitive baseline models on the prediction of the ripeness state of fruit. For this, we recorded a data set of ripening avocados and kiwis, which we make public. We also describe the process of data collection in a manner that the adaption for other fruit is easy. The trained network is validated empirically, and we investigate the trained features. Furthermore, a technique is introduced to visualize the ripening process. | 翻訳日:2021-04-21 21:43:20 公開日:2021-04-20 |
# (参考訳) 入力摂動におけるNMTの脆弱性への対処 Addressing the Vulnerability of NMT in Input Perturbations ( http://arxiv.org/abs/2104.09810v1 ) ライセンス: CC BY 4.0 | Weiwen Xu, Ai Ti Aw, Yang Ding, Kui Wu, Shafiq Joty | (参考訳) Neural Machine Translation (NMT)は、パフォーマンスにおいて大きなブレークスルーを達成したが、入力摂動の脆弱性が知られている。
実際の入力ノイズはトレーニング中の予測が難しいため、システムのデプロイメントでは堅牢性が大きな問題になります。
本稿では,コンテキストエンハンスド・リコンストラクション(cer)アプローチによる雑音単語の影響を低減し,nmtモデルのロバスト性を向上させる。
cerは、(1)入力シーケンスの自然な性質をメークアップワードで破る摂動ステップ、(2)より良くロバストなコンテクスト表現を生成してノイズ伝搬を防御する再構築ステップの2段階のノイズに抵抗するようにモデルを訓練する。
中国語-英語(ZH-EN)とフランス語-英語(FR-EN)の翻訳タスクの実験結果から,ニューステキストとソーシャルメディアテキストの両方において堅牢性の向上が示された。
ソーシャルメディアテキストにおけるさらなる微調整実験は,より高い位置に収束し,より良い適応を提供することができることを示す。 Neural Machine Translation (NMT) has achieved significant breakthrough in performance but is known to suffer vulnerability to input perturbations. As real input noise is difficult to predict during training, robustness is a big issue for system deployment. In this paper, we improve the robustness of NMT models by reducing the effect of noisy words through a Context-Enhanced Reconstruction (CER) approach. CER trains the model to resist noise in two steps: (1) perturbation step that breaks the naturalness of input sequence with made-up words; (2) reconstruction step that defends the noise propagation by generating better and more robust contextual representation. Experimental results on Chinese-English (ZH-EN) and French-English (FR-EN) translation tasks demonstrate robustness improvement on both news and social media text. Further fine-tuning experiments on social media text show our approach can converge at a higher position and provide a better adaptation. | 翻訳日:2021-04-21 21:32:39 公開日:2021-04-20 |
# (参考訳) 長期記憶ネットワークを用いたJSEトップ40の予測 Forecasting The JSE Top 40 Using Long Short-Term Memory Networks ( http://arxiv.org/abs/2104.09855v1 ) ライセンス: CC BY 4.0 | Adam Balusik, Jared de Magalhaes and Rendani Mbuvha | (参考訳) ビッグデータの高可用性とコストの低減と現代のコンピューティングのパワーの増大により、金融時系列予測における人工ニューラルネットワークの利用は、金融業界における議論と研究の主要なトピックとなった。
このような学術的な注目にもかかわらず、ニューラルネットワークが最高の性能を発揮し、従来の時系列モデルの予測能力を上回るかどうかについて、いまだに対照的な意見や文献がある。
本稿では、長期記憶ネットワークを用いて、JSEトップ40インデックスのリターンデータに基づいて財務時系列予測を行う。
さらに,長期記憶ネットワークの予測性能を,季節的自己回帰統合移動平均モデルの予測性能と比較した。
本稿では,既存の文献に提示される様々なアプローチを評価し,その結果を既存の文献と比較する。
本研究は,長期記憶ネットワークが日内方向の予測や指数クローズド価格の予測において,季節自己回帰統合移動平均モデルより優れていることを結論する。 As a result of the greater availability of big data, as well as the decreasing costs and increasing power of modern computing, the use of artificial neural networks for financial time series forecasting is once again a major topic of discussion and research in the financial world. Despite this academic focus, there are still contrasting opinions and bodies of literature on which artificial neural networks perform the best and whether or not they outperform the forecasting capabilities of conventional time series models. This paper uses a long-short term memory network to perform financial time series forecasting on the return data of the JSE Top 40 index. Furthermore, the forecasting performance of the long-short term memory network is compared to the forecasting performance of a seasonal autoregressive integrated moving average model. This paper evaluates the varying approaches presented in the existing literature and ultimately, compares the results to that existing literature. The paper concludes that the long short-term memory network outperforms the seasonal autoregressive integrated moving average model when forecasting intraday directional movements as well as when forecasting the index close price. | 翻訳日:2021-04-21 21:19:33 公開日:2021-04-20 |
# (参考訳) グラフレベル表現学習のための置換不変変分オートエンコーダ Permutation-Invariant Variational Autoencoder for Graph-Level Representation Learning ( http://arxiv.org/abs/2104.09856v1 ) ライセンス: CC BY 4.0 | Robin Winter, Frank No\'e, Djork-Arn\'e Clevert | (参考訳) 近年,グラフ構造化データにディープニューラルネットワークを適用することに成功している。
しかし、ほとんどの研究はノードレベルまたはグラフレベルの教師あり学習(例えば、ノード、リンク、グラフ分類、ノードレベルの教師なし学習)に焦点を当てている。
ノードのクラスタリング)。
幅広い応用例があるが、グラフレベルの教師なし学習はまだあまり注目されていない。
これは主に、n!で表せるグラフの高表現の複雑さに起因しているかもしれない。
等価隣接行列 n はノード数である。
本研究では,グラフ構造化データに対する置換不変変分オートエンコーダを提案することでこの問題に対処する。
提案モデルは,特定のノードの順序付けや高価なグラフマッチングを行うことなく,入出力グラフのノード順序を間接的に学習する。
提案手法がグラフ再構成および生成タスクに与える影響を実証し,下流グラフレベルの分類と回帰のための抽出表現の表現力を評価する。 Recently, there has been great success in applying deep neural networks on graph structured data. Most work, however, focuses on either node- or graph-level supervised learning, such as node, link or graph classification or node-level unsupervised learning (e.g. node clustering). Despite its wide range of possible applications, graph-level unsupervised learning has not received much attention yet. This might be mainly attributed to the high representation complexity of graphs, which can be represented by n! equivalent adjacency matrices, where n is the number of nodes. In this work we address this issue by proposing a permutation-invariant variational autoencoder for graph structured data. Our proposed model indirectly learns to match the node ordering of input and output graph, without imposing a particular node ordering or performing expensive graph matching. We demonstrate the effectiveness of our proposed model on various graph reconstruction and generation tasks and evaluate the expressive power of extracted representations for downstream graph-level classification and regression. | 翻訳日:2021-04-21 21:07:33 公開日:2021-04-20 |
# (参考訳) goの蒸留: 自己監督学習におけるオンライン知識蒸留 Distill on the Go: Online knowledge distillation in self-supervised learning ( http://arxiv.org/abs/2104.09866v1 ) ライセンス: CC BY 4.0 | Prashant Bhat, Elahe Arani, and Bahram Zonooz | (参考訳) 自己教師付き学習は、特徴表現を学ぶのにアノテーションを必要としないプレテキスト予測タスクを解決する。
視覚タスクでは、入力データから回転の予測やジグソーの解法などのプレテキストタスクが生成される。
しかし、この既知の情報を予測することは、下流タスクに役立つ表現を学ぶのに役立つ。
しかし、近年の研究では、より広範で深いモデルは、より小さなモデルよりも自己監督学習の恩恵を受けることが示された。
小型モデルの自己教師型事前学習の問題に対処するため,単段階オンライン知識蒸留を用いた自己教師型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
2つのモデルが互いに協調して学習し,相互改善を図る,深い相互学習戦略を採用している。
具体的には、各モデルの類似度スコアのソフトマックス確率をピアモデルと一致させる蒸留とともに、自己教師付き学習を用いて各モデルを訓練する。
提案手法の可能性を実証するために,複数のベンチマークデータセット,学習目標,アーキテクチャについて広範な実験を行った。
以上の結果から,ノイズラベルや制限ラベルの存在,分散データへの一般化などにおいて,高い性能向上が得られた。 Self-supervised learning solves pretext prediction tasks that do not require annotations to learn feature representations. For vision tasks, pretext tasks such as predicting rotation, solving jigsaw are solely created from the input data. Yet, predicting this known information helps in learning representations useful for downstream tasks. However, recent works have shown that wider and deeper models benefit more from self-supervised learning than smaller models. To address the issue of self-supervised pre-training of smaller models, we propose Distill-on-the-Go (DoGo), a self-supervised learning paradigm using single-stage online knowledge distillation to improve the representation quality of the smaller models. We employ deep mutual learning strategy in which two models collaboratively learn from each other to improve one another. Specifically, each model is trained using self-supervised learning along with distillation that aligns each model's softmax probabilities of similarity scores with that of the peer model. We conduct extensive experiments on multiple benchmark datasets, learning objectives, and architectures to demonstrate the potential of our proposed method. Our results show significant performance gain in the presence of noisy and limited labels and generalization to out-of-distribution data. | 翻訳日:2021-04-21 20:50:50 公開日:2021-04-20 |
# (参考訳) 360$^{\circ}$パノラマステレオによる照明・反射・幾何推定 Lighting, Reflectance and Geometry Estimation from 360$^{\circ}$ Panoramic Stereo ( http://arxiv.org/abs/2104.09886v1 ) ライセンス: CC BY 4.0 | Junxuan Li, Hongdong Li and Yasuyuki Matsushita | (参考訳) 本研究では,360$^{\circ}$ステレオ画像から高精細な空間変動照明,反射率およびシーンの形状を推定する手法を提案する。
我々のモデルは360$^{\circ}$入力を利用して、幾何学的詳細でシーン全体を観察し、物理的制約でシーンの特性を共同で推定する。
まず,現場内の任意の3d位置の照明を予測するため,近距離環境光を再構成する。
次に,ステレオ情報を利用して反射率と表面の正常さを推定する深層学習モデルを提案する。
最後に,照明と幾何学の間の物理的制約を取り入れ,シーンの反射率を洗練する。
定量的・定性的な実験から、360$^{\circ}$の観察結果から、従来の最先端の手法よりも優れており、ミラーオブジェクト挿入のようなより拡張現実な応用が可能となる。 We propose a method for estimating high-definition spatially-varying lighting, reflectance, and geometry of a scene from 360$^{\circ}$ stereo images. Our model takes advantage of the 360$^{\circ}$ input to observe the entire scene with geometric detail, then jointly estimates the scene's properties with physical constraints. We first reconstruct a near-field environment light for predicting the lighting at any 3D location within the scene. Then we present a deep learning model that leverages the stereo information to infer the reflectance and surface normal. Lastly, we incorporate the physical constraints between lighting and geometry to refine the reflectance of the scene. Both quantitative and qualitative experiments show that our method, benefiting from the 360$^{\circ}$ observation of the scene, outperforms prior state-of-the-art methods and enables more augmented reality applications such as mirror-objects insertion. | 翻訳日:2021-04-21 20:36:51 公開日:2021-04-20 |
# (参考訳) 明示的パッチ前処理を用いた画像復元のための後方サンプリング Posterior Sampling for Image Restoration using Explicit Patch Priors ( http://arxiv.org/abs/2104.09895v1 ) ライセンス: CC BY 4.0 | Roy Friedman, Yair Weiss | (参考訳) 画像復元手法のほとんど全ては平均二乗誤差(MSE)を最適化することに基づいているが、MSEの最も良い推定値が、与えられた雑音画像に対して多くの妥当な復元があるという事実から、非常に非定型な画像が得られることが知られている。
本稿では,自然画像のパッチに対する明示的な事前設定を組み合わせることにより,劣化画像が与えられた全画像の後方確率からサンプル化する方法を示す。
このアルゴリズムは,従来のパッチベースアプローチで最小化されたコスト関数である$p(x|y) \propto \exp(-e(x|y))$ where $e(x|y)$ から正しいサンプルを生成することが証明される。
MAP や MMSE を用いて単一修復を計算した従来の手法とは異なり,本手法では復元画像における不確実性を明確化し,復元画像のすべてのパッチが以前のパッチに対して典型的であることを保証している。
固定サイズの画像で暗黙の事前設定を用いた従来のアプローチとは異なり、任意のサイズの画像で使用することが可能である。
実験の結果,パッチプライオリティを用いた後方サンプリングは,画像復元の課題範囲において,高い知覚品質と高psnrのイメージを生じさせることがわかった。 Almost all existing methods for image restoration are based on optimizing the mean squared error (MSE), even though it is known that the best estimate in terms of MSE may yield a highly atypical image due to the fact that there are many plausible restorations for a given noisy image. In this paper, we show how to combine explicit priors on patches of natural images in order to sample from the posterior probability of a full image given a degraded image. We prove that our algorithm generates correct samples from the distribution $p(x|y) \propto \exp(-E(x|y))$ where $E(x|y)$ is the cost function minimized in previous patch-based approaches that compute a single restoration. Unlike previous approaches that computed a single restoration using MAP or MMSE, our method makes explicit the uncertainty in the restored images and guarantees that all patches in the restored images will be typical given the patch prior. Unlike previous approaches that used implicit priors on fixed-size images, our approach can be used with images of any size. Our experimental results show that posterior sampling using patch priors yields images of high perceptual quality and high PSNR on a range of challenging image restoration problems. | 翻訳日:2021-04-21 20:24:37 公開日:2021-04-20 |
# (参考訳) crossatnet - スケッチに基づく画像検索のための新しいクロスアテンションベースフレームワーク CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based Image Retrieval ( http://arxiv.org/abs/2104.09918v1 ) ライセンス: CC BY 4.0 | Ushasi Chaudhuri, Biplab Banerjee, Avik Bhattacharya, Mihai Datcu | (参考訳) スケッチベース画像検索(SBIR)の文脈において,クロスモーダルゼロショット学習(ZSL)のための新しいフレームワークを提案する。
従来、SBIRスキーマは2つの画像ビューとセマンティック側情報の同時マッピングを主に検討していた。
したがって、特にスケッチ領域における細粒度クラスを、高度に識別的かつ意味的にリッチな特徴空間を用いて考慮することが望ましい。
しかし、既存の深層モデルに基づくSBIRアプローチは、疑似未知のサンプルを生成することによって、見かけと見えないクラスのギャップを埋めることに重点を置いている。
また、ZSLプロトコルをトレーニング中に見知らぬクラス情報を利用しないことで違反することは、共有空間の識別特性をモデル化することに明確な注意を払わない。
また、スケッチとカラー画像の領域差を考えると、マルチビューの視覚データの両方に統一的な特徴空間を学習するのは面倒な作業である。
この点に関して、ゼロショットSBIRのための新しいフレームワークを導入する。
共有空間の識別性を確保するために、横断的三重項損失を定義する一方で、各スケッチから情報を活用する画像領域からの特徴抽出を誘導する革新的な横断的注意学習戦略も提案する。
共有空間の意味的一貫性を維持するために,共有空間に意味クラストポロジを伝播するグラフCNNベースのモジュールを考える。
推論中の応答時間を改善するために,ハッシュコードを用いて共有空間を表現する可能性について検討する。
ベンチマークTU-BerlinとSketchyデータセットで得られた実験結果は、最先端の結果を得るためにCrossATNetの優位性を確認する。 We propose a novel framework for cross-modal zero-shot learning (ZSL) in the context of sketch-based image retrieval (SBIR). Conventionally, the SBIR schema mainly considers simultaneous mappings among the two image views and the semantic side information. Therefore, it is desirable to consider fine-grained classes mainly in the sketch domain using highly discriminative and semantically rich feature space. However, the existing deep generative modeling-based SBIR approaches majorly focus on bridging the gaps between the seen and unseen classes by generating pseudo-unseen-class samples. Besides, violating the ZSL protocol by not utilizing any unseen-class information during training, such techniques do not pay explicit attention to modeling the discriminative nature of the shared space. Also, we note that learning a unified feature space for both the multi-view visual data is a tedious task considering the significant domain difference between sketches and color images. In this respect, as a remedy, we introduce a novel framework for zero-shot SBIR. While we define a cross-modal triplet loss to ensure the discriminative nature of the shared space, an innovative cross-modal attention learning strategy is also proposed to guide feature extraction from the image domain exploiting information from the respective sketch counterpart. In order to preserve the semantic consistency of the shared space, we consider a graph CNN-based module that propagates the semantic class topology to the shared space. To ensure an improved response time during inference, we further explore the possibility of representing the shared space in terms of hash codes. Experimental results obtained on the benchmark TU-Berlin and the Sketchy datasets confirm the superiority of CrossATNet in yielding state-of-the-art results. | 翻訳日:2021-04-21 20:06:48 公開日:2021-04-20 |
# (参考訳) GDDR: GNNベースのデータ駆動ルーティング GDDR: GNN-based Data-Driven Routing ( http://arxiv.org/abs/2104.09919v1 ) ライセンス: CC BY 4.0 | Oliver Hope, Eiko Yoneki | (参考訳) システムにおける問題に対するアプローチとして,グラフニューラルネットワークに基づくポリシーアーキテクチャと深層強化学習を組み合わせる可能性を検討する。
これは、自然にグラフの形をとるネットワーク上の操作に特に適しています。
ケーススタディでは、ドメイン内トラフィックエンジニアリングにおけるデータ駆動ルーティングの考え方を取り入れ、ネットワーク内のデータのルーティングをデータ自体を考慮して管理することができる。
特に,過去の交通の流れの知識を用いてネットワークにおけるリンクの混雑を最小化することが課題である。
本稿では,グラフニューラルネットワーク(gnns)を用いたアプローチが,多層パーセプトロンアーキテクチャを用いた少なくとも以前の作業と同等の性能を発揮することを示す。
GNNには、トレーニングされたエージェントを、余分な作業なしで異なるネットワークトポロジに一般化できるというメリットが加えられている。
さらに,本手法はシステム研究におけるより広範な問題選択に適用できると考えている。 We explore the feasibility of combining Graph Neural Network-based policy architectures with Deep Reinforcement Learning as an approach to problems in systems. This fits particularly well with operations on networks, which naturally take the form of graphs. As a case study, we take the idea of data-driven routing in intradomain traffic engineering, whereby the routing of data in a network can be managed taking into account the data itself. The particular subproblem which we examine is minimising link congestion in networks using knowledge of historic traffic flows. We show through experiments that an approach using Graph Neural Networks (GNNs) performs at least as well as previous work using Multilayer Perceptron architectures. GNNs have the added benefit that they allow for the generalisation of trained agents to different network topologies with no extra work. Furthermore, we believe that this technique is applicable to a far wider selection of problems in systems research. | 翻訳日:2021-04-21 19:49:43 公開日:2021-04-20 |
# (参考訳) 翻訳断片に基づく文法的誤り生成 Grammatical Error Generation Based on Translated Fragments ( http://arxiv.org/abs/2104.09933v1 ) ライセンス: CC BY 4.0 | Eetu Sj\"oblom and Mathias Creutz and Teemu Vahtola | (参考訳) 英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は, 第二言語学習者の誤りをシミュレーションし, 最先端の合成データ生成手法と比較して, より広範な非ネイティブ言語を生成することを目的とする。
純粋に文法的な誤りに加えて、語彙的エラーなど、他のタイプのエラーも生成する。
ニューラルネットワークを用いた文法的誤り訂正実験を行い,定量的かつ定性的な評価を行う。
提案手法を用いて生成したデータに基づいて学習したモデルは,高い誤差率でテストデータ上でのベースラインモデルより優れていることを示す。 We perform neural machine translation of sentence fragments in order to create large amounts of training data for English grammatical error correction. Our method aims at simulating mistakes made by second language learners, and produces a wider range of non-native style language in comparison to state-of-the-art synthetic data creation methods. In addition to purely grammatical errors, our approach generates other types of errors, such as lexical errors. We perform grammatical error correction experiments using neural sequence-to-sequence models, and carry out quantitative and qualitative evaluation. A model trained on data created using our proposed method is shown to outperform a baseline model on test data with a high proportion of errors. | 翻訳日:2021-04-21 19:28:59 公開日:2021-04-20 |
# (参考訳) マルチエージェント深部強化学習を用いたネットワークワイド信号制御最適化 Network-wide traffic signal control optimization using a multi-agent deep reinforcement learning ( http://arxiv.org/abs/2104.09936v1 ) ライセンス: CC BY 4.0 | Zhenning Li, Hao Yu, Guohui Zhang, Shangjia Dong, Cheng-Zhong Xu | (参考訳) 非効率な交通制御は、交通渋滞やエネルギー廃棄物などの多くの問題を引き起こす可能性がある。
本稿では,交通信号の協調性を高めて最適制御を実現するために,KS-DDPG (Knowledge Sharing Deep Deterministic Policy Gradient) という新しいマルチエージェント強化学習手法を提案する。
知識共有可能な通信プロトコルを導入することで、各エージェントは、すべてのエージェントが収集したトラフィック環境の集団表現にアクセスできる。
提案手法は合成データと実世界データを用いて2つの実験により評価した。
最先端の強化学習法と従来の輸送手法との比較により,提案手法であるks-ddpgは,大規模交通網の制御や交通流の変動への対応において有意な効率性を示している。
さらに、導入された通信機構は計算負荷を大幅に増加させることなくモデルの収束をスピードアップすることが証明されている。 Inefficient traffic control may cause numerous problems such as traffic congestion and energy waste. This paper proposes a novel multi-agent reinforcement learning method, named KS-DDPG (Knowledge Sharing Deep Deterministic Policy Gradient) to achieve optimal control by enhancing the cooperation between traffic signals. By introducing the knowledge-sharing enabled communication protocol, each agent can access to the collective representation of the traffic environment collected by all agents. The proposed method is evaluated through two experiments respectively using synthetic and real-world datasets. The comparison with state-of-the-art reinforcement learning-based and conventional transportation methods demonstrate the proposed KS-DDPG has significant efficiency in controlling large-scale transportation networks and coping with fluctuations in traffic flow. In addition, the introduced communication mechanism has also been proven to speed up the convergence of the model without significantly increasing the computational burden. | 翻訳日:2021-04-21 19:20:17 公開日:2021-04-20 |
# (参考訳) ドメイン一般化のための勾配マッチング Gradient Matching for Domain Generalization ( http://arxiv.org/abs/2104.09937v1 ) ライセンス: CC BY 4.0 | Yuge Shi, Jeffrey Seely, Philip H.S. Torr, N. Siddharth, Awni Hannun, Nicolas Usunier, Gabriel Synnaeve | (参考訳) 機械学習システムは通常、トレーニングとテストセットの分布が密接に一致すると仮定する。
しかし、現実世界におけるそのようなシステムに対する重要な要件は、目に見えない領域に一般化する能力である。
本稿では、異なる領域からの勾配間の内積を最大化することにより、ドメインの一般化を目標とするドメイン間勾配マッチング目的を提案する。
勾配内積の直接最適化は -- 二階微分の計算を必要とする -- 計算的に禁止されるので、その最適化を近似する単純な一階アルゴリズムfishを導出する。
本研究では,Wildsベンチマークから得られた6つのデータセットに対する魚の有効性を示す。
提案手法はこれらのデータセット上で競争結果を生成し,その内4つのベースラインを全て越える。
実世界の分布変化を捉えたWildsベンチマークと、合成から現実への移動に焦点を当てたDomainBedベンチマークのデータセットの両方で実験を行った。
提案手法は,両ベンチマークで競合する結果をもたらし,幅広いドメイン一般化タスクにおいてその効果を示す。 Machine learning systems typically assume that the distributions of training and test sets match closely. However, a critical requirement of such systems in the real world is their ability to generalize to unseen domains. Here, we propose an inter-domain gradient matching objective that targets domain generalization by maximizing the inner product between gradients from different domains. Since direct optimization of the gradient inner product can be computationally prohibitive -- requires computation of second-order derivatives -- we derive a simpler first-order algorithm named Fish that approximates its optimization. We demonstrate the efficacy of Fish on 6 datasets from the Wilds benchmark, which captures distribution shift across a diverse range of modalities. Our method produces competitive results on these datasets and surpasses all baselines on 4 of them. We perform experiments on both the Wilds benchmark, which captures distribution shift in the real world, as well as datasets in DomainBed benchmark that focuses more on synthetic-to-real transfer. Our method produces competitive results on both benchmarks, demonstrating its effectiveness across a wide range of domain generalization tasks. | 翻訳日:2021-04-21 19:19:21 公開日:2021-04-20 |
# (参考訳) 平滑化モデル検査におけるアクティブおよびスパース法 Active and sparse methods in smoothed model checking ( http://arxiv.org/abs/2104.09940v1 ) ライセンス: CC BY 4.0 | Paul Piho, Jane Hillston | (参考訳) ガウス過程の分類に基づく平滑化モデルチェックは、パラメトリック連続時間マルコフ連鎖モデルの統計モデルチェックに強力なアプローチを提供する。
本手法はマルコフ連鎖パラメータに対する満足度確率の関数的依存性に関するモデルを構築する。
これは、異なるパラメータの組み合わせに対する限られた数の観測からガウス過程推論メソッドを介して行われる。
本研究では,スパース変分法とアクティブラーニングに基づくスムーズなモデル検査の拡張を検討する。
どちらもスムーズなモデルチェックのスケーラビリティ向上に成功している。
特に,シミュレーションモデルを反復的に問合せするアクティブな学習に基づくアイデアは,パラメータ空間のより有意義な領域にモデルチェックを制御し,サンプル効率を向上させるのに有用である。
スパース変分ガウス過程推論アルゴリズムのオンライン拡張は、スムーズなモデル検査のための能動的学習手法を実装するためのスケーラブルな方法を提供する。 Smoothed model checking based on Gaussian process classification provides a powerful approach for statistical model checking of parametric continuous time Markov chain models. The method constructs a model for the functional dependence of satisfaction probability on the Markov chain parameters. This is done via Gaussian process inference methods from a limited number of observations for different parameter combinations. In this work we consider extensions to smoothed model checking based on sparse variational methods and active learning. Both are used successfully to improve the scalability of smoothed model checking. In particular, we see that active learning-based ideas for iteratively querying the simulation model for observations can be used to steer the model-checking to more informative areas of the parameter space and thus improve sample efficiency. Online extensions of sparse variational Gaussian process inference algorithms are demonstrated to provide a scalable method for implementing active learning approaches for smoothed model checking. | 翻訳日:2021-04-21 18:53:32 公開日:2021-04-20 |
# (参考訳) MGSampler: ビデオアクション認識のための説明可能なサンプリング戦略 MGSampler: An Explainable Sampling Strategy for Video Action Recognition ( http://arxiv.org/abs/2104.09952v1 ) ライセンス: CC BY 4.0 | Yuan Zhi, Zhan Tong, Limin Wang, Gangshan Wu | (参考訳) フレームサンプリングは、時間と限られた計算資源の欠如により、ビデオアクション認識の基本的な問題である。
既存のサンプリング戦略はしばしば固定フレーム選択を採用しており、ビデオの複雑なバリエーションを扱う柔軟性に欠ける。
本稿では、Motion-Guided Sampler(MGSampler)と呼ばれる、説明可能な、適応的で効果的なフレームサンプリング手法を提案する。
私たちの基本的な動機は、モーションは重要で普遍的な信号であり、ビデオからフレームを適応的に選択できるということです。
そこで我々は,MGSamplerの設計における2つの重要な特性として,運動感度と運動均一性を提案する。
まず,2つの異なる動き表現を提示することで,動きのサルエントフレームを背景から効率的に区別することができる。
次に, 累積運動分布に基づく運動一様サンプリング戦略を考案し, サンプリングされたフレームがすべての重要なフレームを高い運動塩分で均等にカバーすることを保証する。
私たちのMGSamplerは、既存のビデオアーキテクチャに組み込むことのできる、新しい原則で総合的なサンプルスキームを提供します。
5つのベンチマークにおける実験は、以前の固定されたサンプリング戦略に対するmgsamplerの有効性と、異なるバックボーン、ビデオモデル、データセットにまたがる一般化能力を示しています。 Frame sampling is a fundamental problem in video action recognition due to the essential redundancy in time and limited computation resources. The existing sampling strategy often employs a fixed frame selection and lacks the flexibility to deal with complex variations in videos. In this paper, we present an explainable, adaptive, and effective frame sampler, called Motion-guided Sampler (MGSampler). Our basic motivation is that motion is an important and universal signal that can drive us to select frames from videos adaptively. Accordingly, we propose two important properties in our MGSampler design: motion sensitive and motion uniform. First, we present two different motion representations to enable us to efficiently distinguish the motion salient frames from the background. Then, we devise a motion-uniform sampling strategy based on the cumulative motion distribution to ensure the sampled frames evenly cover all the important frames with high motion saliency. Our MGSampler yields a new principled and holistic sample scheme, that could be incorporated into any existing video architecture. Experiments on five benchmarks demonstrate the effectiveness of our MGSampler over previously fixed sampling strategies, and also its generalization power across different backbones, video models, and datasets. | 翻訳日:2021-04-21 18:37:34 公開日:2021-04-20 |
# (参考訳) ロバスト銀河楕円性回帰のためのベイズ畳み込みニューラルネットワーク A Bayesian Convolutional Neural Network for Robust Galaxy Ellipticity Regression ( http://arxiv.org/abs/2104.09970v1 ) ライセンス: CC0 1.0 | Claire Theobald, Bastien Arcelin, Fr\'ed\'eric Pennerath, Brieuc Conan-Guez, Miguel Couceiro, Amedeo Napoli | (参考訳) 宇宙のせん断推定は大きな銀河探査にとって重要な科学的目標である。
遠方の銀河画像が観測線に沿って弱い重力レンズによりコヒーレントに歪むことを指す。
宇宙における物質分布のトレーサーとして使うことができる。
宇宙せん断の局所値の偏りのない推定は、銀河の楕円性(形状)の後角分布のロバストな推定に依存するベイズ解析によって得られる。
これは単純な問題ではなく、画像は強い背景ノイズで破損する可能性がある。
現在および今後の調査では、銀河の形状決定におけるもう一つの中心的な問題は、統計的に支配的な重なり合う物体の扱いである。
本稿では,銀河の楕円性およびそれに対応する不確かさを確実に推定するために,モンテカルロ・ドロップアウトに基づくベイズ畳み込みニューラルネットワークを提案する。
畳み込みネットワークは、適切に校正されたアレタリック不確実性(画像にノイズが存在することによる不確実性)を正確に推定するために訓練できるが、これまで見られなかったデータ(すなわち)に露出すると、信頼できる楕円性分布を生成できないことを示す。
ここにブレンドシーンがある)。
ベイズニューラルネットワークを導入することにより, 楕円形の後方予測分布を確実に推定し, 認識の不確かさを頑健に推定する方法を示す。
実験では、不確実性は、未知の混合シーンによる矛盾した予測を検出することも示している。 Cosmic shear estimation is an essential scientific goal for large galaxy surveys. It refers to the coherent distortion of distant galaxy images due to weak gravitational lensing along the line of sight. It can be used as a tracer of the matter distribution in the Universe. The unbiased estimation of the local value of the cosmic shear can be obtained via Bayesian analysis which relies on robust estimation of the galaxies ellipticity (shape) posterior distribution. This is not a simple problem as, among other things, the images may be corrupted with strong background noise. For current and coming surveys, another central issue in galaxy shape determination is the treatment of statistically dominant overlapping (blended) objects. We propose a Bayesian Convolutional Neural Network based on Monte-Carlo Dropout to reliably estimate the ellipticity of galaxies and the corresponding measurement uncertainties. We show that while a convolutional network can be trained to correctly estimate well calibrated aleatoric uncertainty, -- the uncertainty due to the presence of noise in the images -- it is unable to generate a trustworthy ellipticity distribution when exposed to previously unseen data (i.e. here, blended scenes). By introducing a Bayesian Neural Network, we show how to reliably estimate the posterior predictive distribution of ellipticities along with robust estimation of epistemic uncertainties. Experiments also show that epistemic uncertainty can detect inconsistent predictions due to unknown blended scenes. | 翻訳日:2021-04-21 18:23:38 公開日:2021-04-20 |
# (参考訳) アクティブサイバー防衛への人工知能の展望 Prospective Artificial Intelligence Approaches for Active Cyber Defence ( http://arxiv.org/abs/2104.09981v1 ) ライセンス: CC BY 4.0 | Neil Dhir, Henrique Hoeltgebaum, Niall Adams, Mark Briers, Anthony Burke, Paul Jones | (参考訳) サイバー犯罪者は、人工知能(AI)を活用して、適応性と盗聴の新たなクラスを可能にする新しい悪意あるツールを急速に開発している。
これらの脅威に対抗するために新しい防御方法を開発する必要がある。
一部のサイバーセキュリティ専門家は、AIが対応するサイバー防衛対策の新たなクラスを可能にすると推測している。
alan turing instituteは、英国国立サイバーセキュリティセンターと防衛科学技術研究所のエキスパートガイダンスで、昨年ai for acdのための研究ロードマップを発表した。
本稿では、最も有望な2つのaiアプローチ - 強化学習と因果推論 - のロードマップをアップデートし、なぜ彼らがディフェンダーに対するバランスを取り戻すのに役立つのかを説明します。 Cybercriminals are rapidly developing new malicious tools that leverage artificial intelligence (AI) to enable new classes of adaptive and stealthy attacks. New defensive methods need to be developed to counter these threats. Some cybersecurity professionals are speculating AI will enable corresponding new classes of active cyber defence measures -- is this realistic, or currently mostly hype? The Alan Turing Institute, with expert guidance from the UK National Cyber Security Centre and Defence Science Technology Laboratory, published a research roadmap for AI for ACD last year. This position paper updates the roadmap for two of the most promising AI approaches -- reinforcement learning and causal inference - and describes why they could help tip the balance back towards defenders. | 翻訳日:2021-04-21 18:10:56 公開日:2021-04-20 |
# (参考訳) マルチタスク・セルフスーパービジョンによるきめ細かい異常検出 Fine-grained Anomaly Detection via Multi-task Self-Supervision ( http://arxiv.org/abs/2104.09993v1 ) ライセンス: CC BY 4.0 | Loic Jezequel, Ngoc-Son Vu, Jean Beaudet, Aymeric Histace | (参考訳) ディープラーニングを使って異常を検出することは、ここ数年で大きな課題となり、いくつかの分野でますます有望になっている。
自己教師付き学習の導入は、単純な幾何学的変換認識タスクを使用する異常検出を含む多くの手法に大きく貢献している。
しかし,細かな特徴が欠けているため,細かな問題ではうまく機能しない。
マルチタスクフレームワークであるhigh-scale shape features oriented taskとlow-scale fine features oriented taskを組み合わせることで,細粒度の異常検出を大幅に改善する。
様々な異常検出問題において、AUROCで測定された誤差を最大31%削減し、最先端技術を上回っている。 Detecting anomalies using deep learning has become a major challenge over the last years, and is becoming increasingly promising in several fields. The introduction of self-supervised learning has greatly helped many methods including anomaly detection where simple geometric transformation recognition tasks are used. However these methods do not perform well on fine-grained problems since they lack finer features. By combining in a multi-task framework high-scale shape features oriented task with low-scale fine features oriented task, our method greatly improves fine-grained anomaly detection. It outperforms state-of-the-art with up to 31% relative error reduction measured with AUROC on various anomaly detection problems. | 翻訳日:2021-04-21 18:02:09 公開日:2021-04-20 |
# (参考訳) ディープラーニングに基づくエンドツーエンド音声合成技術の検討 Review of end-to-end speech synthesis technology based on deep learning ( http://arxiv.org/abs/2104.09995v1 ) ライセンス: CC BY 4.0 | Zhaoxi Mu, Xinyu Yang, Yizhuo Dong | (参考訳) 現代人とコンピュータのインタラクションシステムにとって欠かせない部分として、音声合成技術は知能マシンの出力をより簡単かつ直感的に得るのに役立つため、ますます注目を集めている。
従来の音声合成技術の複雑さと低効率の限界のため、現在の研究対象はディープラーニングに基づくエンドツーエンド音声合成技術であり、より強力なモデリング能力とより単純なパイプラインを備えている。
主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。
本稿では,これら3部の研究状況を概観し,その重要度に応じて各種手法を分類・比較する。
さらに,音声合成タスクに使用できる英語,中国語,その他の言語のオープンソースの音声コーパスを要約し,主観的,客観的な音声品質評価方法について紹介する。
最後に、将来的な研究の方向性が指摘されている。 As an indispensable part of modern human-computer interaction system, speech synthesis technology helps users get the output of intelligent machine more easily and intuitively, thus has attracted more and more attention. Due to the limitations of high complexity and low efficiency of traditional speech synthesis technology, the current research focus is the deep learning-based end-to-end speech synthesis technology, which has more powerful modeling ability and a simpler pipeline. It mainly consists of three modules: text front-end, acoustic model, and vocoder. This paper reviews the research status of these three parts, and classifies and compares various methods according to their emphasis. Moreover, this paper also summarizes the open-source speech corpus of English, Chinese and other languages that can be used for speech synthesis tasks, and introduces some commonly used subjective and objective speech quality evaluation method. Finally, some attractive future research directions are pointed out. | 翻訳日:2021-04-21 17:53:12 公開日:2021-04-20 |
# (参考訳) 胚性caenorhabditis elegansにおける核同定のための正確なハイパーグラフマッチングアルゴリズム An Exact Hypergraph Matching Algorithm for Nuclear Identification in Embryonic Caenorhabditis elegans ( http://arxiv.org/abs/2104.10003v1 ) ライセンス: CC BY 4.0 | Andrew Lauziere, Ryan Christensen, Hari Shroff, Radu Balan | (参考訳) 点集合間の最適な対応を見つけることは、コンピュータビジョンにおいて共通のタスクである。
既存の手法では点間の関係は比較的単純であり、最適一致を保証しない。
本稿では,タスクをハイパーグラフマッチングとしてモデル化することで,ポイントセットマッチングを正確に解くアルゴリズムを提案する。
このアルゴリズムは古典分岐と有界パラダイムを拡張し、多線形目的関数の分解提案の下で頂点を選択・集約する。
Caenorhabditis elegansは、発達生物学や神経生物学で頻繁に用いられるモデル生物である。
胚性c. elegansは、胚発生中に他の核を同定できるfiducial markerとして機能するseam細胞を含む。
提案アルゴリズムは,他の複雑な点集合マッチングタスクにアプローチするための枠組みを提供しながら,確立した点集合マッチング手法よりも精度の高いシームセルを同定する。 Finding an optimal correspondence between point sets is a common task in computer vision. Existing techniques assume relatively simple relationships among points and do not guarantee an optimal match. We introduce an algorithm capable of exactly solving point set matching by modeling the task as hypergraph matching. The algorithm extends the classical branch and bound paradigm to select and aggregate vertices under a proposed decomposition of the multilinear objective function. The methodology is motivated by Caenorhabditis elegans, a model organism used frequently in developmental biology and neurobiology. The embryonic C. elegans contains seam cells that can act as fiducial markers allowing the identification of other nuclei during embryo development. The proposed algorithm identifies seam cells more accurately than established point-set matching methods, while providing a framework to approach other similarly complex point set matching tasks. | 翻訳日:2021-04-21 17:52:02 公開日:2021-04-20 |
# (参考訳) ロバスト非教師付きホモグラフィ推定のための知覚損失 Perceptual Loss for Robust Unsupervised Homography Estimation ( http://arxiv.org/abs/2104.10011v1 ) ライセンス: CC BY 4.0 | Daniel Koguciuk, Elahe Arani, Bahram Zonooz | (参考訳) ホモグラフィ推定は、多くのコンピュータビジョンタスクにおいて必須のステップであることが多い。
しかし、既存のアプローチは照明やより大きな視点の変化に対して堅牢ではない。
本稿では,非教師付きホモグラフィ推定のための双方向暗黙的ホモグラフィ推定(bihome loss)を提案する。
biHomEは、ソース視点からの歪んだ画像とターゲット視点からの対応する画像との間の特徴空間における距離を最小化する。
固定された事前学習された特徴抽出器を使用し、フレームワークの学習可能なコンポーネントはホモグラフィネットワークのみであるため、ホモグラフィ推定と表現学習を効果的に分離する。
合成COCOデータセット生成において、実世界のシナリオの照度変化をより良く表現するために、さらなる光度歪みステップを用いる。
我々は,BiHomEがCOCOデータセットの最先端性能を実現していることを示す。
さらに, 実験結果から, 既存手法と比較して照明変動に対するアプローチの堅牢性を示した。 Homography estimation is often an indispensable step in many computer vision tasks. The existing approaches, however, are not robust to illumination and/or larger viewpoint changes. In this paper, we propose bidirectional implicit Homography Estimation (biHomE) loss for unsupervised homography estimation. biHomE minimizes the distance in the feature space between the warped image from the source viewpoint and the corresponding image from the target viewpoint. Since we use a fixed pre-trained feature extractor and the only learnable component of our framework is the homography network, we effectively decouple the homography estimation from representation learning. We use an additional photometric distortion step in the synthetic COCO dataset generation to better represent the illumination variation of the real-world scenarios. We show that biHomE achieves state-of-the-art performance on synthetic COCO dataset, which is also comparable or better compared to supervised approaches. Furthermore, the empirical results demonstrate the robustness of our approach to illumination variation compared to existing methods. | 翻訳日:2021-04-21 17:25:32 公開日:2021-04-20 |
# (参考訳) 学習画像登録における意味的類似度指標 Semantic similarity metrics for learned image registration ( http://arxiv.org/abs/2104.10051v1 ) ライセンス: CC BY 4.0 | Steffen Czolbe, Oswin Krause and Aasa Feragen | (参考訳) 画像登録のための意味的類似度尺度を提案する。
ユークリッド距離や正規化クロス相関のような既存のメトリクスは、強度の値の整合に重点を置いており、強度のコントラストやノイズが低い。
提案手法は,学習ベース登録モデルの最適化を促進するデータセット固有の特徴を学習する。
自動エンコーダを用いた教師なしアプローチと補足セグメンテーションデータを用いた半教師なしアプローチの両方を訓練し、画像登録のための意味的特徴を抽出する。
複数の画像モダリティとアプリケーションにわたる既存の方法と比較し、一貫して高い登録精度を達成する。
ノイズに対する学習的不変性は、低画質の画像に対してよりスムーズな変換を与える。 We propose a semantic similarity metric for image registration. Existing metrics like Euclidean Distance or Normalized Cross-Correlation focus on aligning intensity values, giving difficulties with low intensity contrast or noise. Our approach learns dataset-specific features that drive the optimization of a learning-based registration model. We train both an unsupervised approach using an auto-encoder, and a semi-supervised approach using supplemental segmentation data to extract semantic features for image registration. Comparing to existing methods across multiple image modalities and applications, we achieve consistently high registration accuracy. A learned invariance to noise gives smoother transformations on low-quality images. | 翻訳日:2021-04-21 17:10:22 公開日:2021-04-20 |
# (参考訳) UNISURF:多視点再構成のためのニューラルインシシデント表面と放射場の統合 UNISURF: Unifying Neural Implicit Surfaces and Radiance Fields for Multi-View Reconstruction ( http://arxiv.org/abs/2104.10078v1 ) ライセンス: CC BY-SA 4.0 | Michael Oechsle, Songyou Peng, Andreas Geiger | (参考訳) ニューラルな暗黙の3D表現は、多視点画像から表面を再構成し、新しい視点を合成するための強力なパラダイムとして登場した。
残念なことに、DVRやIDRのような既存の手法では、正確なピクセル単位のオブジェクトマスクを監督する必要がある。
同時に、神経放射場は新規なビュー合成に革命をもたらした。
しかし、NeRFの推定体積密度は正確な表面再構成を認めていない。
我々の重要な洞察は、暗黙の曲面モデルと放射場を統一的に定式化することができ、同じモデルを用いて表面および体積のレンダリングを可能にすることである。
この統一された視点は、新しいより効率的なサンプリング手順と、入力マスクなしで正確な表面を再構築することを可能にする。
本手法は,DTU,BlendedMVS,合成室内データセットで比較した。
実験により, マスクを必要とせず, idrと同等の性能を保ちつつ, 再構成品質でnrfを上回った。 Neural implicit 3D representations have emerged as a powerful paradigm for reconstructing surfaces from multi-view images and synthesizing novel views. Unfortunately, existing methods such as DVR or IDR require accurate per-pixel object masks as supervision. At the same time, neural radiance fields have revolutionized novel view synthesis. However, NeRF's estimated volume density does not admit accurate surface reconstruction. Our key insight is that implicit surface models and radiance fields can be formulated in a unified way, enabling both surface and volume rendering using the same model. This unified perspective enables novel, more efficient sampling procedures and the ability to reconstruct accurate surfaces without input masks. We compare our method on the DTU, BlendedMVS, and a synthetic indoor dataset. Our experiments demonstrate that we outperform NeRF in terms of reconstruction quality while performing on par with IDR without requiring masks. | 翻訳日:2021-04-21 16:56:49 公開日:2021-04-20 |
# (参考訳) 表現学習による感情の認知モデルの拡張 Enhancing Cognitive Models of Emotions with Representation Learning ( http://arxiv.org/abs/2104.10117v1 ) ライセンス: CC BY 4.0 | Yuting Guo and Jinho Choi | (参考訳) 本稿では,感情の心理モデルを記述するために,きめ細かな感情の埋め込み表現を生成するための,新しい深層学習ベースのフレームワークを提案する。
本フレームワークは,感情分類タスクに最適化された動的学習表現の解釈を可能にするマルチヘッド探索モデルと,コンテキスト型埋め込みエンコーダを統合した。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
階層分析は感情間の階層的関係を表現する感情グラフを導出することができる。
私たちの感情表現は、plutchikのs\lnモデルに匹敵する感情ホイールを生成するのに使用できます。 We present a novel deep learning-based framework to generate embedding representations of fine-grained emotions that can be used to computationally describe psychological models of emotions. Our framework integrates a contextualized embedding encoder with a multi-head probing model that enables to interpret dynamically learned representations optimized for an emotion classification task. Our model is evaluated on the Empathetic Dialogue dataset and shows the state-of-the-art result for classifying 32 emotions. Our layer analysis can derive an emotion graph to depict hierarchical relations among the emotions. Our emotion representations can be used to generate an emotion wheel directly comparable to the one from Plutchik's\LN model, and also augment the values of missing emotions in the PAD emotional state model. | 翻訳日:2021-04-21 16:38:06 公開日:2021-04-20 |
# (参考訳) Resnet と TCN ハイブリッドネットワークによる学生エンゲージメント検出の最先端化 Improving state-of-the-art in Detecting Student Engagement with Resnet and TCN Hybrid Network ( http://arxiv.org/abs/2104.10122v1 ) ライセンス: CC BY 4.0 | Ali Abedi and Shehroz S. Khan | (参考訳) オンライン学習環境における学生のエンゲージメントの自動検出は,学習の質を高め,個別の学習教材を提供するための重要な要素である。
オンライン教室で学生が提示するエンゲージメントのレベルは、空間と時間にまたがって起こる情緒的な行動である。
そこで,ビデオから学生のエンゲージメントのレベルを時空間分類問題として定式化する。
本稿では,ビデオにおける学生のエンゲージメントレベル検出のための,新たなエンドツーエンド残差ネットワーク(resnet)と時間畳み込みネットワーク(tcn)ハイブリッドニューラルネットワークアーキテクチャを提案する。
2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。
ハイブリッドネットワークの空間的・時間的アームは、大規模公開学生のエンゲージメント検出データセットであるDAiSEEの生のビデオフレームで共同で訓練される。
本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。
ResNet+TCNアーキテクチャは、他の研究手法よりも優れ、最先端のエンゲージメントレベル検出精度を改善し、将来の研究のための新たなベースラインを設定している。 Automatic detection of students' engagement in online learning settings is a key element to improve the quality of learning and to deliver personalized learning materials to them. Varying levels of engagement exhibited by students in an online classroom is an affective behavior that takes place over space and time. Therefore, we formulate detecting levels of students' engagement from videos as a spatio-temporal classification problem. In this paper, we present a novel end-to-end Residual Network (ResNet) and Temporal Convolutional Network (TCN) hybrid neural network architecture for students' engagement level detection in videos. The 2D ResNet extracts spatial features from consecutive video frames, and the TCN analyzes the temporal changes in video frames to detect the level of engagement. The spatial and temporal arms of the hybrid network are jointly trained on raw video frames of a large publicly available students' engagement detection dataset, DAiSEE. We compared our method with several competing students' engagement detection methods on this dataset. The ResNet+TCN architecture outperforms all other studied methods, improves the state-of-the-art engagement level detection accuracy, and sets a new baseline for future research. | 翻訳日:2021-04-21 16:28:58 公開日:2021-04-20 |
# (参考訳) bisecting for selection: using a laplacian eigenmaps clustering approach to creating the new european football super league Bisecting for selecting: using a Laplacian eigenmaps clustering approach to create the new European football Super League ( http://arxiv.org/abs/2104.10125v1 ) ライセンス: CC BY 4.0 | A. J. Bond, C. B. Beggs | (参考訳) 欧州サッカーパフォーマンスデータを用いて、監督されていない技術のみを使用して、提案された欧州サッカースーパーリーグを構成するチームを選択する。
最初にランダムな森林回帰を用いてゴール差を予測する重要な変数を選択し、チーム間のユークリッド距離を計算した。
ラプラシアン固有マップを作成し、我々は5つの主要な欧州サッカーリーグの自然集団を特定するために、フィールダーベクトルを二分した。
その結果、教師なしのアプローチが5つの基本的なパフォーマンス指標に基づいて4つのクラスタを識別することに成功した。
上位2つのクラスタは、それぞれのリーグを支配し、最も競争力のあるエリートスーパーリーグを作る最善の候補であるチームを特定する。 We use European football performance data to select teams to form the proposed European football Super League, using only unsupervised techniques. We first used random forest regression to select important variables predicting goal difference, which we used to calculate the Euclidian distances between teams. Creating a Laplacian eigenmap, we bisected the Fielder vector to identify the five major European football leagues' natural clusters. Our results showed how an unsupervised approach could successfully identify four clusters based on five basic performance metrics: shots, shots on target, shots conceded, possession, and pass success. The top two clusters identify those teams who dominate their respective leagues and are the best candidates to create the most competitive elite super league. | 翻訳日:2021-04-21 16:13:40 公開日:2021-04-20 |
# (参考訳) トランスフォーマーによる透明物体検出とカモフラージュ物体検出 Transformer Transforms Salient Object Detection and Camouflaged Object Detection ( http://arxiv.org/abs/2104.10127v1 ) ライセンス: CC BY 4.0 | Yuxin Mao, Jing Zhang, Zhexiong Wan, Yuchao Dai, Aixuan Li, Yunqiu Lv, Xinyu Tian, Deng-Ping Fan, and Nick Barnes | (参考訳) 機械翻訳に由来するトランスフォーマーネットワークは、長いシーケンス内の長距離依存性のモデル化に特に適している。
現在、トランスフォーマーネットワークは、ハイレベル分類タスクから低レベル密度予測タスクまで、様々なビジョンタスクにおいて革命的な進歩を遂げている。
本稿では,sod (salient object detection) へのトランスフォーマーネットワークの適用に関する研究を行う。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として, 完全教師付きモデルを用いて, カモフラージュ対象検出 (COD) の課題に適用し, キャモフラーグ対象のセグメンテーションについて検討した。
完全教師付きモデルでは、高密度トランスフォーマーバックボーンを特徴エンコーダとして定義し、非常に単純なデコーダを設計し、1チャンネルのサリエンシマップ(またはCODタスクのカモフラージュマップ)を作成する。
弱教師付きモデルでは,scribbleアノテーションに構造情報が存在しないため,提案するgated-crf損失をまず適用し,正確なモデル予測のためのペアワイズ関係を効果的にモデル化する。
そこで,本研究では,小規模学習データセット上で学習された弱教師付きモデルやモデルに対して有効であることを証明した,スケール不変予測をモデルにプッシュする自己教師付き学習戦略を提案する。
各種SODおよびCODタスク(フル教師付きRGBイメージベースSOD、フル教師付きRGB-DイメージペアベースSOD、スクリブルインスペクションによる弱い教師付きSOD、フル教師付きRGBイメージベースCOD)の広範な実験結果から、トランスフォーマーネットワークが健全なオブジェクト検出とキャモフラージュされたオブジェクト検出を変換し、関連するタスクごとに新しいベンチマークを作成できることを示した。 The transformer networks, which originate from machine translation, are particularly good at modeling long-range dependencies within a long sequence. Currently, the transformer networks are making revolutionary progress in various vision tasks ranging from high-level classification tasks to low-level dense prediction tasks. In this paper, we conduct research on applying the transformer networks for salient object detection (SOD). Specifically, we adopt the dense transformer backbone for fully supervised RGB image based SOD, RGB-D image pair based SOD, and weakly supervised SOD via scribble supervision. As an extension, we also apply our fully supervised model to the task of camouflaged object detection (COD) for camouflaged object segmentation. For the fully supervised models, we define the dense transformer backbone as feature encoder, and design a very simple decoder to produce a one channel saliency map (or camouflage map for the COD task). For the weakly supervised model, as there exists no structure information in the scribble annotation, we first adopt the recent proposed Gated-CRF loss to effectively model the pair-wise relationships for accurate model prediction. Then, we introduce self-supervised learning strategy to push the model to produce scale-invariant predictions, which is proven effective for weakly supervised models and models trained on small training datasets. Extensive experimental results on various SOD and COD tasks (fully supervised RGB image based SOD, fully supervised RGB-D image pair based SOD, weakly supervised SOD via scribble supervision, and fully supervised RGB image based COD) illustrate that transformer networks can transform salient object detection and camouflaged object detection, leading to new benchmarks for each related task. | 翻訳日:2021-04-21 15:57:31 公開日:2021-04-20 |
# (参考訳) 解釈可能な予測と分類のためのベイズ部分集合の選択と変数の重要性 Bayesian subset selection and variable importance for interpretable prediction and classification ( http://arxiv.org/abs/2104.10150v1 ) ライセンス: CC BY 4.0 | Daniel R. Kowal | (参考訳) サブセット選択は、解釈可能な学習、科学的発見、データ圧縮のための貴重なツールである。
しかし、古典的な部分集合の選択は、選択の不安定性、計算ボトルネック、選択後の推論の欠如により、しばしば省略される。
我々はこれらの課題をベイズの観点から解決する。
任意のベイズ予測モデル $\mathcal{M}$ を考えると、線形決定解析を用いて予測競合部分集合を求める。
このアプローチは(ローカルな)予測や分類用にカスタマイズでき、$\mathcal{m}$の解釈可能な要約を提供する。
これは$\mathcal{m}$からの予測分布を利用して、ほぼ最適に近い予測を提供するサブセットを識別する。
許容可能なファミリーは、変数(co-)がすべて、一部、あるいは許容できるサブセットに現れるかどうかに基づいて、新しい(co-)変数重要なメトリクスを生成する。
重要なことに、任意の部分集合に対する線型係数は、$\mathcal{M}$ による正則化と予測不確かさの定量化を継承する。
提案手法は,$p=400 > n$を含むシミュレーションデータに対して優れた予測,区間推定,変数選択を行う。
これらのツールは、非常に相関性の高い共変量を持つ大規模な教育データセットに適用される。
本分析は, 教育成果を予測する環境要因, 社会経済要因, 人口統計因子の組み合わせについて, 独自の知見を与え, 高度に競争力のある予測を特徴とする。 Subset selection is a valuable tool for interpretable learning, scientific discovery, and data compression. However, classical subset selection is often eschewed due to selection instability, computational bottlenecks, and lack of post-selection inference. We address these challenges from a Bayesian perspective. Given any Bayesian predictive model $\mathcal{M}$, we elicit predictively-competitive subsets using linear decision analysis. The approach is customizable for (local) prediction or classification and provides interpretable summaries of $\mathcal{M}$. A key quantity is the acceptable family of subsets, which leverages the predictive distribution from $\mathcal{M}$ to identify subsets that offer nearly-optimal prediction. The acceptable family spawns new (co-) variable importance metrics based on whether variables (co-) appear in all, some, or no acceptable subsets. Crucially, the linear coefficients for any subset inherit regularization and predictive uncertainty quantification via $\mathcal{M}$. The proposed approach exhibits excellent prediction, interval estimation, and variable selection for simulated data, including $p=400 > n$. These tools are applied to a large education dataset with highly correlated covariates, where the acceptable family is especially useful. Our analysis provides unique insights into the combination of environmental, socioeconomic, and demographic factors that predict educational outcomes, and features highly competitive prediction with remarkable stability. | 翻訳日:2021-04-21 15:09:58 公開日:2021-04-20 |
# (参考訳) VideoGPT:VQ-VAEとトランスフォーマーを用いたビデオ生成 VideoGPT: Video Generation using VQ-VAE and Transformers ( http://arxiv.org/abs/2104.10157v1 ) ライセンス: CC BY 4.0 | Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas | (参考訳) videogpt: 自然ビデオに確率に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャです。
VideoGPTはVQ-VAEを使用して、3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。
単純なgptライクなアーキテクチャは時空間的位置符号化を用いて離散的潜在子を自己回帰的にモデル化するために使われる。
定式化と訓練の容易さにもかかわらず、我々のアーキテクチャは、BAIR Robotデータセット上のビデオ生成のための最先端のGANモデルと競合するサンプルを生成し、UCF-101とTumbler GIF Dataset(TGIF)から高忠実な自然画像を生成することができる。
提案するアーキテクチャは,トランスフォーマティブ・ビデオ生成モデルの最小限の実装のための再現可能なリファレンスとして機能することを願っている。
サンプルとコードはhttps://wilson1yan.github.io/videogpt/index.htmlで入手できる。 We present VideoGPT: a conceptually simple architecture for scaling likelihood based generative modeling to natural videos. VideoGPT uses VQ-VAE that learns downsampled discrete latent representations of a raw video by employing 3D convolutions and axial self-attention. A simple GPT-like architecture is then used to autoregressively model the discrete latents using spatio-temporal position encodings. Despite the simplicity in formulation and ease of training, our architecture is able to generate samples competitive with state-of-the-art GAN models for video generation on the BAIR Robot dataset, and generate high fidelity natural images from UCF-101 and Tumbler GIF Dataset (TGIF). We hope our proposed architecture serves as a reproducible reference for a minimalistic implementation of transformer based video generation models. Samples and code are available at https://wilson1yan.github.io/videogpt/index.html | 翻訳日:2021-04-21 15:08:50 公開日:2021-04-20 |
# (参考訳) 非対称圧縮学習と量子化スケッチへの応用 Asymmetric compressive learning guarantees with applications to quantized sketches ( http://arxiv.org/abs/2104.10061v1 ) ライセンス: CC BY 4.0 | Vincent Schellekens and Laurent Jacques | (参考訳) 圧縮学習フレームワークは、大規模データセットでのトレーニングの計算コストを削減する。
スケッチフェーズでは、データをまず軽量なスケッチベクトルに圧縮し、データサンプルを well-chosen 特徴マップにマッピングし、それらのコントリビューションを平均化する。
学習段階では、特徴マップも含む最適化問題を解くことにより、所望のモデルパラメータをこのスケッチから抽出する。
スケッチと学習段階で特徴写像が同一である場合、正式な統計的保証(過剰リスク境界)が証明されている。
しかし、特徴マップの望ましい性質はスケッチや学習(例)において異なる。
量子化出力、および微分可能性)。
したがって、この写像が各位相で異なることが許される緩和について研究する。
まず、既存の保証が、制限付き投影歪(LPD)特性が保持されている場合、制御された誤差項まで、この非対称なスキームに受け継がれることを証明する。
次に、このフレームワークを量子化されたスケッチの設定にインスタンス化し、LDDが実際にバイナリスケッチのコントリビューションを保っていることを証明します。
最後に,音声イベント分類における大規模応用を含む数値シミュレーションによるアプローチをさらに検証する。 The compressive learning framework reduces the computational cost of training on large-scale datasets. In a sketching phase, the data is first compressed to a lightweight sketch vector, obtained by mapping the data samples through a well-chosen feature map, and averaging those contributions. In a learning phase, the desired model parameters are then extracted from this sketch by solving an optimization problem, which also involves a feature map. When the feature map is identical during the sketching and learning phases, formal statistical guarantees (excess risk bounds) have been proven. However, the desirable properties of the feature map are different during sketching and learning (e.g. quantized outputs, and differentiability, respectively). We thus study the relaxation where this map is allowed to be different for each phase. First, we prove that the existing guarantees carry over to this asymmetric scheme, up to a controlled error term, provided some Limited Projected Distortion (LPD) property holds. We then instantiate this framework to the setting of quantized sketches, by proving that the LPD indeed holds for binary sketch contributions. Finally, we further validate the approach with numerical simulations, including a large-scale application in audio event classification. | 翻訳日:2021-04-21 14:36:03 公開日:2021-04-20 |
# 生成型分類器を用いたクラス増分学習 Class-Incremental Learning with Generative Classifiers ( http://arxiv.org/abs/2104.10093v1 ) ライセンス: Link先を確認 | Gido M. van de Ven, Zhe Li, Andreas S. Tolias | (参考訳) 新しいクラスを認識するためにディープニューラルネットワークを漸進的に訓練することは難しい問題だ。
既存のクラスインクリメンタル学習法はデータを保存するか,あるいは生成リプレイを使用するが,パラメータの正規化やバイアス修正といった'リハーサルフリー'な代替手段は,一貫してハイパフォーマンスを実現していない。
ここでは、クラス増分学習の新しい戦略として、生成的分類を提案する。
条件分布 p(y|x) を直接学習するのではなく、p(x|y)p(y) として分解された合同分布 p(x,y) を学習し、ベイズ則を用いた分類を行う。
原則の証明として,学習すべきクラスごとに変分オートエンコーダを訓練し,p(x|y)の確率を推定するために重要サンプリングを用いることにより,この戦略を実践する。
このシンプルなアプローチは、さまざまな連続学習ベンチマークで非常にうまく動作し、生成リプレイや他のデータを保存していない既存のベースラインよりも優れています。 Incrementally training deep neural networks to recognize new classes is a challenging problem. Most existing class-incremental learning methods store data or use generative replay, both of which have drawbacks, while 'rehearsal-free' alternatives such as parameter regularization or bias-correction methods do not consistently achieve high performance. Here, we put forward a new strategy for class-incremental learning: generative classification. Rather than directly learning the conditional distribution p(y|x), our proposal is to learn the joint distribution p(x,y), factorized as p(x|y)p(y), and to perform classification using Bayes' rule. As a proof-of-principle, here we implement this strategy by training a variational autoencoder for each class to be learned and by using importance sampling to estimate the likelihoods p(x|y). This simple approach performs very well on a diverse set of continual learning benchmarks, outperforming generative replay and other existing baselines that do not store data. | 翻訳日:2021-04-21 13:56:39 公開日:2021-04-20 |
# RoFormer: ロータリーポジション埋め込みを備えた拡張トランス RoFormer: Enhanced Transformer with Rotary Position Embedding ( http://arxiv.org/abs/2104.09864v1 ) ライセンス: Link先を確認 | Jianlin Su, Yu Lu, Shengfeng Pan, Bo Wen, Yunfeng Liu | (参考訳) トランスアーキテクチャにおける位置エンコーディングは、シーケンス内の異なる位置にある要素間の依存性モデリングの監督を提供する。
トランスフォーマーベース言語モデルにおける位置情報をエンコードする様々な手法について検討し,Rotary Position Embedding (RoPE) という新しい実装を提案する。
提案するロープは, 絶対位置情報を回転行列で符号化し, 自着式に明示的な相対位置依存性を包含する。
特に、RoPEは、任意のシーケンス長に拡張する柔軟性、相対距離の増大に伴うトーケン間の依存性の減衰、相対位置エンコーディングによる線形自己アテンションの装備など、貴重な性質を備えている。
結果として、回転位置埋め込み(RoFormer)を備えた拡張変換器は、長いテキストを持つタスクにおいて優れたパフォーマンスを実現する。
理論解析を中国データを用いた予備実験結果とともに公開する。
英語ベンチマークの実施中の実験は近く更新される。 Position encoding in transformer architecture provides supervision for dependency modeling between elements at different positions in the sequence. We investigate various methods to encode positional information in transformer-based language models and propose a novel implementation named Rotary Position Embedding(RoPE). The proposed RoPE encodes absolute positional information with rotation matrix and naturally incorporates explicit relative position dependency in self-attention formulation. Notably, RoPE comes with valuable properties such as flexibility of being expand to any sequence lengths, decaying inter-token dependency with increasing relative distances, and capability of equipping the linear self-attention with relative position encoding. As a result, the enhanced transformer with rotary position embedding, or RoFormer, achieves superior performance in tasks with long texts. We release the theoretical analysis along with some preliminary experiment results on Chinese data. The undergoing experiment for English benchmark will soon be updated. | 翻訳日:2021-04-21 13:55:58 公開日:2021-04-20 |
# nlp機械学習モデルのロバスト性テスト:検索と意味論的置き換え Robustness Tests of NLP Machine Learning Models: Search and Semantically Replace ( http://arxiv.org/abs/2104.09978v1 ) ライセンス: Link先を確認 | Rahul Singh, Karan Jindal, Yufei Yu, Hanyu Yang, Tarun Joshi, Matthew A. Campbell, Wayne B. Shoumaker | (参考訳) 本稿では,自然言語処理(NLP)を含む機械学習モデルの堅牢性を評価するための戦略を提案する。
全体的なアプローチは、(1)テキストの重要な部分を特定する検索、(2)重要な部分の置き換えを見つける意味的置換、そして、置換されたトークンを意味的に類似した単語で制約する2つのステップからなる、検索と意味的置換戦略に依存している。
本稿では,特定の種類の機械学習モデルに特化して設計された検索とセマンティック・リプレース手法を紹介する。
また,この戦略の有効性を調査し,様々な機械学習モデルを評価するための汎用フレームワークを提供する。
最後に、3つの異なるモデルタイプ間で、それぞれ異なるテキスト表現を持つロバスト性性能を実証的に比較する。 This paper proposes a strategy to assess the robustness of different machine learning models that involve natural language processing (NLP). The overall approach relies upon a Search and Semantically Replace strategy that consists of two steps: (1) Search, which identifies important parts in the text; (2) Semantically Replace, which finds replacements for the important parts, and constrains the replaced tokens with semantically similar words. We introduce different types of Search and Semantically Replace methods designed specifically for particular types of machine learning models. We also investigate the effectiveness of this strategy and provide a general framework to assess a variety of machine learning models. Finally, an empirical comparison is provided of robustness performance among three different model types, each with a different text representation. | 翻訳日:2021-04-21 13:55:46 公開日:2021-04-20 |
# 擬似量子化雑音による微分モデル圧縮 Differentiable Model Compression via Pseudo Quantization Noise ( http://arxiv.org/abs/2104.09987v1 ) ライセンス: Link先を確認 | Alexandre D\'efossez, Yossi Adi, Gabriel Synnaeve | (参考訳) 本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
この方法であるDiffQは、未定量化パラメータと使用するビット数の両方について微分可能である。
量子化モデルのサイズと精度のバランスを所望する1つのハイパーパラメータが与えられた場合、DiffQは1つのトレーニングで個々の重みまたは重みのグループごとに使用されるビット数を最適化することができる。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
例えば、wikitext-103言語モデリングベンチマークでは、diffqは16層トランスフォーマーモデルを4ビット精度に相当する8倍圧縮し、0.5ポイントのパープレキシティを失う。
https://github.com/facebookresearch/diffq We propose to add independent pseudo quantization noise to model parameters during training to approximate the effect of a quantization operator. This method, DiffQ, is differentiable both with respect to the unquantized parameters, and the number of bits used. Given a single hyper-parameter expressing the desired balance between the quantized model size and accuracy, DiffQ can optimize the number of bits used per individual weight or groups of weights, in a single training. We experimentally verify that our method outperforms state-of-the-art quantization techniques on several benchmarks and architectures for image classification, language modeling, and audio source separation. For instance, on the Wikitext-103 language modeling benchmark, DiffQ compresses a 16 layers transformer model by a factor of 8, equivalent to 4 bits precision, while losing only 0.5 points of perplexity. Code is available at: https://github.com/facebookresearch/diffq | 翻訳日:2021-04-21 13:55:33 公開日:2021-04-20 |
# 相転移適応 Phase Transition Adaptation ( http://arxiv.org/abs/2104.10132v1 ) ライセンス: Link先を確認 | Claudio Gallicchio, Alessio Micheli, Luca Silvestri | (参考訳) 人工リカレントニューラルネットワークは強力な情報処理抽象化であり、Reservoir Computingは、外部入力を高次元の動的システム軌道に投影することによって堅牢な実装を構築するための効率的な戦略を提供する。
本稿では,システムダイナミクスを「安定の端」に向かわせるために設計した,位相遷移適応と呼ばれる局所的教師なし学習機構である,元来のアプローチの拡張を提案する。
ここで、システムによって示される複雑な挙動は、計算能力全体の強化をもたらす。
提案手法が複数のデータセットに対して一貫して目的を達成できることを実験的に示す。 Artificial Recurrent Neural Networks are a powerful information processing abstraction, and Reservoir Computing provides an efficient strategy to build robust implementations by projecting external inputs into high dimensional dynamical system trajectories. In this paper, we propose an extension of the original approach, a local unsupervised learning mechanism we call Phase Transition Adaptation, designed to drive the system dynamics towards the `edge of stability'. Here, the complex behavior exhibited by the system elicits an enhancement in its overall computational capacity. We show experimentally that our approach consistently achieves its purpose over several datasets. | 翻訳日:2021-04-21 13:55:17 公開日:2021-04-20 |
# VT-ADL:画像異常検出と位置推定のための視覚変換器ネットワーク VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization ( http://arxiv.org/abs/2104.10036v1 ) ライセンス: Link先を確認 | Pankaj Mishra, Riccardo Verk, Daniele Fornasier, Claudio Piciarelli, Gian Luca Foresti | (参考訳) 本稿では,トランスを用いた画像異常検出と局所化ネットワークを提案する。
提案手法は,再構成に基づくアプローチとパッチ埋め込みの組み合わせである。
変圧器ネットワークの使用は、埋め込みパッチの空間情報を保存するのに役立ち、後にガウス混合密度ネットワークによって処理され、異常領域をローカライズする。
さらに,実世界の産業異常データセットであるbtadも公開しています。
その結果,mnistやmvtecなどの公開データセットを用いて,最先端アルゴリズムと比較した。 We present a transformer-based image anomaly detection and localization network. Our proposed model is a combination of a reconstruction-based approach and patch embedding. The use of transformer networks helps to preserve the spatial information of the embedded patches, which are later processed by a Gaussian mixture density network to localize the anomalous areas. In addition, we also publish BTAD, a real-world industrial anomaly dataset. Our results are compared with other state-of-the-art algorithms using publicly available datasets like MNIST and MVTec. | 翻訳日:2021-04-21 13:54:49 公開日:2021-04-20 |
# genESIS-V2: 反復的リファインメントのない未順序オブジェクト表現の推論 GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement ( http://arxiv.org/abs/2104.09958v1 ) ライセンス: Link先を確認 | Martin Engelcke, Oiwi Parker Jones, Ingmar Posner | (参考訳) オブジェクト中心生成モデル(ocgms)の進歩は、教師なしオブジェクトセグメンテーションと解釈可能なオブジェクト中心シーン生成のための幅広い方法の開発で頂点に達した。
しかし、これらのメソッドは、視覚の複雑さが制限されたシミュレーションと実世界のデータセットに限定されている。
さらに、オブジェクト表現は、画像中のオブジェクトに不自然な順序を課すのを避けるが、固定数のオブジェクト表現の事前初期化を必要とする、大きな画像や反復的な改善にうまく対応しないRNNを用いて、しばしば推論される。
確立されたパラダイムとは対照的に,本研究では,確率的,非パラメトリックなスティックブレーキングプロセスを用いて,画素の埋め込みを異なる方法でクラスタ化する方法を提案する。
反復的洗練と同様に、このクラスタリング手順はランダムに順序付けられたオブジェクト表現をもたらすが、固定数のクラスタを事前に初期化する必要がない。
これは新しいモデル GENESIS-V2 の開発に使われ、RNN や反復的な洗練を使わずに、可変数のオブジェクト表現を推論できる。
genesis-v2は、確立された合成データセットやより複雑な実世界のデータセット上で、教師なし画像セグメンテーションやオブジェクト中心シーン生成の従来の手法を上回っている。 Advances in object-centric generative models (OCGMs) have culminated in the development of a broad range of methods for unsupervised object segmentation and interpretable object-centric scene generation. These methods, however, are limited to simulated and real-world datasets with limited visual complexity. Moreover, object representations are often inferred using RNNs which do not scale well to large images or iterative refinement which avoids imposing an unnatural ordering on objects in an image but requires the a priori initialisation of a fixed number of object representations. In contrast to established paradigms, this work proposes an embedding-based approach in which embeddings of pixels are clustered in a differentiable fashion using a stochastic, non-parametric stick-breaking process. Similar to iterative refinement, this clustering procedure also leads to randomly ordered object representations, but without the need of initialising a fixed number of clusters a priori. This is used to develop a new model, GENESIS-V2, which can infer a variable number of object representations without using RNNs or iterative refinement. We show that GENESIS-V2 outperforms previous methods for unsupervised image segmentation and object-centric scene generation on established synthetic datasets as well as more complex real-world datasets. | 翻訳日:2021-04-21 13:54:42 公開日:2021-04-20 |
# 信頼できないニュース検出データセットにおける隠れバイアス Hidden Biases in Unreliable News Detection Datasets ( http://arxiv.org/abs/2104.10130v1 ) ライセンス: Link先を確認 | Xiang Zhou, Heba Elfardy, Christos Christodoulopoulos, Thomas Butler, Mohit Bansal | (参考訳) 自動的信頼できないニュース検出は、大きな潜在的影響を持つ研究問題である。
近年、複数の論文が、ファクトチェック機構を使わずに記事自体のみを使用するモデルを持つ大規模ニュースデータセットについて有望な結果を示している。
この作業では、これらのデータセットを詳しく見ていきます。
これらはすべて、将来の研究に貴重なリソースを提供するが、より現実的な環境では一般化しない結果をもたらす可能性のある多くの問題を観察する。
具体的には、データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
さらに、ほとんどのシステムは個々の記事のレベルを訓練し予測するが、トレーニングと評価データに重複する記事ソースは、モデルが活用できる強力な欠点をもたらす可能性がある。
この要因が存在する場合、信頼できないニュース検出の実際のタスクをモデル化する代わりに、サイトラベルマッピングを直接記憶することで、優れた性能が得られる。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
観測結果と実験結果を用いて,信頼できないニュース検出タスクに対して,より信頼性の高いデータセットを作成する方法を提案する。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。 Automatic unreliable news detection is a research problem with great potential impact. Recently, several papers have shown promising results on large-scale news datasets with models that only use the article itself without resorting to any fact-checking mechanism or retrieving any supporting evidence. In this work, we take a closer look at these datasets. While they all provide valuable resources for future research, we observe a number of problems that may lead to results that do not generalize in more realistic settings. Specifically, we show that selection bias during data collection leads to undesired artifacts in the datasets. In addition, while most systems train and predict at the level of individual articles, overlapping article sources in the training and evaluation data can provide a strong confounding factor that models can exploit. In the presence of this confounding factor, the models can achieve good performance by directly memorizing the site-label mapping instead of modeling the real task of unreliable news detection. We observed a significant drop (>10%) in accuracy for all models tested in a clean split with no train/test source overlap. Using the observations and experimental results, we provide practical suggestions on how to create more reliable datasets for the unreliable news detection task. We suggest future dataset creation include a simple model as a difficulty/bias probe and future model development use a clean non-overlapping site and date split. | 翻訳日:2021-04-21 13:54:19 公開日:2021-04-20 |
# selfreg: ドメイン一般化のための自己教師付きコントラスト正規化 SelfReg: Self-supervised Contrastive Regularization for Domain Generalization ( http://arxiv.org/abs/2104.09841v1 ) ライセンス: Link先を確認 | Daehee Kim, Seunghyun Park, Jinkyu Kim, and Jaekoo Lee | (参考訳) 一般に、ディープラーニングのための実験環境は、トレーニングとテストデータセットが同じ分布からサンプリングされていると仮定する。
しかし、現実の状況では、ドメインシフトという2つのデータセット間の分布の違いが生じ、それがモデルの一般化性能を妨げる主要な要因となる。
この問題を解決する研究分野はドメイン一般化と呼ばれ、ドメイン不変な特徴を明示的にあるいは暗黙的に抽出することでドメインシフト問題を緩和する。
近年,コントラスト学習に基づくドメイン一般化手法が提案され,高い性能を達成している。
これらのアプローチは負のデータペアのサンプリングを必要とする。
しかし、対照的学習の性能は基本的に負のデータ対の品質と量に依存する。
本稿では,コントラスト学習,自己教師付きコントラスト正則化(selfreg)に基づく領域一般化のための新しい正規化手法を提案する。
提案手法は正のデータペアのみを用いるため,負のペアサンプリングによって生じる様々な問題を解消する。
さらに,正のデータペアのみを使用した場合でも,ミックスアップ拡張を効果的に適用できるクラス固有領域摂動層(CDPL)を提案する。
実験の結果,selfreg が組み込んだ手法が両立した性能に寄与したことがわかった。
最近のベンチマークであるDomainBedでは、提案手法は従来の最先端技術に匹敵する性能を示している。
コードはhttps://github.com/dnap512/selfregで入手できる。 In general, an experimental environment for deep learning assumes that the training and the test dataset are sampled from the same distribution. However, in real-world situations, a difference in the distribution between two datasets, domain shift, may occur, which becomes a major factor impeding the generalization performance of the model. The research field to solve this problem is called domain generalization, and it alleviates the domain shift problem by extracting domain-invariant features explicitly or implicitly. In recent studies, contrastive learning-based domain generalization approaches have been proposed and achieved high performance. These approaches require sampling of the negative data pair. However, the performance of contrastive learning fundamentally depends on quality and quantity of negative data pairs. To address this issue, we propose a new regularization method for domain generalization based on contrastive learning, self-supervised contrastive regularization (SelfReg). The proposed approach use only positive data pairs, thus it resolves various problems caused by negative pair sampling. Moreover, we propose a class-specific domain perturbation layer (CDPL), which makes it possible to effectively apply mixup augmentation even when only positive data pairs are used. The experimental results show that the techniques incorporated by SelfReg contributed to the performance in a compatible manner. In the recent benchmark, DomainBed, the proposed method shows comparable performance to the conventional state-of-the-art alternatives. Codes are available at https://github.com/dnap512/SelfReg. | 翻訳日:2021-04-21 13:53:56 公開日:2021-04-20 |
# 合成運転シミュレータ画像からのデータ駆動車速検出 Data-driven vehicle speed detection from synthetic driving simulator images ( http://arxiv.org/abs/2104.09903v1 ) ライセンス: Link先を確認 | Antonio Hern\'andez Mart\'inez, Javier Lorenzo D\'iaz, Iv\'an Garc\'ia Daza, David Fern\'andez Llorca | (参考訳) あらゆる課題と制限にもかかわらず、コスト削減や追加機能強化といった大きな潜在的な利点のために、視覚に基づく車両の速度検出が研究の関心を集めている。
最近の調査[1]で述べたように、この問題に対処するための学習ベースのアプローチの使用はまだ初期段階にある。
主な課題の1つは、大量のデータが必要であることであり、これは入力シーケンスと、さらに重要なのは、車両の実際の速度に対応する出力値を含む必要がある。
このコンテキストにおけるデータ収集には、高精度の速度センサと同期して地上の真理速度値を生成するカメラからの画像をキャプチャするための、複雑で高価な設定が必要である。
本稿では,運転シミュレータ(例えばcarla)から生成された合成画像を用いて,学習に基づくアプローチによる車両速度検出を初めて検討する。
道路上に設置した仮想カメラをシミュレートし,複数の速度,車両の種類や色,照明や気象条件に応じた数千の画像を生成する。
CNN-GRUや3D-CNNなど,画像のシーケンスを出力速度(回帰)にマッピングする2つのアプローチについて検討した。
本稿では,このアプローチの車速検出への高ポテンシャルを支持する予備的な結果を示す。 Despite all the challenges and limitations, vision-based vehicle speed detection is gaining research interest due to its great potential benefits such as cost reduction, and enhanced additional functions. As stated in a recent survey [1], the use of learning-based approaches to address this problem is still in its infancy. One of the main difficulties is the need for a large amount of data, which must contain the input sequences and, more importantly, the output values corresponding to the actual speed of the vehicles. Data collection in this context requires a complex and costly setup to capture the images from the camera synchronized with a high precision speed sensor to generate the ground truth speed values. In this paper we explore, for the first time, the use of synthetic images generated from a driving simulator (e.g., CARLA) to address vehicle speed detection using a learning-based approach. We simulate a virtual camera placed over a stretch of road, and generate thousands of images with variability corresponding to multiple speeds, different vehicle types and colors, and lighting and weather conditions. Two different approaches to map the sequence of images to an output speed (regression) are studied, including CNN-GRU and 3D-CNN. We present preliminary results that support the high potential of this approach to address vehicle speed detection. | 翻訳日:2021-04-21 13:53:36 公開日:2021-04-20 |
# コンバージョンレート予測のためのマルチタスク学習によるマイクロ・マクロ動作の階層的モデリング Hierarchically Modeling Micro and Macro Behaviors via Multi-Task Learning for Conversion Rate Prediction ( http://arxiv.org/abs/2104.09713v1 ) ライセンス: Link先を確認 | Hong Wen and Jing Zhang and Fuyu Lv and Wentian Bao and Tianyi Wang and Zulong Chen | (参考訳) 現代のeコマースプラットフォームにおける転換率(\emph{CVR})の予測はますます重要になってきており、これが最終収益に直接貢献している。
CVRモデリングで発生する有名なサンプル選択バイアス(\emph{SSB})とデータスパシティ(\emph{DS})の問題に対処するために、豊富なラベル付きマクロな振る舞い(すなわち、アイテムとのユーザのインタラクション)を用いる。
それでも、購入に関連するいくつかのマイクロ行動(アイテム詳細ページ上の特定のコンポーネントとのユーザのインタラクション)が、emph{CVR}予測のためのきめ細かい手がかりを補うことができる。
本研究の目的は,マイクロとマクロの両方の挙動を階層的にモデル化し,新しいemph{CVR}予測手法を提案することである。
具体的には,まず,マイクロ動作とマクロ動作をワンホップおよび2ホップポストクリックノードとして階層的に表現するための,完全なユーザシーケンシャル動作グラフを構築した。
次に、$hm^3$をマルチヘッドディープニューラルネットワークとして表現し、グラフ内の明示的なサブパスに対応する6つの確率変数を予測する。
さらに、4つの補助タスクの予測目標と、グラフ上で定義された条件付き確率ルールに従って最終的な$CVR$に結合される。
マルチタスク学習を採用し、マイクロおよびマクロな振る舞いから豊富な監督ラベルを活用することで、$hm^3$はエンドツーエンドでトレーニングでき、 \emph{ssb} と \emph{ds} の問題に対処することができる。
オフラインとオンラインの両方で大規模な実験を行い、提案された$HM^3$が最先端の手法よりも優れていることを示した。 Conversion Rate (\emph{CVR}) prediction in modern industrial e-commerce platforms is becoming increasingly important, which directly contributes to the final revenue. In order to address the well-known sample selection bias (\emph{SSB}) and data sparsity (\emph{DS}) issues encountered during CVR modeling, the abundant labeled macro behaviors ($i.e.$, user's interactions with items) are used. Nonetheless, we observe that several purchase-related micro behaviors ($i.e.$, user's interactions with specific components on the item detail page) can supplement fine-grained cues for \emph{CVR} prediction. Motivated by this observation, we propose a novel \emph{CVR} prediction method by Hierarchically Modeling both Micro and Macro behaviors ($HM^3$). Specifically, we first construct a complete user sequential behavior graph to hierarchically represent micro behaviors and macro behaviors as one-hop and two-hop post-click nodes. Then, we embody $HM^3$ as a multi-head deep neural network, which predicts six probability variables corresponding to explicit sub-paths in the graph. They are further combined into the prediction targets of four auxiliary tasks as well as the final $CVR$ according to the conditional probability rule defined on the graph. By employing multi-task learning and leveraging the abundant supervisory labels from micro and macro behaviors, $HM^3$ can be trained end-to-end and address the \emph{SSB} and \emph{DS} issues. Extensive experiments on both offline and online settings demonstrate the superiority of the proposed $HM^3$ over representative state-of-the-art methods. | 翻訳日:2021-04-21 13:53:15 公開日:2021-04-20 |
# 伝達関数を用いたディープラーニング:システム同定の新しい応用 Deep learning with transfer functions: new applications in system identification ( http://arxiv.org/abs/2104.09839v1 ) ライセンス: Link先を確認 | Dario Piga, Marco Forgione, Manas Mejari | (参考訳) 本稿では, 有理伝達関数を用いて記述した線形動的作用素について, 自動微分計算によく定義され, 効率的なバックプロパゲーション挙動を付与する。
このオペレータは、標準的なディープラーニングソフトウェアを活用する線形転送関数やその他の微分可能なユニット {by} を含む構造化ネットワークのエンドツーエンドトレーニングを可能にする。
システム識別における演算子の2つの応用について述べる。
1つ目は、深層学習における {prediction error method} の統合である。
動的演算子は、最適なワンステップアヘッド予測誤差を得るために、ニューラルネットワークの最後の層として含まれる。
2つめは、量子化データから一般的なブロック指向モデルの同定を考えることである。
これらのブロック指向モデルは、線形力学演算子と標準フィードフォワードニューラルネットワークとして記述される静的非線形性を組み合わせることで構成される。
量子化された出力観測のログ類似度に対応するカスタム損失関数を定義する。
勾配に基づく最適化では、バックプロパゲーションアルゴリズムをネットワーク全体に適用することにより、ログ様相の導出を計算できる。
2つのシステム識別ベンチマークを用いて提案手法の有効性を示す。 This paper presents a linear dynamical operator described in terms of a rational transfer function, endowed with a well-defined and efficient back-propagation behavior for automatic derivatives computation. The operator enables end-to-end training of structured networks containing linear transfer functions and other differentiable units {by} exploiting standard deep learning software. Two relevant applications of the operator in system identification are presented. The first one consists in the integration of {prediction error methods} in deep learning. The dynamical operator is included as {the} last layer of a neural network in order to obtain the optimal one-step-ahead prediction error. The second one considers identification of general block-oriented models from quantized data. These block-oriented models are constructed by combining linear dynamical operators with static nonlinearities described as standard feed-forward neural networks. A custom loss function corresponding to the log-likelihood of quantized output observations is defined. For gradient-based optimization, the derivatives of the log-likelihood are computed by applying the back-propagation algorithm through the whole network. Two system identification benchmarks are used to show the effectiveness of the proposed methodologies. | 翻訳日:2021-04-21 13:52:44 公開日:2021-04-20 |
# バイタルパラメーターによる医療介入の予測 : 遠隔患者モニタリングのための意思決定支援システムに向けて Predicting Medical Interventions from Vital Parameters: Towards a Decision Support System for Remote Patient Monitoring ( http://arxiv.org/abs/2104.10085v1 ) ライセンス: Link先を確認 | Kordian Gontarska and Weronika Wrazen and Jossekin Beilharz and Robert Schmid and Lauritz Thamsen and Andreas Polze | (参考訳) 心臓血管疾患、特に心不全は、世界における非感染性疾患の死亡の主な原因である。
定期的な患者モニタリングは、医師が時間通りに反応し、適切な治療を提供するため、より良い治療を可能にする。
遠隔医療は常時遠隔監視が可能で、患者は自宅にとどまり、医療センシング機器とネットワーク接続のみを必要とする。
遠隔医療センターの制限要因は、同時に監視できる患者の数である。
我々は、意思決定支援システムを実装することで、この額を増やすことを目指している。
本研究は,患者が日常的に患者を選別できるリスクパラメータに基づいて,リスクスコアを推定する機械学習モデルについて検討する。
提案するモデルはAUCROCが0.84であるのに対し、ベースラインルールベースモデルはAUCROCが0.73である。
この結果から,遠隔医療センターの効率向上に深層学習が有効であることが示唆された。
この方法では、遠隔監視による医療の改善からより多くの患者が恩恵を受けることができる。 Cardiovascular diseases and heart failures in particular are the main cause of non-communicable disease mortality in the world. Constant patient monitoring enables better medical treatment as it allows practitioners to react on time and provide the appropriate treatment. Telemedicine can provide constant remote monitoring so patients can stay in their homes, only requiring medical sensing equipment and network connections. A limiting factor for telemedical centers is the amount of patients that can be monitored simultaneously. We aim to increase this amount by implementing a decision support system. This paper investigates a machine learning model to estimate a risk score based on patient vital parameters that allows sorting all cases every day to help practitioners focus their limited capacities on the most severe cases. The model we propose reaches an AUCROC of 0.84, whereas the baseline rule-based model reaches an AUCROC of 0.73. Our results indicate that the usage of deep learning to improve the efficiency of telemedical centers is feasible. This way more patients could benefit from better health-care through remote monitoring. | 翻訳日:2021-04-21 13:52:17 公開日:2021-04-20 |
# スケーリングによるソフトスレッショニングとハードスレッショニングの橋渡し Bridging between soft and hard thresholding by scaling ( http://arxiv.org/abs/2104.09703v1 ) ライセンス: Link先を確認 | Katsuyuki Hagiwara | (参考訳) 本稿では,ソフトしきい値推定器を経験的スケーリング値によって独立に拡張するしきい値法を開発し,解析する。
スケーリング値は、ハードしきい値を達成する理想的なスケーリング値の拡張順序である共通のハイパーパラメータを持つ。
単にこの推定器をスケールドソフトしきい値推定器と呼ぶだけです。
スケールされたソフトしきい値設定は、ソフトしきい値設定と非負のガロテを特別に含む一般的な方法であり、適応LASSOの別の導出を与える。
次に, スタインの偏りのないリスク推定を用いて, スケールドソフトしきい値の自由度を導出し, ソフトしきい値の自由度とハードしきい値へのリマインダーに分解することを発見した。
この意味において、スケールされたソフト閾値法は、ソフトしきい値法とハードしきい値法の間に自然な橋渡しを与える。
自由度は過剰適合の度合いを表すため、この結果はスケールされたソフトしきい値付けには2つの過剰適合の源が存在することを意味する。
ソフトしきい値から導かれる第1のソースは、除去されていない係数の数によって決定され、過剰適合の度合いの自然な測度である。
ハードしきい値の既知結果を参照して, スケールドソフトしきい値の特定の場合における第2の源を解析した。
その結果, 粗大なサンプルと非パラメトリックな設定では, 真の値がゼロの係数推定値で決定され, しきい値がそれらの係数推定値のノイズレベル付近にある場合, 過度適合に影響を及ぼすことがわかった。
単純な数値的な例では、これらの理論的な含意は自由度の振る舞いをよく説明している。
さらに, この結果といくつかの既知の事実から, ソフト, ハード, スケールしたソフトしきい値測定手法のリスクの挙動を説明した。 In this article, we developed and analyzed a thresholding method in which soft thresholding estimators are independently expanded by empirical scaling values. The scaling values have a common hyper-parameter that is an order of expansion of an ideal scaling value that achieves hard thresholding. We simply call this estimator a scaled soft thresholding estimator. The scaled soft thresholding is a general method that includes the soft thresholding and non-negative garrote as special cases and gives an another derivation of adaptive LASSO. We then derived the degree of freedom of the scaled soft thresholding by means of the Stein's unbiased risk estimate and found that it is decomposed into the degree of freedom of soft thresholding and the reminder connecting to hard thresholding. In this meaning, the scaled soft thresholding gives a natural bridge between soft and hard thresholding methods. Since the degree of freedom represents the degree of over-fitting, this result implies that there are two sources of over-fitting in the scaled soft thresholding. The first source originated from soft thresholding is determined by the number of un-removed coefficients and is a natural measure of the degree of over-fitting. We analyzed the second source in a particular case of the scaled soft thresholding by referring a known result for hard thresholding. We then found that, in a sparse, large sample and non-parametric setting, the second source is largely determined by coefficient estimates whose true values are zeros and has an influence on over-fitting when threshold levels are around noise levels in those coefficient estimates. In a simple numerical example, these theoretical implications has well explained the behavior of the degree of freedom. Moreover, based on the results here and some known facts, we explained the behaviors of risks of soft, hard and scaled soft thresholding methods. | 翻訳日:2021-04-21 13:51:35 公開日:2021-04-20 |
# 半パラメトリック推論としての知識蒸留 Knowledge Distillation as Semiparametric Inference ( http://arxiv.org/abs/2104.09732v1 ) ライセンス: Link先を確認 | Tri Dao, Govinda M Kamath, Vasilis Syrgkanis, Lester Mackey | (参考訳) モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
驚くべきことに、この2段階の知識蒸留プロセスは、しばしば学生がラベル付きデータを直接訓練するよりも精度が高い。
この現象を説明するために, 最適学習モデルを用いた半パラメトリック推定問題として知識蒸留を, 未知ベイズ級確率を迷惑として, 教師確率をプラグイン迷惑推定として用いた。
近代的な半パラメトリックツールを適用することにより,標準蒸留の予測誤差に対する新たな保証を導き,教師の過度な適合と過度な適合が学生のパフォーマンスに与える影響を軽減するために,クロスフィットと損失補正の2つの拡張を開発する。
本研究の成果は表と画像データの両方で実証的に検証し,知識蒸留の強化による一貫した改善を観察した。 A popular approach to model compression is to train an inexpensive student model to mimic the class probabilities of a highly accurate but cumbersome teacher model. Surprisingly, this two-step knowledge distillation process often leads to higher accuracy than training the student directly on labeled data. To explain and enhance this phenomenon, we cast knowledge distillation as a semiparametric inference problem with the optimal student model as the target, the unknown Bayes class probabilities as nuisance, and the teacher probabilities as a plug-in nuisance estimate. By adapting modern semiparametric tools, we derive new guarantees for the prediction error of standard distillation and develop two enhancements -- cross-fitting and loss correction -- to mitigate the impact of teacher overfitting and underfitting on student performance. We validate our findings empirically on both tabular and image data and observe consistent improvements from our knowledge distillation enhancements. | 翻訳日:2021-04-21 13:51:00 公開日:2021-04-20 |
# 一般住民の抑うつと不安に対するデジタル取得可能な10年間のリスクスコアの開発 Development of digitally obtainable 10-year risk scores for depression and anxiety in the general population ( http://arxiv.org/abs/2104.10087v1 ) ライセンス: Link先を確認 | D. Morelli, N. Dolezalova, S. Ponzo, M. Colombo and D. Plans | (参考訳) 世界における抑うつと不安の負担は高まっている。
これらの症状を発症するリスクが高まる個体の同定は、予防と最終的に医療負担の軽減を目標とする上で有効である。
我々は、40,000人以上の英国バイオバンク(UKB)の参加者による、既存のうつ病や不安をデジタル的に取得可能な情報を用いて、抑うつと不安を10年間予測するアルゴリズムを開発した。
The first 204 variables selected from UKB, Processing into > 520 features, alsoerative backward elimination using Cox proportional hazards model was performed to select predictors that account of the most of the predictive capabilities。
ベースラインと縮小モデルは、生存分析のためのディープニューラルネットワークアプローチであるCoxとDeepSurvを使用して、うつ病と不安のためにトレーニングされた。
coxモデルは抑うつと不安の検証データセット上で0.813と0.778の一致を達成した。
DeepSurvモデルでは、それぞれ0.805と0.774である。
特徴選択後、抑うつモデルは43の予測器を含み、一致指数はCoxとDeepSurvのそれぞれ0.801であった。
緩和された不安モデルには27の予測器があり、両方のモデルで0.770の一致を達成した。
最終モデルは, テストデータセットの判別と校正が良好であり, スマートフォンで容易に入手可能な予測器を組み込んだUKBコホートを用いて, 抑うつと不安の高い予測リスクスコアを開発した。
デジタルソリューションにデプロイすれば、個人がリスクを追跡できるだけでなく、ライフスタイルの変化によってそのリスクを減らせるための指標も提供される。 The burden of depression and anxiety in the world is rising. Identification of individuals at increased risk of developing these conditions would help to target them for prevention and ultimately reduce the healthcare burden. We developed a 10-year predictive algorithm for depression and anxiety using the full cohort of over 400,000 UK Biobank (UKB) participants without pre-existing depression or anxiety using digitally obtainable information. From the initial 204 variables selected from UKB, processed into > 520 features, iterative backward elimination using Cox proportional hazards model was performed to select predictors which account for the majority of its predictive capability. Baseline and reduced models were then trained for depression and anxiety using both Cox and DeepSurv, a deep neural network approach to survival analysis. The baseline Cox model achieved concordance of 0.813 and 0.778 on the validation dataset for depression and anxiety, respectively. For the DeepSurv model, respective concordance indices were 0.805 and 0.774. After feature selection, the depression model contained 43 predictors and the concordance index was 0.801 for both Cox and DeepSurv. The reduced anxiety model, with 27 predictors, achieved concordance of 0.770 in both models. The final models showed good discrimination and calibration in the test datasets.We developed predictive risk scores with high discrimination for depression and anxiety using the UKB cohort, incorporating predictors which are easily obtainable via smartphone. If deployed in a digital solution, it would allow individuals to track their risk, as well as provide some pointers to how to decrease it through lifestyle changes. | 翻訳日:2021-04-21 13:50:44 公開日:2021-04-20 |
# 単一環境からのG-不変性学習のためのニューラルネットワーク Neural Networks for Learning Counterfactual G-Invariances from Single Environments ( http://arxiv.org/abs/2104.10105v1 ) ライセンス: Link先を確認 | S Chandra Mouli and Bruno Ribeiro | (参考訳) データに適合する驚くべき能力があるにも関わらず、ニューラルネットワークはトレーニングデータ分散以上の外挿が困難であると考えられている。
この研究は、有限変換群に基づく外挿に対して、モデルが外挿できないことは、その能力とは無関係であることを示している。
無限に多くのトレーニング例で明示的に観察されていない例は、学習者のモデルにおいて不特定な結果をもたらします。
ニューラルネットワークにグループ変換を外挿する能力を与えるために,学習者が学習データと矛盾していると判断しない限り,(既知の)変換グループに対する群不変性は証拠なしでも必須である,という学習仮説に反する学習枠組みを導入する。
既存の非分散駆動(counterfactual)外挿法とは異なり、このフレームワークは単一の環境からの外挿を可能にする。
最後に、我々のフレームワークを検証し、従来のアプローチの欠点を示すシーケンスとイメージの外挿タスクを紹介する。 Despite -- or maybe because of -- their astonishing capacity to fit data, neural networks are believed to have difficulties extrapolating beyond training data distribution. This work shows that, for extrapolations based on finite transformation groups, a model's inability to extrapolate is unrelated to its capacity. Rather, the shortcoming is inherited from a learning hypothesis: Examples not explicitly observed with infinitely many training examples have underspecified outcomes in the learner's model. In order to endow neural networks with the ability to extrapolate over group transformations, we introduce a learning framework counterfactually-guided by the learning hypothesis that any group invariance to (known) transformation groups is mandatory even without evidence, unless the learner deems it inconsistent with the training data. Unlike existing invariance-driven methods for (counterfactual) extrapolations, this framework allows extrapolations from a single environment. Finally, we introduce sequence and image extrapolation tasks that validate our framework and showcase the shortcomings of traditional approaches. | 翻訳日:2021-04-21 13:50:15 公開日:2021-04-20 |
# 空間的注意を伴う視覚ナビゲーション Visual Navigation with Spatial Attention ( http://arxiv.org/abs/2104.09807v1 ) ライセンス: Link先を確認 | Bar Mayo, Tamir Hazan and Ayellet Tal | (参考訳) 本研究は,あるクラスからオブジェクトの位置を見つけることを目的としたオブジェクトゴール視覚ナビゲーションに焦点を当て,各ステップでエージェントにシーンのエゴセントリックなRGB画像を提供する。
強化学習アルゴリズムを用いてエージェントの方針を学ぶことを提案する。
我々の重要な貢献は視覚ナビゲーションタスクのための新しい注意確率モデルである。
この注意は、観測対象に関する意味情報と、その場所に関する空間情報とをエンコードする。
この "what" と "where" の組み合わせにより、エージェントは後続のオブジェクトを効果的にナビゲートできる。
注意モデルは、エージェントのポリシーを改善し、一般的に使用されるデータセットの最先端結果を達成するために示される。 This work focuses on object goal visual navigation, aiming at finding the location of an object from a given class, where in each step the agent is provided with an egocentric RGB image of the scene. We propose to learn the agent's policy using a reinforcement learning algorithm. Our key contribution is a novel attention probability model for visual navigation tasks. This attention encodes semantic information about observed objects, as well as spatial information about their place. This combination of the "what" and the "where" allows the agent to navigate toward the sought-after object effectively. The attention model is shown to improve the agent's policy and to achieve state-of-the-art results on commonly-used datasets. | 翻訳日:2021-04-21 13:49:55 公開日:2021-04-20 |
# マルチタスクArcFaceによるマスク付き顔認識 Boosting Masked Face Recognition with Multi-Task ArcFace ( http://arxiv.org/abs/2104.09874v1 ) ライセンス: Link先を確認 | David Montero, Marcos Nieto, Peter Leskovsky and Naiara Aginako | (参考訳) 本稿では,マスクを用いた顔認識の問題に対処する。
新型コロナウイルス(COVID-19)による世界的な健康危機を考えると、口と鼻を覆うマスクは日常的に着用することが不可欠になっている。
この衛生対策により、現在最先端の顔認識モデルは、マスクされた顔を扱うように設計されていないため、ロープの上に置かれている。
また、被検体がマスクを着用しているかどうかを検知してウイルスの拡散を制御できるアプリケーションの必要性も生じている。
これらの問題を解決するために、バックボーンとロス関数にいくつかの変更を加えて、ArcFaceの作業に基づいて完全なトレーニングパイプラインが提示される。
元の顔認識データセットから、データ拡張を使用してマスク付きバージョンを生成し、トレーニングプロセス中に両方のデータセットを組み合わせる。
resnet-50に基づく選択されたネットワークは、計算コストを追加することなくマスク使用確率を出力するように修正されている。
さらに、ArcFaceの損失とマスク使用率の分類損失が組み合わさって、Multi-Task ArcFace (MTArcFace)と呼ばれる新しい関数が生まれる。
実験の結果,提案手法はマスキングされていないデータセットでほぼ同じ精度を維持しつつ,マスク面を扱う際の元のモデルの精度を高く向上させることがわかった。
さらに、マスク使用分類の平均精度は99.78%である。 In this paper, we address the problem of face recognition with masks. Given the global health crisis caused by COVID-19, mouth and nose-covering masks have become an essential everyday-clothing-accessory. This sanitary measure has put the state-of-the-art face recognition models on the ropes since they have not been designed to work with masked faces. In addition, the need has arisen for applications capable of detecting whether the subjects are wearing masks to control the spread of the virus. To overcome these problems a full training pipeline is presented based on the ArcFace work, with several modifications for the backbone and the loss function. From the original face-recognition dataset, a masked version is generated using data augmentation, and both datasets are combined during the training process. The selected network, based on ResNet-50, is modified to also output the probability of mask usage without adding any computational cost. Furthermore, the ArcFace loss is combined with the mask-usage classification loss, resulting in a new function named Multi-Task ArcFace (MTArcFace). Experimental results show that the proposed approach highly boosts the original model accuracy when dealing with masked faces, while preserving almost the same accuracy on the original non-masked datasets. Furthermore, it achieves an average accuracy of 99.78% in mask-usage classification. | 翻訳日:2021-04-21 13:49:45 公開日:2021-04-20 |
# 二次元姿勢推定を用いたテーブルテニスストローク認識 Table Tennis Stroke Recognition Using Two-Dimensional Human Pose Estimation ( http://arxiv.org/abs/2104.09907v1 ) ライセンス: Link先を確認 | Kaustubh Milind Kulkarni and Sucheth Shenoy | (参考訳) 本稿では,卓球映像データを集め,ストローク検出と分類を行う新しい手法を提案する。
14人のプロ卓球選手から得られた11の基本的なストロークのビデオデータを含む多種多様なデータセットを,提案手法を用いて合計22111本の動画を収集した。
2次元ポーズ推定を用いて開発された時間畳み込みニューラルネットワークモデルは、99.37%の精度で11のテーブルテニスストロークのマルチクラス分類を行う。
さらに、ニューラルネットワークはトレーニングとバリデーションデータセットから除外されたプレイヤーのデータよりもよく一般化され、新鮮なストロークを98.72%の精度で分類する。
機械学習とディープラーニングに基づくアプローチを用いた様々なモデルアーキテクチャがストローク認識のために訓練され、それらの性能の比較とベンチマークが行われた。
モデルを用いた選手のパフォーマンスモニタリングやストローク比較などの推論について論じている。
そこで本研究では,前回未発表のスポーツ,すなわち選手のストロークに焦点をあてた卓球スポーツのコンピュータビジョンに基づくスポーツ分析システムの開発に寄与する。 We introduce a novel method for collecting table tennis video data and perform stroke detection and classification. A diverse dataset containing video data of 11 basic strokes obtained from 14 professional table tennis players, summing up to a total of 22111 videos has been collected using the proposed setup. The temporal convolutional neural network model developed using 2D pose estimation performs multiclass classification of these 11 table tennis strokes with a validation accuracy of 99.37%. Moreover, the neural network generalizes well over the data of a player excluded from the training and validation dataset, classifying the fresh strokes with an overall best accuracy of 98.72%. Various model architectures using machine learning and deep learning based approaches have been trained for stroke recognition and their performances have been compared and benchmarked. Inferences such as performance monitoring and stroke comparison of the players using the model have been discussed. Therefore, we are contributing to the development of a computer vision based sports analytics system for the sport of table tennis that focuses on the previously unexploited aspect of the sport i.e., a player's strokes, which is extremely insightful for performance improvement. | 翻訳日:2021-04-21 13:49:25 公開日:2021-04-20 |
# 変動関係点補完ネットワーク Variational Relational Point Completion Network ( http://arxiv.org/abs/2104.10154v1 ) ライセンス: Link先を確認 | Liang Pan, Xinyi Chen, Zhongang Cai, Junzhe Zhang, Haiyu Zhao, Shuai Yi, Ziwei Liu | (参考訳) 実走査点雲はしばしば視点、閉塞、ノイズのために不完全である。
既存のポイントクラウド補完法は、グローバル形状スケルトンを生成する傾向があるため、詳細な局所的詳細が欠落している。
さらに、主に決定論的部分完備写像を学習するが、人工物体の構造的関係を見落としている。
これらの課題に対処するために,1)確率的モデリング(probabilistic Modeling)という2つの特性を持つ変分関係点補完ネットワーク(VRCNet)を提案する。
特に,部分的および完全的クラウド間の原理的確率的モデリングを可能にするデュアルパスアーキテクチャを提案する。
1つのパスは、ポイントVAEを学習することで、再構築のために完全なポイントクラウドを消費する。
他の経路は、訓練中に再構成経路から得られた分布により埋め込み分布が導かれる部分点雲の完全な形状を生成する。
2)関係強化。
具体的には,自己アテンションカーネルとポイント選択カーネルモジュールを慎重に設計し,粗い完了に条件付けられた局所形状の詳細を洗練させる。
さらに,100,000以上の高品質スキャンを含むマルチビュー部分点クラウドデータセット(mvpデータセット)をコントリビュートし,各3dcadモデルに対して,26個の一様分散カメラポーズから部分3d形状を描画する。
大規模な実験により、VRCNetはすべての標準ポイントクラウド補完ベンチマークで最先端の手法より優れていることが示された。
特にVRCNetは、現実世界のクラウドスキャンで非常に一般化性と堅牢性を示している。 Real-scanned point clouds are often incomplete due to viewpoint, occlusion, and noise. Existing point cloud completion methods tend to generate global shape skeletons and hence lack fine local details. Furthermore, they mostly learn a deterministic partial-to-complete mapping, but overlook structural relations in man-made objects. To tackle these challenges, this paper proposes a variational framework, Variational Relational point Completion network (VRCNet) with two appealing properties: 1) Probabilistic Modeling. In particular, we propose a dual-path architecture to enable principled probabilistic modeling across partial and complete clouds. One path consumes complete point clouds for reconstruction by learning a point VAE. The other path generates complete shapes for partial point clouds, whose embedded distribution is guided by distribution obtained from the reconstruction path during training. 2) Relational Enhancement. Specifically, we carefully design point self-attention kernel and point selective kernel module to exploit relational point features, which refines local shape details conditioned on the coarse completion. In addition, we contribute a multi-view partial point cloud dataset (MVP dataset) containing over 100,000 high-quality scans, which renders partial 3D shapes from 26 uniformly distributed camera poses for each 3D CAD model. Extensive experiments demonstrate that VRCNet outperforms state-of-theart methods on all standard point cloud completion benchmarks. Notably, VRCNet shows great generalizability and robustness on real-world point cloud scans. | 翻訳日:2021-04-21 13:49:07 公開日:2021-04-20 |
# 交通映像における異常検出の効率的な手法 An Efficient Approach for Anomaly Detection in Traffic Videos ( http://arxiv.org/abs/2104.09758v1 ) ライセンス: Link先を確認 | Keval Doshi, Yasin Yilmaz | (参考訳) インテリジェントな交通システムとの関係から,近年,交通映像の異常検出が注目されている。
温度、視界、照明条件などのリアルタイムトラフィックフィードの画質に影響を与える様々な要因があるため、これは依然として難しい問題である。
state-of-the-artメソッドは利用可能なベンチマークデータセットでうまく動作しますが、大量の外部トレーニングデータとかなりの計算リソースが必要です。
本稿では,エッジデバイス,例えば路面カメラで動作可能な映像異常検出システムに対して,効率的な手法を提案する。
提案手法は,シーンの変化を検知し,破損したフレームを除去する前処理モジュールと,2段階の背景モデリングモジュールと2段階の物体検出モジュールを備える。
最後に、バックトラッキング異常検出アルゴリズムが類似度統計を計算し、異常の開始時刻を決定する。
また,新しいシーンに迅速に適応し,類似度統計量の変化を検出するシーケンシャルな変化検出アルゴリズムを提案する。
2021年AIシティチャレンジのトラック4テストセットの実験結果は、F1スコアの0.9157と8.4027ルート平均二乗誤差(RMSE)を達成し、競争で第4位となるフレームワークの有効性を示している。 Due to its relevance in intelligent transportation systems, anomaly detection in traffic videos has recently received much interest. It remains a difficult problem due to a variety of factors influencing the video quality of a real-time traffic feed, such as temperature, perspective, lighting conditions, and so on. Even though state-of-the-art methods perform well on the available benchmark datasets, they need a large amount of external training data as well as substantial computational resources. In this paper, we propose an efficient approach for a video anomaly detection system which is capable of running at the edge devices, e.g., on a roadside camera. The proposed approach comprises a pre-processing module that detects changes in the scene and removes the corrupted frames, a two-stage background modelling module and a two-stage object detector. Finally, a backtracking anomaly detection algorithm computes a similarity statistic and decides on the onset time of the anomaly. We also propose a sequential change detection algorithm that can quickly adapt to a new scene and detect changes in the similarity statistic. Experimental results on the Track 4 test set of the 2021 AI City Challenge show the efficacy of the proposed framework as we achieve an F1-score of 0.9157 along with 8.4027 root mean square error (RMSE) and are ranked fourth in the competition. | 翻訳日:2021-04-21 13:48:42 公開日:2021-04-20 |
# スパイクニューラルネットワークにおける教師なしパターン認識のための重み分岐促進の原理 The principle of weight divergence facilitation for unsupervised pattern recognition in spiking neural networks ( http://arxiv.org/abs/2104.09943v1 ) ライセンス: Link先を確認 | Oleg Nikitin, Olga Lukyanova, Alex Kunin | (参考訳) 信号処理タスクと生体ニューロンの並列性は、入力信号認識の自己組織化最適化の原理の理解につながる。
本稿では,生物システムと技術システムの類似性について論じる。
本稿では,背景雑音と相関信号の最大差に付随する状態に重み修正を向ける,よく知られたSTDPシナプス可塑性規則の追加を提案する。
物理的に制約された重量成長の原理は、重量の修正の制御の基礎として用いられる。
可塑性発現に必要な生化学的「物質」の存在と生産によって生物学的シナプス直列修飾が制限されることが示唆された。
本稿では,このような物質の生成と貯蔵を制御し,ニューロンのシナプス圧を最高の信号-雑音比で制御するために,ノイズ-信号比に関する情報を用いる。
異なる入力信号系を用いたいくつかの実験は、提案手法の機能を理解すると考えられる。 Parallels between the signal processing tasks and biological neurons lead to an understanding of the principles of self-organized optimization of input signal recognition. In the present paper, we discuss such similarities among biological and technical systems. We propose the addition to the well-known STDP synaptic plasticity rule to directs the weight modification towards the state associated with the maximal difference between the background noise and correlated signals. The principle of physically constrained weight growth is used as a basis for such control of the modification of the weights. It is proposed, that biological synaptic straight modification is restricted by the existence and production of bio-chemical 'substances' needed for plasticity development. In this paper, the information about the noise-to-signal ratio is used to control such a substances' production and storage and to drive the neuron's synaptic pressures towards the state with the best signal-to-noise ratio. Several experiments with different input signal regimes are considered to understand the functioning of the proposed approach. | 翻訳日:2021-04-21 13:48:19 公開日:2021-04-20 |
# 平均シフトインスパイアアルゴリズムによる空間分割と回帰モード探索 Space Partitioning and Regression Mode Seeking via a Mean-Shift-Inspired Algorithm ( http://arxiv.org/abs/2104.10103v1 ) ライセンス: Link先を確認 | Wanli Qiao and Amarda Shehu | (参考訳) mean shift (ms) アルゴリズムは、サンプルポイントを収集し、反復勾配の上昇に基づくアイデアを用いて、カーネル密度推定の局所モードを見つけるために使用される非パラメトリックな手法である。
本稿では,回帰関数のモードを推定し,入力空間内のサンプル点を分割する平均シフトインスパイアアルゴリズムを開発した。
アルゴリズムが生成したシーケンスの収束を証明し、基礎となる回帰モデルに対する推定局所モードの収束の非漸近速度を導出する。
また, 生体分子構造データへの応用を通して, データ検出のためのアルゴリズムの有用性を示す。
回帰関数のリッジを抽出するために用いられる部分空間制約平均シフト(SCMS)アルゴリズムの拡張について概説する。 The mean shift (MS) algorithm is a nonparametric method used to cluster sample points and find the local modes of kernel density estimates, using an idea based on iterative gradient ascent. In this paper we develop a mean-shift-inspired algorithm to estimate the modes of regression functions and partition the sample points in the input space. We prove convergence of the sequences generated by the algorithm and derive the non-asymptotic rates of convergence of the estimated local modes for the underlying regression model. We also demonstrate the utility of the algorithm for data-enabled discovery through an application on biomolecular structure data. An extension to subspace constrained mean shift (SCMS) algorithm used to extract ridges of regression functions is briefly discussed. | 翻訳日:2021-04-21 13:48:07 公開日:2021-04-20 |
# WSIにおけるスピッソイドメラノサイト性病変診断のための注意に基づく弱視監視フレームワーク An Attention-based Weakly Supervised framework for Spitzoid Melanocytic Lesion Diagnosis in WSI ( http://arxiv.org/abs/2104.09878v1 ) ライセンス: Link先を確認 | Roc\'io del Amor, La\"etitia Launet, Adri\'an Colomer, Ana\"is Moscard\'o, Andr\'es Mosquera-Zamudio, Carlos Monteagudo and Valery Naranjo | (参考訳) メラノーマは皮膚がんによる死の大半の原因となる攻撃的な腫瘍である。
特に,びまん性黒色腫は,その曖昧な形態的特徴から最も困難な黒色腫の1つである。
診断と予後のための金の基準は、皮膚生検の分析である。
この過程において、皮膚病理学者は顕微鏡下で皮膚組織学のスライドを可視化する。
近年, コンピュータ支援診断システム(CAD)は, 臨床診断において病理医を支援できる有望なツールとして出現している。
それにもかかわらず、スピッツォイド病変の分析のための自動cadシステムはまだ提案されていない。
一般的な悪性黒色腫については,腫瘍領域の選択と良性あるいは悪性との診断の予測は認められていない。
そこで本研究では,適応型畳み込みニューラルネットワーク(CNN)を改良した帰納的伝達学習に基づく,エンドツーエンドの弱い教師付き深層学習モデルを提案する。
本フレームワークは、腫瘍パッチレベルパターンの発見を担当するソースモデルと、生検の特定診断に焦点を当てたターゲットモデルとから構成される。
後者は、複数のインスタンス学習ワークフローを通じてソースモデルのバックボーンをトレーニングし、生検レベルのスコアを得る。
提案手法の性能を評価するため,スピッツイド病変を有するプライベートスキンデータベースを用いて広範な実験を行った。
試験結果は、それぞれソースとターゲットモデルに対して0.9231と0.80の精度に達する。
さらに,熱地図は臨床医の医療的判断と直接一致しており,また大きな作業量のために病理医が見落としていた関心のパターンも強調されている。 Melanoma is an aggressive neoplasm responsible for the majority of deaths from skin cancer. Specifically, spitzoid melanocytic tumors are one of the most challenging melanocytic lesions due to their ambiguous morphological features. The gold standard for its diagnosis and prognosis is the analysis of skin biopsies. In this process, dermatopathologists visualize skin histology slides under a microscope, in a high time-consuming and subjective task. In the last years, computer-aided diagnosis (CAD) systems have emerged as a promising tool that could support pathologists in daily clinical practice. Nevertheless, no automatic CAD systems have yet been proposed for the analysis of spitzoid lesions. Regarding common melanoma, no proposed system allows both the selection of the tumoral region and the prediction of the diagnosis as benign or malignant. Motivated by this, we propose a novel end-to-end weakly-supervised deep learning model, based on inductive transfer learning with an improved convolutional neural network (CNN) to refine the embedding features of the latent space. The framework is composed of a source model in charge of finding the tumor patch-level patterns, and a target model focuses on the specific diagnosis of a biopsy. The latter retrains the backbone of the source model through a multiple instance learning workflow to obtain the biopsy-level scoring. To evaluate the performance of the proposed methods, we perform extensive experiments on a private skin database with spitzoid lesions. Test results reach an accuracy of 0.9231 and 0.80 for the source and the target models, respectively. Besides, the heat map findings are directly in line with the clinicians' medical decision and even highlight, in some cases, patterns of interest that were overlooked by the pathologist due to the huge workload. | 翻訳日:2021-04-21 13:47:46 公開日:2021-04-20 |
# DynO: クラウドからデバイスへのディープニューラルネットワークの動的負荷 DynO: Dynamic Onloading of Deep Neural Networks from Cloud to Device ( http://arxiv.org/abs/2104.09949v1 ) ライセンス: Link先を確認 | Mario Almeida, Stefanos Laskaridis, Stylianos I. Venieris, Ilias Leontiadis, Nicholas D. Lane | (参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いたモバイルおよび組み込みアプリケーションの爆発的な成長が進んでいる。
過剰な計算要求を軽減するため、開発者は伝統的にクラウドのオフロードに頼り、高いインフラストラクチャコストとネットワーク条件への強い依存を誘発してきた。
一方、強力なSoCの出現は徐々にデバイス上での実行を可能にしている。
それでも、低層と中層のプラットフォームは、最先端のCNNを十分に走らせるのに苦戦している。
本稿では,デバイスの不均一性,帯域幅の変動,多目的要求などの課題を解決するために,両世界のベストを組み合わせる分散推論フレームワークdynoを提案する。
これを実現するための重要なコンポーネントは,CNN 固有のデータパッキング手法である。これは,負荷計算における CNN のさまざまな部分における精度要求の変動を利用して,その実行環境に推論を適用するために,分割点と転送されたデータ精度を共同で調整するスケジューラである。
定量的評価はdynoが現在の最先端技術を上回ることを示し、デバイスのみの実行よりもスループットを最大7.9倍向上させ、競合cnnオフロードシステムに比べて最大60倍少ないデータ転送を実現している。 Recently, there has been an explosive growth of mobile and embedded applications using convolutional neural networks(CNNs). To alleviate their excessive computational demands, developers have traditionally resorted to cloud offloading, inducing high infrastructure costs and a strong dependence on networking conditions. On the other end, the emergence of powerful SoCs is gradually enabling on-device execution. Nonetheless, low- and mid-tier platforms still struggle to run state-of-the-art CNNs sufficiently. In this paper, we present DynO, a distributed inference framework that combines the best of both worlds to address several challenges, such as device heterogeneity, varying bandwidth and multi-objective requirements. Key components that enable this are its novel CNN-specific data packing method, which exploits the variability of precision needs in different parts of the CNN when onloading computation, and its novel scheduler that jointly tunes the partition point and transferred data precision at run time to adapt inference to its execution environment. Quantitative evaluation shows that DynO outperforms the current state-of-the-art, improving throughput by over an order of magnitude over device-only execution and up to 7.9x over competing CNN offloading systems, with up to 60x less data transferred. | 翻訳日:2021-04-21 13:47:18 公開日:2021-04-20 |
# アルツハイマー病予測のための解剖学的メッシュの幾何学的深層学習 Geometric Deep Learning on Anatomical Meshes for the Prediction of Alzheimer's Disease ( http://arxiv.org/abs/2104.10047v1 ) ライセンス: Link先を確認 | Ignacio Sarasua, Jonwong Lee, Christian Wachinger | (参考訳) 幾何学的ディープラーニングは、与えられたタスクに最適な表現を見つけることができるので、事前定義された表現よりもパフォーマンスが向上する。
現在の研究は主に点表現に焦点を当てているが、メッシュは接続情報も含むため、基礎となる解剖学的表面のより包括的な特徴である。
本研究では,メッシュ表現を操作する幾何学的深層学習手法を4つ評価する。
これらのアプローチはテンプレートフリーおよびテンプレートベースのアプローチにグループ化することができ、テンプレートベースのメソッドは、共通の参照テンプレートと対応を定義することで、より精巧な事前処理ステップを必要とする。
我々は,海馬のメッシュに基づいて,アルツハイマー病の予測のための異なるネットワークを比較した。
本結果は,精度,学習可能なパラメータ数,学習速度の観点から,テンプレートベースの手法の利点を示す。
テンプレート作成はいくつかのアプリケーションで制限されているかもしれないが、Neuroimagingは自動化ツールを使ってテンプレートを構築する長い歴史がある。
全体として、メッシュを使った作業は、単純化されたポイントクラウドよりも関与するが、幾何学的なディープラーニングアーキテクチャを設計するための新たな手段も提供する。 Geometric deep learning can find representations that are optimal for a given task and therefore improve the performance over pre-defined representations. While current work has mainly focused on point representations, meshes also contain connectivity information and are therefore a more comprehensive characterization of the underlying anatomical surface. In this work, we evaluate four recent geometric deep learning approaches that operate on mesh representations. These approaches can be grouped into template-free and template-based approaches, where the template-based methods need a more elaborate pre-processing step with the definition of a common reference template and correspondences. We compare the different networks for the prediction of Alzheimer's disease based on the meshes of the hippocampus. Our results show advantages for template-based methods in terms of accuracy, number of learnable parameters, and training speed. While the template creation may be limiting for some applications, neuroimaging has a long history of building templates with automated tools readily available. Overall, working with meshes is more involved than working with simplistic point clouds, but they also offer new avenues for designing geometric deep learning architectures. | 翻訳日:2021-04-21 13:46:56 公開日:2021-04-20 |
# 自律走行のための大規模対話型モーション予測 : Waymo Open Motion Dataset Large Scale Interactive Motion Forecasting for Autonomous Driving : The Waymo Open Motion Dataset ( http://arxiv.org/abs/2104.10133v1 ) ライセンス: Link先を確認 | Scott Ettinger, Shuyang Cheng, Benjamin Caine, Chenxi Liu, Hang Zhao, Sabeek Pradhan, Yuning Chai, Ben Sapp, Charles Qi, Yin Zhou, Zoey Yang, Aurelien Chouard, Pei Sun, Jiquan Ngiam, Vijay Vasudevan, Alexander McCauley, Jonathon Shlens, Dragomir Anguelov | (参考訳) 自律運転システムが成熟するにつれて、運動予測は計画の重要な要件として注目を集めている。
特に重要なのは、個々の物体の動きを予測するだけでは不十分な、マージや無防備な回転などのインタラクティブな状況である。
効率的なルート計画には複数のオブジェクトの同時予測が必要である。
モーションプランニングモデルを開発するためには,インタラクションとアノテーションの両方に富む高品質なモーションデータが必要である。
本研究では,我々の知識に最も多様な対話型モーションデータセットを導入し,共同予測モデルの開発に適した対話型オブジェクトのラベルを提供する。
10万枚以上のシーンが10Hzで20秒に渡り、私たちの新しいデータセットには1750kmの道路上の570時間以上のユニークなデータが含まれています。
マイニングによって収集され、米国内の6都市にまたがる車両、歩行者、およびサイクリストの間の興味深いやりとりが収集された。
高精度な3D自動ラベルシステムを用いて,道路エージェントごとに高品質な3D境界ボックスを生成し,シーン毎に対応する高精細3Dマップを提供する。
さらに、単一エージェントと共同エージェントの相互作用動作予測モデルの両方を包括的に評価する新しいメトリクスセットを導入する。
最後に,個別エージェント予測と共同予測のための強力なベースラインモデルを提案する。
この新しい大規模インタラクティブモーションデータセットは、動き予測モデルに新たな機会を提供することを願っている。 As autonomous driving systems mature, motion forecasting has received increasing attention as a critical requirement for planning. Of particular importance are interactive situations such as merges, unprotected turns, etc., where predicting individual object motion is not sufficient. Joint predictions of multiple objects are required for effective route planning. There has been a critical need for high-quality motion data that is rich in both interactions and annotation to develop motion planning models. In this work, we introduce the most diverse interactive motion dataset to our knowledge, and provide specific labels for interacting objects suitable for developing joint prediction models. With over 100,000 scenes, each 20 seconds long at 10 Hz, our new dataset contains more than 570 hours of unique data over 1750 km of roadways. It was collected by mining for interesting interactions between vehicles, pedestrians, and cyclists across six cities within the United States. We use a high-accuracy 3D auto-labeling system to generate high quality 3D bounding boxes for each road agent, and provide corresponding high definition 3D maps for each scene. Furthermore, we introduce a new set of metrics that provides a comprehensive evaluation of both single agent and joint agent interaction motion forecasting models. Finally, we provide strong baseline models for individual-agent prediction and joint-prediction. We hope that this new large-scale interactive motion dataset will provide new opportunities for advancing motion forecasting models. | 翻訳日:2021-04-21 13:46:39 公開日:2021-04-20 |
# 多エネルギーシステムにおけるモデル予測制御と強化学習 Model-predictive control and reinforcement learning in multi-energy system case studies ( http://arxiv.org/abs/2104.09785v1 ) ライセンス: Link先を確認 | Glenn Ceusters, Rom\'an Cant\'u Rodr\'iguez, Alberte Bouso Garc\'ia, R\"udiger Franke, Geert Deconinck, Lieve Helsen, Ann Now\'e, Maarten Messagie, Luis Ramirez Camargo | (参考訳) モデル予測制御(MPC)は、システム制約をすべて満たしつつ、マルチエネルギーシステムの全体の運用コストを最小限に抑えるための最適制御技術を提供する。
しかし,本手法では,誤差のモデル化が困難であり,必ずしも適応性がないシステム力学の適切なモデルを想定している。
これはプロジェクト固有のエンジニアリングコストと関連するものだ。
本稿では, 線形MPC (LMPC) に対して, 線形MPC (LMPC) をベンチマークすることで, 線形MPC (LMPC) の精度が向上するが, 一般の最適制御問題から導出し, 相違点と類似点を明らかにすることを目的とした, オンライン・オフ・オフ・オブジェクティブ強化学習 (RL) アプローチを提案する。
単純なマルチエネルギーシステム (MES) の構成ケーススタディでは、双子の遅延した深層決定性ポリシー勾配 (TD3) RL エージェントが完全なLMPCベンチマーク (101.5%) に適合し、性能を向上する可能性を示している。
これは現実的なLMPCである。
不完全予測は98%に過ぎません
より複雑なmesシステム構成では、rlエージェントの性能は一般的に低い(94.6%)が、現実的なlmpc(88.9%)よりも優れている。
いずれの場合も、RLエージェントは、環境との四半期的相互作用を用いて2年間のトレーニング期間を経て、現実的なLMPCよりも優れていた。
強化学習は,本研究で提案されているような安全でない相互作用や長い訓練期間を避けるために,制約処理や事前学習を前提とした多エネルギーシステムの最適制御手法である。 Model-predictive-control (MPC) offers an optimal control technique to establish and ensure that the total operation cost of multi-energy systems remains at a minimum while fulfilling all system constraints. However, this method presumes an adequate model of the underlying system dynamics, which is prone to modelling errors and is not necessarily adaptive. This has an associated initial and ongoing project-specific engineering cost. In this paper, we present an on- and off-policy multi-objective reinforcement learning (RL) approach, that does not assume a model a priori, benchmarking this against a linear MPC (LMPC - to reflect current practice, though non-linear MPC performs better) - both derived from the general optimal control problem, highlighting their differences and similarities. In a simple multi-energy system (MES) configuration case study, we show that a twin delayed deep deterministic policy gradient (TD3) RL agent offers potential to match and outperform the perfect foresight LMPC benchmark (101.5%). This while the realistic LMPC, i.e. imperfect predictions, only achieves 98%. While in a more complex MES system configuration, the RL agent's performance is generally lower (94.6%), yet still better than the realistic LMPC (88.9%). In both case studies, the RL agents outperformed the realistic LMPC after a training period of 2 years using quarterly interactions with the environment. We conclude that reinforcement learning is a viable optimal control technique for multi-energy systems given adequate constraint handling and pre-training, to avoid unsafe interactions and long training periods, as is proposed in fundamental future work. | 翻訳日:2021-04-21 13:46:18 公開日:2021-04-20 |
# braidnet: braid理論を用いた画像分類問題に対するニューラルネットワークの手続き的生成 BraidNet: procedural generation of neural networks for image classification problems using braid theory ( http://arxiv.org/abs/2104.10010v1 ) ライセンス: Link先を確認 | Olga Lukyanova, Oleg Nikitin, Alex Kunin | (参考訳) 本稿では,情報理論とブレイド理論の組み合わせに基づいて,ニューラルネットワークの手続き最適化手法を提案する。
この論文で研究されているネットワークは、ブレイドストランド間の交差と簡易ネットワーク(交差のないストランドと単純な畳み込み型ディープニューラルネットワークを持つネットワーク)と共に実装され、提案アーキテクチャの比較効果を解析できるマルチクラス画像分類の様々な問題を解決するために使用される。
シミュレーションの結果,braidnetは学習速度と分類精度において比較優位であった。 In this article, we propose the approach to procedural optimization of a neural network, based on the combination of information theory and braid theory. The network studied in the article implemented with the intersections between the braid strands, as well as simplified networks (a network with strands without intersections and a simple convolutional deep neural network), are used to solve various problems of multiclass image classification that allow us to analyze the comparative effectiveness of the proposed architecture. The simulation results showed BraidNet's comparative advantage in learning speed and classification accuracy. | 翻訳日:2021-04-21 13:44:48 公開日:2021-04-20 |
# WASSA@IITK at WASSA 2021: Multi-task Learning and Transformer Finetuning for Emotion Classification and Empathy Prediction (英語) WASSA@IITK at WASSA 2021: Multi-task Learning and Transformer Finetuning for Emotion Classification and Empathy Prediction ( http://arxiv.org/abs/2104.09827v1 ) ライセンス: Link先を確認 | Jay Mundra, Rohan Gupta, Sagnik Mukherjee | (参考訳) 本稿では,共感予測と感情分類に関するWASSA 2021共有課題への貢献について述べる。
このタスクの幅広い目標は、誰かへの危害に関連する新聞記事に反応して書かれたエッセイの共感スコア、苦難スコア、全体的な感情レベルをモデル化することであった。
我々はELECTRAモデルを多用しており、マルチタスク学習のような高度なディープラーニングアプローチも用いている。
さらに、ensemblingのような標準的な機械学習技術も活用しました。
本システムは,サブタスクIにおけるピアソン相関係数0.533,サブタスクIIにおけるマクロF1スコア0.5528を達成する。
感情分類サブタスク第1位,共感予測サブタスク第3位 This paper describes our contribution to the WASSA 2021 shared task on Empathy Prediction and Emotion Classification. The broad goal of this task was to model an empathy score, a distress score and the overall level of emotion of an essay written in response to a newspaper article associated with harm to someone. We have used the ELECTRA model abundantly and also advanced deep learning approaches like multi-task learning. Additionally, we also leveraged standard machine learning techniques like ensembling. Our system achieves a Pearson Correlation Coefficient of 0.533 on sub-task I and a macro F1 score of 0.5528 on sub-task II. We ranked 1st in Emotion Classification sub-task and 3rd in Empathy Prediction sub-task | 翻訳日:2021-04-21 13:44:01 公開日:2021-04-20 |
# マスク付き言語モデルを用いたイライラし易い編集型言語ステガノグラフィー Frustratingly Easy Edit-based Linguistic Steganography with a Masked Language Model ( http://arxiv.org/abs/2104.09833v1 ) ライセンス: Link先を確認 | Honai Ueoka, Yugo Murawaki and Sadao Kurohashi | (参考訳) 言語モデルの発展に伴い、言語ステガノグラフィーの焦点は編集ベースのアプローチから世代ベースのものへとシフトしている。
ペイロード容量は印象的ですが、本物のテキストを生成することはまだまだ難しいです。
本稿では,編集に基づく言語ステガノグラフィーを再考し,マスク付き言語モデルが既成のソリューションを提供するという考えを述べる。
提案手法は,難解なルール構成を排除し,編集ベースモデルに高いペイロード容量を有する。
また、セキュリティ/ペイロード容量のトレードオフをより制御しながら、世代ベースの方法よりも自動検出に対してより安全であることが示されている。 With advances in neural language models, the focus of linguistic steganography has shifted from edit-based approaches to generation-based ones. While the latter's payload capacity is impressive, generating genuine-looking texts remains challenging. In this paper, we revisit edit-based linguistic steganography, with the idea that a masked language model offers an off-the-shelf solution. The proposed method eliminates painstaking rule construction and has a high payload capacity for an edit-based model. It is also shown to be more secure against automatic detection than a generation-based method while offering better control of the security/payload capacity trade-off. | 翻訳日:2021-04-21 13:43:49 公開日:2021-04-20 |
# HYPER^2: Hyper-Relational Link Prediction のためのハイパーボリック・ポインケア・エンベディング HYPER^2: Hyperbolic Poincare Embedding for Hyper-Relational Link Prediction ( http://arxiv.org/abs/2104.09871v1 ) ライセンス: Link先を確認 | Shiyao Yan, Zequn Zhang, Xian Sun, Guangluan Xu, Li Jin and Shuchao Li | (参考訳) 事実を欠いたkgsの完成問題に対処するリンク予測は広く研究されている。
しかし、ユビキタスなハイパーリレーショナルkgsでは光量が少なくなる。
既存のハイパーリレーショナルkg埋め込みモデルのほとんどは、n-ary事実を小さなタプルに分解し、いくつかのn-ary事実の非可逆性を無視している。
他のフレームワークは特定のアリティ事実に対してのみ機能する一方で、プライマリトリプルの重要性を無視する。
本稿では,n-ary事実全体を表現し,n-ary事実の完全性を維持し,主三重項が果たす重要な役割を維持する。
さらに、双対データから任意のアリティデータへの双曲型ポインカー埋め込みを一般化するが、まだ研究されていない。
弱い表現性と複雑性の問題に取り組むため,我々は,接空間上の情報集約により,三重項内およびそれ以上の実体間の相互作用を捉えることができるハイパー^2を提案する。
HYPER^2はその翻訳や深部アナログよりも優れた性能を示し、SOTAを比較的少ない次元で最大34.5\%向上させる。
さらに、リテラルの副作用について検討し、理論的・実験的にHYPER^2の計算複雑性をいくつかの最高の性能ベースラインと比較した。 Link Prediction, addressing the issue of completing KGs with missing facts, has been broadly studied. However, less light is shed on the ubiquitous hyper-relational KGs. Most existing hyper-relational KG embedding models still tear an n-ary fact into smaller tuples, neglecting the indecomposability of some n-ary facts. While other frameworks work for certain arity facts only or ignore the significance of primary triple. In this paper, we represent an n-ary fact as a whole, simultaneously keeping the integrity of n-ary fact and maintaining the vital role that the primary triple plays. In addition, we generalize hyperbolic Poincar\'e embedding from binary to arbitrary arity data, which has not been studied yet. To tackle the weak expressiveness and high complexity issue, we propose HYPER^2 which is qualified for capturing the interaction between entities within and beyond triple through information aggregation on the tangent space. Extensive experiments demonstrate HYPER^2 achieves superior performance to its translational and deep analogues, improving SOTA by up to 34.5\% with relatively few dimensions. Moreover, we study the side effect of literals and we theoretically and experimentally compare the computational complexity of HYPER^2 against several best performing baselines, HYPER^2 is 49-61 times quicker than its counterparts. | 翻訳日:2021-04-21 13:43:40 公開日:2021-04-20 |
# UIT-ISE-NLP at SemEval-2021 Task 5: Toxic Spans Detection with BiLSTM-CRF and Toxic Bert Comment Classification UIT-ISE-NLP at SemEval-2021 Task 5: Toxic Spans Detection with BiLSTM-CRF and Toxic Bert Comment Classification ( http://arxiv.org/abs/2104.10100v1 ) ライセンス: Link先を確認 | Son T. Luu, Ngan Luu-Thuy Nguyen | (参考訳) 我々は,semeval-2021タスク5における有害スパンの検出について報告する。
このタスクは、投稿全体において有毒な単語を識別するモデルを構築することを目的としている。
Toxic Bert Classificationと組み合わせたBiLSTM-CRFモデルを用いて、投稿中の有害単語を特定するための検出モデルを訓練する。
トキシックスパンズ検出タスクにおいてF1スコアで62.23%を達成した。 We present our works on SemEval-2021 Task 5 about Toxic Spans Detection. This task aims to build a model for identifying toxic words in a whole posts. We use the BiLSTM-CRF model combining with Toxic Bert Classification to train the detection model for identifying toxic words in the posts. Our model achieved 62.23% by F1-score on the Toxic Spans Detection task. | 翻訳日:2021-04-21 13:43:16 公開日:2021-04-20 |
# マルチモーダル理解の解決に向けて Towards Solving Multimodal Comprehension ( http://arxiv.org/abs/2104.10139v1 ) ライセンス: Link先を確認 | Pritish Sahu, Karan Sikka, and Ajay Divakaran | (参考訳) 本稿では,手続き型マルチモーダルマシン理解問題(m3c)を対象とする。
このタスクには、マルチモーダル命令の所定のステップを理解し、それから質問に答えるaiが必要です。
テキスト入力のみを理解するためにAIが必要なバニラマシン理解タスクと比較して、AIが時間的および因果的要素とマルチモーダル入力の両方を理解する必要があるため、手続き的M3Cはより難しい。
最近、yagcioglu et al。
[35]M3Cを評価するためにRecipeQAデータセットを導入した。
最初のコントリビューションは、WoodworkQAとDecorationQAの2つの新しいM3Cデータセットの導入である。
次に、テキスト・クローゼスタイルの質問応答タスクを用いてM3Cを評価し、[35]からの質問応答生成法に固有のバイアスを強調し、質問応答選択のみから学習することで、素質のベースラインを不正にすることができる。
このナイーブなベースラインは、コンテキストとクエリの両方に注意を向ける質問応答型読み手[6]で使用される一般的な方法と似ています。
データセットに存在するこの自然発生バイアスは、最高のパフォーマンスモデルにも影響を及ぼすと仮定した。
提案した仮説を検証し、与えられたデータセットを修正してバイアス要素を除去できるアルゴリズムを提案する。
最後に、いくつかの強いベースラインを持つdebiasedデータセットのパフォーマンスを報告します。
バイアスを補正した後、すべての手法のパフォーマンスが8%から16%のマージンで低下するのを観察する。
これらのデータセットと分析が貴重なベンチマークを提供し、この分野のさらなる研究を促進することを期待しています。 This paper targets the problem of procedural multimodal machine comprehension (M3C). This task requires an AI to comprehend given steps of multimodal instructions and then answer questions. Compared to vanilla machine comprehension tasks where an AI is required only to understand a textual input, procedural M3C is more challenging as the AI needs to comprehend both the temporal and causal factors along with multimodal inputs. Recently Yagcioglu et al. [35] introduced RecipeQA dataset to evaluate M3C. Our first contribution is the introduction of two new M3C datasets- WoodworkQA and DecorationQA with 16K and 10K instructional procedures, respectively. We then evaluate M3C using a textual cloze style question-answering task and highlight an inherent bias in the question answer generation method from [35] that enables a naive baseline to cheat by learning from only answer choices. This naive baseline performs similar to a popular method used in question answering- Impatient Reader [6] that uses attention over both the context and the query. We hypothesized that this naturally occurring bias present in the dataset affects even the best performing model. We verify our proposed hypothesis and propose an algorithm capable of modifying the given dataset to remove the bias elements. Finally, we report our performance on the debiased dataset with several strong baselines. We observe that the performance of all methods falls by a margin of 8% - 16% after correcting for the bias. We hope these datasets and the analysis will provide valuable benchmarks and encourage further research in this area. | 翻訳日:2021-04-21 13:43:05 公開日:2021-04-20 |
# N-aryリレーショナル知識ベースのための役割意識モデリング Role-Aware Modeling for N-ary Relational Knowledge Bases ( http://arxiv.org/abs/2104.09780v1 ) ライセンス: Link先を確認 | Yu Liu, Quanming Yao, Yong Li | (参考訳) N-aryリレーショナル知識ベース(KB)は、二項的および二項的リレーショナル事実の知識を表す。
特にn-aryリレーショナルな事実では、関与するエンティティは異なる役割を演じる。例えば、三項関係のPlayCharacterInは、ACTOR、CHARACTER、MOVIEの3つの役割からなる。
しかし、既存のアプローチは、しばしばバイナリリレーショナルkb、すなわち知識グラフから直接拡張されるが、ロールの重要な意味的特性は欠落している。
そこで,我々はロールレベルから始めて,n-aryリレーショナルkbsの事実に対するロールアウェアモデリングであるramを提案する。
RAMは基底ベクトルを含む潜在空間を探索し、これらのベクトルの線形結合によって役割を表現する。
この方法では、セマンティックな役割が密接な表現を持つように促される。
ramはさらに、ロールと関連するすべてのエンティティの互換性をキャプチャするパターンマトリックスも導入している。
この目的のために、特定の役割や実体によって構成される事実の妥当性を測定するための多線形スコアリング関数を提供する。
また,RAMは論理的完全表現性と計算効率の両方を実現し,二項関係KBのアプローチをエレガントに一般化することを示した。
実験によると、RAMはn-aryとバイナリのリレーショナルデータセットの両方で代表ベースラインを上回っている。 N-ary relational knowledge bases (KBs) represent knowledge with binary and beyond-binary relational facts. Especially, in an n-ary relational fact, the involved entities play different roles, e.g., the ternary relation PlayCharacterIn consists of three roles, ACTOR, CHARACTER and MOVIE. However, existing approaches are often directly extended from binary relational KBs, i.e., knowledge graphs, while missing the important semantic property of role. Therefore, we start from the role level, and propose a Role-Aware Modeling, RAM for short, for facts in n-ary relational KBs. RAM explores a latent space that contains basis vectors, and represents roles by linear combinations of these vectors. This way encourages semantically related roles to have close representations. RAM further introduces a pattern matrix that captures the compatibility between the role and all involved entities. To this end, it presents a multilinear scoring function to measure the plausibility of a fact composed by certain roles and entities. We show that RAM achieves both theoretical full expressiveness and computation efficiency, which also provides an elegant generalization for approaches in binary relational KBs. Experiments demonstrate that RAM outperforms representative baselines on both n-ary and binary relational datasets. | 翻訳日:2021-04-21 13:42:26 公開日:2021-04-20 |
# ビジネスプロセスのテキストアウェア予測モニタリング Text-Aware Predictive Monitoring of Business Processes ( http://arxiv.org/abs/2104.09962v1 ) ライセンス: Link先を確認 | Marco Pegoraro and Merih Seran Uysal and David Benedikt Georgi and Wil M.P. van der Aalst | (参考訳) 過去のイベントデータを用いたビジネスプロセスのリアルタイム予測は、現代のビジネスプロセス監視システムの重要な機能である。
既存のプロセス予測手法は、制御フローの観点に加えて、記録されたイベントのデータパースペクティブも活用することができる。
しかし、よく構造化された数値的・カテゴリー的属性は多くの予測手法で考慮されているが、予測タスクに不可欠な情報を保持できる自然言語で書かれたテキスト文書を活用できる技術はほとんどない。
本稿では,Long Short-Term Memory(LSTM)ニューラルネットワークと自然言語モデルに基づく,新しいテキスト認識プロセス予測モデルの設計,実装,評価について述べる。
提案モデルは,次のイベントのアクティビティとタイムスタンプ,結果,実行中のプロセスインスタンスのサイクル時間を予測するために,イベントデータのカテゴリ的,数値的,テキスト的属性を考慮に入れることができる。
実験により、テキストデータを含むシミュレーションおよび実世界のイベントログにおいて、テキスト認識モデルが最先端プロセス予測手法を上回ることができることを示した。 The real-time prediction of business processes using historical event data is an important capability of modern business process monitoring systems. Existing process prediction methods are able to also exploit the data perspective of recorded events, in addition to the control-flow perspective. However, while well-structured numerical or categorical attributes are considered in many prediction techniques, almost no technique is able to utilize text documents written in natural language, which can hold information critical to the prediction task. In this paper, we illustrate the design, implementation, and evaluation of a novel text-aware process prediction model based on Long Short-Term Memory (LSTM) neural networks and natural language models. The proposed model can take categorical, numerical and textual attributes in event data into account to predict the activity and timestamp of the next event, the outcome, and the cycle time of a running process instance. Experiments show that the text-aware model is able to outperform state-of-the-art process prediction methods on simulated and real-world event logs containing textual data. | 翻訳日:2021-04-21 13:42:05 公開日:2021-04-20 |
# 対向攻撃を促進する階段標識方法 Staircase Sign Method for Boosting Adversarial Attacks ( http://arxiv.org/abs/2104.09722v1 ) ライセンス: Link先を確認 | Lianli Gao, Qilong Zhang, Xiaosu Zhu, Jingkuan Song and Heng Tao Shen | (参考訳) トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。
現在、このような攻撃法は、代用モデルと被害者のモデルが同様の決定境界を学習する仮説に基づいており、従来はシグネチャ法(SM)を適用して、結果として生じる摂動として勾配を操作する。
SMは効率的であるが、勾配単位の符号のみを抽出するが、その値差を無視し、必然的に重大な偏差をもたらす。
そこで本研究では,この問題を緩和し,転送ベースの攻撃を増強する新たなStaircase Sign Method (S$^2$M)を提案する。
技術的には, 勾配単位の値に応じて, 勾配符号を複数のセグメントにヒューリスティックに分割し, 各セグメントに階段重みを割り当て, 逆摂動を良くする。
結果として、私たちの敵対的な例は、ホワイトボックスとブラックボックスの両方で、より目立たずにパフォーマンスが向上します。
S$2$Mは結果の勾配を演算するだけなので、我々の手法は一般的に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。
ImageNetデータセットの広範囲な実験により,提案手法の有効性が実証され,トランスファービリティが大幅に向上した(通常訓練されたモデルでは \textbf{5.1\%} ,敵訓練されたディフェンスでは \textbf{11.2\%} )。
私たちのコードは、 \url{https://github.com/qilong-zhang/staircase-sign-method} で利用可能です。 Crafting adversarial examples for the transfer-based attack is challenging and remains a research hot spot. Currently, such attack methods are based on the hypothesis that the substitute model and the victim's model learn similar decision boundaries, and they conventionally apply Sign Method (SM) to manipulate the gradient as the resultant perturbation. Although SM is efficient, it only extracts the sign of gradient units but ignores their value difference, which inevitably leads to a serious deviation. Therefore, we propose a novel Staircase Sign Method (S$^2$M) to alleviate this issue, thus boosting transfer-based attacks. Technically, our method heuristically divides the gradient sign into several segments according to the values of the gradient units, and then assigns each segment with a staircase weight for better crafting adversarial perturbation. As a result, our adversarial examples perform better in both white-box and black-box manner without being more visible. Since S$^2$M just manipulates the resultant gradient, our method can be generally integrated into any transfer-based attacks, and the computational overhead is negligible. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our proposed methods, which significantly improve the transferability (i.e., on average, \textbf{5.1\%} for normally trained models and \textbf{11.2\%} for adversarially trained defenses). Our code is available at: \url{https://github.com/qilong-zhang/Staircase-sign-method}. | 翻訳日:2021-04-21 13:41:36 公開日:2021-04-20 |
# 頭部・肩部におけるフローベースビデオセグメンテーション Flow-based Video Segmentation for Human Head and Shoulders ( http://arxiv.org/abs/2104.09752v1 ) ライセンス: Link先を確認 | Zijian Kuang and Xinran Tie | (参考訳) 人間の頭と肩の映像セグメンテーションは、ビデオ会議やバーチャルリアリティーアプリケーションのためのエレガントなメディアを作成する上で不可欠である。
主な課題は、高品質なバックグラウンド減算をリアルタイムで処理し、会議ビデオ中に頭を振ったり手を振ったりといった、動きのぼかしの下でセグメンテーション問題に対処することだ。
ビデオセグメンテーションにおける動きのぼやけ問題を克服するため,従来のホルン・シュンク光フロー推定手法と畳み込みニューラルネットワークを組み合わせた新しいフローベースエンコーダ・デコーダネットワーク(funet)を提案し,ロバストなリアルタイム映像セグメンテーションを実現する。
ビデオと画像のセグメンテーションデータセットも紹介する。
コードと事前トレーニングされたモデルは、githubリポジトリで利用可能です。 Video segmentation for the human head and shoulders is essential in creating elegant media for videoconferencing and virtual reality applications. The main challenge is to process high-quality background subtraction in a real-time manner and address the segmentation issues under motion blurs, e.g., shaking the head or waving hands during conference video. To overcome the motion blur problem in video segmentation, we propose a novel flow-based encoder-decoder network (FUNet) that combines both traditional Horn-Schunck optical-flow estimation technique and convolutional neural networks to perform robust real-time video segmentation. We also introduce a video and image segmentation dataset: ConferenceVideoSegmentationDataset. Code and pre-trained models are available on our GitHub repository: \url{https://github.com/kuangzijian/Flow-Based-Video-Matting}. | 翻訳日:2021-04-21 13:41:04 公開日:2021-04-20 |
# HMS: 効率的なビデオ認識のための階層的モダリティ選択 HMS: Hierarchical Modality Selectionfor Efficient Video Recognition ( http://arxiv.org/abs/2104.09760v1 ) ライセンス: Link先を確認 | Zejia Weng, Zuxuan Wu, Hengduo Li, Yu-Gang Jiang | (参考訳) ビデオは本質的にマルチモーダルです。
従来のビデオ認識パイプラインは通常、パフォーマンスを改善するためにマルチモーダル機能を融合する。
しかし、これは計算的に高価であるだけでなく、異なるビデオが予測に異なるモダリティに依存しているという事実も無視している。
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外観や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
これは、階層的な方法で組織化された3つのLSTMの協調によって達成される。
特に、低コストのモダリティで動作するLSTMには、低レベルの特徴と履歴情報を入力として取り込んで、対応するモダリティを活性化するかを適応的に決定するゲーティングモジュールが含まれている。
本研究では,FCVIDとActivityNetの2つの大規模ビデオベンチマークについて広範な実験を行い,提案手法により,より少ない計算量で分類性能を向上できることを示す。 Videos are multimodal in nature. Conventional video recognition pipelines typically fuse multimodal features for improved performance. However, this is not only computationally expensive but also neglects the fact that different videos rely on different modalities for predictions. This paper introduces Hierarchical Modality Selection (HMS), a simple yet efficient multimodal learning framework for efficient video recognition. HMS operates on a low-cost modality, i.e., audio clues, by default, and dynamically decides on-the-fly whether to use computationally-expensive modalities, including appearance and motion clues, on a per-input basis. This is achieved by the collaboration of three LSTMs that are organized in a hierarchical manner. In particular, LSTMs that operate on high-cost modalities contain a gating module, which takes as inputs lower-level features and historical information to adaptively determine whether to activate its corresponding modality; otherwise it simply reuses historical information. We conduct extensive experiments on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate the proposed approach can effectively explore multimodal information for improved classification performance while requiring much less computation. | 翻訳日:2021-04-21 13:40:49 公開日:2021-04-20 |
# 映像予測のための学習意味認識ダイナミクス Learning Semantic-Aware Dynamics for Video Prediction ( http://arxiv.org/abs/2104.09762v1 ) ライセンス: Link先を確認 | Xinzhu Bei, Yanchao Yang, Stefano Soatto | (参考訳) 本稿では,ビデオの非閉塞性を明示的にモデル化し,意味的に一貫した領域の進化を捉えることによって,映像フレームの予測を行うアーキテクチャとトレーニング手法を提案する。
シーンレイアウト(セマンティックマップ)とモーション(オプティカルフロー)はレイヤに分解され、将来のレイアウトや動きを生成するためにそのコンテキストと予測および融合される。
シーンの外観は、近視領域で予測された動きを用いて過去のフレームから歪められ、非閉塞領域は、予測されたシーンレイアウトを利用してコンテンツ対応の塗装で合成される。
その結果、オブジェクトを明示的に表現し、クラス固有の動作を学習する予測モデルとなり、ビデオ予測ベンチマークで評価する。 We propose an architecture and training scheme to predict video frames by explicitly modeling dis-occlusions and capturing the evolution of semantically consistent regions in the video. The scene layout (semantic map) and motion (optical flow) are decomposed into layers, which are predicted and fused with their context to generate future layouts and motions. The appearance of the scene is warped from past frames using the predicted motion in co-visible regions; dis-occluded regions are synthesized with content-aware inpainting utilizing the predicted scene layout. The result is a predictive model that explicitly represents objects and learns their class-specific motion, which we evaluate on video prediction benchmarks. | 翻訳日:2021-04-21 13:40:30 公開日:2021-04-20 |
# SE-SSD:ポイントクラウドから1段階のオブジェクト検出器を自己組み立て SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud ( http://arxiv.org/abs/2104.09804v1 ) ライセンス: Link先を確認 | Wu Zheng, Weiliang Tang, Li Jiang, Chi-Wing Fu | (参考訳) 屋外点雲における高精度かつ効率的な3次元物体検出のための自己組織化単段物体検出器(SE-SSD)を提案する。
私たちの重要な焦点は、推論に余分な計算を導入することなく、モデルの共同最適化のために、厳密な制約でソフトターゲットとハードターゲットの両方を活用することです。
特に、SE-SSDには教師と学生のSSDが一組含まれており、教師からソフトターゲットをフィルタリングし、生徒の予測を整合させるために一貫性損失を定式化する効果的なIoUベースのマッチング戦略を設計する。
また,教師を指導するための蒸留知識を最大化するために,学生を訓練するための形状認識型強化サンプルを作成するための新たな拡張スキームを設計し,完全な物体形状を推し進めることを目的とした。
最後に、ハードターゲットをよりうまく活用するために、予測されたボックスセンターと配向に制約のある学生を監督するために、ODIoU損失を設計する。
当社のSE-SSDは、以前のすべての作品と比較して最高のパフォーマンスを実現しています。
また、kittiベンチマーク(それぞれbevと3dリーダーボードで第1位と第2位)における車検出の最高精度を超高速で達成する。
コードはhttps://github.com/Vegeta2020/SE-SSDで入手できる。 We present Self-Ensembling Single-Stage object Detector (SE-SSD) for accurate and efficient 3D object detection in outdoor point clouds. Our key focus is on exploiting both soft and hard targets with our formulated constraints to jointly optimize the model, without introducing extra computation in the inference. Specifically, SE-SSD contains a pair of teacher and student SSDs, in which we design an effective IoU-based matching strategy to filter soft targets from the teacher and formulate a consistency loss to align student predictions with them. Also, to maximize the distilled knowledge for ensembling the teacher, we design a new augmentation scheme to produce shape-aware augmented samples to train the student, aiming to encourage it to infer complete object shapes. Lastly, to better exploit hard targets, we design an ODIoU loss to supervise the student with constraints on the predicted box centers and orientations. Our SE-SSD attains top performance compared with all prior published works. Also, it attains top precisions for car detection in the KITTI benchmark (ranked 1st and 2nd on the BEV and 3D leaderboards, respectively) with an ultra-high inference speed. The code is available at https://github.com/Vegeta2020/SE-SSD. | 翻訳日:2021-04-21 13:40:19 公開日:2021-04-20 |
# CTNet:セマンティックセグメンテーションのためのコンテキストベースタンデムネットワーク CTNet: Context-based Tandem Network for Semantic Segmentation ( http://arxiv.org/abs/2104.09805v1 ) ライセンス: Link先を確認 | Zechao Li, Yanpeng Sun, and Jinhui Tang | (参考訳) 文脈情報は意味セグメンテーションに強力であることが示されている。
本研究では,文脈情報とチャネルコンテキスト情報を対話的に探索し,意味的セグメンテーションのための意味的コンテキストを検出する,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
具体的には、空間文脈モジュール(SCM)を用いて、画素とカテゴリの相関関係を探索することにより、画素間の空間文脈依存性を明らかにする。
一方、チャネル間の長期的な意味依存をモデル化し、意味的特徴マップやクラス固有の特徴を含む意味的特徴を学ぶために、チャネルコンテキストモジュール(ccm)が導入された。
学習した意味的特徴は、SCMの学習を導くための事前知識として利用され、SCMがより正確な長距離空間依存を得ることを可能にする。
最後に、セマンティックセグメンテーションのための学習表現の性能をさらに向上させるために、2つのコンテキストモジュールの結果を適応的に統合し、より良い結果を得る。
大規模な実験は、PASCAL-Context、ADE20K、PASCAL VOC2012の3つの広く使われているデータセットで行われている。
その結果,提案手法との比較により,提案手法の有効性が示された。 Contextual information has been shown to be powerful for semantic segmentation. This work proposes a novel Context-based Tandem Network (CTNet) by interactively exploring the spatial contextual information and the channel contextual information, which can discover the semantic context for semantic segmentation. Specifically, the Spatial Contextual Module (SCM) is leveraged to uncover the spatial contextual dependency between pixels by exploring the correlation between pixels and categories. Meanwhile, the Channel Contextual Module (CCM) is introduced to learn the semantic features including the semantic feature maps and class-specific features by modeling the long-term semantic dependence between channels. The learned semantic features are utilized as the prior knowledge to guide the learning of SCM, which can make SCM obtain more accurate long-range spatial dependency. Finally, to further improve the performance of the learned representations for semantic segmentation, the results of the two context modules are adaptively integrated to achieve better results. Extensive experiments are conducted on three widely-used datasets, i.e., PASCAL-Context, ADE20K and PASCAL VOC2012. The results demonstrate the superior performance of the proposed CTNet by comparison with several state-of-the-art methods. | 翻訳日:2021-04-21 13:39:56 公開日:2021-04-20 |
# 分離によるセンサレス弱監視接地 Detector-Free Weakly Supervised Grounding by Separation ( http://arxiv.org/abs/2104.09829v1 ) ライセンス: Link先を確認 | Assaf Arbelle, Sivan Doveh, Amit Alfassy, Joseph Shtok, Guy Lev, Eli Schwartz, Hilde Kuehne, Hila Barak Levi, Prasanna Sattigeri, Rameswar Panda, Chun-Fu Chen, Alex Bronstein, Kate Saenko, Shimon Ullman, Raja Giryes, Rogerio Feris, Leonid Karlinsky | (参考訳) 現在、画像や周囲の自由形テキストを含むデータが、それらの画像に弱い対応を取っている。
Wakly Supervised phrase-Grounding (WSG)は、このデータを使用して任意のテキストフレーズを、追加のアノテーションなしで画像にローカライズ(あるいは接地)することを学ぶタスクを扱う。
しかし、WSG の最近の SotA 法は、事前訓練対象検出器の存在を前提として、位置決めのためのROI を生成する。
本研究では,事前学習した検出器を使わずにWSGを解くために,DF-WSG(De Detector-Free WSG)の課題に焦点を当てる。
我々は画像と関連する自由形式のテキストペアからすべてを直接学習するので、検出器によって囲まれたカテゴリの利点を得られる可能性がある。
提案手法の背景にある重要な考え方は,任意の画像対のランダムなアルファブレンディングによる「テキスト」と画像領域の関連付けを合成し,そのペアの対応するテキストを条件として使用して,混合画像からセグメンテーションネットワークを介してアルファマップを復元することである。
テスト時には、クエリ句を非バーテッドクエリ画像の条件として使用することができ、テスト画像をフレーズと補完領域に対応する領域の合成として解釈することができる。
このアプローチを用いることで、Flickr30K、Visual Genome、ReferItを含む様々なベンチマークに対して、以前のDF-WSG SotAよりも最大8.5\%の大幅な精度向上と、WSGの検出器ベースのアプローチに対する大幅な補完的改善($7\%以上)を示す。 Nowadays, there is an abundance of data involving images and surrounding free-form text weakly corresponding to those images. Weakly Supervised phrase-Grounding (WSG) deals with the task of using this data to learn to localize (or to ground) arbitrary text phrases in images without any additional annotations. However, most recent SotA methods for WSG assume the existence of a pre-trained object detector, relying on it to produce the ROIs for localization. In this work, we focus on the task of Detector-Free WSG (DF-WSG) to solve WSG without relying on a pre-trained detector. We directly learn everything from the images and associated free-form text pairs, thus potentially gaining an advantage on the categories unsupported by the detector. The key idea behind our proposed Grounding by Separation (GbS) method is synthesizing `text to image-regions' associations by random alpha-blending of arbitrary image pairs and using the corresponding texts of the pair as conditions to recover the alpha map from the blended image via a segmentation network. At test time, this allows using the query phrase as a condition for a non-blended query image, thus interpreting the test image as a composition of a region corresponding to the phrase and the complement region. Using this approach we demonstrate a significant accuracy improvement, of up to $8.5\%$ over previous DF-WSG SotA, for a range of benchmarks including Flickr30K, Visual Genome, and ReferIt, as well as a significant complementary improvement (above $7\%$) over the detector-based approaches for WSG. | 翻訳日:2021-04-21 13:39:36 公開日:2021-04-20 |
# ロングテール分類のための新しい3段階訓練戦略 A novel three-stage training strategy for long-tailed classification ( http://arxiv.org/abs/2104.09830v1 ) ライセンス: Link先を確認 | Gongzhe Li, Zhiwen Tan, Linpeng Pan | (参考訳) ロングテールの分散データセットは、クラス不均衡問題の扱い方に関するディープラーニングベースの分類モデルにとって大きな課題となる。
既存のソリューションは通常、クラスバラッシング戦略や、ヘッドクラスからテールクラスへの転送リース、あるいは2段階の学習戦略を使って分類器を再訓練する。
しかし,SARにより画像が得られた場合,既存の手法では品質の低い問題を解くことは困難である。
この問題に対処するため,我々はSAR画像データセットを長期分布で処理するための優れた3段階トレーニング戦略を確立した。
具体的には,訓練手順を3段階に分けた。
最初の段階は、粗いトレーニングにあらゆる種類の画像を使用することで、リッチなコンテンツで粗いトレーニングモデルを得ることである。
第2段階は、クラス0を取り除いた残余データセットを使用して、粗いモデルに特徴式を学習させることである。
第3のステージは、クラスバランスデータセットを10クラスすべて(全体的なモデル微調整と分類器の再最適化を含む)すべてで微調整することである。
この新たなトレーニング戦略を通じて、SARイメージデータセットと非常に小さなパラメータを持つネットワークモデルの情報のみを使用して、開発フェーズにおけるトップ1の精度22.34を達成する。 The long-tailed distribution datasets poses great challenges for deep learning based classification models on how to handle the class imbalance problem. Existing solutions usually involve class-balacing strategies or transfer learing from head- to tail-classes or use two-stages learning strategy to re-train the classifier. However, the existing methods are difficult to solve the low quality problem when images are obtained by SAR. To address this problem, we establish a novel three-stages training strategy, which has excellent results for processing SAR image datasets with long-tailed distribution. Specifically, we divide training procedure into three stages. The first stage is to use all kinds of images for rough-training, so as to get the rough-training model with rich content. The second stage is to make the rough model learn the feature expression by using the residual dataset with the class 0 removed. The third stage is to fine tune the model using class-balanced datasets with all 10 classes (including the overall model fine tuning and classifier re-optimization). Through this new training strategy, we only use the information of SAR image dataset and the network model with very small parameters to achieve the top 1 accuracy of 22.34 in development phase. | 翻訳日:2021-04-21 13:39:04 公開日:2021-04-20 |
# マルチビュー衛星フォトグラフィーのためのシャドウニューラルラジアンス場 Shadow Neural Radiance Fields for Multi-view Satellite Photogrammetry ( http://arxiv.org/abs/2104.09877v1 ) ライセンス: Link先を確認 | Dawa Derksen, Dario Izzo | (参考訳) 我々は,地球観測シーンの影対応多視点衛星写真撮影のための新しい総合的手法を提案する。
提案手法であるシャドウニューラルレージアンス場(S-NeRF)は,暗黙の容積表現学習の最近の進歩に追随する。
各シーンに対して、既知の視角から得られた高分解能光画像を用いてS-NeRFを訓練する。
学習はラベルや形状の事前を必要とせず、画像再構成損失によって自己管理される。
指向性光源(太陽)と拡散性光源(天空)の両方からの光源条件の変化に対応するため、NeRFアプローチを2つの方法で拡張する。
まず、太陽からの直接照明は、局所光源可視領域を介してモデル化される。
第二に、拡散光源からの間接照明は、太陽の位置の関数として非局所色場として学習される。
定量的に、これらの因子の組み合わせは、日陰領域の高度と色誤差をNeRFと比較して減少させる。
S-NeRF法は、新しいビュー合成と完全な3次元形状推定を行うだけでなく、シャドー検出、アルベド合成、過渡的なオブジェクトフィルタリングを可能にする。 We present a new generic method for shadow-aware multi-view satellite photogrammetry of Earth Observation scenes. Our proposed method, the Shadow Neural Radiance Field (S-NeRF) follows recent advances in implicit volumetric representation learning. For each scene, we train S-NeRF using very high spatial resolution optical images taken from known viewing angles. The learning requires no labels or shape priors: it is self-supervised by an image reconstruction loss. To accommodate for changing light source conditions both from a directional light source (the Sun) and a diffuse light source (the sky), we extend the NeRF approach in two ways. First, direct illumination from the Sun is modeled via a local light source visibility field. Second, indirect illumination from a diffuse light source is learned as a non-local color field as a function of the position of the Sun. Quantitatively, the combination of these factors reduces the altitude and color errors in shaded areas, compared to NeRF. The S-NeRF methodology not only performs novel view synthesis and full 3D shape estimation, it also enables shadow detection, albedo synthesis, and transient object filtering, without any explicit shape supervision. | 翻訳日:2021-04-21 13:38:45 公開日:2021-04-20 |
# 生成逆ネットワークの改良によるセマンティックセグメンテーション Semantic Segmentation by Improved Generative Adversarial Networks ( http://arxiv.org/abs/2104.09917v1 ) ライセンス: Link先を確認 | ZengShun Zhaoa (1), Yulong Wang (1), Ke Liu (1), Haoran Yang (1), Qian Sun (1), Heng Qiao (2) ((1) Shandong University of Science and Technology,(2) University of Florida) | (参考訳) ほとんどの既存のセグメンテーション手法は、通常CNNの強力な特徴抽出機能と条件付きランダムフィールド(CRF)後処理を組み合わせたが、結果は常にCRFの欠点によって制限される。
計算速度が遅く、CRFの効率が低かったことで、近年、CRFのポスト処理は徐々に廃止されている。
本稿では,画像意味的セグメンテーションタスク(GANによる意味的セグメンテーション,Seg-GANによる意味的セグメンテーション)のためのGAN(Generative Adversarial Networks)を改良し,セグメンテーション研究を促進する。
さらに,画像意味セグメンテーションタスクの効果的な改善ソリューションとして,畳み込みCRF(ConvCRF)を導入する。
提案する識別器ネットワークは, 基本真実分布からのセグメンテーション結果を識別し, 出力画像の詳細を改善することを目的として, カスケードされたConvCRFと組み合わせて, 完全な畳み込み方式で特別に設計されている。
さらに、敵対的損失は、出力画像が基底真実の分布に近接することを積極的に促す。
本手法は,入力画像から対応する出力画像へのエンドツーエンドマッピングを学習するだけでなく,このマッピングを訓練するための損失関数も学習する。
実験の結果,本手法は最先端手法よりも優れた性能を示すことがわかった。 While most existing segmentation methods usually combined the powerful feature extraction capabilities of CNNs with Conditional Random Fields (CRFs) post-processing, the result always limited by the fault of CRFs . Due to the notoriously slow calculation speeds and poor efficiency of CRFs, in recent years, CRFs post-processing has been gradually eliminated. In this paper, an improved Generative Adversarial Networks (GANs) for image semantic segmentation task (semantic segmentation by GANs, Seg-GAN) is proposed to facilitate further segmentation research. In addition, we introduce Convolutional CRFs (ConvCRFs) as an effective improvement solution for the image semantic segmentation task. Towards the goal of differentiating the segmentation results from the ground truth distribution and improving the details of the output images, the proposed discriminator network is specially designed in a full convolutional manner combined with cascaded ConvCRFs. Besides, the adversarial loss aggressively encourages the output image to be close to the distribution of the ground truth. Our method not only learns an end-to-end mapping from input image to corresponding output image, but also learns a loss function to train this mapping. The experiments show that our method achieves better performance than state-of-the-art methods. | 翻訳日:2021-04-21 13:38:25 公開日:2021-04-20 |
# fitzpatrick 17kデータセットを用いた皮膚科の臨床画像に基づく深層ニューラルネットワークの評価 Evaluating Deep Neural Networks Trained on Clinical Images in Dermatology with the Fitzpatrick 17k Dataset ( http://arxiv.org/abs/2104.09957v1 ) ライセンス: Link先を確認 | Matthew Groh, Caleb Harris, Luis Soenksen, Felix Lau, Rachel Han, Aerin Kim, Arash Koochek, Omar Badri | (参考訳) 皮膚疾患の臨床像を分類するために訓練された深層ニューラルネットワークモデルの精度は、皮膚の色によってどのように異なるのか?
近年の研究では、コンピュータビジョンモデルが医療において有用な意思決定支援ツールとして機能し、皮膚科医にいくつかの特定のタスクを分類できることが示されている。
ほとんどの公開データセットには、フィッツパトリックスキンタイプのラベルは含まれていない。
Fitzpatrick skin type labels を併用した2例の臨床像から得られた16,577点の注釈とこれらのアノテーションのオープンソース化を行った。
これらのラベルに基づいて、このデータセットには、暗い肌のタイプよりも、明るい肌のタイプのイメージがかなり多いことがわかった。
我々は、深層ニューラルネットワークモデルをトレーニングし、114の皮膚条件を分類し、トレーニングされたものと類似した皮膚タイプで最も正確なモデルを見つける。
また,皮膚の音色を識別するためのアルゴリズム的アプローチとして,人間のラベルを付したFitzpatrickスキンタイプラベルとの比較を行った。 How does the accuracy of deep neural network models trained to classify clinical images of skin conditions vary across skin color? While recent studies demonstrate computer vision models can serve as a useful decision support tool in healthcare and provide dermatologist-level classification on a number of specific tasks, darker skin is underrepresented in the data. Most publicly available data sets do not include Fitzpatrick skin type labels. We annotate 16,577 clinical images sourced from two dermatology atlases with Fitzpatrick skin type labels and open-source these annotations. Based on these labels, we find that there are significantly more images of light skin types than dark skin types in this dataset. We train a deep neural network model to classify 114 skin conditions and find that the model is most accurate on skin types similar to those it was trained on. In addition, we evaluate how an algorithmic approach to identifying skin tones, individual typology angle, compares with Fitzpatrick skin type labels annotated by a team of human labelers. | 翻訳日:2021-04-21 13:38:03 公開日:2021-04-20 |
# コントラスト特徴を用いた同義語参照表現の理解 Understanding Synonymous Referring Expressions via Contrastive Features ( http://arxiv.org/abs/2104.10156v1 ) ライセンス: Link先を確認 | Yi-Wen Chen, Yi-Hsuan Tsai, Ming-Hsuan Yang | (参考訳) reference expression comprehensionは、自然言語記述によって識別されるオブジェクトをローカライズすることを目的としている。
ビジュアルドメインと言語ドメインの両方を理解する必要があるため、これは難しいタスクです。
一つの性質は、各対象がパラフレーズの同義語で記述できることであり、言語におけるそのような多様体は理解モデルを学ぶことに決定的な影響を及ぼす。
先行研究は通常,各文を別々に扱うが,同義語の性質を考慮した参照表現理解モデルを学習することに集中する。
この目的のために、画像とオブジェクトのインスタンスレベルのコントラスト的特徴を学習するためのエンドツーエンドのトレーニング可能なフレームワークを開発し、同じオブジェクトを記述する同義語文から抽出された特徴は、視覚領域にマッピングした後、互いに近接するべきである。
提案したアルゴリズムを複数のベンチマークデータセット上で評価し,提案手法が最先端手法に対して良好に動作することを示す。
さらに、異なる方法でオブジェクトを記述する際に、表現の多様性がデータセット全体にわたって大きくなるため、学習可能な特徴の能力を検証するために、クロスデータセットおよび転送学習設定を示す。 Referring expression comprehension aims to localize objects identified by natural language descriptions. This is a challenging task as it requires understanding of both visual and language domains. One nature is that each object can be described by synonymous sentences with paraphrases, and such varieties in languages have critical impact on learning a comprehension model. While prior work usually treats each sentence and attends it to an object separately, we focus on learning a referring expression comprehension model that considers the property in synonymous sentences. To this end, we develop an end-to-end trainable framework to learn contrastive features on the image and object instance levels, where features extracted from synonymous sentences to describe the same object should be closer to each other after mapping to the visual domain. We conduct extensive experiments to evaluate the proposed algorithm on several benchmark datasets, and demonstrate that our method performs favorably against the state-of-the-art approaches. Furthermore, since the varieties in expressions become larger across datasets when they describe objects in different ways, we present the cross-dataset and transfer learning settings to validate the ability of our learned transferable features. | 翻訳日:2021-04-21 13:37:44 公開日:2021-04-20 |
# 多言語bertを用いたベルギーにおけるcovid-19対策態度の変化の測定 Measuring Shifts in Attitudes Towards COVID-19 Measures in Belgium Using Multilingual BERT ( http://arxiv.org/abs/2104.09947v1 ) ライセンス: Link先を確認 | Kristen Scott and Pieter Delobelle and Bettina Berendt | (参考訳) ベルギーで7カ月分のウイルス関連ツイートを多言語bertで分類し、政府の新型コロナウイルス対策に関連付けた。
われわれは、ベルギー政府の不正対策に関する声明によって、ツイートを分類する(厳格すぎる、オーケー、ゆるすぎる)。
本研究は、新たな対策の実施や、メディアにおける新型コロナウイルス関連発表等の関連イベントの日時や、時間とともに表されるトピックや見解の変化について検討する。 We classify seven months' worth of Belgian COVID-related Tweets using multilingual BERT and relate them to their governments' COVID measures. We classify Tweets by their stated opinion on Belgian government curfew measures (too strict, ok, too loose). We examine the change in topics discussed and views expressed over time and in reference to dates of related events such as implementation of new measures or COVID-19 related announcements in the media. | 翻訳日:2021-04-21 13:37:23 公開日:2021-04-20 |
# 公正報酬を超えて - NLPクラウドソーシングの倫理的意味 Beyond Fair Pay: Ethical Implications of NLP Crowdsourcing ( http://arxiv.org/abs/2104.10097v1 ) ライセンス: Link先を確認 | Boaz Shmueli, Jan Fell, Soumya Ray, Lun-Wei Ku | (参考訳) NLP研究におけるクラウドワーカーの利用は、機械学習とAIにおける研究生産の指数的な増加と相まって急速に増加している。
NLP研究コミュニティにおけるクラウドワーカーの使用に関する倫理的議論は、通常、公正な賃金のような労働条件に関連する問題の範囲に限られる。
我々は,労働者が行う様々なタスク,例えばラベル付け,評価,生産に関する倫理的配慮の欠如に注目した。
研究者が使用する一般的な倫理的枠組みであるFinal Ruleは,データ収集にオンラインクラウドソーシングプラットフォームを使用することを予想していなかったため,NLP研究における人間対象倫理の精神と実践のギャップが生じた。
我々は,NLPタスクを行うクラウドワーカーが害の危険にさらされる一般的なシナリオを列挙する。
そこで我々は,ベルモント報告書の定める3つの倫理的原則を考慮し,これらのリスクを評価することを推奨する。
また,Institutional Review Board(IRB)の適用に関する一般的な誤解を明らかにした。
この論文は、クラウドワーカーの倫理的利用に関するコミュニティ内の議論の再開に役立てることを願っている。 The use of crowdworkers in NLP research is growing rapidly, in tandem with the exponential increase in research production in machine learning and AI. Ethical discussion regarding the use of crowdworkers within the NLP research community is typically confined in scope to issues related to labor conditions such as fair pay. We draw attention to the lack of ethical considerations related to the various tasks performed by workers, including labeling, evaluation, and production. We find that the Final Rule, the common ethical framework used by researchers, did not anticipate the use of online crowdsourcing platforms for data collection, resulting in gaps between the spirit and practice of human-subjects ethics in NLP research. We enumerate common scenarios where crowdworkers performing NLP tasks are at risk of harm. We thus recommend that researchers evaluate these risks by considering the three ethical principles set up by the Belmont Report. We also clarify some common misconceptions regarding the Institutional Review Board (IRB) application. We hope this paper will serve to reopen the discussion within our community regarding the ethical use of crowdworkers. | 翻訳日:2021-04-21 13:37:15 公開日:2021-04-20 |
# 効率的検索最適化マルチタスク学習 Efficient Retrieval Optimized Multi-task Learning ( http://arxiv.org/abs/2104.10129v1 ) ライセンス: Link先を確認 | Hengxin Fun, Sunil Gandhi, Sujith Ravi | (参考訳) 近年、オープンドメイン質問応答(qa)のような知識集約的なタスクに取り組むためのニューラルメソッドが大幅に進歩している。
これらの進歩は、大きな事前訓練された言語モデルと学習可能な文書検索を組み合わせることで促進される。
これらのモデルの多くはクエリ表現の学習、レトリバーのパス表現、下流タスクのための追加エンコーダに分離エンコーダを使用している。
ステージ/タスク毎に別々のエンコーダを使用することで、大量のメモリを占有し、多数のタスクにスケールすることが難しくなる。
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。
我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供し、モデルのアーキテクチャを変更することなく、異なる学習スケジュールなどの選択を最適化する。
また、システムのアーキテクチャを変更することなくエンコーダを変更する柔軟性も提供する。
当社のフレームワークでは,近年のQAメソッドと比較して,同等あるいは優れたパフォーマンスを実現しています。 Recently, there have been significant advances in neural methods for tackling knowledge-intensive tasks such as open domain question answering (QA). These advances are fueled by combining large pre-trained language models with learnable retrieval of documents. Majority of these models use separate encoders for learning query representation, passage representation for the retriever and an additional encoder for the downstream task. Using separate encoders for each stage/task occupies a lot of memory and makes it difficult to scale to a large number of tasks. In this paper, we propose a novel Retrieval Optimized Multi-task (ROM) framework for jointly training self-supervised tasks, knowledge retrieval, and extractive question answering. Our ROM approach presents a unified and generalizable framework that enables scaling efficiently to multiple tasks, varying levels of supervision, and optimization choices such as different learning schedules without changing the model architecture. It also provides the flexibility of changing the encoders without changing the architecture of the system. Using our framework, we achieve comparable or better performance than recent methods on QA, while drastically reducing the number of parameters. | 翻訳日:2021-04-21 13:37:00 公開日:2021-04-20 |
# 混合スロー特徴解析を用いた統合ヒートポンプシステムのIIoT型健康モニタリング IIoT-Enabled Health Monitoring for Integrated Heat Pump System Using Mixture Slow Feature Analysis ( http://arxiv.org/abs/2104.09876v1 ) ライセンス: Link先を確認 | Yan Qin, Wen-tai Li, Chau Yuen, Wayes Tushar, and Tapan Kumar Saha | (参考訳) センシングと通信技術の進歩の持続的な進化は、様々な電気機器の予後と健康管理をデータ駆動方式に革命をもたらした。
この革命は、現代的な建物に広く配備され、暖房に使用される重要な装置であるヒートポンプ(hp)システムの健康監視問題に対する有望な解決策をもたらし、予期せぬダウンタイムを避けるためにその動作状態をタイムリーに評価する。
多くのHPは、何年も前に製造され、インストールされていたため、当時の技術制限とコスト管理のために、センサーが少なくなった。
HPを手頃な価格で守るためにジレンマを発生させる。
産業用IoT(Industrial Internet-of-Things)とインテリジェントヘルスモニタリングアルゴリズムを組み合わせたハイブリッド方式を提案する。
まず最初に、IIoTネットワークを構築して計測を検知し、保存する。
具体的には、水槽の入口及び出口に温度センサを適切に設置して水温を測定する。
第2に、温度情報を用いて、統合HPの健康状態をタイムリーに評価するための、混合遅い特徴分析(MSFA)と呼ばれる教師なし学習アルゴリズムを提案する。
熱湯の需要の変動により異なるHPの頻繁な動作スイッチが特徴であり, 加熱速度の異なる様々な加熱パターンが観察された。
熱パターン分割と健康評価の両面でMSFAにおいて, 定常分布の変動速度を計測するダイナミックスの一種であるスローネスが適切に検討されている。
最後に,提案手法の有効性を10年前にインストールされた5台の接続型hpを用いた実集積型hpで検証した。
実験の結果,MSFAはシステムの健康状態,特に前段階での障害を,競合するアルゴリズムと比較して正確に識別できることがわかった。 The sustaining evolution of sensing and advancement in communications technologies have revolutionized prognostics and health management for various electrical equipment towards data-driven ways. This revolution delivers a promising solution for the health monitoring problem of heat pump (HP) system, a vital device widely deployed in modern buildings for heating use, to timely evaluate its operation status to avoid unexpected downtime. Many HPs were practically manufactured and installed many years ago, resulting in fewer sensors available due to technology limitations and cost control at that time. It raises a dilemma to safeguard HPs at an affordable cost. We propose a hybrid scheme by integrating industrial Internet-of-Things (IIoT) and intelligent health monitoring algorithms to handle this challenge. To start with, an IIoT network is constructed to sense and store measurements. Specifically, temperature sensors are properly chosen and deployed at the inlet and outlet of the water tank to measure water temperature. Second, with temperature information, we propose an unsupervised learning algorithm named mixture slow feature analysis (MSFA) to timely evaluate the health status of the integrated HP. Characterized by frequent operation switches of different HPs due to the variable demand for hot water, various heating patterns with different heating speeds are observed. Slowness, a kind of dynamics to measure the varying speed of steady distribution, is properly considered in MSFA for both heating pattern division and health evaluation. Finally, the efficacy of the proposed method is verified through a real integrated HP with five connected HPs installed ten years ago. The experimental results show that MSFA is capable of accurately identifying health status of the system, especially failure at a preliminary stage compared to its competing algorithms. | 翻訳日:2021-04-21 13:35:23 公開日:2021-04-20 |
# GMLP:Feature-Message Passingによるスケーラブルでフレキシブルなグラフニューラルネットワークの構築 GMLP: Building Scalable and Flexible Graph Neural Networks with Feature-Message Passing ( http://arxiv.org/abs/2104.09880v1 ) ライセンス: Link先を確認 | Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang, Yangyu Tao, Zhi Yang, and Bin Cui | (参考訳) 近年の研究では、多くのグラフベースタスクにおいて最先端のパフォーマンスを達成したグラフニューラルネットワーク(GNN)を設計するための効果的な方法として、ニューラルメッセージパッシングが証明されている。
しかし、現在のニューラルメッセージパッシングアーキテクチャでは、通常、複数のラウンドで高価な再帰的な近所拡張を実行する必要があり、結果としてスケーラビリティの問題が発生する。
さらに、既存のニューラルメッセージパッシングスキームのほとんどは、固定ホップ近傍に限定され、異なるノードの実際の要求に敏感であるため、柔軟性がない。
我々はこれらの制限を、グラフ多層パーセプトロン(GMLP)と呼ばれる新しい機能メッセージパッシングフレームワークによって回避し、ニューラルアップデートとメッセージパッシングを分離する。
このような分離によってgmlpは、プリコンピュートな方法でメッセージパッシング手順を実行することでスケーラビリティと効率を大幅に向上させ、さまざまなレベルのローカリティでノード機能メッセージを活用するための柔軟性と適応性を備えている。
さらに、このフレームワークの下で、パフォーマンスと効率の両世界のベストを達成するために、スケーラブルなGNNの新しいバリエーションを導き出します。
我々は、ogbn-productsや産業データセットなどの大規模データセットを含む11のベンチマークデータセットに対して広範な評価を行い、GMLPが最先端のパフォーマンスだけでなく、高いトレーニングスケーラビリティと効率を達成することを示す。 In recent studies, neural message passing has proved to be an effective way to design graph neural networks (GNNs), which have achieved state-of-the-art performance in many graph-based tasks. However, current neural-message passing architectures typically need to perform an expensive recursive neighborhood expansion in multiple rounds and consequently suffer from a scalability issue. Moreover, most existing neural-message passing schemes are inflexible since they are restricted to fixed-hop neighborhoods and insensitive to the actual demands of different nodes. We circumvent these limitations by a novel feature-message passing framework, called Graph Multi-layer Perceptron (GMLP), which separates the neural update from the message passing. With such separation, GMLP significantly improves the scalability and efficiency by performing the message passing procedure in a pre-compute manner, and is flexible and adaptive in leveraging node feature messages over various levels of localities. We further derive novel variants of scalable GNNs under this framework to achieve the best of both worlds in terms of performance and efficiency. We conduct extensive evaluations on 11 benchmark datasets, including large-scale datasets like ogbn-products and an industrial dataset, demonstrating that GMLP achieves not only the state-of-art performance, but also high training scalability and efficiency. | 翻訳日:2021-04-21 13:34:55 公開日:2021-04-20 |
# 10年間のDigital CArdioVAscular(DiCAVA)リスクアセスメントの開発:英国のバイオバンクによる研究 Development of an accessible 10-year Digital CArdioVAscular (DiCAVA) risk assessment: a UK Biobank study ( http://arxiv.org/abs/2104.10079v1 ) ライセンス: Link先を確認 | Nikola Dolezalova, Angus B. Reed, Alex Despotovic, Bernard Dillon Obika, Davide Morelli, Mert Aral, David Plans | (参考訳) 背景: 心臓血管疾患(CVD)は、世界中の死因の1つである。
CVDを発症する個人化されたリスクを提供する予測スコアは、臨床実践においてますます用いられる。
しかし、ほとんどのスコアは均質な特徴のセットを利用し、医師の存在を必要とする。
目的: リモート環境で適用可能な統計的および機械学習技術を用いた新しいリスクモデル(DiCAVA)を開発することを目的とした。
2つ目の目標は、新たな患者中心変数をCVDリスクアセスメントに組み込むことであった。
方法:466,052人,コックス比例ハザード(CPH)モデル,DeepSurvモデルに対して,英国バイオバンクから派生した608変数を用いたCVD開発10年間のリスク調査を行った。
データ駆動型の特徴選択により機能数は47に削減され、モデルがトレーニングされた。
どちらのモデルもフラミンガム・スコアと比較された。
結果: CPHモデルではc-indexが0.7443、DeepSurvではc-indexが0.7446となった。
CPHとDeepSurvはFraminghamのスコアと比較してCVDのリスクを判定する上で優れていた。
CPH: 0.741, DeepSurv: 0.739) からコレステロールと血圧を除いた場合, 最小差が認められた。
モデルでは、テストデータに対するキャリブレーションと差別が極めて良好である。
結論: 予測能力が非常に良好で新しい変数を包含する心血管リスクモデルを開発した。
スコアは臨床に組み込むことができ、コレステロールを含む必要なしに遠隔で使用できる。
今後の研究は異種サンプル間の外部検証に焦点をあてる。 Background: Cardiovascular diseases (CVDs) are among the leading causes of death worldwide. Predictive scores providing personalised risk of developing CVD are increasingly used in clinical practice. Most scores, however, utilise a homogenous set of features and require the presence of a physician. Objective: The aim was to develop a new risk model (DiCAVA) using statistical and machine learning techniques that could be applied in a remote setting. A secondary goal was to identify new patient-centric variables that could be incorporated into CVD risk assessments. Methods: Across 466,052 participants, Cox proportional hazards (CPH) and DeepSurv models were trained using 608 variables derived from the UK Biobank to investigate the 10-year risk of developing a CVD. Data-driven feature selection reduced the number of features to 47, after which reduced models were trained. Both models were compared to the Framingham score. Results: The reduced CPH model achieved a c-index of 0.7443, whereas DeepSurv achieved a c-index of 0.7446. Both CPH and DeepSurv were superior in determining the CVD risk compared to Framingham score. Minimal difference was observed when cholesterol and blood pressure were excluded from the models (CPH: 0.741, DeepSurv: 0.739). The models show very good calibration and discrimination on the test data. Conclusion: We developed a cardiovascular risk model that has very good predictive capacity and encompasses new variables. The score could be incorporated into clinical practice and utilised in a remote setting, without the need of including cholesterol. Future studies will focus on external validation across heterogeneous samples. | 翻訳日:2021-04-21 13:33:42 公開日:2021-04-20 |
# ダイナミック2型糖尿病リスク予測ツールの開発--英国バイオバンクによる研究 Development of a dynamic type 2 diabetes risk prediction tool: a UK Biobank study ( http://arxiv.org/abs/2104.10108v1 ) ライセンス: Link先を確認 | Nikola Dolezalova, Massimo Cairo, Alex Despotovic, Adam T.C. Booth, Angus B. Reed, Davide Morelli, David Plans | (参考訳) 糖尿病は4億人以上に影響し、世界有数の死因となっている。
リスクの高い個体の同定は、ライフスタイルの変化による早期診断と疾患発生の予防を支援することができる。
しかし、既存のリスクスコアの大部分は、診療所の外では入手できない血液ベースの因子に関する情報を必要とする。
ここでは,ディジタルかつ大規模にデプロイ可能な,アクセス可能なソリューションの開発を目指しています。
本研究は,英国バイオバンクの472,830人を対象に,スマートフォンで容易に入手できない特徴を除外しつつ,301個の特徴を用いた10年間の2型糖尿病リスクスコアを開発した。
データ駆動型機能選択プロセスを使用して、最終的な縮小モデルに19の機能が含まれた。
Cox比例ハザードモデルは、同じ特徴を用いてトレーニングされたDeepSurvモデルをわずかに上回り、0.818(95%CI:0.812-0.823)の一致指数を0.811(95%CI:0.806-0.815)と比較した。
最終モデルはキャリブレーションが良好であった。
このツールは、2型糖尿病を発症するリスクのある患者の臨床スクリーニングや、個人のリスクに影響する要因に関する知識を広げて患者のエンパワーメントを促進するために使用できる。 Diabetes affects over 400 million people and is among the leading causes of morbidity worldwide. Identification of high-risk individuals can support early diagnosis and prevention of disease development through lifestyle changes. However, the majority of existing risk scores require information about blood-based factors which are not obtainable outside of the clinic. Here, we aimed to develop an accessible solution that could be deployed digitally and at scale. We developed a predictive 10-year type 2 diabetes risk score using 301 features derived from 472,830 participants in the UK Biobank dataset while excluding any features which are not easily obtainable by a smartphone. Using a data-driven feature selection process, 19 features were included in the final reduced model. A Cox proportional hazards model slightly overperformed a DeepSurv model trained using the same features, achieving a concordance index of 0.818 (95% CI: 0.812-0.823), compared to 0.811 (95% CI: 0.806-0.815). The final model showed good calibration. This tool can be used for clinical screening of individuals at risk of developing type 2 diabetes and to foster patient empowerment by broadening their knowledge of the factors affecting their personal risk. | 翻訳日:2021-04-21 13:33:15 公開日:2021-04-20 |
# 単語誤り率の音響言語的音声感情認識に与える影響について:深層学習時代の更新 On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era ( http://arxiv.org/abs/2104.10121v1 ) ライセンス: Link先を確認 | Shahin Amiriparian (1), Artem Sokolov (2,3), Ilhan Aslan (2), Lukas Christ (1), Maurice Gerczuk (1), Tobias H\"ubner (1), Dmitry Lamanov (2), Manuel Milling (1), Sandra Ottl (1), Ilya Poduremennykh (2), Evgeniy Shuranov (2,4), Bj\"orn W. Schuller (1,5) ((1) EIHW -- Chair of Embedded Intelligence for Health Care and Wellbeing, University of Augsburg, Germany, (2) Huawei Technologies, (3) HSE University, Nizhniy Novgorod, Russia, (4) ITMO University, Saint Petersburg, Russia) | (参考訳) 自動音声認識(ASR)によるテキストエンコーディングと音声表現は、それ以来、音声感情認識(SER)において有望であることが示されている。
しかし,各情報ストリームがサーシステムに与える影響を説明することは困難である。
さらに、ASRの単語誤り率(WER)が言語的感情認識に与える影響や、深層ASRシステムにおける音響情報利用との融合の文脈でより明確化する必要がある。
上記の問題に対処するために,リカレントニューラルネットワーク-トランスデューサ損失を訓練したエンドツーエンドモデル,コネクショニスト時間的分類損失モデル,自己教師付き学習のためのwav2vecフレームワークを含む,3つの現代的なasrシステムを適用して,原音声からの書き起こしを作成する。
その後、事前訓練されたテキストモデルを用いて、ASR出力と金標準からテキスト表現を抽出する。
音声特徴の抽出と学習にはopenSMILE, openXBoW, DeepSpectrum, auDeepを利用する。
最後に、音響学と言語学の両方で意思決定レベルの融合を行う。
最高の開発構成を用いて、IEMOCAPの話者に依存しない開発とテストパーティションにおいて、最先端の未処理の平均リコール値は7.3.6\,\%$と7.8\,\%$を達成する。 Text encodings from automatic speech recognition (ASR) transcripts and audio representations have shown promise in speech emotion recognition (SER) ever since. Yet, it is challenging to explain the effect of each information stream on the SER systems. Further, more clarification is required for analysing the impact of ASR's word error rate (WER) on linguistic emotion recognition per se and in the context of fusion with acoustic information exploitation in the age of deep ASR systems. In order to tackle the above issues, we create transcripts from the original speech by applying three modern ASR systems, including an end-to-end model trained with recurrent neural network-transducer loss, a model with connectionist temporal classification loss, and a wav2vec framework for self-supervised learning. Afterwards, we use pre-trained textual models to extract text representations from the ASR outputs and the gold standard. For extraction and learning of acoustic speech features, we utilise openSMILE, openXBoW, DeepSpectrum, and auDeep. Finally, we conduct decision-level fusion on both information streams -- acoustics and linguistics. Using the best development configuration, we achieve state-of-the-art unweighted average recall values of $73.6\,\%$ and $73.8\,\%$ on the speaker-independent development and test partitions of IEMOCAP, respectively. | 翻訳日:2021-04-21 13:32:23 公開日:2021-04-20 |
# 多目的進化アルゴリズムは一般に良い:シーケンス上の単調部分モジュラー関数を最大化する Multi-objective Evolutionary Algorithms are Generally Good: Maximizing Monotone Submodular Functions over Sequences ( http://arxiv.org/abs/2104.09884v1 ) ライセンス: Link先を確認 | Chao Qian, Dan-Xuan Liu, Chao Feng, Ke Tang | (参考訳) 進化アルゴリズム(EA)は、自然進化にインスパイアされた汎用最適化アルゴリズムである。
近年の理論的研究により、easは、最大カバレッジ、疎回帰、影響最大化、文書要約、センサー配置など、広範囲の応用がある部分モジュラー最適化の問題クラスを解決するための優れた近似保証を達成できることが示されている。
それらはeasの汎用性に関する理論的な説明を提供してきたが、部分モジュラー対象関数は集合や多重集合上でのみ定義される。
本研究を補完するために,目的関数がアイテムの順序に依存するシーケンス上の単調部分モジュラー関数を最大化する問題クラスについて検討する。
従来研究されてきたモノトン部分モジュラー目的関数,すなわちプレフィックスモノトン部分モジュラー関数,弱モノトンおよび強サブモジュラー関数,およびDAGモノトン部分モジュラー関数に対して,単純な多目的EA,すなわちGSEMOは,期待される多項式時間の実行後に常に最もよく知られた近似保証に到達または改善可能であることを証明した。
これらの最もよく知られた近似保証は、以前にも異なる欲望型のアルゴリズムによってのみ得られることに注意されたい。
タスク達成,情報ゲインの最大化,探索と追跡,レコメンダシステムなど,さまざまなアプリケーションに関する実証研究は,GSEMOの優れた性能を示している。 Evolutionary algorithms (EAs) are general-purpose optimization algorithms, inspired by natural evolution. Recent theoretical studies have shown that EAs can achieve good approximation guarantees for solving the problem classes of submodular optimization, which have a wide range of applications, such as maximum coverage, sparse regression, influence maximization, document summarization and sensor placement, just to name a few. Though they have provided some theoretical explanation for the general-purpose nature of EAs, the considered submodular objective functions are defined only over sets or multisets. To complement this line of research, this paper studies the problem class of maximizing monotone submodular functions over sequences, where the objective function depends on the order of items. We prove that for each kind of previously studied monotone submodular objective functions over sequences, i.e., prefix monotone submodular functions, weakly monotone and strongly submodular functions, and DAG monotone submodular functions, a simple multi-objective EA, i.e., GSEMO, can always reach or improve the best known approximation guarantee after running polynomial time in expectation. Note that these best-known approximation guarantees can be obtained only by different greedy-style algorithms before. Empirical studies on various applications, e.g., accomplishing tasks, maximizing information gain, search-and-tracking and recommender systems, show the excellent performance of the GSEMO. | 翻訳日:2021-04-21 13:31:57 公開日:2021-04-20 |
# モデルベース強化学習のためのモジュールライブラリmbrl-lib MBRL-Lib: A Modular Library for Model-based Reinforcement Learning ( http://arxiv.org/abs/2104.10159v1 ) ライセンス: Link先を確認 | Luis Pineda, Brandon Amos, Amy Zhang, Nathan O. Lambert, Roberto Calandra | (参考訳) モデルに基づく強化学習は、世界と相互作用するエージェントのデータ効率の学習のための魅力的なフレームワークである。
このアルゴリズムの族には多くのサブコンポーネントがあり、慎重に選択し調整する必要がある。
その結果、研究者が現場に接近し、それを現実世界のタスクに展開するためのエントリーバーは、大変なことになる。
本稿では,PyTorch に基づく連続状態行動空間におけるモデルベース強化学習のための機械学習ライブラリ MBRL-Lib を提案する。
MBRL-Libは、新しいアルゴリズムを開発し、デバッグし、非専門家のユーザーと比較し、最先端のアルゴリズムをデプロイするエントリバーを低くするために、両方の研究者のためのプラットフォームとして設計されている。
MBRL-Libはhttps://github.com/facebookresearch/mbrl-libでオープンソース公開されている。 Model-based reinforcement learning is a compelling framework for data-efficient learning of agents that interact with the world. This family of algorithms has many subcomponents that need to be carefully selected and tuned. As a result the entry-bar for researchers to approach the field and to deploy it in real-world tasks can be daunting. In this paper, we present MBRL-Lib -- a machine learning library for model-based reinforcement learning in continuous state-action spaces based on PyTorch. MBRL-Lib is designed as a platform for both researchers, to easily develop, debug and compare new algorithms, and non-expert user, to lower the entry-bar of deploying state-of-the-art algorithms. MBRL-Lib is open-source at https://github.com/facebookresearch/mbrl-lib. | 翻訳日:2021-04-21 13:31:29 公開日:2021-04-20 |
# ドメイン適応に基づくCT画像におけるCOVID-19感染セグメンテーションの自己補正モデル Domain adaptation based self-correction model for COVID-19 infection segmentation in CT images ( http://arxiv.org/abs/2104.09699v1 ) ライセンス: Link先を確認 | Qiangguo Jin and Hui Cui and Changming Sun and Zhaopeng Meng and Leyi Wei and Ran Su | (参考訳) 未認識領域への一般化の能力は、現実世界のシナリオを考える際にディープラーニングモデルにとって不可欠である。
しかし、新型コロナウイルスのCT画像などの現在の医療画像データセットには、感染症やドメインシフトの問題が多岐にわたる。
この問題に対処するために,事前知識駆動型ドメイン適応と二重ドメイン強化自己修正学習方式を提案する。
新たな学習手法に基づき, ドメイン適応に基づく自己補正モデル (DASC-Net) が提案され, CT画像上でのCOVID-19感染セグメンテーションが実現された。
DASC-Netは、ドメインシフトを解決するための新しい注目と機能ドメイン拡張ドメイン適応モデル(AFD-DA)と、セグメンテーション結果を洗練するための自己補正学習プロセスから構成される。
AFD-DAのイノベーションには、肺の異常に注目する画像レベルのアクティベーション特徴抽出器と、階層的特徴ドメインアライメントのための多レベル識別モジュールが含まれる。
提案する自己修正学習プロセスは,学習モデルと対応する擬似ラベルを適応的に集約し,アライメントされたソース情報と対象領域情報の伝達を行い,擬似ラベルに起因する雑音に対する過度な適合を緩和する。
3つの公開可能なCOVID-19 CTデータセットに対する大規模な実験は、DASC-Netが最先端のセグメンテーション、ドメインシフト、および新型コロナウイルス感染セグメンテーションメソッドを一貫して上回っていることを示している。
アブレーション分析により,本モデルにおける主要成分の有効性が示された。
DASC-Netは、医療画像におけるドメイン適応と自己補正学習の理論を充実させ、臨床展開のためのCT画像上の多地点のCOVID-19感染症セグメンテーションに一般化することができる。 The capability of generalization to unseen domains is crucial for deep learning models when considering real-world scenarios. However, current available medical image datasets, such as those for COVID-19 CT images, have large variations of infections and domain shift problems. To address this issue, we propose a prior knowledge driven domain adaptation and a dual-domain enhanced self-correction learning scheme. Based on the novel learning schemes, a domain adaptation based self-correction model (DASC-Net) is proposed for COVID-19 infection segmentation on CT images. DASC-Net consists of a novel attention and feature domain enhanced domain adaptation model (AFD-DA) to solve the domain shifts and a self-correction learning process to refine segmentation results. The innovations in AFD-DA include an image-level activation feature extractor with attention to lung abnormalities and a multi-level discrimination module for hierarchical feature domain alignment. The proposed self-correction learning process adaptively aggregates the learned model and corresponding pseudo labels for the propagation of aligned source and target domain information to alleviate the overfitting to noises caused by pseudo labels. Extensive experiments over three publicly available COVID-19 CT datasets demonstrate that DASC-Net consistently outperforms state-of-the-art segmentation, domain shift, and coronavirus infection segmentation methods. Ablation analysis further shows the effectiveness of the major components in our model. The DASC-Net enriches the theory of domain adaptation and self-correction learning in medical imaging and can be generalized to multi-site COVID-19 infection segmentation on CT images for clinical deployment. | 翻訳日:2021-04-21 13:30:53 公開日:2021-04-20 |
# リッチ・ジェネレーティブ・アドバーサリー・ネットワークを用いたct画像における遊離型腫瘍合成 Free-form tumor synthesis in computed tomography images via richer generative adversarial network ( http://arxiv.org/abs/2104.09701v1 ) ライセンス: Link先を確認 | Qiangguo Jin and Hui Cui and Changming Sun and Zhaopeng Meng and Ran Su | (参考訳) 癌に対するアノテート・メディカル・イメージング・スキャンの欠如は、精密腫瘍学におけるデータ・ハングリー深層学習モデルの訓練と検証を困難にしている。
本稿では,CT画像における3次元腫瘍/レセオン合成のための,よりリッチな生成対向ネットワークを提案する。
このネットワークは、新しいリッチな畳み込み特徴強化拡張拡張型ジェネレータ(richerdg)とハイブリッド損失関数で構成されている。
RicherDGは、腫瘍塗布を可能とし、知覚野を拡大するための拡張された畳み込み層を持ち、特に腫瘍と周囲の健全な組織の間の不確実な境界から多スケールの畳み込みの特徴を回復する、よりリッチな畳み込み特徴結合部を有する。
多様な損失範囲からなるハイブリッド損失関数は、最適化を改善するために補完情報を集約するように設計されている。
肝, 腎腫瘍, 肺結節を対象とする広範囲のCT画像データセットを用いて, 合成結果の総合的評価を行った。
質的・定量的評価およびアブレーション試験により, 進行腫瘍合成法における合成精度が向上した。 The insufficiency of annotated medical imaging scans for cancer makes it challenging to train and validate data-hungry deep learning models in precision oncology. We propose a new richer generative adversarial network for free-form 3D tumor/lesion synthesis in computed tomography (CT) images. The network is composed of a new richer convolutional feature enhanced dilated-gated generator (RicherDG) and a hybrid loss function. The RicherDG has dilated-gated convolution layers to enable tumor-painting and to enlarge perceptive fields; and it has a novel richer convolutional feature association branch to recover multi-scale convolutional features especially from uncertain boundaries between tumor and surrounding healthy tissues. The hybrid loss function, which consists of a diverse range of losses, is designed to aggregate complementary information to improve optimization. We perform a comprehensive evaluation of the synthesis results on a wide range of public CT image datasets covering the liver, kidney tumors, and lung nodules. The qualitative and quantitative evaluations and ablation study demonstrated improved synthesizing results over advanced tumor synthesis methods. | 翻訳日:2021-04-21 13:30:22 公開日:2021-04-20 |
# イベントカメラを用いたSLAMにおける追跡表現の比較 Comparing Representations in Tracking for Event Camera-based SLAM ( http://arxiv.org/abs/2104.09887v1 ) ライセンス: Link先を確認 | Jianhao Jiao and Huaiyang Huang and Liang Li and Zhijian He and Yilong Zhu and Ming Liu | (参考訳) 本稿では,イベントカメラを用いた時間表面追跡(TS)とイベントマップ(EM)の2つの典型的な画像型表現について検討する。
元のTSベースのトラッカーに基づいて、これらの2つの表現の相補的な強みを利用して拡張版を開発する。
提案するトラッカーは,最適化問題のデジェネリティーをオンラインで評価し,適切な表現を切り替えるための一般的な戦略から構成される。
TSとEMはどちらも動きに依存しており、トラッキングの限界を理解することが重要である。
我々は6つのトラッカーのバリエーションを開発し、様々なシナリオや動きの複雑さをカバーするシーケンス上でそれらを徹底的に比較する。
我々は、イベントカメラの研究コミュニティに利益をもたらすために、実装と詳細な結果をリリースした。 This paper investigates two typical image-type representations for event camera-based tracking: time surface (TS) and event map (EM). Based on the original TS-based tracker, we make use of these two representations' complementary strengths to develop an enhanced version. The proposed tracker consists of a general strategy to evaluate the optimization problem's degeneracy online and then switch proper representations. Both TS and EM are motion- and scene-dependent, and thus it is important to figure out their limitations in tracking. We develop six tracker variations and conduct a thorough comparison of them on sequences covering various scenarios and motion complexities. We release our implementations and detailed results to benefit the research community on event cameras: https: //github.com/gogojjh/ESVO_extension. | 翻訳日:2021-04-21 13:30:02 公開日:2021-04-20 |
# T2VLAD: テキストビデオ検索のためのグローバルローカルシーケンスアライメント T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval ( http://arxiv.org/abs/2104.10054v1 ) ライセンス: Link先を確認 | Xiaohan Wang, Linchao Zhu, Yi Yang | (参考訳) テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
この問題の鍵は、共同埋め込み空間におけるテキストビデオの類似度を測定することである。
しかし、既存のほとんどの手法は、グローバルなクロスモーダル類似性のみを考慮し、局所的な詳細を見落としている。
いくつかの研究は、クロスモーダルな局所マッチングと推論を通じて局所比較を取り入れている。
これらの複雑な演算は膨大な計算をもたらす。
本稿では,効率的なグローバルアライメント手法を設計する。
マルチモーダルビデオシーケンスとテキスト特徴は、一連の共有セマンティックセンタで適応的に集約される。
ローカルなクロスモーダル類似性は、同じ中心内のビデオ機能とテキスト機能の間で計算される。
この設計により、微妙な局所比較が可能となり、各テキストビデオ対間の相互作用の計算コストを削減できる。
さらに,グローバルアライメント法を提案し,局所的な視点を補完する大域的クロスモーダル計測を行った。
グローバル集約された視覚的特徴は、学習可能なセマンティックセンターの最適化に不可欠である追加の監視を提供する。
3つの標準テキストビデオ検索ベンチマークで一貫した改善を達成し、最先端を明確なマージンで上回ります。 Text-video retrieval is a challenging task that aims to search relevant video contents based on natural language descriptions. The key to this problem is to measure text-video similarities in a joint embedding space. However, most existing methods only consider the global cross-modal similarity and overlook the local details. Some works incorporate the local comparisons through cross-modal local matching and reasoning. These complex operations introduce tremendous computation. In this paper, we design an efficient global-local alignment method. The multi-modal video sequences and text features are adaptively aggregated with a set of shared semantic centers. The local cross-modal similarities are computed between the video feature and text feature within the same center. This design enables the meticulous local comparison and reduces the computational cost of the interaction between each text-video pair. Moreover, a global alignment method is proposed to provide a global cross-modal measurement that is complementary to the local perspective. The global aggregated visual features also provide additional supervision, which is indispensable to the optimization of the learnable semantic centers. We achieve consistent improvements on three standard text-video retrieval benchmarks and outperform the state-of-the-art by a clear margin. | 翻訳日:2021-04-21 13:29:39 公開日:2021-04-20 |
# 量子離散事象システムの監視制御 Supervisory Control of Quantum Discrete Event Systems ( http://arxiv.org/abs/2104.09753v1 ) ライセンス: Link先を確認 | Daowen Qiu | (参考訳) 離散イベントシステム(DES)は、ファジィおよび確率論的システムにおける実用的な応用の必要性から、確率的およびファジィコンピューティングモデルの枠組みとして確立され、深く発展してきた。
量子コンピューティングと量子制御の発展により、自然問題は量子コンピューティングモデルを用いてDESをシミュレートし、量子DES(QDES)を確立することである。
その動機は2つある:一方、qdesは量子コンピュータによってdesがシミュレーションされ処理される場合、量子システムは離散的な事象によって駆動される状態の進化をシミュレートするために使用される。
本稿では,量子有限オートマトン(qfa)をモデル形式としてqdesの基本枠組みを確立することを目的として,qdesの監督制御定理を定式化・証明する。
次に,制御性条件が成立するか否かを決定する多項式時間アルゴリズムを提案する。
特に,qdesの監視制御を記述し,状態複雑度に対するqdesの本質的利点を検証するために,qfaの新たな例をいくつか構築する。 Discrete event systems (DES) have been established and deeply developed in the framework of probabilistic and fuzzy computing models due to the necessity of practical applications in fuzzy and probabilistic systems. With the development of quantum computing and quantum control, a natural problem is to simulate DES by means of quantum computing models and to establish {\it quantum DES} (QDES). The motivation is twofold: on the one hand, QDES have potential applications when DES are simulated and processed by quantum computers, where quantum systems are employed to simulate the evolution of states driven by discrete events, and on the other hand, QDES may have essential advantages over DES concerning state complexity for imitating some practical problems. The goal of this paper is to establish a basic framework of QDES by using {\it quantum finite automata} (QFA) as the modelling formalisms, and the supervisory control theorems of QDES are established and proved. Then we present a polynomial-time algorithm to decide whether or not the controllability condition holds. In particular, we construct a number of new examples of QFA to illustrate the supervisory control of QDES and to verify the essential advantages of QDES over DES in state complexity. | 翻訳日:2021-04-21 13:29:21 公開日:2021-04-20 |
# Dual Mirror Descentによる共同オンライン学習と意思決定 Joint Online Learning and Decision-making via Dual Mirror Descent ( http://arxiv.org/abs/2104.09750v1 ) ライセンス: Link先を確認 | Alfonso Lobos, Paul Grigas, Zheng Wen | (参考訳) 我々は、コストの上下限を満たす有限時間地平線上でのオンライン収益最大化問題を考察する。
各期間に、エージェントは、サンプルされたコンテキストベクトルを受信する。
未知の分布から判断し 適応的に行う必要があります
収益関数とコスト関数は、学習すべき固定だが未知のパラメータベクトルと同様に、文脈ベクトルに依存する。
本稿では、オンラインの二重ミラー降下スキームと汎用パラメータ学習プロセスを組み合わせた新しいオフラインベンチマークと新しいアルゴリズムを提案する。
パラメータベクトルが知られているとき、$O(\sqrt{T})$後悔の結果と、考えられる制約違反に縛られる$O(\sqrt{T})$後悔の結果を示す。
パラメータが分かっておらず、学習しなければならない場合、後悔と制約違反は前の$o(\sqrt{t})$項の和であり、学習プロセスの収束に直接依存する項であることを示す。 We consider an online revenue maximization problem over a finite time horizon subject to lower and upper bounds on cost. At each period, an agent receives a context vector sampled i.i.d. from an unknown distribution and needs to make a decision adaptively. The revenue and cost functions depend on the context vector as well as some fixed but possibly unknown parameter vector to be learned. We propose a novel offline benchmark and a new algorithm that mixes an online dual mirror descent scheme with a generic parameter learning process. When the parameter vector is known, we demonstrate an $O(\sqrt{T})$ regret result as well an $O(\sqrt{T})$ bound on the possible constraint violations. When the parameter is not known and must be learned, we demonstrate that the regret and constraint violations are the sums of the previous $O(\sqrt{T})$ terms plus terms that directly depend on the convergence of the learning process. | 翻訳日:2021-04-21 13:28:39 公開日:2021-04-20 |
# 深層学習に基づく侵入検知システムの逆行訓練 Adversarial Training for Deep Learning-based Intrusion Detection Systems ( http://arxiv.org/abs/2104.09852v1 ) ライセンス: Link先を確認 | Islam Debicha, Thibault Debatty, Jean-Michel Dricot, Wim Mees | (参考訳) 現在、Deep Neural Networks(DNN)は、侵入検出を含む多くの機械学習領域における最先端の結果を報告している。
しかし、コンピュータビジョンにおける最近の研究は、DNNが特殊に製作されたデータを注入することでそれらを誤分類に陥れる敵の攻撃に対して脆弱であることを示した。
セキュリティクリティカルな分野では、このような攻撃が深刻なダメージを与える可能性があるため、本稿では、ディープラーニングによる侵入検知に対する敵攻撃の影響について検討する。
また,このような攻撃に対する防御としての敵意訓練の有効性について検討した。
実験の結果, 十分な歪みを伴って, 敵の例は検出器を誤認し, 敵の訓練を用いることで侵入検知の堅牢性を向上させることが示唆された。 Nowadays, Deep Neural Networks (DNNs) report state-of-the-art results in many machine learning areas, including intrusion detection. Nevertheless, recent studies in computer vision have shown that DNNs can be vulnerable to adversarial attacks that are capable of deceiving them into misclassification by injecting specially crafted data. In security-critical areas, such attacks can cause serious damage; therefore, in this paper, we examine the effect of adversarial attacks on deep learning-based intrusion detection. In addition, we investigate the effectiveness of adversarial training as a defense against such attacks. Experimental results show that with sufficient distortion, adversarial examples are able to mislead the detector and that the use of adversarial training can improve the robustness of intrusion detection. | 翻訳日:2021-04-21 13:28:24 公開日:2021-04-20 |
# ロスレス・ポイント・クラウド幾何圧縮のための多スケール深層文脈モデリング Multiscale deep context modeling for lossless point cloud geometry compression ( http://arxiv.org/abs/2104.09859v1 ) ライセンス: Link先を確認 | Dat Thanh Nguyen, Maurice Quach, Giuseppe Valenzise, Pierre Duhamel | (参考訳) 我々は,MSVoxelDNNと呼ばれる無損失点雲の幾何圧縮のための実用的な深部生成手法を提案し,MPEG G-PCCコーデックと比較して有意に速度を低下させることを示した。
自己回帰モデル(voxeldnn)に基づくこれまでの研究は,高速なトレーニングフェーズを持つが,voxelによるvoxelのように占有確率が逐次予測されるため,推論は遅くなる。
本研究では,ボクセル占有率を粗い順にモデル化したマルチスケールアーキテクチャを用いる。
各スケールにおいて、MSVoxelDNNはボクセルを8つの条件付き独立グループに分割し、ボクセル毎に1つのネットワーク評価を必要とする。
我々は,Microsoft Voxelized Upper Bodies (MVUB) と MPEG の一連の点群における MSVoxelDNN の性能を評価し,G-PCC よりも平均で17.5% の速度で,従来の VoxelDNN と比較して符号化/復号時間を著しく高速化することを示した。
実装はhttps://github.com/Weafre/MSVoxelDNNで公開されている。 We propose a practical deep generative approach for lossless point cloud geometry compression, called MSVoxelDNN, and show that it significantly reduces the rate compared to the MPEG G-PCC codec. Our previous work based on autoregressive models (VoxelDNN) has a fast training phase, however, inference is slow as the occupancy probabilities are predicted sequentially, voxel by voxel. In this work, we employ a multiscale architecture which models voxel occupancy in coarse-to-fine order. At each scale, MSVoxelDNN divides voxels into eight conditionally independent groups, thus requiring a single network evaluation per group instead of one per voxel. We evaluate the performance of MSVoxelDNN on a set of point clouds from Microsoft Voxelized Upper Bodies (MVUB) and MPEG, showing that the current method speeds up encoding/decoding times significantly compared to the previous VoxelDNN, while having average rate saving over G-PCC of 17.5%. The implementation is available at https://github.com/Weafre/MSVoxelDNN. | 翻訳日:2021-04-21 13:28:12 公開日:2021-04-20 |
# 自律走行車における音声コマンド攻撃に対するロバストセンサフュージョンアルゴリズム Robust Sensor Fusion Algorithms Against VoiceCommand Attacks in Autonomous Vehicles ( http://arxiv.org/abs/2104.09872v1 ) ライセンス: Link先を確認 | Jiwei Guan, Xi Zheng, Chen Wang, Yipeng Zhou and Alireza Jolfa | (参考訳) 近年の自動運転の進歩により、Voice Control Systemsは車と車との相互作用方法としてますます普及している。
この技術により、ドライバーは音声コマンドを使って車両を制御でき、間もなくAdvanced Driver Assistance Systems(ADAS)で利用できるようになる。
以前の研究によると、siri、alexa、cortanaは音声コマンド攻撃に対して非常に脆弱である。
これは現実世界のアプリケーションでADASに拡張できる可能性があり、マイクロホンの非線形性のため、そのような難解なコマンド脅威を検出することは困難である。
本稿では,ADASがマルチセンサーで環境を検知できる不明瞭なコマンド攻撃に対して,カメラビューを用いて防御し,より実用的なソリューションを開発することを目的とする。
そこで本研究では,非可聴コマンド攻撃を防御するマルチモーダル深層学習分類システムを提案する。
提案手法の有効性を確認し,最良の分類精度は89.2%に達した。
コードはhttps://github.com/ITSEG-MQ/Sensor-Fusion-Against-VoiceCommand-Attacksで入手できる。 With recent advances in autonomous driving, Voice Control Systems have become increasingly adopted as human-vehicle interaction methods. This technology enables drivers to use voice commands to control the vehicle and will be soon available in Advanced Driver Assistance Systems (ADAS). Prior work has shown that Siri, Alexa and Cortana, are highly vulnerable to inaudible command attacks. This could be extended to ADAS in real-world applications and such inaudible command threat is difficult to detect due to microphone nonlinearities. In this paper, we aim to develop a more practical solution by using camera views to defend against inaudible command attacks where ADAS are capable of detecting their environment via multi-sensors. To this end, we propose a novel multimodal deep learning classification system to defend against inaudible command attacks. Our experimental results confirm the feasibility of the proposed defense methods and the best classification accuracy reaches 89.2%. Code is available at https://github.com/ITSEG-MQ/Sensor-Fusion-Against-VoiceCommand-Attacks. | 翻訳日:2021-04-21 13:27:49 公開日:2021-04-20 |
# 脳磁気共鳴画像における多発性硬化病変の解析 : 技術と臨床応用 Multiple Sclerosis Lesion Analysis in Brain Magnetic Resonance Images: Techniques and Clinical Applications ( http://arxiv.org/abs/2104.10029v1 ) ライセンス: Link先を確認 | Yang Ma, Chaoyi Zhang, Mariano Cabezas, Yang Song, Zihao Tang, Dongnan Liu, Weidong Cai, Michael Barnett, Chenyu Wang | (参考訳) 多発性硬化症(multiple sclerosis、ms)は、神経系の慢性炎症性および変性疾患であり、個々の患者の神経症状や徴候と地形的に相関する白質および灰色質の焦点病変の出現が特徴である。
MRI(MRI)は詳細な生体内構造情報を提供し、疾患管理を重要視するMS病変の定量化と分類を可能にする。
伝統的に、MS病変は2D MRIスライスに手動で注釈付けされている。
近年,MRIのボクセル強度に基づいてMS病変を抽出・分画する自動統計画像解析技術が提案されている。
しかし、その効果はmriデータ取得技術の多様性とms病変の出現によって制限されている。
画像から直接複雑な病変の表現を学習することにより、深層学習技術はMS病変のセグメンテーションタスクにおいて顕著なブレークスルーを達成した。
本稿では,最先端自動統計・ディープラーニングmsセグメンテーション手法の包括的レビューを行い,今後の臨床応用について考察する。
さらに,領域適応などの技術戦略を概観し,現実の臨床環境におけるMS病変のセグメンテーションを強化する。 Multiple sclerosis (MS) is a chronic inflammatory and degenerative disease of the central nervous system, characterized by the appearance of focal lesions in the white and gray matter that topographically correlate with an individual patient's neurological symptoms and signs. Magnetic resonance imaging (MRI) provides detailed in-vivo structural information, permitting the quantification and categorization of MS lesions that critically inform disease management. Traditionally, MS lesions have been manually annotated on 2D MRI slices, a process that is inefficient and prone to inter-/intra-observer errors. Recently, automated statistical imaging analysis techniques have been proposed to extract and segment MS lesions based on MRI voxel intensity. However, their effectiveness is limited by the heterogeneity of both MRI data acquisition techniques and the appearance of MS lesions. By learning complex lesion representations directly from images, deep learning techniques have achieved remarkable breakthroughs in the MS lesion segmentation task. Here, we provide a comprehensive review of state-of-the-art automatic statistical and deep-learning MS segmentation methods and discuss current and future clinical applications. Further, we review technical strategies, such as domain adaptation, to enhance MS lesion segmentation in real-world clinical settings. | 翻訳日:2021-04-21 13:27:32 公開日:2021-04-20 |
# イベント検出によるオーディオビデオ同期誤差の検出 Detection of Audio-Video Synchronization Errors Via Event Detection ( http://arxiv.org/abs/2104.10116v1 ) ライセンス: Link先を確認 | Joshua P. Ebenezer, Yongjun Wu, Hai Wei, Sriram Sethuraman, Zongyi Liu | (参考訳) テニスビデオにおける音声同期(A/V同期)エラーを検出するための新しい手法と大規模データベースを提案する。
深層ネットワークは、ビデオストリームのラケットに打たれたテニスボールの視覚的シグネチャを検出するために訓練される。
別のディープネットワークは、オーディオストリーム内の同じイベントの聴覚シグネチャを検出するように訓練されている。
評価中、打たれた球の音響イベントに対して、オーディオストリームをオーディオネットワークで検索する。
音声中にイベントが見つかった場合、ビデオ中の隣り合う間隔を対応する視覚シグネチャに検索する。
イベントがビデオストリームで見つからないがオーディオストリームで見つからない場合、A/V同期エラーがフラグ付けされる。
テニスイベントの6時間映像から504,300フレームの大規模データベースを作成し,a/v同期誤差をシミュレーションし,高い精度を実現した。 We present a new method and a large-scale database to detect audio-video synchronization(A/V sync) errors in tennis videos. A deep network is trained to detect the visual signature of the tennis ball being hit by the racquet in the video stream. Another deep network is trained to detect the auditory signature of the same event in the audio stream. During evaluation, the audio stream is searched by the audio network for the audio event of the ball being hit. If the event is found in audio, the neighboring interval in video is searched for the corresponding visual signature. If the event is not found in the video stream but is found in the audio stream, A/V sync error is flagged. We developed a large-scaled database of 504,300 frames from 6 hours of videos of tennis events, simulated A/V sync errors, and found our method achieves high accuracy on the task. | 翻訳日:2021-04-21 13:27:09 公開日:2021-04-20 |
# 自律型ドローンレースのためのシンプルなビジョンに基づくナビゲーションと制御戦略 A simple vision-based navigation and control strategy for autonomous drone racing ( http://arxiv.org/abs/2104.09815v1 ) ライセンス: Link先を確認 | Artur Cyba and Hubert Szolc and Tomasz Kryjak | (参考訳) 本稿では,ArUcoタグでマークされた一連のゲートをドローンが自律的に飛行できるようにする制御システムを提案する。
シンプルで低コストなdji tello edu quad-rotorプラットフォームが使用された。
メーカーが提供するAPIに基づいて,WiFi経由でドローンとの通信を可能にし,視覚的フィードバックに基づいてドローンの位置決めを実現し,制御を生成するPythonアプリケーションを開発した。
2つの制御戦略が提案され、比較され、批判的に分析された。
さらに, 使用した位置決め法の精度を測定した。
アプリケーションはラップトップコンピュータ(約40fps)とNvidia Jetson TX2組み込みGPUプラットフォーム(約25fps)で評価された。
開発したコードはgithubで提供しています。 In this paper, we present a control system that allows a drone to fly autonomously through a series of gates marked with ArUco tags. A simple and low-cost DJI Tello EDU quad-rotor platform was used. Based on the API provided by the manufacturer, we have created a Python application that enables the communication with the drone over WiFi, realises drone positioning based on visual feedback, and generates control. Two control strategies were proposed, compared, and critically analysed. In addition, the accuracy of the positioning method used was measured. The application was evaluated on a laptop computer (about 40 fps) and a Nvidia Jetson TX2 embedded GPU platform (about 25 fps). We provide the developed code on GitHub. | 翻訳日:2021-04-21 13:26:55 公開日:2021-04-20 |
# 1ラウンドのローカルプライベートk-ミーアン Locally Private k-Means in One Round ( http://arxiv.org/abs/2104.09734v1 ) ライセンス: Link先を確認 | Alisa Chang, Badih Ghazi, Ravi Kumar, Pasin Manurangsi | (参考訳) 微分プライバシーの1ラウンド(非対話型)局所モデル(dp)におけるk平均クラスタリングの近似アルゴリズムを提案する。
このアルゴリズムは最適な非プライベート近似アルゴリズムに近い近似比を任意に達成し、大きな(コンスタントな)近似比しか保証しない既知アルゴリズムを改善する。
さらに、これはk-平均に対する最初の定数要素近似アルゴリズムであり、局所dpモデルにおいて1ラウンドの通信しか必要とせず、stemmerのオープン問題を正解する(soda 2020)。
我々のアルゴリズムフレームワークは非常に柔軟であり、同じ近似アルゴリズムを(一周)シャッフルDPモデルで生成することを示すことでこれを実証している。 We provide an approximation algorithm for k-means clustering in the one-round (aka non-interactive) local model of differential privacy (DP). This algorithm achieves an approximation ratio arbitrarily close to the best non private approximation algorithm, improving upon previously known algorithms that only guarantee large (constant) approximation ratios. Furthermore, this is the first constant-factor approximation algorithm for k-means that requires only one round of communication in the local DP model, positively resolving an open question of Stemmer (SODA 2020). Our algorithmic framework is quite flexible; we demonstrate this by showing that it also yields a similar near-optimal approximation algorithm in the (one-round) shuffle DP model. | 翻訳日:2021-04-21 13:26:33 公開日:2021-04-20 |
# アカペラ:音声・視覚的歌声分離 A cappella: Audio-visual Singing Voice Separation ( http://arxiv.org/abs/2104.09946v1 ) ライセンス: Link先を確認 | Juan F. Montesinos and Venkatesh S. Kadandale and Gloria Haro | (参考訳) 音源分離は、音楽クリップが構成されている構成音源の推定として解釈することができる。
本研究では,マルチモーダル視点から単一チャンネル歌唱音声分離問題について,音声と視覚のモーダル性から共同学習することで検討する。
そのために、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットであるAcappellaを紹介した。
acappellaデータセットで最先端の歌声分離結果を達成し、その音声のみに対応するu-netおよび最先端の音声-視覚音声分離モデルと比較する、音声-視覚畳み込みニューラルネットワークy-netを提案する。
歌声の分離は、他の伴奏音声と背景音とを対象の音声と合わせて含む場合、特に困難である。
我々は,このような困難なシナリオにおいて,歌声分離タスクにおいて,モデルがベースラインモデルを上回ることを実証する。
コード、事前トレーニングされたモデル、データセットはhttps://ipcv.github.io/Acappella/で公開される。 Music source separation can be interpreted as the estimation of the constituent music sources that a music clip is composed of. In this work, we explore the single-channel singing voice separation problem from a multimodal perspective, by jointly learning from audio and visual modalities. To do so, we present Acappella, a dataset spanning around 46 hours of a cappella solo singing videos sourced from YouTube. We propose Y-Net, an audio-visual convolutional neural network which achieves state-of-the-art singing voice separation results on the Acappella dataset and compare it against its audio-only counterpart, U-Net, and a state-of-the-art audio-visual speech separation model. Singing voice separation can be particularly challenging when the audio mixture also comprises of other accompaniment voices and background sounds along with the target voice of interest. We demonstrate that our model can outperform the baseline models in the singing voice separation task in such challenging scenarios. The code, the pre-trained models and the dataset will be publicly available at https://ipcv.github.io/Acappella/ | 翻訳日:2021-04-21 13:26:19 公開日:2021-04-20 |
# 空中主成分分析用加速器へのチャネルノイズの変換 Turning Channel Noise into an Accelerator for Over-the-Air Principal Component Analysis ( http://arxiv.org/abs/2104.10095v1 ) ライセンス: Link先を確認 | Zezhong Zhang, Guangxu Zhu, Rui Wang, Vincent K. N. Lau, and Kaibin Huang | (参考訳) 近年,モバイルデータを有用な知識に蒸留する試みが,ネットワークエッジにおける機械学習アルゴリズムの展開につながった。
主成分分析(PCA)は、データセットの線形構造を抽出する古典的な手法であり、特徴抽出とデータ圧縮に有用である。
本研究では,分散データセットの分散特徴空間を複数デバイスで学習するために,確率的勾配降下のアルゴリズムに基づくマルチアクセスチャネル上に分散pcaを配置することを提案する。
オーバー・ザ・エアアグリゲーション(over-the-air aggregate)は、マルチアクセスのレイテンシを削減するために採用され、オーバー・ザ・エアpcaという名称が与えられる。
この設計の新規性は、チャネルノイズを利用して、勾配降下に遭遇する各サドル点周辺での降下を加速し、空気上PCAの収束速度を高めることである。
このアイデアは、降下領域の種類を検出し、それに応じてチャネルノイズのレベルを制御する電力制御方式を提案する。
このスキームは、電力制御のない場合よりも速い収束率を達成することが証明されている。 Recently years, the attempts on distilling mobile data into useful knowledge has been led to the deployment of machine learning algorithms at the network edge. Principal component analysis (PCA) is a classic technique for extracting the linear structure of a dataset, which is useful for feature extraction and data compression. In this work, we propose the deployment of distributed PCA over a multi-access channel based on the algorithm of stochastic gradient descent to learn the dominant feature space of a distributed dataset at multiple devices. Over-the-air aggregation is adopted to reduce the multi-access latency, giving the name over-the-air PCA. The novelty of this design lies in exploiting channel noise to accelerate the descent in the region around each saddle point encountered by gradient descent, thereby increasing the convergence speed of over-the-air PCA. The idea is materialized by proposing a power-control scheme which detects the type of descent region and controlling the level of channel noise accordingly. The scheme is proved to achieve a faster convergence rate than in the case without power control. | 翻訳日:2021-04-21 13:25:43 公開日:2021-04-20 |
# (参考訳) ransic:不変互換性を用いたローテーション探索とポイントクラウド登録の高速かつ高堅牢な推定 RANSIC: Fast and Highly Robust Estimation for Rotation Search and Point Cloud Registration using Invariant Compatibility ( http://arxiv.org/abs/2104.09133v2 ) ライセンス: CC0 1.0 | Lei Sun | (参考訳) 対応に基づく回転探索と点雲登録は、ロボット工学とコンピュータビジョンの2つの基本的な問題である。
しかし、アウトリアーの存在は、しばしば仮定された対応の大部分を占めることさえあり、既存のアルゴリズムの多くを失敗させるか、非常に高い計算コストを持つかのどちらかにすることができる。
本稿では,ランダムサンプリングと不変性と不変性を組み合わせた新しいパラダイムに基づいて,両問題に適用可能な高速かつ高堅牢な手法であるransic(random sampling with invariant compatibility)を提案する。
一般に、ransicは対応集合から小さな部分集合をランダムに選択することから始まり、各問題で確立された不変量の互換性テストを通じてランダムな部分集合からグラフの頂点としてポテンシャルのイリアーを求め、最終的に少なくとも1つのk度頂点(kは問題に応じて自動的に更新される)が存在し、残差エラーが同時に特定の終了条件を満たす場合に、対応するイリアーを返す。
複数の合成および実実験において、RANSICは高速で95%以上のアウトレーヤに対して頑健であり、また約100%のインレーヤをリコールでき、ローテーション探索とポイントクラウド登録の両問題に対して、他の最先端の解法よりも優れていることを示した。 Correspondence-based rotation search and point cloud registration are two fundamental problems in robotics and computer vision. However, the presence of outliers, sometimes even occupying the great majority of the putative correspondences, can make many existing algorithms either fail or have very high computational cost. In this paper, we present RANSIC (RANdom Sampling with Invariant Compatibility), a fast and highly robust method applicable to both problems based on a new paradigm combining random sampling with invariance and compatibility. Generally, RANSIC starts with randomly selecting small subsets from the correspondence set, then seeks potential inliers as graph vertices from the random subsets through the compatibility tests of invariants established in each problem, and eventually returns the eligible inliers when there exists at least one K-degree vertex (K is automatically updated depending on the problem) and the residual errors satisfy a certain termination condition at the same time. In multiple synthetic and real experiments, we demonstrate that RANSIC is fast for use, robust against over 95% outliers, and also able to recall approximately 100% inliers, outperforming other state-of-the-art solvers for both the rotation search and the point cloud registration problems. | 翻訳日:2021-04-21 11:56:05 公開日:2021-04-20 |
# (参考訳) Face-GCN:3次元動的顔識別/認識のためのグラフ畳み込みネットワーク Face-GCN: A Graph Convolutional Network for 3D Dynamic Face Identification/Recognition ( http://arxiv.org/abs/2104.09145v2 ) ライセンス: CC BY 4.0 | Konstantinos Papadopoulos, Anis Kacem, Abdelrahman Shabayek, Djamila Aouada | (参考訳) 顔認識/認識はここ数年で大きく進歩している。
しかし、提案手法のほとんどは静的なRGBフレームと中立な表情に依存している。
これには2つの欠点がある。
第一に、重要な顔形状の手がかりは無視される。
第二に、表情による顔の変形は、そのような方法の性能に影響を及ぼす可能性がある。
本稿では,顔のキーポイントに基づく動的3次元顔認識のためのフレームワークを提案する。
各動的表情列は時空間グラフとして表現され、3d顔ランドマークを用いて構築される。
各グラフノードは、その近傍から抽出された局所的な形状とテクスチャを含む。
顔の分類・識別には時空間グラフ畳み込みネットワーク(ST-GCN)を用いる。
最後に,動的3次元表情データセットに対するアプローチについて検討した。 Face identification/recognition has significantly advanced over the past years. However, most of the proposed approaches rely on static RGB frames and on neutral facial expressions. This has two disadvantages. First, important facial shape cues are ignored. Second, facial deformations due to expressions can have an impact on the performance of such a method. In this paper, we propose a novel framework for dynamic 3D face identification/recognition based on facial keypoints. Each dynamic sequence of facial expressions is represented as a spatio-temporal graph, which is constructed using 3D facial landmarks. Each graph node contains local shape and texture features that are extracted from its neighborhood. For the classification/identification of faces, a Spatio-temporal Graph Convolutional Network (ST-GCN) is used. Finally, we evaluate our approach on a challenging dynamic 3D facial expression dataset. | 翻訳日:2021-04-21 11:36:39 公開日:2021-04-20 |
# ドメイン固有の洞察のための知識グラフアンカー情報抽出 Knowledge Graph Anchored Information-Extraction for Domain-Specific Insights ( http://arxiv.org/abs/2104.08936v2 ) ライセンス: Link先を確認 | Vivek Khetan, Annervaz K M, Erin Wetherley, Elena Eneva, Shubhashis Sengupta, and Andrew E. Fano | (参考訳) データの量と複雑さの増加は、人間が情報を消費し、タイムリーに応答することの困難をもたらす。
急速に変化するルールや規制を持つドメインのビジネスにとって、変更の特定に失敗するのはコストがかかる可能性がある。
専門的な分析やドメイン固有のオントロジーや分類学の発展とは対照的に、新しいドメイン内の特定の情報のニーズを満たすためにタスクベースのアプローチを用いる。
具体的には、入力したインスタンスデータからタスクベースの情報を抽出することを提案する。
エンティティ抽出のためのバイ・LSTM-CRFモデル、アテンションベースディープセマンティックロールラベルリング、および自動動詞ベース関係抽出器を含む技術NLP技術の状態を構成したパイプラインを用いて、インスタンスレベルのセマンティック構造を自動的に抽出する。
各インスタンスは、新しいタイムリーな洞察を生成するために、より大きなドメイン固有の知識グラフと結合される。
手動で検証した予備結果は、特定の情報をエンドユースケースに抽出するのに有効な方法論を示している。 The growing quantity and complexity of data pose challenges for humans to consume information and respond in a timely manner. For businesses in domains with rapidly changing rules and regulations, failure to identify changes can be costly. In contrast to expert analysis or the development of domain-specific ontology and taxonomies, we use a task-based approach for fulfilling specific information needs within a new domain. Specifically, we propose to extract task-based information from incoming instance data. A pipeline constructed of state of the art NLP technologies, including a bi-LSTM-CRF model for entity extraction, attention-based deep Semantic Role Labeling, and an automated verb-based relationship extractor, is used to automatically extract an instance level semantic structure. Each instance is then combined with a larger, domain-specific knowledge graph to produce new and timely insights. Preliminary results, validated manually, show the methodology to be effective for extracting specific information to complete end use-cases. | 翻訳日:2021-04-21 11:28:47 公開日:2021-04-20 |
# 測度伝播による深部クラスタリング Deep Clustering with Measure Propagation ( http://arxiv.org/abs/2104.08967v2 ) ライセンス: Link先を確認 | Minhua Chen, Badrinath Jayakumar, Padmasundari Gopalakrishnan, Qiming Huang, Michael Johnston, and Patrick Haffner | (参考訳) ディープモデルは教師なしと教師なしの両方の学習の最先端を改善した。
例えば、深層クラスタリング(DEC)は、表現学習にスタックされたオートエンコーダを使用することで、教師なしクラスタリング性能を大幅に改善した。
しかし、深部モデリングの弱点の一つは、元の空間の局所的な近傍構造が潜在空間で必ずしも保存されないことである。
局所幾何学を保存するために、グラフラプラシアン正則化を用いた教師あり半教師あり学習文献(スペクトルクラスタリングやラベル伝播など)において様々な方法が提案されている。
本稿では,深層表現学習の強みと,半教師付きシナリオで当初用いられていたKL偏差グラフ正規化手法である測度伝搬(MP)を組み合わせる。
MPの主な仮定は、2つのデータポイントが元の空間に近接している場合、それらはクラスメンバーシップ分布のKL-発散によって測定された同じクラスに属する可能性が高いということである。
教師なし学習シナリオでも同様の仮定をとることで,測定伝搬(DECAMP)モデルによる深層埋め込みクラスタリングを提案する。
短文クラスタリングタスクにおけるDECAMPの評価を行う。
3つのパブリックデータセットで、decampは、クラスタリングプロセスで使われる単語埋め込みを生成するために追加データを使用するベースラインを含む、他の最先端のベースラインと競合する。
例えば、Stackoverflowデータセットでは、DECAMPのクラスタリング精度は79%に達しており、これは既存のすべてのベースラインよりも約5%高い。
これらの実験結果は、DECAMPが教師なし学習の非常に効果的な方法であることを示唆している。 Deep models have improved state-of-the-art for both supervised and unsupervised learning. For example, deep embedded clustering (DEC) has greatly improved the unsupervised clustering performance, by using stacked autoencoders for representation learning. However, one weakness of deep modeling is that the local neighborhood structure in the original space is not necessarily preserved in the latent space. To preserve local geometry, various methods have been proposed in the supervised and semi-supervised learning literature (e.g., spectral clustering and label propagation) using graph Laplacian regularization. In this paper, we combine the strength of deep representation learning with measure propagation (MP), a KL-divergence based graph regularization method originally used in the semi-supervised scenario. The main assumption of MP is that if two data points are close in the original space, they are likely to belong to the same class, measured by KL-divergence of class membership distribution. By taking the same assumption in the unsupervised learning scenario, we propose our Deep Embedded Clustering Aided by Measure Propagation (DECAMP) model. We evaluate DECAMP on short text clustering tasks. On three public datasets, DECAMP performs competitively with other state-of-the-art baselines, including baselines using additional data to generate word embeddings used in the clustering process. As an example, on the Stackoverflow dataset, DECAMP achieved a clustering accuracy of 79%, which is about 5% higher than all existing baselines. These empirical results suggest that DECAMP is a very effective method for unsupervised learning. | 翻訳日:2021-04-21 11:28:30 公開日:2021-04-20 |
# da-dgcex: 分散認識型オートエンコーダ損失による深い説明の妥当性の確保 DA-DGCEx: Ensuring Validity of Deep Guided Counterfactual Explanations With Distribution-Aware Autoencoder Loss ( http://arxiv.org/abs/2104.09062v2 ) ライセンス: Link先を確認 | Jokin Labaien, Ekhi Zugasti, Xabier De Carlos | (参考訳) ディープラーニングはさまざまな分野で非常に価値のあるツールになっていますが、これらのモデルの学習能力に疑問を持つ人はいません。
それでも、ディープラーニングモデルは解釈可能性の欠如からブラックボックスと見なされることが多いため、意思決定プロセスに一般的な不信がある。
近年、有効性と解釈可能性のバランスを見つけるために、説明可能な人工知能(XAI)が人気を集めており、この分野の手法のいくつかは、反現実的な説明を生み出すために使われている。
これらの説明を生成するプロセスは、一般的に、説明すべき各入力の最適化問題を解決することで成り立っている。
この処理を高速化するために、いくつかの手法は自動エンコーダを使用して、即時対実的な説明を生成する。
近年,分類モデルに付随するオートエンコーダを訓練し,簡単な反事実説明を生成するdgcex(deep guided counterfactual explanations)という手法が提案されている。
しかし、この方法は生成した反実例がデータ多様体に近いことを保証しないので、非現実的な反実例を生成することができる。
そこで本論文では,DGCExのコスト関数を付加したDA-DGCEx(Dis Distribution Aware Deep Guided Counterfactual Explanations)を提案する。 Deep Learning has become a very valuable tool in different fields, and no one doubts the learning capacity of these models. Nevertheless, since Deep Learning models are often seen as black boxes due to their lack of interpretability, there is a general mistrust in their decision-making process. To find a balance between effectiveness and interpretability, Explainable Artificial Intelligence (XAI) is gaining popularity in recent years, and some of the methods within this area are used to generate counterfactual explanations. The process of generating these explanations generally consists of solving an optimization problem for each input to be explained, which is unfeasible when real-time feedback is needed. To speed up this process, some methods have made use of autoencoders to generate instant counterfactual explanations. Recently, a method called Deep Guided Counterfactual Explanations (DGCEx) has been proposed, which trains an autoencoder attached to a classification model, in order to generate straightforward counterfactual explanations. However, this method does not ensure that the generated counterfactual instances are close to the data manifold, so unrealistic counterfactual instances may be generated. To overcome this issue, this paper presents Distribution Aware Deep Guided Counterfactual Explanations (DA-DGCEx), which adds a term to the DGCEx cost function that penalizes out of distribution counterfactual instances. | 翻訳日:2021-04-21 11:28:04 公開日:2021-04-20 |
# LAFEAT: 敵対的防御と潜在的な機能によるピアリング LAFEAT: Piercing Through Adversarial Defenses with Latent Features ( http://arxiv.org/abs/2104.09284v2 ) ライセンス: Link先を確認 | Yunrui Yu, Xitong Gao, Cheng-Zhong Xu | (参考訳) 深層畳み込みニューラルネットワークは敵の攻撃を受けやすい。
入力に小さな摂動を加えることで、誤った出力を与えるように容易に騙すことができる。
このような攻撃に対してCNNを堅牢にする上で,これは大きな課題だ。
この目的のために新たな防御技術が提案されている。
本稿では,特定の「ロバスト」モデルにおける潜在的特徴が,敵攻撃の影響を受けやすいことを示す。
これに加えて、勾配降下ステップ(LAFEAT)における潜伏特徴を利用する統合された$\ell_\infty$-normホワイトボックス攻撃アルゴリズムを導入する。
攻撃を成功させるためには計算的にはるかに効率的であるだけでなく、様々な防御機構における現在の最先端技術よりも強力な敵であることを示す。
これは、モデルのロバスト性がディフェンダーの隠れたコンポーネントの有効利用に起因しており、もはや全体論的観点から見るべきではないことを示唆している。 Deep convolutional neural networks are susceptible to adversarial attacks. They can be easily deceived to give an incorrect output by adding a tiny perturbation to the input. This presents a great challenge in making CNNs robust against such attacks. An influx of new defense techniques have been proposed to this end. In this paper, we show that latent features in certain "robust" models are surprisingly susceptible to adversarial attacks. On top of this, we introduce a unified $\ell_\infty$-norm white-box attack algorithm which harnesses latent features in its gradient descent steps, namely LAFEAT. We show that not only is it computationally much more efficient for successful attacks, but it is also a stronger adversary than the current state-of-the-art across a wide range of defense mechanisms. This suggests that model robustness could be contingent on the effective use of the defender's hidden components, and it should no longer be viewed from a holistic perspective. | 翻訳日:2021-04-21 11:27:39 公開日:2021-04-20 |
# Visual Transformer Pruning Visual Transformer Pruning ( http://arxiv.org/abs/2104.08500v2 ) ライセンス: Link先を確認 | Mingjian Zhu, Kai Han, Yehui Tang, Yunhe Wang | (参考訳) Visual Transformerは様々なコンピュータビジョンアプリケーションで競争力を発揮している。
しかし、ストレージ、実行時のメモリ、計算要求によってモバイルデバイスへのデプロイが妨げられている。
ここでは,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマリン方式を提案する。
Transformerでチャネルワイドのスパーシリティを促進することで、重要なチャネルが自動的に現れる。
精度を損なうことなく高い刈り取り率を達成するために、係数の小さいチャネルを大量に廃棄することができる。
ビジュアルトランスフォーマープルーニングのパイプラインは、1) スパーシティ正規化によるトレーニング、2) プルーニングチャネル、3) 微調整である。
提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。 Visual transformer has achieved competitive performance on a variety of computer vision applications. However, their storage, run-time memory, and computational demands are hindering the deployment on mobile devices. Here we present an visual transformer pruning approach, which identifies the impacts of channels in each layer and then executes pruning accordingly. By encouraging channel-wise sparsity in the Transformer, important channels automatically emerge. A great number of channels with small coefficients can be discarded to achieve a high pruning ratio without significantly compromising accuracy. The pipeline for visual transformer pruning is as follows: 1) training with sparsity regularization; 2) pruning channels; 3) finetuning. The reduced parameters and FLOPs ratios of the proposed algorithm are well evaluated and analyzed on ImageNet dataset to demonstrate its effectiveness. | 翻訳日:2021-04-21 11:27:23 公開日:2021-04-20 |
# VVC品質向上と超解像のためのマルチタスク学習 Multitask Learning for VVC Quality Enhancement and Super-Resolution ( http://arxiv.org/abs/2104.08319v2 ) ライセンス: Link先を確認 | Charles Bonnineau and Wassim Hamidouche and Jean-Francois Travers and Naty Sidaty and Olivier Deforges | (参考訳) VVCと呼ばれる最新のビデオコーディング標準には、コーディングチェーンのさまざまなレベルにおいて、新しく洗練されたコーディングツールがいくつか含まれている。
これらのツールは、以前の標準である高効率ビデオ符号化(HEVC)に関して、大幅なコーディング向上をもたらす。
しかし、エンコーダは、ビットレートを利用可能な帯域幅に調整するために適用されるコーディング決定に起因して、可視的な符号化アーティファクトを導入することができる。
したがって、プリ・ポスト・プロセッシングの技術がコーディングパイプラインに追加され、デコードされたビデオの品質が向上する。
これらの手法は,近年のディープラーニングの進歩により,従来の手法と比較して顕著な成果を上げている。
一般に、複数のニューラルネットワークは異なるタスクを実行するために独立して訓練されるため、モデル間の冗長性から利益を得ることができない。
本稿では,復号化VVCビデオの品質を高めるための後処理ステップとして,学習ベースのソリューションを検討する。
本手法は,マルチタスク学習により,複数の劣化レベルに最適化された単一の共有ネットワークを用いて,品質向上と超解像の両方を行う。
提案手法は、従来の特殊アーキテクチャと比較して、符号化アーティファクトの緩和とネットワークパラメータの少ない超解像の両方において優れた性能を実現する。 The latest video coding standard, called versatile video coding (VVC), includes several novel and refined coding tools at different levels of the coding chain. These tools bring significant coding gains with respect to the previous standard, high efficiency video coding (HEVC). However, the encoder may still introduce visible coding artifacts, mainly caused by coding decisions applied to adjust the bitrate to the available bandwidth. Hence, pre and post-processing techniques are generally added to the coding pipeline to improve the quality of the decoded video. These methods have recently shown outstanding results compared to traditional approaches, thanks to the recent advances in deep learning. Generally, multiple neural networks are trained independently to perform different tasks, thus omitting to benefit from the redundancy that exists between the models. In this paper, we investigate a learning-based solution as a post-processing step to enhance the decoded VVC video quality. Our method relies on multitask learning to perform both quality enhancement and super-resolution using a single shared network optimized for multiple degradation levels. The proposed solution enables a good performance in both mitigating coding artifacts and super-resolution with fewer network parameters compared to traditional specialized architectures. | 翻訳日:2021-04-21 11:27:12 公開日:2021-04-20 |
# tsgn:ethereumフィッシングアカウントを識別するためのトランザクションサブグラフネットワーク TSGN: Transaction Subgraph Networks for Identifying Ethereum Phishing Accounts ( http://arxiv.org/abs/2104.08767v2 ) ライセンス: Link先を確認 | Jinhuan Wang and Pengtao Chen and Shanqing Yu and Qi Xuan | (参考訳) ブロックチェーン技術、特にブロックチェーンベースのトランザクションは、金融業界でこれまで見たことのない情報を提供します。
フィアット通貨とは対照的に、Bitcoinのような仮想通貨による取引は完全に公開されている。
暗号通貨の取引はブロックチェーンで永久に記録され、いつでも利用できる。
したがって、ネットワークの観点からブロックチェーンにおけるフィッシング詐欺のような違法な現象を分析するために、トランザクションネットワーク(TN)を構築することができる。
本稿では,ethereumにおけるフィッシングアカウントを識別するためのトランザクションサブグラフネットワーク(tsgn)に基づく分類モデルを提案する。
まず、各アドレスのトランザクションサブグラフを抽出し、異なるマッピング機構に基づいてこれらのサブグラフを対応するTSGNに拡張する。
TSGNは、フィッシングアカウントの識別に役立てるために、より潜在的な情報を提供することができる。
さらに、Directed-TSGNは、方向属性を導入することで、フィッシング詐欺の重要なトポロジ的パターンをキャプチャするトランザクションフロー情報を保持できる。
TSGNと比較すると、Directed-TSGNは時間の複雑さがはるかに低く、グラフ表現学習の恩恵を受けている。
実験により、ネットワーク表現アルゴリズムと組み合わせることで、TSGNモデルはより多くの特徴を捉え、分類アルゴリズムを強化し、Ethereumネットワークにおけるフィッシングノードの識別精度を向上させることができることが示された。 Blockchain technology and, in particular, blockchain-based transaction offers us information that has never been seen before in the financial world. In contrast to fiat currencies, transactions through virtual currencies like Bitcoin are completely public. And these transactions of cryptocurrencies are permanently recorded on Blockchain and are available at any time. Therefore, this allows us to build transaction networks (TN) to analyze illegal phenomenons such as phishing scams in blockchain from a network perspective. In this paper, we propose a Transaction SubGraph Network (TSGN) based classification model to identify phishing accounts in Ethereum. Firstly we extract transaction subgraphs for each address and then expand these subgraphs into corresponding TSGNs based on the different mapping mechanisms. We find that TSGNs can provide more potential information to benefit the identification of phishing accounts. Moreover, Directed-TSGNs, by introducing direction attributes, can retain the transaction flow information that captures the significant topological pattern of phishing scams. By comparing with the TSGN, Directed-TSGN indeed has much lower time complexity, benefiting the graph representation learning. Experimental results demonstrate that, combined with network representation algorithms, the TSGN model can capture more features to enhance the classification algorithm and improve phishing nodes' identification accuracy in the Ethereum networks. | 翻訳日:2021-04-21 11:26:53 公開日:2021-04-20 |
# 潜在空間操作のためのサロゲート勾配場 Surrogate Gradient Field for Latent Space Manipulation ( http://arxiv.org/abs/2104.09065v2 ) ライセンス: Link先を確認 | Minjun Li, Yanghua Jin, Huachun Zhu | (参考訳) GAN(Generative Adversarial Network)は、サンプルコードから高品質な画像を生成する。
最近の作品は、基礎となる潜在コードを操作して画像の編集を試みるが、属性調整の基本的なタスクを超えることは滅多にない。
キーポイントやキャプションなどの多次元条件で操作できる最初の手法を提案する。
具体的には,補助マッピングネットワークによって誘導されるサーロゲート勾配場(sgf)に基づいて,対象条件を満たす新しい潜在コードを探索するアルゴリズムを設計する。
定量的比較のために,操作方法の絡み合いを評価する指標を提案する。
顔属性調整タスクの詳細な実験的解析により, 提案手法は, アンタングルメントにおける最先端手法よりも優れていることが示された。
さらに,本手法がキーポイントやキャプションなどの複雑な画像特性を変更可能であることを示すために,様々な条件のタスクに適用する。 Generative adversarial networks (GANs) can generate high-quality images from sampled latent codes. Recent works attempt to edit an image by manipulating its underlying latent code, but rarely go beyond the basic task of attribute adjustment. We propose the first method that enables manipulation with multidimensional condition such as keypoints and captions. Specifically, we design an algorithm that searches for a new latent code that satisfies the target condition based on the Surrogate Gradient Field (SGF) induced by an auxiliary mapping network. For quantitative comparison, we propose a metric to evaluate the disentanglement of manipulation methods. Thorough experimental analysis on the facial attribute adjustment task shows that our method outperforms state-of-the-art methods in disentanglement. We further apply our method to tasks of various condition modalities to demonstrate that our method can alter complex image properties such as keypoints and captions. | 翻訳日:2021-04-21 11:26:33 公開日:2021-04-20 |