このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210408となっている論文です。

PDF登録状況(公開日: 20210408)

TitleAuthorsAbstract論文公表日・翻訳日
# Web上のマンスフィアの進化

The Evolution of the Manosphere Across the Web ( http://arxiv.org/abs/2001.07600v5 )

ライセンス: Link先を確認
Manoel Horta Ribeiro, Jeremy Blackburn, Barry Bradlyn, Emiliano De Cristofaro, Gianluca Stringhini, Summer Long, Stephanie Greenberg, Savvas Zannettou(参考訳) 本稿では,ウェブを基盤とした擬人化運動のコングロマリットであるManosphereを大規模に評価し,過去数年間で著しい成長を遂げてきた「男性の問題」に焦点をあてた。 6つのフォーラムと51のサブレディットから288万の投稿を集め、分析する。 全体として、Web上のManosphereの進化の全体像を描き、長年の異なるコミュニティ間の関連性を示している。 アーティストや男性の権利活動家を拾うなど、より穏健で古いコミュニティは、インセルや男性のようなより過激なコミュニティに道を譲り、活発なユーザーをかなり移動させています。 さらに,これらの新コミュニティは,前者よりも有毒で誤認的であることが示唆された。

In this paper, we present a large-scale characterization of the Manosphere, a conglomerate of Web-based misogynist movements roughly focused on "men's issues," which has seen significant growth over the past years. We do so by gathering and analyzing 28.8M posts from 6 forums and 51 subreddits. Overall, we paint a comprehensive picture of the evolution of the Manosphere on the Web, showing the links between its different communities over the years. We find that milder and older communities, such as Pick Up Artists and Men's Rights Activists, are giving way to more extremist ones like Incels and Men Going Their Own Way, with a substantial migration of active users. Moreover, our analysis suggests that these newer communities are more toxic and misogynistic than the former.
翻訳日:2023-06-06 11:14:55 公開日:2021-04-08
# ウィグナーの友人の物理学とメタ物理 : 事前測定さえも結果は得られない

Physics and Metaphysics of Wigner's Friends: Even performed pre-measurements have no results ( http://arxiv.org/abs/2003.07464v6 )

ライセンス: Link先を確認
Marek \.Zukowski and Marcin Markiewicz(参考訳) 「適切な量子現象の曖昧な説明には、原則として、実験的配置(bohr)のすべての関連する特徴を記載しなければならない。」 測定プロセスは、事前測定(システムとポインタ変数の量子相関)と、環境との相互作用による不可逆的なデコヒーレンスから構成される。 システムは測定された可観測物の固有状態の確率的混合で終わる。 事前に測定する段階では、'outcome' を導入しようとすると、論理的に矛盾する 1=i$ となる。 これは、未測定のウィグナーの友の修正概念が量子論に関する有効な結果をもたらすという主張を無効にする。

"The unambiguous account of proper quantum phenomena must, in principle, include a description of all relevant features of experimental arrangement" (Bohr). The measurement process is composed of pre-measurement (quantum correlation of the system with the pointer variable), and an irreversible decoherence via interaction with an environment. The system ends up in a probabilistic mixture of the eigenstates of the measured observable. For the pre-measurement stage, any attempt to introduce an 'outcome' leads, as we show, to a logical contradiction, $1=i$. This nullifies claims that a modified concept of Wigner's Friend, who just pre-measures, can lead to valid results concerning quantum theory.
翻訳日:2023-05-29 00:15:12 公開日:2021-04-08
# ハイパーグラフ製品コードのためのハードデコーダとソフトデコーダの組み合わせ

Combining hard and soft decoders for hypergraph product codes ( http://arxiv.org/abs/2004.11199v2 )

ライセンス: Link先を確認
Antoine Grospellier, Lucien Grou\`es, Anirudh Krishna, Anthony Leverrier(参考訳) ハイパーグラフ製品符号(Hypergraph product codes)は、スモールセットフリップ(SSF)と呼ばれる線形時間デコーダを備えた定数レート量子低密度パリティチェック(LDPC)符号のクラスである。 このデコーダは、実際には準最適性能を示し、非常に大きなエラー訂正符号を必要とする。 本研究では,信念伝搬(BP)アルゴリズムとSFデコーダを組み合わせたハイブリッドデコーダを提案する。 符号が独立したビットフリップと位相フリップの誤差を受ける場合の数値シミュレーションの結果を示す。 これらの符号のしきい値が理想的シンドローム抽出を仮定しておよそ7.5%であり、シンドロームノイズの存在下では3%近くであることを示す。 この結果はgrospellier と krishna (arxiv:1810.03681) による初期の作品に吸収され、大幅に改善される。 これらのヒューリスティックデコーダの低複雑さなハイパフォーマンスは、ゼロレートの曲面符号から定数レートのLDPC符号に移行する際にデコーディングが重大な困難ではないことを示唆し、そのような符号が大きな普遍量子コンピュータ構築の文脈において十分に調査されていることを示唆している。

Hypergraph product codes are a class of constant-rate quantum low-density parity-check (LDPC) codes equipped with a linear-time decoder called small-set-flip (SSF). This decoder displays sub-optimal performance in practice and requires very large error correcting codes to be effective. In this work, we present new hybrid decoders that combine the belief propagation (BP) algorithm with the SSF decoder. We present the results of numerical simulations when codes are subject to independent bit-flip and phase-flip errors. We provide evidence that the threshold of these codes is roughly 7.5% assuming an ideal syndrome extraction, and remains close to 3% in the presence of syndrome noise. This result subsumes and significantly improves upon an earlier work by Grospellier and Krishna (arXiv:1810.03681). The low-complexity high-performance of these heuristic decoders suggests that decoding should not be a substantial difficulty when moving from zero-rate surface codes to constant-rate LDPC codes and gives a further hint that such codes are well-worth investigating in the context of building large universal quantum computers.
翻訳日:2023-05-22 08:18:50 公開日:2021-04-08
# 磁気トポロジカル絶縁体のためのサイトミキシング

Site Mixing for Engineering Magnetic Topological Insulators ( http://arxiv.org/abs/2007.12217v2 )

ライセンス: Link先を確認
Yaohua Liu, Lin-Lin Wang, Qiang Zheng, Zengle Huang, Xiaoping Wang, Miaofang Chi, Yan Wu, Bryan C. Chakoumakos, Michael A. McGuire, Brian C. Sales, Weida Wu, Jiaqiang Yan(参考訳) ファンデルワールス化合物 mnbi$_2$te$_4$ は、アキション絶縁体状態や量子異常ホール効果のようなエキゾチックな量子現象を探索するための材料プラットフォームを提供する最初の内在的な磁気トポロジー絶縁体である。 しかし、本質的な構造欠陥はバルク導電性をもたらし、磁気欠陥の役割は未だ不明である。 同じ種類の磁気欠陥の濃度が高いため、等構造化合物MnSb$_2$Te$_4$は、磁気、トポロジー、格子欠陥間の関係を体系的に研究するためのより良いモデルシステムである。 本研究はMnSb$_2$Te$_4$において反サイト欠陥が磁気および電子構造に与える影響について検討した。 Mn-Sbサイト混合は複雑な磁性構造をもたらし、反強磁性と強磁性の層間磁気結合をチューニングする。 MnSb$_2$Te$_4$結晶の詳細な非化学量とサイト混合は成長パラメータに依存するため、Sbが占めるMnサイトの$\approx$40\%と、成長結晶中のMnによるSbサイトの$\approx$15\%となる。 単結晶中性子回折と電子顕微鏡による研究は、アンチサイト欠陥のほとんどランダムな分布を示している。 バンド構造計算は、Mn-Sbサイト混合はFM層間結合が実験観測と一致しているが、非自明なトポロジーに必要なバンド反転に寄与することが示唆されている。 以上の結果から, mnbi$_2$te$_4$でbiサイト上に存在するmnイオンの長距離磁気秩序が示唆された。 サイト混合の効果は、mnte(bi$_2$te$_3$)$_n$の族全体、そのsbアナログとその固体溶液を含む、交互に磁性層と位相層からなる全ての層状ヘテロ構造において考慮されるべきである。

The van der Waals compound, MnBi$_2$Te$_4$, is the first intrinsic magnetic topological insulator, providing a materials platform for exploring exotic quantum phenomena such as the axion insulator state and the quantum anomalous Hall effect. However, intrinsic structural imperfections lead to bulk conductivity, and the roles of magnetic defects are still unknown. With higher concentrations of same types of magnetic defects, the isostructural compound MnSb$_2$Te$_4$ is a better model system for a systematic investigation of the connections among magnetic, topology and lattice defects. In this work, the impact of antisite defects on the magnetism and electronic structure is studied in MnSb$_2$Te$_4$. Mn-Sb site mixing leads to complex magnetic structures and tunes the interlayer magnetic coupling between antiferromagnetic and ferromagnetic. The detailed nonstoichiometry and site-mixing of MnSb$_2$Te$_4$ crystals depend on the growth parameters, which can lead to $\approx$40\% of Mn sites occupied by Sb and $\approx$15\% of Sb sites by Mn in as-grown crystals. Single crystal neutron diffraction and electron microscopy studies show nearly random distribution of the antisite defects. Band structure calculations suggest that the Mn-Sb site-mixing favors a FM interlayer coupling, consistent with experimental observation, but is detrimental to the band inversion required for a nontrivial topology. Our results suggest a long range magnetic order of Mn ions sitting on Bi sites in MnBi$_2$Te$_4$. The effects of site mixing should be considered in all layered heterostructures that consist of alternating magnetic and topological layers, including the entire family of MnTe(Bi$_2$Te$_3$)$_n$, its Sb analogs and their solid solution.
翻訳日:2023-05-08 10:51:08 公開日:2021-04-08
# ダイヤモンド中のカルブ・ラモンド場の合成モノポール源

A synthetic monopole source of Kalb-Ramond field in diamond ( http://arxiv.org/abs/2008.00596v2 )

ライセンス: Link先を確認
Mo Chen, Changhao Li, Giandomenico Palumbo, Yan-Qing Zhu, Nathan Goldman and Paola Cappellaro(参考訳) 磁気モノポールは、電磁気学から物質のトポロジー状態まで、基礎物理学の様々な分野において中心的な役割を果たす。 それらの観測は高エネルギー物理学では解明されていないが、人工ゲージ場のモノポール源は合成物質で最近同定されている。 ストリング理論(英: String theory)は、量子力学を包含する潜在的に統一されたフレームワークであり、4次元空間におけるよりエキゾチックな \emph{tensor monopoles の存在を予測し、従来の電磁力学のゲージ場を \emph{tensor} ゲージ場に促進する。 ここでは, ダイヤモンドの単一固体欠陥のスピン度自由度により, 4次元パラメータ空間で合成されたテンソルモノポールの特性について述べる。 2つの相補的手法を用いて、量子化された位相電荷とその発散するカルブ・ラモンド場を測定することにより、テンソル単極を特徴づける。 カイラル対称性を破る架空の外部場を導入することで、ミラー対称性によって保護されるスペクトル環によって特徴づけられるスペクトルの興味深い遷移を観察する。 我々の研究は、固体系におけるテンソルモノポールの最初の検出であり、弦理論に触発されたエキゾチックなトポロジー構造をエミュレートする可能性を開く。

Magnetic monopoles play a central role in various areas of fundamental physics, ranging from electromagnetism to topological states of matter. While their observation is elusive in high-energy physics, monopole sources of artificial gauge fields have been recently identified in synthetic matter. String theory, a potentially unifying framework that encompasses quantum mechanics, promotes the conventional \emph{vector} gauge fields of electrodynamics to \emph{tensor} gauge fields, and predicts the existence of more exotic \emph{tensor monopoles} in 4D space. Here we report on the characterization of a tensor monopole synthesized in a 4D parameter space by the spin degrees of freedom of a single solid-state defect in diamond. Using two complementary methods, we characterize the tensor monopole by measuring its quantized topological charge and its emanating Kalb-Ramond field. By introducing a fictitious external field that breaks chiral symmetry, we further observe an intriguing transition in the spectrum, characterized by spectral rings protected by mirror symmetries. Our work represents the first detection of tensor monopoles in a solid-state system and opens up the possibility of emulating exotic topological structures inspired by string theory.
翻訳日:2023-05-07 06:51:27 公開日:2021-04-08
# マルコフ開量子多体系の力学平均場理論

Dynamical Mean-Field Theory for Markovian Open Quantum Many-Body Systems ( http://arxiv.org/abs/2008.02563v2 )

ライセンス: Link先を確認
Orazio Scarlatella, Aashish A. Clerk, Rosario Fazio and Marco Schir\'o(参考訳) オープン量子多体系は、超伝導回路の配列から光学格子内の超低温原子まで、量子シミュレーションに関連する多くの実験プラットフォームを記述する。 彼らの理論的な理解は、その大きなヒルベルト空間と固有の非平衡性によって妨げられ、多くの伝統的なアプローチの適用性を制限する。 本研究では、非平衡ボソニック力学平均場理論(DMFT)をマルコフ開量子系に拡張する。 DMFTの中で、散逸性ボゾン粒子の格子を記述するリンドブラッドのマスター方程式は、マルコフ環境に埋め込まれ、自己整合体と非マルコフ浴に結合した単一部位を記述する不純物問題に写像される。 我々は,このボソニック不純物問題に対する非摂動的アプローチを開発し,非交叉近似で非マルコフ浴を扱う。 第一の応用として、二体損失と非コヒーレントポンプを有する駆動散逸型Bose-Hubbardモデルの定常状態について述べる。 DMFTはホッピング誘起散逸過程を捉えるが、これはグッツウィラー平均場理論では欠落しており、定常状態の集団の再分配、局所的な利得の抑制、静止量子-ゼーノ状態の出現など、通常の位相の性質を決定づけている。 これらの過程は非平衡超流動への相転移を決定するためにコヒーレントホッピングと競合し、有限結合性における相境界の強い再正規化をもたらす。 我々は、この遷移が有限周波数不安定性として起こることを示し、この遷移は、量子ファンデルポル振動子の配列の量子多体同期遷移と接続する振動時間秩序パラメータをもたらすことを示した。

Open quantum many body systems describe a number of experimental platforms relevant for quantum simulations, ranging from arrays of superconducting circuits to ultracold atoms in optical lattices. Their theoretical understanding is hampered by their large Hilbert space and by their intrinsic nonequilibrium nature, limiting the applicability of many traditional approaches. In this work we extend the nonequilibrium bosonic Dynamical Mean Field Theory (DMFT) to Markovian open quantum systems. Within DMFT, a Lindblad master equation describing a lattice of dissipative bosonic particles is mapped onto an impurity problem describing a single site embedded in its Markovian environment and coupled to a self-consistent field and to a non-Markovian bath, where the latter accounts for finite lattice connectivity corrections beyond Gutzwiller mean-field theory. We develop a non-perturbative approach to solve this bosonic impurity problem, which treats the non-Markovian bath in a non-crossing approximation. As a first application, we address the steady-state of a driven-dissipative Bose-Hubbard model with two-body losses and incoherent pump. We show that DMFT captures hopping-induced dissipative processes, completely missed in Gutzwiller mean-field theory, which crucially determine the properties of the normal phase, including the redistribution of steady-state populations, the suppression of local gain and the emergence of a stationary quantum-Zeno regime. We argue that these processes compete with coherent hopping to determine the phase transition towards a non-equilibrium superfluid, leading to a strong renormalization of the phase boundary at finite-connectivity. We show that this transition occurs as a finite-frequency instability, leading to an oscillating-in-time order parameter, that we connect with a quantum many-body synchronization transition of an array of quantum van der Pol oscillators.
翻訳日:2023-05-07 00:08:55 公開日:2021-04-08
# 一般化高次元量子鍵分布に対するタイト有限鍵解析

Tight finite-key analysis for generalized high-dimensional quantum key distribution ( http://arxiv.org/abs/2008.03510v2 )

ライセンス: Link先を確認
Rong Wang, Zhen-Qiang Yin, Hang Liu, Shuang Wang, Wei Chen, Guang-Can Guo and Zheng-Fu Han(参考訳) 高い誤り率を許容し、トライアル毎により多くの鍵ビットを生成する能力のため、高次元量子鍵分布は幅広い関心を集めている。 高次元量子鍵分布の進歩にもかかわらず、理論と実験の間にはまだいくつかのギャップがある。 その1つは、秘密鍵のセキュリティが放出された信号の数に大きく依存していることである。 これまでのところ、既存のセキュリティ証明は、無限あるいは非実用的に放出される信号が多数存在する場合にのみ適している。 本稿では,「鍵分類」の概念を導入し,滑らかなエントロピーに対する不確実性関係に基づく関連する手法を考案することにより,一般化された高次元量子鍵分布プロトコルに適した密接な有限鍵解析を提案する。 我々の理論から見れば、有限資源を持つ高次元量子鍵分布プロトコルは実験的に実現可能である。

Due to the capability of tolerating high error rate and generating more key bits per trial, high-dimensional quantum key distribution attracts wide interest. Despite great progresses in high-dimensional quantum key distribution, there are still some gaps between theory and experiment. One of these is that the security of the secret key heavily depends on the number of the emitted signals. So far, the existing security proofs are only suitable in the case with an infinite or unpractically large number of emitted signals. Here, by introducing the idea of "key classification" and developing relevant techniques based on the uncertainty relation for smooth entropies, we propose a tight finite-key analysis suitable for generalized high-dimensional quantum key distribution protocols. Benefitting from our theory, high-dimensional quantum key distribution protocols with finite resources become experimentally feasible.
翻訳日:2023-05-06 19:58:37 公開日:2021-04-08
# ハミルトン対角化のための変分量子アルゴリズム

A variational quantum algorithm for Hamiltonian diagonalization ( http://arxiv.org/abs/2008.09854v3 )

ライセンス: Link先を確認
Jinfeng Zeng, Chenfeng Cao, Chao Zhang, Pengxiang Xu, Bei Zeng(参考訳) ハミルトン対角化は、物理的性質と量子システムの実用的応用を理解する中心にある。 ハミルトン対角化を高速化できる量子アルゴリズム、特に短期量子デバイスに実装できる量子アルゴリズムの設計は、非常に望まれている。 本研究では,量子システムの温度,局所性,相関性などの重要な物性を探索する量子システムのハミルトニアン対角化(vqhd)のための変分アルゴリズムを提案する。 鍵となる考え方は、系の熱状態がハミルトニアン系の固有値と固有状態の情報を符号化するということである。 ハミルトニアンの全スペクトルを得るために, 量子仮想時間発展アルゴリズムを高温に利用し, 相関長の小さい熱状態を生成する。 トロタライゼーションにより、少数のサイトだけで局所的なユニタリ変換によって、想像時間進化の各ステップを実装することができる。 これらの熱状態の対角化はハミルトニアン固有系の完全な知識をもたらす。 このアルゴリズムを局所ハミルトニアンの対角化に応用し, 精度の高い結果を返す。 我々のVQHDアルゴリズムは、短期量子コンピュータの応用に新たな光を当てている。

Hamiltonian diagonalization is at the heart of understanding physical properties and practical applications of quantum systems. It is highly desired to design quantum algorithms that can speedup Hamiltonian diagonalization, especially those can be implemented on near-term quantum devices. In this work, we propose a variational algorithm for Hamiltonians diagonalization (VQHD) of quantum systems, which explores the important physical properties, such as temperature, locality and correlation, of the system. The key idea is that the thermal states of the system encode the information of eigenvalues and eigenstates of the system Hamiltonian. To obtain the full spectrum of the Hamiltonian, we use a quantum imaginary time evolution algorithm with high temperature, which prepares a thermal state with a small correlation length. With Trotterization, this then allows us to implement each step of imaginary time evolution by a local unitary transformation on only a small number of sites. Diagonalizing these thermal states hence leads to a full knowledge of the Hamiltonian eigensystem. We apply our algorithm to diagonalize local Hamiltonians and return results with high precision. Our VQHD algorithm sheds new light on the applications of near-term quantum computers.
翻訳日:2023-05-05 05:58:33 公開日:2021-04-08
# ベイズ逆数からのゆらぎ定理

Fluctuation theorems from Bayesian retrodiction ( http://arxiv.org/abs/2009.02849v4 )

ライセンス: Link先を確認
Francesco Buscemi, Valerio Scarani(参考訳) 統計力学における非可逆性の定量的研究は、多くの議論の対象となっている逆過程、特に量子力学系を考慮に入れることがしばしばある。 ここでは、逆チャネルが古典理論と量子理論の両方においてベイズ的回帰から非常に自然に生じることを示す。 jarzynskiの等式、crooksのゆらぎ定理、および閉じた駆動型量子システムに対するtasakiの2つの測定揺らぎ定理のような従来のパラダイム的結果は、すべて回帰的議論と一致することが示されている。 また、非平衡定常状態や開量子系を扱うために導入された様々な補正は、ベイズ回帰の残余として一般に正当化される。 より一般に、一貫性のある論理推論に基づいて構築された逆過程により、ゆらぎ関係はより広い形式と範囲を得る。

Quantitative studies of irreversibility in statistical mechanics often involve the consideration of a reverse process, whose definition has been the object of many discussions, in particular for quantum mechanical systems. Here we show that the reverse channel very naturally arises from Bayesian retrodiction, both in classical and quantum theories. Previous paradigmatic results, such as Jarzynski's equality, Crooks' fluctuation theorem, and Tasaki's two-measurement fluctuation theorem for closed driven quantum systems, are all shown to be consistent with retrodictive arguments. Also, various corrections that were introduced to deal with nonequilibrium steady states or open quantum systems are justified on general grounds as remnants of Bayesian retrodiction. More generally, with the reverse process constructed on consistent logical inference, fluctuation relations acquire a much broader form and scope.
翻訳日:2023-05-03 07:30:34 公開日:2021-04-08
# 量子極双対性とシンプレクティックラクダ--量子化への幾何学的アプローチ

Quantum Polar Duality and the Symplectic Camel: a Geometric Approach to Quantization ( http://arxiv.org/abs/2009.10678v4 )

ライセンス: Link先を確認
Maurice de Gosson(参考訳) 我々は、位置の集合とモーメントの集合の間の幾何学的フーリエ変換の一種である量子極性の概念を定義し、研究する。 我々のこれまでの研究を拡張して、構成と運動量空間上の量子状態の共分散楕円体の直交射影が双対量子対と呼ばれるものを形成することを示す。 その後、量子極性はガウス波動関数のパウリ再構成問題を解くことができることを示した。 量子極性の概念は不確実性原理とシンプレクティックおよび凸幾何学の間に強い相互作用を示しており、このアプローチは量子不確定性の幾何学的および位相的バージョンへの道を開くことができる。 この結果はブラシュケ=サンタル=オの不等式とマーラー予想と関係している。 また、量子極性の観点から、ハーディの不確実性原理とあまり知られていないドノホ・スターク原理についても論じる。

We define and study the notion of quantum polarity, which is a kind of geometric Fourier transform between sets of positions and sets of momenta. Extending previous work of ours, we show that the orthogonal projections of the covariance ellipsoid of a quantum state on the configuration and momentum spaces form what we call a dual quantum pair. We thereafter show that quantum polarity allows solving the Pauli reconstruction problem for Gaussian wavefunctions. The notion of quantum polarity exhibits a strong interplay between the uncertainty principle and symplectic and convex geometry and our approach could therefore pave the way for a geometric and topological version of quantum indeterminacy. We relate our results to the Blaschke-Santal\'o inequality and to the Mahler conjecture. We also discuss the Hardy uncertainty principle and the less-known Donoho--Stark principle from the point of view of quantum polarity.
翻訳日:2023-05-01 06:57:45 公開日:2021-04-08
# 構造環境存在下でのマグノン支援フォトン・フォノン変換

Magnon-assisted photon-phonon conversion in the presence of the structured environments ( http://arxiv.org/abs/2011.05642v2 )

ライセンス: Link先を確認
Shi-fan Qi and Jun Jing(参考訳) 量子変換またはインタフェースは、量子情報処理および量子状態工学における最も顕著なプロトコルの1つである。 本稿では,マイクロ波光モード,駆動型マグノンモード,機械振動モードからなるハイブリッドマグノメカニクスシステムにおける光子-フォノン変換プロトコルを提案する。 光共振器内のマイクロ波光子は磁気双極子相互作用によりマグノンに結合し、後者は磁歪相互作用により機械フォノンに結合する。 強い光子-マグノン相互作用とマグノンの強い駆動により、有効ハミルトニアンは共鳴点付近の光子とフォノンの変換を記述するために構築される。 キャビティ-マグノン系は量子メモリの役割を担うことができる。 さらに、フォトンフォノン変換の忠実度は、状態進化と状態非依存移動の忠実度の観点から推定される。 前者はフォトン,フォノン,マグノンの漏洩を考慮したlindbladマスター方程式で議論されている。 後者は、光学モードと機械モードの両方の構造化環境から非マルコフノイズを考慮したハイゼンベルク・ランゲヴィン方程式によって導かれる。 状態進化の忠実さは、弱い漏れに対して堅牢である。 転送忠実性は光子のオーミックおよびサブオーミック環境によって維持され、フォノンの1/f$のノイズに影響を受けない。 本研究は、マイクロ波系におけるフォトンフォノンコンバータとしてのマグノン系への興味深い応用を提供する。

Quantum conversion or interface is one of the most prominent protocols in quantum information processing and quantum state engineering. We propose a photon-phonon conversion protocol in a hybrid magnomechanical system comprising a microwave optical mode, a driven magnon mode and a mechanical-vibrating mode. The microwave photons in the optical cavity are coupled to the magnons by the magnetic-dipole interaction, and the latter are coupled to the mechanical phonons by the magnetostrictive interaction. With strong photon-magnon interaction and strong driving on magnon, an effective Hamiltonian is constructed to describe the conversion between photons and phonons nearby their resonant point. The cavity-magnon system can then play the role of a quantum memory. Moreover, the faithfulness of the photon-phonon conversion is estimated in terms of fidelities for state evolution and state-independent transfer. The former is discussed in the Lindblad master equation taking account the leakages of photon, phonon and magnon into consideration. The latter is derived by the Heisenberg-Langevin equation considering the non-Markovian noise from the structured environments for both optical and mechanical modes. The state-evolution fidelity is found to be robust to the weak leakage. The transfer fidelity can be maintained by the Ohmic and sub-Ohmic environments of the photons and is insensitive to the $1/f$ noise of the phonons. Our work thus provides an interesting application for the magnon system as a photon-phonon converter in the microwave regime.
翻訳日:2023-04-24 12:00:44 公開日:2021-04-08
# 高次元におけるホログラフィテレポーテーション

Holographic teleportation in higher dimensions ( http://arxiv.org/abs/2011.13807v2 )

ライセンス: Link先を確認
Byoungjoon Ahn, Yongjun Ahn, Sang-Eon Bak, Viktor Jahnke, and Keun-Young Kim(参考訳) 我々は,Rindler-AdS/CFTの文脈における高次元トラベル可能なワームホールについて検討した。 純粋なads幾何の双曲的スライシングは、双曲空間における共形場理論と双対な位相的ブラックホールと考えることができる。 最大拡張幾何は、ワームホールで接続される2つの外界領域(AdSのリンドラーくさび)を含む。 このワームホールは,バルク中の平均ヌルエネルギー条件(anec)に違反する二重トレース変形によってトラバース可能である。 我々は,Gao-Jafferis-Wallの結果を高次元ケースに一般化するANEC違反の解析式を発見し,この近似を用いて同様の結果が得られることを示した。 ワームホールを通して転送できる情報量に対する制限は、時空の次元を増大させるにつれて急速に減少することを示す。 また,トラバーサビリティを診断する2面整流器を計算し,ある条件下では,ワームホールを通過した情報がバタフライスピード$v_b = \frac{1}{d-1}$で伝播することを示す。

We study higher-dimensional traversable wormholes in the context of Rindler-AdS/CFT. The hyperbolic slicing of a pure AdS geometry can be thought of as a topological black hole that is dual to a conformal field theory in the hyperbolic space. The maximally extended geometry contains two exterior regions (the Rindler wedges of AdS) which are connected by a wormhole. We show that this wormhole can be made traversable by a double trace deformation that violates the average null energy condition (ANEC) in the bulk. We find an analytic formula for the ANEC violation that generalizes Gao-Jafferis-Wall result to higher-dimensional cases, and we show that the same result can be obtained using the eikonal approximation. We show that the bound on the amount of information that can be transferred through the wormhole quickly reduces as we increase the dimensionality of spacetime. We also compute a two-sided commutator that diagnoses traversability and show that, under certain conditions, the information that is transferred through the wormhole propagates with butterfly speed $v_B = \frac{1}{d-1}$.
翻訳日:2023-04-22 20:28:49 公開日:2021-04-08
# 非対称アンハーモニックメカニカル共振器を用いた光機械系のkerr様非線形性

Kerr-like nonlinearities in an optomechanical system with an asymmetric anharmonic mechanical resonator ( http://arxiv.org/abs/2012.09671v2 )

ライセンス: Link先を確認
A.P. Saiko, R. Fedaruk, S.A. Markevich(参考訳) ボゴリューボフ平均法に基づく非セクシャル摂動理論の枠組みにおいて、非対称アンハーモニックメカニカル共振器を用いた光力学系について検討した。 交叉ケーラー相互作用と光子と振動量子のケーラー様自己相互作用はハミルトニアンに現れる。 これらの相互作用は、機械共振器の振動の3次および4次非線形性と、機械変位の線形な共振器相互作用によって誘導される。 振動量子数のバイスタブルな挙動を示し、この挙動はクロスカー相互作用によって制御されることを示した。 駆動と散逸を伴わずに,キャビティ(またはメカニカル共振器)の重ね合わせユルケ-ストーラー様状態が,システムの絡み合いモードの一定タイミングで不連続であることが示されている。 得られた結果は、非対称な機械的振動を持つ光力学系の制御に新たな可能性を与える。

In the framework of the nonsecular perturbation theory based on the Bogoliubov averaging method, an optomechanical system with an asymmetric anharmonic mechanical resonator is studied. The cross-Kerr interaction and the Kerr-like self-interaction of photons and vibration quanta arise in the Hamiltonian. These interactions are induced by both cubic and quartic nonlinearities of oscillations of the mechanical resonator and the cavity-resonator interaction that is linear in mechanical displacements. We demonstrate a bistable behavior of the number of vibration quanta and find that this behavior is controlled by the cross-Kerr interaction. It is shown that, without driving and dissipation, the constructed superposition Yurke-Stoler-like states of the cavity (or the mechanical resonator) disentangle at certain times the entangled modes of the system. The obtained results offer new possibilities for control of optomechanical systems with asymmetric mechanical oscillations.
翻訳日:2023-04-20 08:24:37 公開日:2021-04-08
# YouNiverse: 英語で話すYouTubeの大規模チャンネルとビデオメタデータ

YouNiverse: Large-Scale Channel and Video Metadata from English-Speaking YouTube ( http://arxiv.org/abs/2012.10378v2 )

ライセンス: Link先を確認
Manoel Horta Ribeiro, Robert West(参考訳) YouTubeは、世界中の人々を楽しませ、知らせる上で重要な役割を果たしている。 しかし、ランダムにサンプリングされたデータの欠如や、プラットフォームの膨大なカタログを検索する体系的な方法の欠如により、プラットフォームの研究は困難である。 本稿では,英語youtubeのチャンネルやビデオメタデータの膨大なコレクションであるyouniverseを提案する。 YouNiverseは、2005年5月から2019年10月までに発行された136Kチャンネルと72.9Mビデオのメタデータと、毎週購読者や視聴数を含むチャンネルレベルの時系列データで構成されている。 youtubeに関する情報を提供するオンラインサービス、socialblade.comのチャンネルランクを活用して、チャンネルのサンプルの代表性を評価し、強化することができる。 さらにデータセットには、4億4900万の匿名ユーザーがコメントしたビデオを指定するテーブルも含まれている。 YouNiverseはhttps://doi.org/10.5281/zenodo.4650046で公開されている。

YouTube plays a key role in entertaining and informing people around the globe. However, studying the platform is difficult due to the lack of randomly sampled data and of systematic ways to query the platform's colossal catalog. In this paper, we present YouNiverse, a large collection of channel and video metadata from English-language YouTube. YouNiverse comprises metadata from over 136k channels and 72.9M videos published between May 2005 and October 2019, as well as channel-level time-series data with weekly subscriber and view counts. Leveraging channel ranks from socialblade.com, an online service that provides information about YouTube, we are able to assess and enhance the representativeness of the sample of channels. Additionally, the dataset also contains a table specifying which videos a set of 449M anonymous users commented on. YouNiverse, publicly available at https://doi.org/10.5281/zenodo.4650046, will empower the community to do research with and about YouTube.
翻訳日:2023-04-20 06:16:48 公開日:2021-04-08
# 量子スピンネットワークの攻撃に対する応答

Response of quantum spin networks to attacks ( http://arxiv.org/abs/2012.10474v2 )

ライセンス: Link先を確認
Bhuvanesh Sundar, Mattia Walschaers, Valentina Parigi, Lincoln D. Carr(参考訳) 我々は,我々が入力するネットワーク(例えば,erdos-renyi や watts-strogatz や barabasi-albert のような複雑なネットワークなど)上で定義されるスピンモデルの基底状態と,ネットワーク攻撃でモデル化したデコヒーレンシングプロセスに対する応答について検討する。 スピン間の相互情報の相互結合重みを持つ創発的ネットワークのネットワーク測度分布を計算することにより,これらの基底状態の複雑さと攻撃に対する応答を定量化する。 我々はスピンを投影的に測定する攻撃に焦点を当てる。 基底状態における創発的ネットワークは、通常の複雑性の基準を満たしておらず、その平均特性はハミルトニアンにおける1次元のパラメータによってうまく捉えられている。 古典的な複雑なネットワークはランダムなネットワークよりもランダムな攻撃に強固であることが知られているが、量子ネットワークの直観に反する結果が得られている。 異なる階層のインプリントネットワーク上で定義されるハミルトニアンの基底状態は、我々の攻撃と同様に反応し、攻撃は創発的ネットワークの平均特性を一定の係数で再スケールする。 平均場理論は、これらの結果を比較的高密度なネットワークに対して説明するが、平均場理論の妥当性の条件から、単純な再スケーリングの挙動も見出す。 我々の計算は、複雑なスピンネットワークは、古典的な場合とは対照的に、射影的測定攻撃や、おそらく他の量子攻撃に対してより頑健ではないことを示している。 スピンネットワークのデコヒーレンスとアタックに対する応答を理解することは、オープン量子システムの物理学の理解や、デコヒーレンスに最大の耐性を持つ、長期的には堅牢な量子インターネットでさえも、堅牢な複雑な量子システムの設計に応用できるだろう。

We investigate the ground states of spin models defined on networks that we imprint (e.g. non-complex random networks like Erdos-Renyi or complex networks like Watts-Strogatz, and Barabasi-Albert), and their response to decohering processes which we model with network attacks. We quantify the complexity of these ground states, and their response to the attacks, by calculating distributions of network measures of an emergent network whose link weights are the pairwise mutual information between spins. We focus on attacks which projectively measure spins. We find that the emergent networks in the ground state do not satisfy the usual criteria for complexity, and their average properties are captured well by a single dimensionless parameter in the Hamiltonian. While the response of classical networks to attacks is well-studied, where classical complex networks are known to be more robust to random attacks than random networks, we find counterintuitive results for our quantum networks. We find that the ground states for Hamiltonians defined on different classes of imprinted networks respond similarly to all our attacks, and the attacks rescale the average properties of the emergent network by a constant factor. Mean field theory explains these results for relatively dense networks, but we also find the simple rescaling behavior away from the regime of validity of mean field theory. Our calculations indicate that complex spin networks are not more robust to projective measurement attacks, and presumably also other quantum attacks, than non-complex spin networks, in contrast to the classical case. Understanding the response of the spin networks to decoherence and attacks will have applications in understanding the physics of open quantum systems, and in designing robust complex quantum systems, possibly even a robust quantum Internet in the long run, that is maximally resistant to decoherence.
翻訳日:2023-04-20 06:05:45 公開日:2021-04-08
# その場電子ビームリソグラフィにより作製した明るい電気制御可能な量子ドット分子デバイス

Bright electrically controllable quantum-dot-molecule devices fabricated by in-situ electron-beam lithography ( http://arxiv.org/abs/2101.03630v2 )

ライセンス: Link先を確認
Johannes Schall, Marielle Deconinck, Nikolai Bart, Matthias Florian, Martin von Helversen, Christian Dangel, Ronny Schmidt, Lucas Bremer, Frederik Bopp, Isabell H\"ullen, Christopher Gies, Dirk Reuter, Andreas D. Wieck, Sven Rodt, Jonathan J. Finley, Frank Jahnke, Arne Ludwig, Stephan Reitzenstein(参考訳) 自己組織化された半導体量子ドットは、ほぼ理想的な2段階のシステムであり、フォトニック量子技術における応用に強いポテンシャルを持つ。 例えば、近接から理想の量子光源ではエミッターとして振る舞うことができる。 機能を大幅に増強した結合量子ドット系は、効率的なスピン光子インタフェースや決定論的フォトニック2Dクラスター状態生成のために超安定なシングルトリップレットスピンキュービットをホストできるため、さらに強い関心を持つ可能性がある。 我々は、量子ドット分子(QDM)デバイスを実現し、優れた光学特性を示す。 ピンダイオード構造における積層量子ドットに基づく電気制御可能なqdmを含む。 qdmは、in-situ電子ビームリソグラフィを用いた円形ブラッググレーティングを備えたフォトニック構造に決定論的に統合される。 数値シミュレーションとよく一致して、最大(24$\pm$4)%の光子抽出効率を測定する。 QDMの結合特性は、理論と定量的に一致してQDMの軌道結合と電荷状態も制御するバイアス電圧依存分光法によって明らかに示されている。 QDM装置は、g^{(2)}(0) = (3.9 \pm 0.5) \cdot 10^{-3}$の多重光子抑制で優れた単光子放出特性を示す。 これらのメトリクスは、先進的なナノフォトニックハードウェアを使用して将来のフォトニック量子ネットワークで使用されるビルディングブロックを魅力的なものにする。

Self-organized semiconductor quantum dots represent almost ideal two-level systems, which have strong potential to applications in photonic quantum technologies. For instance, they can act as emitters in close-to-ideal quantum light sources. Coupled quantum dot systems with significantly increased functionality are potentially of even stronger interest since they can be used to host ultra-stable singlet-triplet spin qubits for efficient spin-photon interfaces and for a deterministic photonic 2D cluster-state generation. We realize an advanced quantum dot molecule (QDM) device and demonstrate excellent optical properties. The device includes electrically controllable QDMs based on stacked quantum dots in a pin-diode structure. The QDMs are deterministically integrated into a photonic structure with a circular Bragg grating using in-situ electron beam lithography. We measure a photon extraction efficiency of up to (24$\pm$4)% in good agreement with numerical simulations. The coupling character of the QDMs is clearly demonstrated by bias voltage dependent spectroscopy that also controls the orbital couplings of the QDMs and their charge state in quantitative agreement with theory. The QDM devices show excellent single-photon emission properties with a multi-photon suppression of $g^{(2)}(0) = (3.9 \pm 0.5) \cdot 10^{-3}$. These metrics make the developed QDM devices attractive building blocks for use in future photonic quantum networks using advanced nanophotonic hardware.
翻訳日:2023-04-17 04:45:01 公開日:2021-04-08
# 一般化不確定性原理補正量子力学におけるアハルノフ-ボーム様散乱

Aharonov-Bohm-Like Scattering in the Generalized Uncertainty Principle-corrected Quantum Mechanics ( http://arxiv.org/abs/2101.08906v2 )

ライセンス: Link先を確認
DaeKil Park(参考訳) 古典的電磁力学と最小長の存在下でのアハロノフ・ボーム効果について論じる。 前者は古典的な運動方程式と対応するラグランジュ方程式を導出する。 後者では、一般化不確実性原理(GUP)を採用し、散乱断面積を GUP パラメータ $\beta$ の1階まで計算する。 最小の長さが存在するにもかかわらず、断面は同時変化である$\phi \rightarrow -\phi$, $\alpha' \rightarrow -\alpha'$であり、ここで$\phi$と$\alpha'$は方位角と磁束パラメータである。 しかし、通常のaharonv-bohm散乱とは異なり、断面はすべての整数$\alpha'$で不連続な挙動を示す。 断面が GUP が存在しないときの対称性は、${\cal O} (\beta)$ のレベルで明示的に破られる。

We discuss classical electrodynamics and the Aharonov-Bohm effect in the presence of the minimal length. In the former we derive the classical equation of motion and the corresponding Lagrangian. In the latter we adopt the generalized uncertainty principle (GUP) and compute the scattering cross section up to the first-order of the GUP parameter $\beta$. Even though the minimal length exists, the cross section is invariant under the simultaneous change $\phi \rightarrow -\phi$, $\alpha' \rightarrow -\alpha'$, where $\phi$ and $\alpha'$ are azimuthal angle and magnetic flux parameter. However, unlike the usual Aharonv-Bohm scattering the cross section exhibits discontinuous behavior at every integer $\alpha'$. The symmetries, which the cross section has in the absence of GUP, are shown to be explicitly broken at the level of ${\cal O} (\beta)$.
翻訳日:2023-04-14 06:32:57 公開日:2021-04-08
# 量子乱流における渦統計の局所測定

Local measurement of vortex statistics in quantum turbulence ( http://arxiv.org/abs/2102.10866v2 )

ライセンス: Link先を確認
Eric Woillez (HELFA), J\'er\^ome Valentin (HELFA), Philippe-E Roche (HELFA)(参考訳) 量子渦線の密度ゆらぎは超流動heの乱流中で測定され、超流動分率16%、47%、81%の温度で測定される。 このプローブは微小加工された第2音波共振器で、流れの中核の局所的および小規模の測定をグリッドの後方10メシュサイズで行うことができる。 驚くべきことに、全ての渦パワースペクトルは、超流動分数と平均速度とは独立に単一のマスター曲線上で崩壊する。 従来の測定とは対照的に, パワースペクトルの特異な形状を示す。 渦密度確率分布は、古典的な乱流で観測される渦度分布と同様、強く歪められている。 これらの結果の意義について論じる。

The density fluctuations of quantum vortex lines are measured in a turbulent flow of superfluid He, at temperatures corresponding to superfluid fraction of 16%, 47% and 81%. The probe is a micro-fabricated second sound resonator that allows for local and small-scale measurements in the core of the flow, at a 10-mesh-size behind a grid. Remarkably, all the vortex power spectra collapse on a single master curve, independently from the superfluid fraction and the mean velocity. By contrast with previous measurements, we report an peculiar shape of the power spectra. The vortex density probability distributions are found to be strongly skewed, similarly to the vorticity distributions observed in classical turbulence. Implications of those results are discussed.
翻訳日:2023-04-10 06:00:18 公開日:2021-04-08
# 非エルミート系における準定常解

Quasi-stationary solutions in non-Hermitian systems ( http://arxiv.org/abs/2103.12704v2 )

ライセンス: Link先を確認
C. Yuce(参考訳) 固有状態は非エルミート皮膚効果による非エルミート格子の開端に局在を示す。 非エルミート皮膚効果のもう一つの興味深い特徴を探り、ほぼ時間に依存しない準定常解を予測する。 このような状態から固有状態への遷移は劇的に非摂動的であることを示す。 我々は、長い非エルミート格子の境界を無限大に数学的に拡張すると、非自明な解が得られることを議論する。 我々は、Su-Schrieffer-Heeger(SSH)モデルの非エルミート変種を考察し、非位相的だが頑健な準定常零エネルギーモードを予測する。

Eigenstates exhibit localization at an open edge in a non-Hermitian lattice due to non-Hermitian skin effect. We here explore another interesting feature of non-Hermitian skin effect and predict quasi-stationary solutions, which are approximately time-independent. We show that the transition from such states to eigenstates is dramatically non-perturbative. We discuss that mathematically extending the boundary of a long non-Hermitian lattice to infinity can lead to nontrivial solution. We consider a non-Hermitian variant of the Su-Schrieffer-Heeger (SSH) model and predict non-topological but robust quasi-stationary zero energy modes.
翻訳日:2023-04-07 02:06:47 公開日:2021-04-08
# 複数のグラフニューラルネットワークによる協調学習

Learning to Coordinate via Multiple Graph Neural Networks ( http://arxiv.org/abs/2104.03503v1 )

ライセンス: Link先を確認
Zhiwei Xu, Bin Zhang, Yunpeng Bai, Dapeng Li, Guoliang Fan(参考訳) エージェント間のコラボレーションは、徐々にマルチエージェントシステムにおいて重要なトピックになりつつある。 鍵となるのは、クレジットの割り当て問題を解決する方法です。 本稿では,グラフ畳み込みネットワークと値分解手法を組み合わせた新しいアルゴリズムである,協調型マルチエージェント強化学習のためのMGANを提案する。 mganは複数のグラフネットワークを通して異なる視点からエージェントの表現を学び、すべてのエージェント間の適切な注意の割り当てを実現する。 グラフネットワークの出力を可視化することで,表現学習におけるグラフネットワークの驚くべき能力を示し,マルチエージェントシステムにおける各エージェントの動作の解釈性を向上させる。

The collaboration between agents has gradually become an important topic in multi-agent systems. The key is how to efficiently solve the credit assignment problems. This paper introduces MGAN for collaborative multi-agent reinforcement learning, a new algorithm that combines graph convolutional networks and value-decomposition methods. MGAN learns the representation of agents from different perspectives through multiple graph networks, and realizes the proper allocation of attention between all agents. We show the amazing ability of the graph network in representation learning by visualizing the output of the graph network, and therefore improve interpretability for the actions of each agent in the multi-agent system.
翻訳日:2023-04-04 12:20:09 公開日:2021-04-08
# シンメトリゼーションステップのない効率的な量子デジタル署名

Efficient Quantum Digital Signatures without Symmetrization Step ( http://arxiv.org/abs/2104.03470v1 )

ライセンス: Link先を確認
Yu-Shuo Lu, Xiao-Yu Cao, Chen-Xun Weng, Jie Gu, Yuan-Mei Xie, Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子デジタルシグネチャ(QDS)は、量子法則を利用して、情報理論のセキュリティを持つメッセージの非監査、偽造、転送性を保証する。 現在のqdsプロトコルは、2つの大きな制約に直面しており、追加のセキュアな古典的チャネルによる対称性のステップの要求や、検出イベントの確率による署名率の2次スケーリングがある。 本稿では,従来のポストマッチング方式を用いて,これらの問題を解決するための効率的なQDSプロトコルを提案する。 我々のプロトコルは対称性のステップを必要とせず、シグネチャレートは検出イベントの確率と線形にスケールする。 シミュレーションの結果,100km長繊維において,シグネチャレートは元のプロトコルよりも3桁高いことがわかった。 このプロトコルは既存の量子通信基盤と互換性があるため、デジタル署名に無条件のセキュリティを提供する上で重要な役割を果たすことを期待している。

Quantum digital signatures (QDS) exploit quantum laws to guarantee non-repudiation, unforgeability and transferability of messages with information-theoretic security. Current QDS protocols face two major restrictions, including the requirement of the symmetrization step with additional secure classical channels and quadratic scaling of the signature rate with the probability of detection events. Here, we present an efficient QDS protocol to overcome these issues by utilizing the classical post-processing operation called post-matching method. Our protocol does not need the symmetrization step, and the signature rate scales linearly with the probability of detection events. Simulation results show that the signature rate is three orders of magnitude higher than the original protocol in a 100-km-long fiber. This protocol is compatible with existing quantum communication infrastructure, therefore we anticipate that it will play a significant role in providing digital signatures with unconditional security.
翻訳日:2023-04-04 12:20:00 公開日:2021-04-08
# 触媒エントロピー原理

Catalytic Entropy Principles ( http://arxiv.org/abs/2104.03452v1 )

ライセンス: Link先を確認
M. X. Luo, X. Wang(参考訳) エントロピーは、熱力学法則に従って、熱統計学における障害の避けられない傾向を示す。 これは、フォン・ノイマンのエントロピーを持つ量子熱統計学の最小化エントロピー原理と、特別な tsallis エントロピーを持つnonextensive quantum thermostatistics を提供する。 本研究の目的は,一般的なエントロピー尺度の操作的特徴を提供することである。 量子熱統計学と非励起量子熱統計学の両方に対する一般的な量子エントロピーの観点から、第2の熱力学法則と整合した最初の統一原理を示す。 これはまた、不可逆測定過程におけるクロスエントロピーの最大化により、第二熱力学法則を超える新たな特徴を明らかにする。 この結果は量子エントロピー推定の漸近的タスクや、状態トモグラフィーを伴わない普遍的な量子源符号化に有用である。 さらに、限られた情報を持つ量子熱力学における単発状態遷移と冷却に応用される。 これらの結果は多体理論や長距離量子情報処理において興味深いものとなる。

The entropy shows an unavoidable tendency of disorder in thermostatistics according to the second thermodynamics law. This provides a minimization entropy principle for quantum thermostatistics with the von Neumann entropy and nonextensive quantum thermostatistics with special Tsallis entropy. Our goal in this work is to provide operational characterizations of general entropy measures. We present the first unified principle consistent with the second thermodynamics law in terms of general quantum entropies for both quantum thermostatistics and nonextensive quantum thermostatistics. This further reveals new features beyond the second thermodynamics law by maximization the cross entropy during irreversible measurement procedures. The present result is useful for asymptotical tasks of quantum entropy estimations and universal quantum source encoding without the state tomography. It is further applied to single-shot state transitions and cooling in quantum thermodynamics with limited information. These results should be interesting in the many-body theory and long-range quantum information processing.
翻訳日:2023-04-04 12:19:29 公開日:2021-04-08
# 複雑相互作用する大規模ストックパイルブレンディング問題に対するヒューリスティック戦略

Heuristic Strategies for Solving Complex Interacting Large-Scale Stockpile Blending Problems ( http://arxiv.org/abs/2104.03440v1 )

ライセンス: Link先を確認
Yue Xie, Aneta Neumann, Frank Neumann(参考訳) ストックパイルブレンディング問題は、原材料を貯蔵・ブレンドするために備蓄材が使用される鉱山生産計画の重要な構成要素である。 備蓄材から材料をブレンドすることのゴールは、利用可能な材料に基づいて最適な金属グレードを含む濃縮粒子を作ることである。 各備蓄が所定の小包に供給する材料量は、一連の鉱山のスケジュール条件と顧客要求に依存する。 したがって、問題は連続最適化問題として定式化することができる。 現実世界のアプリケーションでは、下流の顧客のニーズを満たす小包を保証するために、いくつかの制約があります。 規模が非常に大きいため、備蓄ブレンド問題を解決する上での課題である。 我々は,この2つの厳密な制約を破ることなく,実現不可能な解を解に変換する問題に対して,補修演算子を2つ導入する。 さらに, 大規模ストックパイルブレンディング問題を解くための多成分適合機能を導入し, プラン上の金属の容積を最大化し, 金属使用量に応じて在庫間のバランスを維持する。 さらに,本論文では,連続空間上の最適化問題,すなわち微分進化(de)アルゴリズムの解法としてよく知られた手法について検討する。 実験結果から,DEMアルゴリズムと提案した2つの持続時間修復法を組み合わせることで,実世界の問題と大規模問題の両方に対する結果よりも,結果の値が有意に優れていることがわかった。

The Stockpile blending problem is an important component of mine production scheduling, where stockpiles are used to store and blend raw material. The goal of blending material from stockpiles is to create parcels of concentrate which contain optimal metal grades based on the material available. The volume of material that each stockpile provides to a given parcel is dependent on a set of mine schedule conditions and customer demands. Therefore, the problem can be formulated as a continuous optimization problem. In the real-world application, there are several constraints required to guarantee parcels that meet the demand of downstream customers. It is a challenge in solving the stockpile blending problems since its scale can be very large. We introduce two repaired operators for the problems to convert the infeasible solutions into the solutions without violating the two tight constraints. Besides, we introduce a multi-component fitness function for solving the large-scale stockpile blending problem which can maximize the volume of metal over the plan and maintain the balance between stockpiles according to the usage of metal. Furthermore, we investigate the well-known approach in this paper, which is used to solve optimization problems over continuous space, namely the differential evolution (DE) algorithm. The experimental results show that the DE algorithm combined with two proposed duration repair methods is significantly better in terms of the values of results than the results on real-world instances for both one-month problems and large-scale problems.
翻訳日:2023-04-04 12:19:16 公開日:2021-04-08
# 検出確率とエネルギー変動の不確かさの関係

Uncertainty relation between detection probability and energy fluctuations ( http://arxiv.org/abs/2104.03661v1 )

ライセンス: Link先を確認
Felix Thiel, Itay Mualem, David Kessler, Eli Barkai(参考訳) 有限グラフのノードで始まる古典的なランダムウォーカーは、探索がエルゴードであるから、常に他のノードに到達する。 量子ウォークでは、破壊的干渉はそのような探索過程において非エルゴード的特徴を効果的に引き起こす可能性がある。 目標状態上の反復射影局所測定では、ヒルベルト空間が明るい部分空間と直交暗空間に分割されるため、最終的な検出は保証されない。 これを用いることで、エネルギーゆらぎの観点から、検出確率の従来の値からの偏差に対する不確実性関係を見いだすことができる。

A classical random walker starting on a node of a finite graph will always reach any other node since the search is ergodic, namely it is fully exploring space, hence the arrival probability is unity. For quantum walks, destructive interference may induce effectively non-ergodic features in such search processes. Under repeated projective local measurements, made on a target state, the final detection of the system is not guaranteed since the Hilbert space is split into a bright subspace and an orthogonal dark one. Using this we find an uncertainty relation for the deviations of the detection probability from its classical counterpart, in terms of the energy fluctuations.
翻訳日:2023-04-04 12:15:15 公開日:2021-04-08
# 絡み合い構造からの創発的幾何学

Emergent geometry from entanglement structure ( http://arxiv.org/abs/2104.03645v1 )

ライセンス: Link先を確認
Sudipto Singha Roy, Silvia N. Santalla, Javier Rodr\'iguez-Laguna, Germ\'an Sierra(参考訳) 我々は、一般の$N$パーティー純量子多体状態の絡み合い構造から現れた幾何学を、一般化された隣接行列を用いて、状態のすべての2^N$分割に対応する絡み合いエントロピーを表現することによって明らかにしようとする。 この表現はしばしば正確であり、ハミルトニアンによって提案されたものと非常に異なる幾何学をもたらす可能性がある。 さらに、すべての場合において、それは以前の提案と同様に自然に絡み合う輪郭をもたらす。 形式主義は共形不変系に対して拡張され、より洞察に富んだエンタングルメントの解釈は系の異なる部分間の流れとして表される。

We attempt to reveal the geometry, emerged from the entanglement structure of any general $N$-party pure quantum many-body state by representing entanglement entropies corresponding to all $2^N $ bipartitions of the state by means of a generalized adjacency matrix. We show this representation is often exact and may lead to a geometry very different than suggested by the Hamiltonian. Moreover, in all the cases, it yields a natural entanglement contour, similar to previous proposals. The formalism is extended for conformal invariant systems, and a more insightful interpretation of entanglement is presented as a flow among different parts of the system.
翻訳日:2023-04-04 12:15:05 公開日:2021-04-08
# 環境に結合したスピンフォームのモデル

A Model of Spinfoam Coupled with an Environment ( http://arxiv.org/abs/2104.03849v1 )

ライセンス: Link先を確認
Quentin Ansel(参考訳) 本稿ではスピンフォームのオープン量子システム理論について述べる。 この新しい形式は、量子重力場の還元ダイナミクスを計算するための効果的なリンドブラッド方程式を導出することを目的としている。 システムパラメータはスピンフォーム形式に基づく数値ab initio計算から決定される。 この理論的な提案は例によって示される。 デコヒーレンス効果は、小さな領域のセートに向かって量子重力状態の緩和を誘導することができる。 これは、量子ビットが重力場のスピンネットワーク表現に置き換えられることで有名なqedのパーセル緩和に類似している。 これらのシステムのいくつかの熱力学特性は計算され、熱時間仮説に関するいくつかの問題が下線化されている。 さらに, 量子時空の還元ダイナミクスを研究するために, さらなる近似を行うことができることを示唆する。

In this paper, an open quantum system theory for spinfoams is developed. This new formalism aims at deriving an effective Lindblad equation to compute the reduced dynamics of a quantum gravitational field. The system parameters are determined from numerical ab initio calculations, based on the spinfoam formalism. This theoretical proposal is illustrated by means of examples. The decoherence effect can induce the relaxation of the quantum gravitational state toward a sate of a small area. This is analogue to the well-known Purcell relaxation of QED, for which the qubits are replaced by the spin-network representation of the gravitational field. Some thermodynamic properties of these systems are computed, and several issues with the thermal time hypothesis are underlined. Moreover, the results suggest that further approximations can be performed to study reduced dynamics of quantum space-time.
翻訳日:2023-04-04 12:05:00 公開日:2021-04-08
# 忠実性に基づく量子状態の純度とコヒーレンス

Fidelity based purity and coherence for quantum states ( http://arxiv.org/abs/2104.03844v1 )

ライセンス: Link先を確認
Indrajith V S, R. Muthuganesan, and R. Sankaranarayanan(参考訳) 量子状態の純度とコヒーレンスを各種情報処理タスクの有用な資源として認識する。 本稿では,純度とコヒーレンスモノトーンの忠実度に基づく有効尺度を提案し,それらの関係を確立する。 このコヒーレンスの定式化は、測定に対する量子相関に拡張される。 また,純度に対する弱い測定の役割についても検討した。

Purity and coherence of a quantum state are recognized as useful resources for various information processing tasks. In this article, we propose a fidelity based valid measure of purity and coherence monotone and establish a relationship between them. This formulation of coherence is extended to quantum correlation relative to measurement. We have also studied the role of weak measurement on purity.
翻訳日:2023-04-04 12:04:33 公開日:2021-04-08
# 温度バイアス下における動的クーロン遮断

Dynamical Coulomb blockade under a temperature bias ( http://arxiv.org/abs/2104.03812v1 )

ライセンス: Link先を確認
H. Duprez, F. Pierre, E. Sivre, A. Aassime, F.D. Parmentier, A. Cavanna, A. Ouerghi, U. Gennser, I. Safi, C. Mora, A. Anthore(参考訳) 我々は,温度差に応答する電子量子チャネルを横断する電気伝導のクーロン遮断の動的抑制を観察し,理解した。 広く調整可能なスピン偏極Ga(Al)As量子チャネルは、マイクロンスケールの金属ノードを介して、線形の$RC$回路にオンチップで接続される。 後者は2--4量子ホールチャネルによって形成される調整可能な抵抗$R\in \{1/2,1/3,1/4\}\times h/e^2$と平行にノードの幾何容量$C$で構成されている。 このシステムは、大きな電極(T$)とノード(T_\mathrm{node}$)の電子の温度と、$RC$回路(T_\mathrm{env}$)の電磁モードの温度の3つの温度で特徴づけられる。 ノード内の温度は局所ジュール散逸によって選択的に上昇し、電流変動により特徴づけられる。 トンネル領域の量子チャネルでは、コンダクタンス測定とトンネル力学クーロンブロック理論の間に密接な一致が見られる。 逆の弾道状態においては、実験データと非常によく一致して、電子および電磁風呂の温度が異なることを説明できる理論を開発する。 これらの状態を超えると、ノード内の温度が大きな電極の温度を大幅に上回る極外平衡状態にある任意の量子チャネルに対して、再スケールされた温度$\alpha T_\mathrm{node}$で導電率の平衡(均一温度)予測が回復される。

We observe and comprehend the dynamical Coulomb blockade suppression of the electrical conductance across an electronic quantum channel submitted to a temperature difference. A broadly tunable, spin-polarized Ga(Al)As quantum channel is connected on-chip, through a micron-scale metallic node, to a linear $RC$ circuit. The latter is made up of the node's geometrical capacitance $C$ in parallel with an adjustable resistance $R\in \{1/2,1/3,1/4\}\times h/e^2$ formed by 2--4 quantum Hall channels. The system is characterized by three temperatures: a temperature of the electrons in the large electrodes ($T$) and in the node ($T_\mathrm{node}$), and a temperature of the electromagnetic modes of the $RC$ circuit ($T_\mathrm{env}$). The temperature in the node is selectively increased by local Joule dissipation, and characterized from current fluctuations. For a quantum channel in the tunnel regime, a close match is found between conductance measurements and tunnel dynamical Coulomb blockade theory. In the opposite near ballistic regime, we develop a theory that accounts for different electronic and electromagnetic bath temperatures, again in very good agreement with experimental data. Beyond these regimes, for an arbitrary quantum channel set in the far out-of-equilibrium situation where the temperature in the node significantly exceeds the one in the large electrodes, the equilibrium (uniform temperature) prediction for the conductance is recovered, albeit at a rescaled temperature $\alpha T_\mathrm{node}$.
翻訳日:2023-04-04 12:04:28 公開日:2021-04-08
# 交感神経レーザー冷却のためのタンク回路補助結合法

Tank-Circuit Assisted Coupling Method for Sympathetic Laser Cooling ( http://arxiv.org/abs/2104.03719v1 )

ライセンス: Link先を確認
Bingsheng Tu, Felix Hahne, Ioanna Arapoglou, Alexander Egl, Fabian Hei{\ss}e, Martin H\"ocker, Charlotte K\"onig, Jonathan Morgner, Tim Sailer, Andreas Weigel, Robert Wolf, Sven Sturm(参考訳) 共用タンク回路を介して, 2種のイオン種の結合を分離したペニングトラップで検討する。 タンク回路で補助される結合の増強は、2つの結合したイオンの運動モードの交差挙動の測定によって実証される。 交感神経冷却のための間欠的レーザー冷却法を提案し,理論的な記述を提供する。 この技術は、2つのイオン種の結合強度を別個のトラップで調整し、高精度なペニングトラップ実験のための任意の種類の単一イオンの効率的な交感神経冷却を可能にする。

We discuss the coupling of the motion of two ion species in separate Penning traps via a common tank circuit. The enhancement of the coupling assisted by the tank circuit is demonstrated by an avoided crossing behavior measurement of the motional modes of two coupled ions. We propose an intermittent laser cooling method for sympathetic cooling and provide a theoretical description. The technique enables tuning of the coupling strength between two ion species in separate traps and thus allows for efficient sympathetic cooling of an arbitrary type of single ion for high-precision Penning-trap experiments.
翻訳日:2023-04-04 12:03:23 公開日:2021-04-08
# 診断質問の結果と展望:NeurIPS 2020教育課題

Results and Insights from Diagnostic Questions: The NeurIPS 2020 Education Challenge ( http://arxiv.org/abs/2104.04034v1 )

ライセンス: Link先を確認
Zichao Wang, Angus Lamb, Evgeny Saveliev, Pashmina Cameron, Yordan Zaykov, Jose Miguel Hernandez-Lobato, Richard E. Turner, Richard G. Baraniuk, Craig Barton, Simon Peyton Jones, Simon Woodhead, Cheng Zhang(参考訳) このコンペティションは、教育的に効果的なマルチチョイス質問(mcqs)の教育的診断問題に関するものである。 このような質問がどんどん増えていく中で、教師はどの質問が生徒にとって最適な質問であるかを知ることが圧倒的に多い。 手動のパーソナライゼーションが不可能な大規模学習シナリオにおいて,自動パーソナライズ学習を推進するために,MCQに対する数十億の回答に関するデータをどのように活用すればよいのか? 大規模なMCQデータの利用の成功は、よりインテリジェントでパーソナライズされた学習プラットフォームの構築に役立つ。 そこで本研究では,本研究では,mqs上での新たな大規模実世界データセットと4つのデータマイニングタスクを導入し,実際の学習シナリオを模倣し,neurips 2020のコンペティションにおいて,上記の質問のさまざまな側面を対象とする。 neuripsコンペティションでは,400名近いチームが約4000回の応募を行い,それぞれのタスクに対して多様で効果的なアプローチを奨励しています。

This competition concerns educational diagnostic questions, which are pedagogically effective, multiple-choice questions (MCQs) whose distractors embody misconceptions. With a large and ever-increasing number of such questions, it becomes overwhelming for teachers to know which questions are the best ones to use for their students. We thus seek to answer the following question: how can we use data on hundreds of millions of answers to MCQs to drive automatic personalized learning in large-scale learning scenarios where manual personalization is infeasible? Success in using MCQ data at scale helps build more intelligent, personalized learning platforms that ultimately improve the quality of education en masse. To this end, we introduce a new, large-scale, real-world dataset and formulate 4 data mining tasks on MCQs that mimic real learning scenarios and target various aspects of the above question in a competition setting at NeurIPS 2020. We report on our NeurIPS competition in which nearly 400 teams submitted approximately 4000 submissions, with encouragingly diverse and effective approaches to each of our tasks.
翻訳日:2023-04-04 11:56:41 公開日:2021-04-08
# 通信サービス不均衡とインフラ資源の展開について

On Telecommunication Service Imbalance and Infrastructure Resource Deployment ( http://arxiv.org/abs/2104.03948v1 )

ライセンス: Link先を確認
Chuanting Zhang, Shuping Dang, Basem Shihada, Mohamed-Slim Alouini(参考訳) 現代の情報通信技術の利益のために発展途上国に住む人々のアクセスを制限するデジタル格差は、大きな課題と研究の焦点となっている。 デジタルディビジョンを十分に理解し、最終的にブリッジするには、まず、通信サービスの不均衡を特徴づけ、定量化する適切な手段を見つける必要がある。 本稿では,通信サービス不均衡,通信インフラ,人口分布の関係を定量的にリンクすることを目的とした,きめ細かな計算容易な不均衡指標を提案する。 不均衡指数の数学的にエレガントで汎用的な形式は、異種シナリオの一貫した分析を可能にし、異なる通信ポリシーとアプリケーションシナリオを組み込むように簡単に調整できる。 この指標に基づいて,地理セグメントの平均不均衡指数を最小化することにより,インフラ資源展開戦略を提案する。 実験結果から, 既成の同次的だが粗粒度に高い相関性を示し, インフラ資源配置戦略の優位性を示すことにより, 不均衡指数の有効性を検証した。

The digital divide restricting the access of people living in developing areas to the benefits of modern information and communications technologies has become a major challenge and research focus. To well understand and finally bridge the digital divide, we first need to discover a proper measure to characterize and quantify the telecommunication service imbalance. In this regard, we propose a fine-grained and easy-to-compute imbalance index, aiming to quantitatively link the relation among telecommunication service imbalance, telecommunication infrastructure, and demographic distribution. The mathematically elegant and generic form of the imbalance index allows consistent analyses for heterogeneous scenarios and can be easily tailored to incorporate different telecommunication policies and application scenarios. Based on this index, we also propose an infrastructure resource deployment strategy by minimizing the average imbalance index of any geographical segment. Experimental results verify the effectiveness of the proposed imbalance index by showing a high degree of correlation to existing congeneric but coarse-grained measures and the superiority of the infrastructure resource deployment strategy.
翻訳日:2023-04-04 11:55:12 公開日:2021-04-08
# キャビティ結合シリコン三重量子ドットの高忠実性読み出しのためのスピンデジタイザ

Spin digitizer for high-fidelity readout of a cavity-coupled silicon triple quantum dot ( http://arxiv.org/abs/2104.03862v1 )

ライセンス: Link先を確認
F. Borjans, X. Mi, J. R. Petta(参考訳) スピンベースの量子情報処理の重要な要件は、電子スピン状態の信頼性と高速読み出しであり、フィードバックとエラー訂正を可能にする。 しかし、一般的な読み出し技術は、デバイススケーリングを妨げる追加のゲート構造や、知覚された量子ドットのチューニング構成に厳密な制約を課すことがしばしば必要である。 ここでは3つの量子ドット内でインライン電荷センサを動作させ、一方のドットをマイクロ波空洞に結合させ、残りの2つのドットの電荷状態を読み取る。 電荷センサの近接により,電力信号-雑音比450 >450 の近デジタルセンサ応答を $t_{\rm int}$ = 1 $\mu$s の積分時間で観測する。 シングルトリップの小さな分割は$$40$\mu$eVであるにもかかわらず、このセンサを使用してシングルトリップのキュービットのスピン緩和時間を測定し、平均的なシングルショットスピンリードアウトフィリティを99%以上達成する。 半導体量子デバイスにおける最小デバイスオーバヘッドとフレキシブル量子ビット演算を組み合わせた高忠実性スピン読み出しを実現する。

An important requirement for spin-based quantum information processing is reliable and fast readout of electron spin states, allowing for feedback and error correction. However, common readout techniques often require additional gate structures hindering device scaling or impose stringent constraints on the tuning configuration of the sensed quantum dots. Here, we operate an in-line charge sensor within a triple quantum dot, where one of the dots is coupled to a microwave cavity and used to readout the charge states of the other two dots. Owing to the proximity of the charge sensor, we observe a near-digital sensor response with a power signal-to-noise ratio >450 at an integration time of $t_{\rm int}$ = 1 $\mu$s. Despite small singlet-triplet splittings $\approx$40 $\mu$eV, we further utilize the sensor to measure the spin relaxation time of a singlet-triplet qubit, achieving an average single-shot spin readout fidelity >99%. Our approach enables high-fidelity spin readout, combining minimal device overhead with flexible qubit operation in semiconductor quantum devices.
翻訳日:2023-04-04 11:54:23 公開日:2021-04-08
# 0.2mから8mのカシミール力の測定:実験的手順と理論との比較

Measurement of the Casimir Force between 0.2 and 8 mum: Experimental Procedures and Comparison with Theory ( http://arxiv.org/abs/2104.03857v1 )

ライセンス: Link先を確認
Giuseppe Bimonte, Benjamin Spreng, Paulo A. Maia Neto, Gert-Ludwig Ingold, Galina L. Klimchitskaya, Vladimir M. Mostepanenko, and Ricardo S. Decca(参考訳) 本研究では,Au-coated sapphire sphere とAu-coated deep Silicon trenches の上部および下部のカシミール力について,0.2 から 8 $\upmu$m の範囲でマイクロメカニカルねじり振動子を用いて測定した。 測定された力信号のランダムおよび系統的誤差は、95%の信頼度で決定され、合計実験誤差に結合される。 表面粗さとエッジ効果について検討し, 無視できるほど小さいことを示した。 パッチ電位の分布はケルビンプローブ顕微鏡によって特徴づけられ、パッチの典型的なサイズ、各r.m.s.電圧、測定力への影響を推定できる。 実験結果と理論の比較を適合パラメータなしで行った。 この目的のために、球面幾何学におけるカシミール力は散乱理論と勾配展開を用いた量子電磁力学の第一原理に基づいて独立に計算される。 これにより、Auの周波数依存性誘電率は、プラズマとドルーデモデルを用いてゼロ周波数に外挿された光学データから得られる。 その結果,Drudeモデル外挿は0.2~4.8〜$\upmu$mの分離領域で除外され,プラズマモデルによる代替外挿は全測定範囲で実験的に一定であることが示唆された。 得られた結果に関する議論が提供される。

We present results on the determination of the differential Casimir force between an Au-coated sapphire sphere and the top and bottom of Au-coated deep silicon trenches performed by means of the micromechanical torsional oscillator in the range of separations from 0.2 to 8 $\upmu$m. The random and systematic errors in the measured force signal are determined at the 95\% confidence level and combined into the total experimental error. The role of surface roughness and edge effects is investigated and shown to be negligibly small. The distribution of patch potentials is characterized by Kelvin probe microscopy, yielding an estimate of the typical size of patches, the respective r.m.s. voltage and their impact on the measured force. A comparison between the experimental results and theory is performed with no fitting parameters. For this purpose, the Casimir force in the sphere-plate geometry is computed independently on the basis of first principles of quantum electrodynamics using the scattering theory and the gradient expansion. In doing so, the frequency-dependent dielectric permittivity of Au is found from the optical data extrapolated to zero frequency by means of the plasma and Drude models. It is shown that the measurement results exclude the Drude model extrapolation over the region of separations from 0.2 to 4.8~$\upmu$m, whereas the alternative extrapolation by means of the plasma model is experimentally consistent over the entire measurement range. A discussion of the obtained results is provided.
翻訳日:2023-04-04 11:54:00 公開日:2021-04-08
# zero-bias deep learningはiotで迅速かつ信頼性の高い異常検出を可能にする

Zero-bias Deep Learning Enabled Quick and Reliable Abnormality Detection in IoT ( http://arxiv.org/abs/2105.15098v1 )

ライセンス: Link先を確認
Yongxin Liu, Jian Wang, Jianqiang Li, Shuteng Niu, Houbing Song(参考訳) 異常検出は、安全クリティカルおよび遅延制約のあるシステムの性能に不可欠である。 しかし,大量の異種データとシステムが複雑化するにつれ,従来の統計的変化点検出法はより効率的かつ効率的になってきている。 深層学習(DL)と深層ニューラルネットワーク(DNN)は、異種データを扱うためにますます採用されているが、理論上は保証可能な性能と説明性に欠ける。 本稿では、ゼロバイアスDNNとクイックストイベント検出アルゴリズムを統合し、IoT(Internet of Things)における異常と時間依存異常の両方を迅速かつ確実に検出するための総合的なフレームワークを提供する。 まず, ゼロバイアス密度層を用いてDNNの説明可能性を高める。 ゼロバイアスDNN分類器を性能保証バイナリ異常検出器に変換するソリューションを提供する。 変換された異常検出器を用いて、理論的に保証される最も低い異常検出遅延を誤警報で検出するシーケンシャルな最短検出方式を提案する。 最後に,実世界の航空通信システムからの膨大な信号記録とシミュレーションデータの両方を用いて,フレームワークの有効性を示す。 私たちの仕事のコードとデータは \url{https://github.com/pcwhy/abnormalitydetectioninzbdnn} で入手できる。

Abnormality detection is essential to the performance of safety-critical and latency-constrained systems. However, as systems are becoming increasingly complicated with a large quantity of heterogeneous data, conventional statistical change point detection methods are becoming less effective and efficient. Although Deep Learning (DL) and Deep Neural Networks (DNNs) are increasingly employed to handle heterogeneous data, they still lack theoretic assurable performance and explainability. This paper integrates zero-bias DNN and Quickest Event Detection algorithms to provide a holistic framework for quick and reliable detection of both abnormalities and time-dependent abnormal events in the Internet of Things (IoT). We first use the zero-bias dense layer to increase the explainability of DNN. We provide a solution to convert zero-bias DNN classifiers into performance assured binary abnormality detectors. Using the converted abnormality detector, we then present a sequential quickest detection scheme that provides the theoretically assured lowest abnormal event detection delay under false alarm constraints. Finally, we demonstrate the effectiveness of the framework using both massive signal records from real-world aviation communication systems and simulated data. Code and data of our work is available at \url{https://github.com/pcwhy/AbnormalityDetectionInZbDNN}
翻訳日:2023-04-04 11:44:33 公開日:2021-04-08
# 安全で透明なCovid-19ワクチンのためのブロックチェーン技術

Blockchain technology for a Safe and Transparent Covid-19 Vaccination ( http://arxiv.org/abs/2104.05428v1 )

ライセンス: Link先を確認
Maha Filali Rotbi and Saad Motahhir and Abdelaziz El Ghzizal(参考訳) 2019年後半、私たちはコビッドウイルスの出現を目撃しました。 ウイルスが最初に現れたのは武漢で、旅行のため世界中に広がった。 sars-cov-2ウイルスの2つの特徴は、指数関数的拡散と高い死亡率であり、世界全体を世界的なロックダウンに追い込んだ。 健康と経済の危機と社会の分散は、世界が非常に困難な状況に陥っている。 医療システムに対する前例のないプレッシャーは、この業界だけでなく、多くの分野に多くの抜け穴を露出させ、研究者や科学者が直面しなければならない新たな課題を生み出した。 これらすべての状況において、驚くほど短い時間で、複数のワクチン候補を作成することができました。 ワクチンは臨床的に試験され、承認され、ワクチン接種の段階に至りました。 この文脈では、安全性、セキュリティ、透明性、トレーサビリティが非常に必要です。 本稿では,効率的なワクチン接種キャンペーンへの貢献として,ワクチンの登録,保管,配布を管理するブロックチェーンベースのシステムを提案する。

In late 2019, we witnessed the apparition of the covid-19 virus. The virus appeared first in Wuhan, and due to people travel was spread worldwide. Exponential spread as well as high mortality rates, the two characteristics of the SARS-CoV-2 virus that pushed the entire world into a global lock-down. Health and economic crisis, along with social distancing have put the globe in a highly challenging situation. Unprecedented pressure on the health care system exposed many loopholes not only in this industry but many other sectors, which resulted in a set of new challenges that researchers and scientists among others must face. In all these circumstances, we could attend, in a surprisingly short amount of time, the creation of multiple vaccine candidates. The vaccines were clinically tested and approved, which brought us to the phase of vaccination. Safety, security, transparency, and traceability are highly required in this context. As a contribution to assure an efficient vaccination campaign, in this paper we suggest a Blockchain-based system to manage the registration, storage, and distribution of the vaccines.
翻訳日:2023-04-04 11:44:11 公開日:2021-04-08
# コントラスト非依存的MRIセグメンテーションのための学習戦略

A Learning Strategy for Contrast-agnostic MRI Segmentation ( http://arxiv.org/abs/2003.01995v3 )

ライセンス: Link先を確認
Benjamin Billot, Douglas Greve, Koen Van Leemput, Bruce Fischl, Juan Eugenio Iglesias, Adrian V. Dalca(参考訳) 我々は,脳mriスキャンのコントラスト非依存的セグメンテーションを,新たなモダリティのための追加のトレーニングや微調整を必要とせずに,初めて可能とする深層学習戦略を提案する。 古典的ベイズ法はこのセグメンテーション問題を教師なしの強度モデルで解決するが、かなりの計算資源を必要とする。 対照的に、学習ベースの方法はテスト時に高速であるが、トレーニングで得られるデータに敏感である。 提案する学習法であるsynthsegは,訓練中に様々なコントラストの合成サンプル画像を生成するために,一連の訓練セグメンテーション(強度画像不要)を利用する。 これらのサンプルは古典的ベイズ分断フレームワークの生成モデルを用いて生成され、外見、変形、雑音、バイアス場に対するランダムなサンプルパラメータを持つ。 それぞれのミニバッチは異なる合成コントラストを持つため、最終的なネットワークはMRIコントラストに偏らない。 我々は,1000名以上の被験者と4種類のMRコントラストからなる4つのデータセットに対するアプローチを総合的に評価した。 その結果,データ中のすべてのコントラストを分割し,従来のベイズ区分よりもわずかに優れ,3桁の高速化が得られた。 さらに,mriコントラストの同じタイプであっても,実際の画像を用いたトレーニングに比べて,データセット間での戦略の一般化が著しく向上している。 最後に、広範囲のコントラストを合成することは、非現実的であっても、ニューラルネットワークの一般化を増加させる。 私たちのコードとモデルはhttps://github.com/BBillot/SynthSeg.comでオープンソースです。

We present a deep learning strategy that enables, for the first time, contrast-agnostic semantic segmentation of completely unpreprocessed brain MRI scans, without requiring additional training or fine-tuning for new modalities. Classical Bayesian methods address this segmentation problem with unsupervised intensity models, but require significant computational resources. In contrast, learning-based methods can be fast at test time, but are sensitive to the data available at training. Our proposed learning method, SynthSeg, leverages a set of training segmentations (no intensity images required) to generate synthetic sample images of widely varying contrasts on the fly during training. These samples are produced using the generative model of the classical Bayesian segmentation framework, with randomly sampled parameters for appearance, deformation, noise, and bias field. Because each mini-batch has a different synthetic contrast, the final network is not biased towards any MRI contrast. We comprehensively evaluate our approach on four datasets comprising over 1,000 subjects and four types of MR contrast. The results show that our approach successfully segments every contrast in the data, performing slightly better than classical Bayesian segmentation, and three orders of magnitude faster. Moreover, even within the same type of MRI contrast, our strategy generalizes significantly better across datasets, compared to training using real images. Finally, we find that synthesizing a broad range of contrasts, even if unrealistic, increases the generalization of the neural network. Our code and model are open source at https://github.com/BBillot/SynthSeg.
翻訳日:2022-12-26 13:35:07 公開日:2021-04-08
# gMADによる能動微調整によるブラインド画像品質評価の改善

Active Fine-Tuning from gMAD Examples Improves Blind Image Quality Assessment ( http://arxiv.org/abs/2003.03849v2 )

ライセンス: Link先を確認
Zhihua Wang and Kede Ma(参考訳) 画像品質評価(IQA)の研究は長い歴史を持ち、近年のディープニューラルネットワーク(DNN)の進歩を活用して大きな進歩を遂げている。 既存のIQAデータセットに高い相関数があるにもかかわらず、DNNベースのモデルは、強力な反例が特定されるグループ最大微分(gMAD)競合において容易にファルシファイドされる。 ここでは、gMADの例をブラインドIQA(BIQA)法の改善に利用できることを示す。 具体的には、まず複数のノイズアノテータを用いてDNNベースのBIQAモデルを事前訓練し、合成歪み画像の複数の主観評価データベース上で微調整し、最高性能のベースラインモデルを作成する。 次に、ベースラインモデルとgMADの完全な参照IQA手法のセットを比較して画像のペアを求める。 結果として得られたgMADの例は、ベースラインの相対的な弱点を明らかにし、改善の可能性を示唆している。 実験室環境において,選択した画像に対して,地上の真偽のアノテーションをクエリし,さらに,gMADと既存のデータベースからの人文評価画像の組み合わせに基づいて,ベースラインを微調整する。 このプロセスは反復され、BIQAのgMAD例からアクティブでプログレッシブな微調整を可能にする。 大規模未ラベル画像集合上での能動学習方式の有効性を実証し,従来訓練されていたデータベースの性能を損なうことなく,細調整によりgMADの一般化性を向上させることを示す。

The research in image quality assessment (IQA) has a long history, and significant progress has been made by leveraging recent advances in deep neural networks (DNNs). Despite high correlation numbers on existing IQA datasets, DNN-based models may be easily falsified in the group maximum differentiation (gMAD) competition with strong counterexamples being identified. Here we show that gMAD examples can be used to improve blind IQA (BIQA) methods. Specifically, we first pre-train a DNN-based BIQA model using multiple noisy annotators, and fine-tune it on multiple subject-rated databases of synthetically distorted images, resulting in a top-performing baseline model. We then seek pairs of images by comparing the baseline model with a set of full-reference IQA methods in gMAD. The resulting gMAD examples are most likely to reveal the relative weaknesses of the baseline, and suggest potential ways for refinement. We query ground truth quality annotations for the selected images in a well controlled laboratory environment, and further fine-tune the baseline on the combination of human-rated images from gMAD and existing databases. This process may be iterated, enabling active and progressive fine-tuning from gMAD examples for BIQA. We demonstrate the feasibility of our active learning scheme on a large-scale unlabeled image set, and show that the fine-tuned method achieves improved generalizability in gMAD, without destroying performance on previously trained databases.
翻訳日:2022-12-25 14:44:10 公開日:2021-04-08
# 深部カプセルを用いた血管内光コヒーレンス・トモグラフィからの冠動脈解離

Coronary Artery Segmentation from Intravascular Optical Coherence Tomography Using Deep Capsules ( http://arxiv.org/abs/2003.06080v4 )

ライセンス: Link先を確認
Arjun Balaji, Lachlan Kelsey, Kamran Majeed, Carl Schultz, Barry Doyle(参考訳) 血管内光コヒーレンストモグラフィ(IVOCT)による冠状動脈の分画と解析は,冠動脈疾患の診断と管理の重要な側面である。 現在の画像処理手法は、専門家ラベル付きデータセットの生成に必要な時間と分析中のバイアスの可能性によって妨げられている。 したがって、画像処理を用いたivoctからの自動化、ロバスト、非バイアス、タイムリーな幾何抽出は臨床医にとって有益である。 臨床応用を念頭に置いて,セグメンテーション品質を犠牲にすることなく,推定時間を短縮したメモリフットプリントの少ないモデルの開発を目標としている。 22名の患者から得られた12,011個のエキスパートラベル画像からなる大規模ivoctデータセットを用いて,ルーメンセグメンテーションを自動的に生成するカプセルに基づく新しい深層学習法を構築した。 我々のデータセットには、血液と光の人工物(22.8%)と金属(23.1%)と生体吸収性ステント(2.5%)の画像が含まれている。 データセットをトレーニング(70%)、バリデーション(20%)、テスト(10%)に分割し、システムのスケールアップと入力選択に関して設計のバリエーションを厳格に調査しました。 私たちは、私たちの開発が12%のパラメータを使用しながら、セグメンテーションの品質と堅牢性の観点から最先端の機械学習手法と同等のモデルであるDeepCapに繋がることを示す。 これにより、DeepCapは他の最先端モデルと比較してGPUでは最大70%高速、CPUでは最大95%高速となる。 deepcapはロバストな自動セグメンテーションツールで、臨床医がivoctから偏りのない幾何学的データを抽出できるようにする。

The segmentation and analysis of coronary arteries from intravascular optical coherence tomography (IVOCT) is an important aspect of diagnosing and managing coronary artery disease. Current image processing methods are hindered by the time needed to generate expert-labelled datasets and the potential for bias during the analysis. Therefore, automated, robust, unbiased and timely geometry extraction from IVOCT, using image processing, would be beneficial to clinicians. With clinical application in mind, we aim to develop a model with a small memory footprint that is fast at inference time without sacrificing segmentation quality. Using a large IVOCT dataset of 12,011 expert-labelled images from 22 patients, we construct a new deep learning method based on capsules which automatically produces lumen segmentations. Our dataset contains images with both blood and light artefacts (22.8%), as well as metallic (23.1%) and bioresorbable stents (2.5%). We split the dataset into a training (70%), validation (20%) and test (10%) set and rigorously investigate design variations with respect to upsampling regimes and input selection. We show that our developments lead to a model, DeepCap, that is on par with state-of-the-art machine learning methods in terms of segmentation quality and robustness, while using as little as 12% of the parameters. This enables DeepCap to have per image inference times up to 70% faster on GPU and up to 95% faster on CPU compared to other state-of-the-art models. DeepCap is a robust automated segmentation tool that can aid clinicians to extract unbiased geometrical data from IVOCT.
翻訳日:2022-12-24 01:23:08 公開日:2021-04-08
# DIDFuse:赤外線と可視画像融合のための深部画像分解

DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2003.09210v3 )

ライセンス: Link先を確認
Zixiang Zhao, Shuang Xu, Chunxia Zhang, Junmin Liu, Pengfei Li, Jiangshe Zhang(参考訳) 画像処理分野におけるホットトピックである赤外線および可視画像融合は,画像の利点を活かした融合画像を得ることを目的としている。 本稿では,新しい自動エンコーダ(AE)ベースの核融合ネットワークを提案する。 中心となる考え方は、エンコーダが背景と細部の特徴マップにそれぞれ低周波と高周波の情報を分解し、デコーダが元の画像を復元するというものである。 この目的のために、損失関数はソース画像の背景/詳細特徴マップを類似/異同させる。 テストフェーズでは、背景特徴マップとディテール特徴マップをそれぞれフュージョンモジュールを介してマージし、デコーダによって融合画像を復元する。 定性的かつ定量的な結果から,本手法は,強い強靭性を持ちながら,最先端(SOTA)アプローチを超越した,鮮明なテクスチャ情報を含む融合画像を生成することができることを示す。

Infrared and visible image fusion, a hot topic in the field of image processing, aims at obtaining fused images keeping the advantages of source images. This paper proposes a novel auto-encoder (AE) based fusion network. The core idea is that the encoder decomposes an image into background and detail feature maps with low- and high-frequency information, respectively, and that the decoder recovers the original image. To this end, the loss function makes the background/detail feature maps of source images similar/dissimilar. In the test phase, background and detail feature maps are respectively merged via a fusion module, and the fused image is recovered by the decoder. Qualitative and quantitative results illustrate that our method can generate fusion images containing highlighted targets and abundant detail texture information with strong robustness and meanwhile surpass state-of-the-art (SOTA) approaches.
翻訳日:2022-12-21 23:01:22 公開日:2021-04-08
# メモリオーバーフローのないAutodiffによるGPU上のカーネル操作

Kernel Operations on the GPU, with Autodiff, without Memory Overflows ( http://arxiv.org/abs/2004.11127v2 )

ライセンス: Link先を確認
Benjamin Charlier, Jean Feydy, Joan Alexis Glaun\`es, Fran\c{c}ois-David Collin, Ghislain Durif(参考訳) keopsライブラリは、カーネルや距離行列などの数式でエントリが与えられるテンソルに対して、高速でメモリ効率のよいgpuサポートを提供する。 keopsは、カーネルと幾何アプリケーションのためのテンソル中心ライブラリのボトルネックであるメモリ消費を緩和する。 また、PyTorch CUDAテンソルやHalideやTVMライブラリなど、標準的なGPUベースラインの差別化やパフォーマンス向上もサポートする。 keopsは最適化されたc++/cudaスキーマとpython(numpyとpytorch)、matlab、gnu rといったハイレベル言語用のバインダーを組み合わせる。 KeOpsは、カーネルメソッドのグラフィックライクなパフォーマンスを提供し、標準リポジトリ(PyPi、CRAN)で自由に利用できる。 その汎用性を示すために、我々はオンラインで幅広い設定のチュートリアルを \url{www.kernel-operations.io} で提供している。

The KeOps library provides a fast and memory-efficient GPU support for tensors whose entries are given by a mathematical formula, such as kernel and distance matrices. KeOps alleviates the major bottleneck of tensor-centric libraries for kernel and geometric applications: memory consumption. It also supports automatic differentiation and outperforms standard GPU baselines, including PyTorch CUDA tensors or the Halide and TVM libraries. KeOps combines optimized C++/CUDA schemes with binders for high-level languages: Python (Numpy and PyTorch), Matlab and GNU R. As a result, high-level "quadratic" codes can now scale up to large data sets with millions of samples processed in seconds. KeOps brings graphics-like performances for kernel methods and is freely available on standard repositories (PyPi, CRAN). To showcase its versatility, we provide tutorials in a wide range of settings online at \url{www.kernel-operations.io}.
翻訳日:2022-12-19 05:19:58 公開日:2021-04-08
# 視覚に基づく模倣学習からの近似逆強化学習

Approximate Inverse Reinforcement Learning from Vision-based Imitation Learning ( http://arxiv.org/abs/2004.08051v3 )

ライセンス: Link先を確認
Keuntaek Lee, Bogdan Vlahov, Jason Gibson, James M. Rehg, Evangelos A. Theodorou(参考訳) 本稿では,視覚に基づくナビゲーションのための暗黙的目的関数を得る手法を提案する。 提案手法は、模倣学習、モデル予測制御(mpc)、深層ニューラルネットワークで使用される解釈技術に依存する。 我々は,視覚ナビゲーション課題に対して近似コスト関数生成器を作成するために,模倣学習を逆強化学習の手段として用いる。 結果として生じるコストマップは、MPCと協調してリアルタイム制御を行い、新しい環境における他の最先端のコストマップジェネレータよりも優れている。 提案するプロセスは、サンプル外データに対する簡単なトレーニングと堅牢性を可能にする。 本手法は,複数の実環境およびシミュレーション環境における視覚に基づく自律運転の課題に適用し,その一般化性を示す。

In this work, we present a method for obtaining an implicit objective function for vision-based navigation. The proposed methodology relies on Imitation Learning, Model Predictive Control (MPC), and an interpretation technique used in Deep Neural Networks. We use Imitation Learning as a means to do Inverse Reinforcement Learning in order to create an approximate cost function generator for a visual navigation challenge. The resulting cost function, the costmap, is used in conjunction with MPC for real-time control and outperforms other state-of-the-art costmap generators in novel environments. The proposed process allows for simple training and robustness to out-of-sample data. We apply our method to the task of vision-based autonomous driving in multiple real and simulated environments and show its generalizability.
翻訳日:2022-12-12 10:05:49 公開日:2021-04-08
# 任意の解像度とコントラストを有する脳MRIスキャンの部分容積分割

Partial Volume Segmentation of Brain MRI Scans of any Resolution and Contrast ( http://arxiv.org/abs/2004.10221v3 )

ライセンス: Link先を確認
Benjamin Billot, Eleanor D. Robinson, Adrian V. Dalca, Juan Eugenio Iglesias(参考訳) 部分ボラーミング(PV)は、確率論的アトラスを伴う脳MRIのベイズ分割における最後の重要な未解決問題である。 PVは、ボクセルが複数の組織クラスを含むときに起こり、下層のどのクラスにも代表されない画像強度を引き起こす。 PVは、アトラスとテストスキャンの間に大きな解像度ギャップがある場合、例えば、臨床スキャンを厚いスライスで分割したり、高解像度のアトラスを使用する場合、特に問題となる。 本研究では,この問題に対処する畳み込みニューラルネットワーク(CNN)であるPV-SynthSegについて,低分解能(LR)スキャンと根底にある高分解能(HR)セグメンテーションのマッピングを直接学習する。 PV-SynthSegは、HRラベルマップからのLR画像をPVの生成モデルでシミュレートし、トレーニング時に画像もセグメンテーションも使用できない未確認のモダリティであっても、任意の目標コントラストと解像度のスキャンをセグメント化するように訓練することができる。 PV-SynthSegは前処理を一切必要とせず、数秒で実行される。 提案手法の精度と柔軟性を3つのデータセットと2,680のスキャンで検証した。 コードはhttps://github.com/BBillot/SynthSegで入手できる。

Partial voluming (PV) is arguably the last crucial unsolved problem in Bayesian segmentation of brain MRI with probabilistic atlases. PV occurs when voxels contain multiple tissue classes, giving rise to image intensities that may not be representative of any one of the underlying classes. PV is particularly problematic for segmentation when there is a large resolution gap between the atlas and the test scan, e.g., when segmenting clinical scans with thick slices, or when using a high-resolution atlas. In this work, we present PV-SynthSeg, a convolutional neural network (CNN) that tackles this problem by directly learning a mapping between (possibly multi-modal) low resolution (LR) scans and underlying high resolution (HR) segmentations. PV-SynthSeg simulates LR images from HR label maps with a generative model of PV, and can be trained to segment scans of any desired target contrast and resolution, even for previously unseen modalities where neither images nor segmentations are available at training. PV-SynthSeg does not require any preprocessing, and runs in seconds. We demonstrate the accuracy and flexibility of the method with extensive experiments on three datasets and 2,680 scans. The code is available at https://github.com/BBillot/SynthSeg.
翻訳日:2022-12-11 06:38:02 公開日:2021-04-08
# UCCAにおけるインシシシットアノテーションの精製

Refining Implicit Argument Annotation for UCCA ( http://arxiv.org/abs/2005.12889v4 )

ライセンス: Link先を確認
Ruixiang Cui, Daniel Hershcovich(参考訳) 述語構造分析は、テキストの表現を意味する中心的な構成要素である。 ある文で明示的に言及されていない議論が言語理解の曖昧さを引き起こし、機械がテキストを正しく解釈することが困難になる。 しかし、nluの暗黙的な役割を表わすリソースはごくわずかであり、nlpの既存の研究は言語形式から省略された議論のカテゴリを区別するだけである。 本稿では,Universal Conceptual Cognitive Annotationの基盤層上に暗黙的アノテーションを具体化する手法を提案する。 提案される暗黙的議論の分類は暗黙的役割解釈の理論によって行われ、deictic, generic, genre-based, type-identizable, non-specific, and iterated-setの6種類からなる。 我々は、UCCA EWTコーパスの一部を再検討し、改良層に注釈を付けた新しいデータセットを提供し、他のスキームとの比較分析を行うことで、設計を例示する。

Predicate-argument structure analysis is a central component in meaning representations of text. The fact that some arguments are not explicitly mentioned in a sentence gives rise to ambiguity in language understanding, and renders it difficult for machines to interpret text correctly. However, only few resources represent implicit roles for NLU, and existing studies in NLP only make coarse distinctions between categories of arguments omitted from linguistic form. This paper proposes a typology for fine-grained implicit argument annotation on top of Universal Conceptual Cognitive Annotation's foundational layer. The proposed implicit argument categorisation is driven by theories of implicit role interpretation and consists of six types: Deictic, Generic, Genre-based, Type-identifiable, Non-specific, and Iterated-set. We exemplify our design by revisiting part of the UCCA EWT corpus, providing a new dataset annotated with the refinement layer, and making a comparative analysis with other schemes.
翻訳日:2022-11-29 00:05:54 公開日:2021-04-08
# ロバスト性解析による説明の評価と方法

Evaluations and Methods for Explanation through Robustness Analysis ( http://arxiv.org/abs/2006.00442v2 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Chih-Kuan Yeh, Xuanqing Liu, Pradeep Ravikumar, Seungyeon Kim, Sanjiv Kumar, Cho-Jui Hsieh(参考訳) モデル予測に向けて各機能の重要性を提供する特徴に基づく説明は、おそらくモデルを説明する最も直感的な方法の1つである。 本稿では,ロバスト性分析による特徴量に基づく説明に対する新しい評価基準を定式化する。 バイアスやアーティファクトを必然的に導入する可能性のある機能を"削除"する方法を指定しなければならない既存の評価とは対照的に、より小さな対角的摂動という微妙な概念を活用しています。 提案する評価基準を最適化することにより,予測に適したゆるやかに必要となる新たな説明を得る。 さらに、ロバストネス解析にターゲット対向攻撃を採用することにより、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明をさらに拡張する。 複数のドメインにわたる実験とユーザスタディを通じて,評価基準と導出した説明の有効性を検証する。

Feature based explanations, that provide importance of each feature towards the model prediction, is arguably one of the most intuitive ways to explain a model. In this paper, we establish a novel set of evaluation criteria for such feature based explanations by robustness analysis. In contrast to existing evaluations which require us to specify some way to "remove" features that could inevitably introduces biases and artifacts, we make use of the subtler notion of smaller adversarial perturbations. By optimizing towards our proposed evaluation criteria, we obtain new explanations that are loosely necessary and sufficient for a prediction. We further extend the explanation to extract the set of features that would move the current prediction to a target class by adopting targeted adversarial attack for the robustness analysis. Through experiments across multiple domains and a user study, we validate the usefulness of our evaluation criteria and our derived explanations.
翻訳日:2022-11-26 12:23:24 公開日:2021-04-08
# vqa回答空間における意味構造の推定

Estimating semantic structure for the VQA answer space ( http://arxiv.org/abs/2006.05726v2 )

ライセンス: Link先を確認
Corentin Kervadec (imagine), Grigory Antipov, Moez Baccouche, Christian Wolf (imagine)(参考訳) 視覚的質問回答(VQA)は、その出現以来、事前に定義された一連の回答に対して、常に分類問題として扱われてきた。 その便利さにもかかわらず、この分類法は、犬の代わりに猫やドイツ人の羊飼いに等しく罰するなど)の類似性を考慮せずに、独立した提案の選択に答えることを制限する問題の意味論を反映していない。 本稿では,(1)VQAクラス間の近接性に関する2つの尺度,(2)推定された近接性を考慮した対応する損失を提案する。 これにより、VQAモデルの一般化が大幅に改善される。 特に、3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。 最後に,本手法と言語バイアス低減手法を組み合わせることで,挑戦的なVQAv2-CPデータセット上でのSOTAレベルの性能を報告する。

Since its appearance, Visual Question Answering (VQA, i.e. answering a question posed over an image), has always been treated as a classification problem over a set of predefined answers. Despite its convenience, this classification approach poorly reflects the semantics of the problem limiting the answering to a choice between independent proposals, without taking into account the similarity between them (e.g. equally penalizing for answering cat or German shepherd instead of dog). We address this issue by proposing (1) two measures of proximity between VQA classes, and (2) a corresponding loss which takes into account the estimated proximity. This significantly improves the generalization of VQA models by reducing their language bias. In particular, we show that our approach is completely model-agnostic since it allows consistent improvements with three different VQA models. Finally, by combining our method with a language bias reduction approach, we report SOTA-level performance on the challenging VQAv2-CP dataset.
翻訳日:2022-11-23 04:12:17 公開日:2021-04-08
# 実践的動機づけ課題の言語間伝達学習における異文化間類似性

Cross-Cultural Similarity Features for Cross-Lingual Transfer Learning of Pragmatically Motivated Tasks ( http://arxiv.org/abs/2006.09336v2 )

ライセンス: Link先を確認
Jimin Sun, Hwijeen Ahn, Chan Young Park, Yulia Tsvetkov, David R. Mortensen(参考訳) 言語間移動学習における多くの研究は、多言語タスクのためのより良い移動言語を選択する方法を探究した。 我々は,これらの言語的近接性の尺度は,感情分析などの実践的動機付けタスクを扱う場合に十分ではないと仮定する。 その代替として,言語パターンに現れる異文化間の類似性を捉え,言語実践の異なる側面を定量化する3つの言語的特徴,すなわち言語文脈レベル,フィギュラティブ言語,感情概念の語彙化を導入する。 分析の結果,提案する実用的特徴は異文化間の類似性を捉え,社会言語学や言語人類学における既存の研究とよく一致していることがわかった。 我々は,言語間感情分析のためのトランスファー言語の選択という下流課題において,実践的なトランスファーの有効性をさらに強調する。

Much work in cross-lingual transfer learning explored how to select better transfer languages for multilingual tasks, primarily focusing on typological and genealogical similarities between languages. We hypothesize that these measures of linguistic proximity are not enough when working with pragmatically-motivated tasks, such as sentiment analysis. As an alternative, we introduce three linguistic features that capture cross-cultural similarities that manifest in linguistic patterns and quantify distinct aspects of language pragmatics: language context-level, figurative language, and the lexification of emotion concepts. Our analyses show that the proposed pragmatic features do capture cross-cultural similarities and align well with existing work in sociolinguistics and linguistic anthropology. We further corroborate the effectiveness of pragmatically-driven transfer in the downstream task of choosing transfer languages for cross-lingual sentiment analysis.
翻訳日:2022-11-20 20:55:21 公開日:2021-04-08
# ベイズ実験設計と不確かさ定量化のための出力重み付き最適サンプリング

Output-Weighted Optimal Sampling for Bayesian Experimental Design and Uncertainty Quantification ( http://arxiv.org/abs/2006.12394v3 )

ライセンス: Link先を確認
Antoine Blanchard, Themistoklis Sapsis(参考訳) サンプル選択のための一連の取得関数を導入し,ベイズの実験設計と不確実性定量化に関する応用において,より高速な収束をもたらす。 このアプローチはアクティブラーニングのパラダイムに従い、ブラックボックス関数の既存のサンプルを使用して、次の最も有益なサンプルを最適化する。 提案手法は,ブラックボックス関数の入力方向が他よりも出力に与える影響が大きいこと,特に希少かつ極端な事象を呈するシステムにおいて重要であることを活かすことを目的としている。 本研究で導入された獲得関数は、確率的サンプリングの重みとして作用し、最も関連性の高い入力空間の領域に向けてアクティブラーニングアルゴリズムを導出する確率比の特性を活用している。 本研究では, 流体系の不確実性定量化と, 力学系における希少事象の確率的定量化および前駆体の同定における提案手法の優位性を示す。

We introduce a class of acquisition functions for sample selection that leads to faster convergence in applications related to Bayesian experimental design and uncertainty quantification. The approach follows the paradigm of active learning, whereby existing samples of a black-box function are utilized to optimize the next most informative sample. The proposed method aims to take advantage of the fact that some input directions of the black-box function have a larger impact on the output than others, which is important especially for systems exhibiting rare and extreme events. The acquisition functions introduced in this work leverage the properties of the likelihood ratio, a quantity that acts as a probabilistic sampling weight and guides the active-learning algorithm towards regions of the input space that are deemed most relevant. We demonstrate superiority of the proposed approach in the uncertainty quantification of a hydrological system as well as the probabilistic quantification of rare events in dynamical systems and the identification of their precursors.
翻訳日:2022-11-18 05:37:36 公開日:2021-04-08
# エントロピー規則化による自然政策勾配法の高速大域収束

Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization ( http://arxiv.org/abs/2007.06558v5 )

ライセンス: Link先を確認
Shicong Cen, Chen Cheng, Yuxin Chen, Yuting Wei, Yuejie Chi(参考訳) 自然政策勾配法(NPG)は、現代強化学習において最も広く使われている政策最適化アルゴリズムの一つである。 このタイプの手法は、しばしばエントロピー正則化(探索を促進するアルゴリズムスキーム)とともに適用され、ソフトポリシーの反復と信頼地域政策の最適化と密接に関連している。 実証的な成功にもかかわらず、NPG法の理論的な基盤は、表の設定においても限定的である。 本稿では,ソフトマックスパラメータ化の下でのエントロピー規則化NPG法に対する$\textit{non-asymptotic}$コンバージェンス保証を開発し,割引マルコフ決定プロセス(MDPs)に着目した。 正規化されたMDPの最適値関数を計算する際に、正確なポリシー評価へのアクセスを仮定すると、アルゴリズムは、最適ポリシーの周囲の局所領域に入ると、線形に、あるいは2次的に収束する。 さらに、このアルゴリズムは政策評価の不正確性を確実に安定させる。 我々の収束結果は幅広い学習率に対応し,高速な収束を可能にするエントロピー正則化の役割に光を当てた。

Natural policy gradient (NPG) methods are among the most widely used policy optimization algorithms in contemporary reinforcement learning. This class of methods is often applied in conjunction with entropy regularization -- an algorithmic scheme that encourages exploration -- and is closely related to soft policy iteration and trust region policy optimization. Despite the empirical success, the theoretical underpinnings for NPG methods remain limited even for the tabular setting. This paper develops $\textit{non-asymptotic}$ convergence guarantees for entropy-regularized NPG methods under softmax parameterization, focusing on discounted Markov decision processes (MDPs). Assuming access to exact policy evaluation, we demonstrate that the algorithm converges linearly -- or even quadratically once it enters a local region around the optimal policy -- when computing optimal value functions of the regularized MDP. Moreover, the algorithm is provably stable vis-\`a-vis inexactness of policy evaluation. Our convergence results accommodate a wide range of learning rates, and shed light upon the role of entropy regularization in enabling fast convergence.
翻訳日:2022-11-10 23:51:11 公開日:2021-04-08
# HITNet:リアルタイムステレオマッチングのための階層的反復タイルリファインメントネットワーク

HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching ( http://arxiv.org/abs/2007.12140v3 )

ライセンス: Link先を確認
Vladimir Tankovich, Christian H\"ane, Yinda Zhang, Adarsh Kowdle, Sean Fanello, Sofien Bouaziz(参考訳) 本稿では,リアルタイムステレオマッチングのためのニューラルネットワークアーキテクチャであるHITNetを提案する。 フルコストのボリュームで動作し、3D畳み込みに依存する最近のニューラルネットワークアプローチとは対照的に、我々のアプローチはボリュームを明示的に構築するのではなく、高速なマルチレゾリューション初期化ステップ、微分可能な2D幾何伝播とワープ機構に依存している。 高い精度を実現するために,ネットワークは不一致を幾何学的に理由づけるだけでなく,傾斜平面仮説を推定し,幾何学的ワーピングやアップサンプリング操作をより正確に行うことができる。 私たちのアーキテクチャは本質的にマルチレゾリューションであり、異なるレベルにわたる情報の伝播を可能にします。 複数の実験により,最先端手法で要求される計算量のごく一部で提案手法の有効性が証明された。 この記事執筆時点では、HITNetはETH3DのWebサイトで公開された2つのビューステレオの指標で1位から3位、Middlebury-v3のエンドツーエンド学習アプローチでほとんどの指標で1位、KITTI 2012と2015のベンチマークで100ms以上で1位にランクインしている。

This paper presents HITNet, a novel neural network architecture for real-time stereo matching. Contrary to many recent neural network approaches that operate on a full cost volume and rely on 3D convolutions, our approach does not explicitly build a volume and instead relies on a fast multi-resolution initialization step, differentiable 2D geometric propagation and warping mechanisms to infer disparity hypotheses. To achieve a high level of accuracy, our network not only geometrically reasons about disparities but also infers slanted plane hypotheses allowing to more accurately perform geometric warping and upsampling operations. Our architecture is inherently multi-resolution allowing the propagation of information across different levels. Multiple experiments prove the effectiveness of the proposed approach at a fraction of the computation required by state-of-the-art methods. At the time of writing, HITNet ranks 1st-3rd on all the metrics published on the ETH3D website for two view stereo, ranks 1st on most of the metrics among all the end-to-end learning approaches on Middlebury-v3, ranks 1st on the popular KITTI 2012 and 2015 benchmarks among the published methods faster than 100ms.
翻訳日:2022-11-07 12:48:03 公開日:2021-04-08
# スペクトル正規化がganを安定化する理由:分析と改善

Why Spectral Normalization Stabilizes GANs: Analysis and Improvements ( http://arxiv.org/abs/2009.02773v2 )

ライセンス: Link先を確認
Zinan Lin, Vyas Sekar, Giulia Fanti(参考訳) スペクトル正規化(SN)は、GAN(Generative Adversarial Networks)の安定性とサンプル品質を改善するために広く使われている手法である。 しかし、現在snがなぜ有効であるのかの理解は限られている。 本稿では,ganトレーニングにおいてsnが2つの重要な障害モードを制御することを示す。 我々の証明は、成功するLeCunの初期化と(おそらく意図しない)つながりを示している。 この接続は、SN for GANの最も一般的な実装がハイパーパラメータチューニングを必要としない理由を説明するのに役立つ。 LeCunの初期化はトレーニングの開始時に消失する勾配のみを制御するが、SNはこの特性をトレーニングを通して保持する。 この理論的理解に基づいて,両方向スケールスペクトル正規化 (BSSN) という新たなスペクトル正規化手法を提案する。 理論的には, BSSNはSNよりも勾配制御が優れている。 実験により、いくつかのベンチマークデータセットにおいて、SNのサンプル品質およびトレーニング安定性に優れることを示した。

Spectral normalization (SN) is a widely-used technique for improving the stability and sample quality of Generative Adversarial Networks (GANs). However, there is currently limited understanding of why SN is effective. In this work, we show that SN controls two important failure modes of GAN training: exploding and vanishing gradients. Our proofs illustrate a (perhaps unintentional) connection with the successful LeCun initialization. This connection helps to explain why the most popular implementation of SN for GANs requires no hyper-parameter tuning, whereas stricter implementations of SN have poor empirical performance out-of-the-box. Unlike LeCun initialization which only controls gradient vanishing at the beginning of training, SN preserves this property throughout training. Building on this theoretical understanding, we propose a new spectral normalization technique: Bidirectional Scaled Spectral Normalization (BSSN), which incorporates insights from later improvements to LeCun initialization: Xavier initialization and Kaiming initialization. Theoretically, we show that BSSN gives better gradient control than SN. Empirically, we demonstrate that it outperforms SN in sample quality and training stability on several benchmark datasets.
翻訳日:2022-10-21 07:54:16 公開日:2021-04-08
# マルチメディアデータによる統合パターンの形式化(拡張版)

Formalizing Integration Patterns with Multimedia Data (Extended Version) ( http://arxiv.org/abs/2009.04589v2 )

ライセンス: Link先を確認
Marco Montali, Andrey Rivkin, Daniel Ritter(参考訳) エンタープライズアプリケーション統合(EAI)シナリオの形式化に関する以前の作業は、モデル駆動開発を容易にし、その正確性を保証するために、統合パターン、EAIビルディングブロックの正式な基盤を設定する必要性が高まっていることを示している。 これまでの形式化要件は、制御フロー、トランザクション永続データ、時間的側面を考慮した、より"慣習的な"統合シナリオに焦点を当てていた。 しかし、これらの研究は、ソーシャルおよびマルチメディアコンピューティングをカバーする別のEAIトレンドを考慮していない。 本研究では,マルチメディアドメインからの要求に対処するペトリネットに基づく形式論を提案する。 我々はまた、最も頻繁に使われるマルチメディアパターンの1つを実演し、私たちの正式な提案がマルチメディアEAI開発にどのような影響を及ぼすかについて議論する。

The previous works on formalizing enterprise application integration (EAI) scenarios showed an emerging need for setting up formal foundations for integration patterns, the EAI building blocks, in order to facilitate the model-driven development and ensure its correctness. So far, the formalization requirements were focusing on more "conventional" integration scenarios, in which control-flow, transactional persistent data and time aspects were considered. However, none of these works took into consideration another arising EAI trend that covers social and multimedia computing. In this work we propose a Petri net-based formalism that addresses requirements arising from the multimedia domain. We also demonstrate realizations of one of the most frequently used multimedia patterns and discuss which implications our formal proposal may bring into the area of the multimedia EAI development.
翻訳日:2022-10-20 11:39:38 公開日:2021-04-08
# DOTS: 異なるアーキテクチャ検索における運用とトポロジの分離

DOTS: Decoupling Operation and Topology in Differentiable Architecture Search ( http://arxiv.org/abs/2010.00969v3 )

ライセンス: Link先を確認
Yu-Chao Gu, Li-Juan Wang, Yun Liu, Yi Yang, Yu-Huan Wu, Shao-Ping Lu, Ming-Ming Cheng(参考訳) 微分可能なアーキテクチャ探索 (DARTS) は, 細胞構造探索の効率性から注目されている。 DARTSは主に操作探索に焦点を当て、操作重みから細胞トポロジーを導出する。 しかし、操作重みは細胞トポロジーの重要性を示さず、トポロジー評価の正確性に乏しい結果となる。 そこで本研究では,操作重みからトポロジー表現を分離し,明示的なトポロジー探索を行う演算とトポロジー探索(dots)を分離する手法を提案する。 DOTSは、候補エッジの組み合わせを含むトポロジ検索空間を導入することで実現される。 提案した探索空間は直接探索対象を反映し、検索セル内の柔軟な数のエッジをサポートするために容易に拡張できる。 既存の勾配に基づくNAS法をDOTSに組み込んでトポロジ探索によりさらなる改良を行うことができる。 トポロジに影響を及ぼすような操作(例えばSkip-Connection)を考えると,より優れたトポロジ検索のためにトポロジ関連操作を保存するためのグループ操作探索方式を提案する。 CIFAR10/100とImageNetの実験は、DOTSが微分可能なNASの効果的なソリューションであることを示した。

Differentiable Architecture Search (DARTS) has attracted extensive attention due to its efficiency in searching for cell structures. DARTS mainly focuses on the operation search and derives the cell topology from the operation weights. However, the operation weights can not indicate the importance of cell topology and result in poor topology rating correctness. To tackle this, we propose to Decouple the Operation and Topology Search (DOTS), which decouples the topology representation from operation weights and makes an explicit topology search. DOTS is achieved by introducing a topology search space that contains combinations of candidate edges. The proposed search space directly reflects the search objective and can be easily extended to support a flexible number of edges in the searched cell. Existing gradient-based NAS methods can be incorporated into DOTS for further improvement by the topology search. Considering that some operations (e.g., Skip-Connection) can affect the topology, we propose a group operation search scheme to preserve topology-related operations for a better topology search. The experiments on CIFAR10/100 and ImageNet demonstrate that DOTS is an effective solution for differentiable NAS.
翻訳日:2022-10-12 01:52:10 公開日:2021-04-08
# Bi-GCN:バイナリグラフ畳み込みネットワーク

Bi-GCN: Binary Graph Convolutional Network ( http://arxiv.org/abs/2010.07565v2 )

ライセンス: Link先を確認
Junfu Wang, Yunhong Wang, Zhen Yang, Liang Yang, Yuanfang Guo(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習において大きな成功を収めている。 残念ながら、現在のGNNは通常、属性付きグラフ全体をネットワークにロードして処理に依存しています。 この暗黙の仮定は、特に属性グラフが大きい場合、限られたメモリリソースで満たされない。 本稿では,ネットワークパラメータと入力ノードの特徴を二項化したバイナリグラフ畳み込みネットワーク(Bi-GCN)を提案する。 さらに、元の行列乗算は加速のためのバイナリ演算に修正される。 この理論解析により,ネットワークパラメータと入力データの両方において,Bi-GCNは平均約30倍のメモリ消費を削減し,平均約47倍の速度で推論速度を加速させることができる。 また,Bi-GCNをよく訓練するために,新しい勾配近似に基づくバックプロパゲーション法を設計する。 大規模な実験により、我々のBi-GCNは完全精度のベースラインと同等のパフォーマンスが得られることが実証された。 さらに,実験で検証した他のGNNにも容易にバイナライズ手法を適用することができる。

Graph Neural Networks (GNNs) have achieved tremendous success in graph representation learning. Unfortunately, current GNNs usually rely on loading the entire attributed graph into network for processing. This implicit assumption may not be satisfied with limited memory resources, especially when the attributed graph is large. In this paper, we pioneer to propose a Binary Graph Convolutional Network (Bi-GCN), which binarizes both the network parameters and input node features. Besides, the original matrix multiplications are revised to binary operations for accelerations. According to the theoretical analysis, our Bi-GCN can reduce the memory consumption by an average of ~30x for both the network parameters and input data, and accelerate the inference speed by an average of ~47x, on the citation networks. Meanwhile, we also design a new gradient approximation based back-propagation method to train our Bi-GCN well. Extensive experiments have demonstrated that our Bi-GCN can give a comparable performance compared to the full-precision baselines. Besides, our binarization approach can be easily applied to other GNNs, which has been verified in the experiments.
翻訳日:2022-10-07 04:36:11 公開日:2021-04-08
# バイオメディカルエンティティリンクのためのクラスタリングに基づく推論

Clustering-based Inference for Biomedical Entity Linking ( http://arxiv.org/abs/2010.11253v2 )

ライセンス: Link先を確認
Rico Angell, Nicholas Monath, Sunil Mohan, Nishant Yadav and Andrew McCallum(参考訳) バイオメディカル知識ベースに多数のエンティティが存在するため、ラベル付きトレーニングデータを持つエンティティはごくわずかである。 これにより、エンティティの学習された表現を使用して、見当たらないエンティティの言及をリンクできるエンティティリンクモデルが必要となる。 以前のアプローチでは、各参照を独立してリンクし、エンティティ参照間のドキュメント内とドキュメント間の関係を無視する。 これらの関係は、一般的または高度に専門化された形式を持つ言及のため、リンク決定が難しい生体医学的テキストの言及をリンクするのに非常に有用である。 本稿では,知識ベースエンティティへのリンクだけでなく,複数の参照をクラスタリングによってグループ化し,相互にリンク予測を行うことによって,リンク決定を行うモデルを提案する。 公開されている最大のバイオメディカルデータセットの実験では、エンティティリンクの最良の独立予測を3.0ポイント精度で改善し、クラスタリングベースの推論モデルはさらに2.3ポイントのエンティティリンクを改善する。

Due to large number of entities in biomedical knowledge bases, only a small fraction of entities have corresponding labelled training data. This necessitates entity linking models which are able to link mentions of unseen entities using learned representations of entities. Previous approaches link each mention independently, ignoring the relationships within and across documents between the entity mentions. These relations can be very useful for linking mentions in biomedical text where linking decisions are often difficult due mentions having a generic or a highly specialized form. In this paper, we introduce a model in which linking decisions can be made not merely by linking to a knowledge base entity but also by grouping multiple mentions together via clustering and jointly making linking predictions. In experiments on the largest publicly available biomedical dataset, we improve the best independent prediction for entity linking by 3.0 points of accuracy, and our clustering-based inference model further improves entity linking by 2.3 points.
翻訳日:2022-10-05 00:09:51 公開日:2021-04-08
# ウィキペディアにおけるLGBTの多言語的文脈影響分析

Multilingual Contextual Affective Analysis of LGBT People Portrayals in Wikipedia ( http://arxiv.org/abs/2010.10820v2 )

ライセンス: Link先を確認
Chan Young Park, Xinru Yan, Anjalie Field, Yulia Tsvetkov(参考訳) 物語における特定の語彙選択は、物語中の人々に対する作家の態度と観客の反応の両方を反映している。 先行研究は、文脈的感情分析(英語版)、自然言語処理(英語版) (NLP) 技術を用いて、人々が力、代理、感情の次元に沿ってどのように描写されるかを分析する。 我々は,この手法を多言語設定に拡張し,収集した新しいコーパスと新しい多言語モデルによって実現した。 さらに,単語の意味が言語や文化によってどのように異なるかを示し,既存の英語データセットや手法を一般化する難しさを強調した。 次に、英語、ロシア語、スペイン語の3言語のlgbtコミュニティのメンバーのウィキペディアの伝記ページを分析し、本手法の有用性を示す。 以上の結果から,lgbtコミュニティの言語間における表現方法の系統的差異が示唆され,物語の文化的差異や社会的バイアスの兆候が示唆された。 このモデルは、コンテンツギャップや特定の社会的グループの不均衡な表現を含むかもしれない記事など、ウィキペディアの記事のさらなる手動分析に使用することができる。

Specific lexical choices in narrative text reflect both the writer's attitudes towards people in the narrative and influence the audience's reactions. Prior work has examined descriptions of people in English using contextual affective analysis, a natural language processing (NLP) technique that seeks to analyze how people are portrayed along dimensions of power, agency, and sentiment. Our work presents an extension of this methodology to multilingual settings, which is enabled by a new corpus that we collect and a new multilingual model. We additionally show how word connotations differ across languages and cultures, highlighting the difficulty of generalizing existing English datasets and methods. We then demonstrate the usefulness of our method by analyzing Wikipedia biography pages of members of the LGBT community across three languages: English, Russian, and Spanish. Our results show systematic differences in how the LGBT community is portrayed across languages, surfacing cultural differences in narratives and signs of social biases. Practically, this model can be used to identify Wikipedia articles for further manual analysis -- articles that might contain content gaps or an imbalanced representation of particular social groups.
翻訳日:2022-10-04 23:52:06 公開日:2021-04-08
# 対話状態追跡のための共同最適化状態演算予測と値生成

Jointly Optimizing State Operation Prediction and Value Generation for Dialogue State Tracking ( http://arxiv.org/abs/2010.14061v2 )

ライセンス: Link先を確認
Yan Zeng and Jian-Yun Nie(参考訳) オープン語彙を用いた多ドメイン対話状態追跡(DST)の問題について検討する。 既存のアプローチではBERTエンコーダとコピーベースのRNNデコーダを使用し、そこでエンコーダは状態操作を予測し、デコーダは新しいスロット値を生成する。 しかし、このような積み重ねエンコーダデコーダ構造では、演算予測目的がBERTエンコーダにのみ影響し、値生成目的が主にRNNデコーダに影響を及ぼす。 本稿では,1つのBERTがエンコーダとデコーダの両方として機能する,純粋にトランスフォーマーベースのフレームワークを提案する。 これにより、操作予測目標と値生成目標とを共同でDSTのためにBERTを最適化することができる。 復号工程では,デコーダ層の自己保持機構においてエンコーダの隠蔽状態を再利用し,効率的なパラメータ更新のためのフラットなエンコーダ・デコーダアーキテクチャを構築する。 実験の結果,本手法は既存の最先端フレームワークを実質的に上回っており,最高のオントロジベースのアプローチと非常に競争力の高い性能を実現していることがわかった。

We investigate the problem of multi-domain Dialogue State Tracking (DST) with open vocabulary. Existing approaches exploit BERT encoder and copy-based RNN decoder, where the encoder predicts the state operation, and the decoder generates new slot values. However, in such a stacked encoder-decoder structure, the operation prediction objective only affects the BERT encoder and the value generation objective mainly affects the RNN decoder. In this paper, we propose a purely Transformer-based framework, where a single BERT works as both the encoder and the decoder. In so doing, the operation prediction objective and the value generation objective can jointly optimize this BERT for DST. At the decoding step, we re-use the hidden states of the encoder in the self-attention mechanism of the corresponding decoder layers to construct a flat encoder-decoder architecture for effective parameter updating. Experimental results show that our approach substantially outperforms the existing state-of-the-art framework, and it also achieves very competitive performance to the best ontology-based approaches.
翻訳日:2022-10-03 11:59:08 公開日:2021-04-08
# ニューラルソフトウェア解析

Neural Software Analysis ( http://arxiv.org/abs/2011.07986v2 )

ライセンス: Link先を確認
Michael Pradel and Satish Chandra(参考訳) 多くのソフトウェア開発問題は、伝統的に正確な論理的推論とヒューリスティックに基づいて、ツールが実用的であることを保証するプログラム分析ツールによって対処できる。 最近の研究は、ニューラルソフトウェア分析(Neural Software Analysis)と呼ばれる開発ツールの代替方法によって、大きな成功を収めています。 鍵となるアイデアは、多数のコード例に基づいてニューラル機械学習モデルをトレーニングすることだ。 従来のプログラム分析とは対照的に、ニューラルネットワーク分析は自然に、コーディング規約やコードに埋め込まれた自然言語といったファジィ情報を扱う。 この記事では、ニューラルソフトウェア分析の概要、いつ使うべきか(しない)、そして3つのサンプル分析を紹介する。 分析は、バグ検出、型予測、コード補完といった、難しいソフトウェア開発問題に対処する。 結果として得られるツールは、伝統的なプログラム分析を補完し、性能を向上し、工業的実践で使用される。

Many software development problems can be addressed by program analysis tools, which traditionally are based on precise, logical reasoning and heuristics to ensure that the tools are practical. Recent work has shown tremendous success through an alternative way of creating developer tools, which we call neural software analysis. The key idea is to train a neural machine learning model on numerous code examples, which, once trained, makes predictions about previously unseen code. In contrast to traditional program analysis, neural software analysis naturally handles fuzzy information, such as coding conventions and natural language embedded in code, without relying on manually encoded heuristics. This article gives an overview of neural software analysis, discusses when to (not) use it, and presents three example analyses. The analyses address challenging software development problems: bug detection, type prediction, and code completion. The resulting tools complement and outperform traditional program analyses, and are used in industrial practice.
翻訳日:2022-09-25 01:25:50 公開日:2021-04-08
# Born Identity Network: 分類器の判断を説明するマルチウェイ対実マップ生成

Born Identity Network: Multi-way Counterfactual Map Generation to Explain a Classifier's Decision ( http://arxiv.org/abs/2011.10381v4 )

ライセンス: Link先を確認
Kwanseok Oh, Jee Seok Yoon, Heung-Il Suk(参考訳) ディープラーニングモデルの性能と解釈可能性には明らかな負の相関がある。 この負の相関を減らそうとする試みとして,多方向対応地図を作成するためのポストホックアプローチであるボルンアイデンティティネットワーク(BIN)を提案する。 対物地図は、人間が対物思考を通じて知識を処理する方法に似た、入力サンプルを条件付けしてターゲットラベルとして分類する。 例えば、カウンターファクトマップは、正常な脳画像から仮説上の異常を局在させ、疾患と診断される可能性がある。 具体的には,提案するBINは,2つのコアコンポーネントから構成される。 対物マップ生成器は、任意のターゲットラベルに条件付き対物マップを合成できる条件付きGANの変種である。 Target Attribution Networkは、ターゲットラベルを対物マップジェネレータに条件付けすることで、合成マップを生成するための適切な支援を提供する。 MNIST, 3D Shapes, ADNIデータセットの定性的, 定量的解析において提案したBINを検証し, 様々なアブレーション研究から本手法の理解性と忠実性を示した。

There exists an apparent negative correlation between performance and interpretability of deep learning models. In an effort to reduce this negative correlation, we propose a Born Identity Network (BIN), which is a post-hoc approach for producing multi-way counterfactual maps. A counterfactual map transforms an input sample to be conditioned and classified as a target label, which is similar to how humans process knowledge through counterfactual thinking. For example, a counterfactual map can localize hypothetical abnormalities from a normal brain image that may cause it to be diagnosed with a disease. Specifically, our proposed BIN consists of two core components: Counterfactual Map Generator and Target Attribution Network. The Counterfactual Map Generator is a variation of conditional GAN which can synthesize a counterfactual map conditioned on an arbitrary target label. The Target Attribution Network provides adequate assistance for generating synthesized maps by conditioning a target label into the Counterfactual Map Generator. We have validated our proposed BIN in qualitative and quantitative analysis on MNIST, 3D Shapes, and ADNI datasets, and showed the comprehensibility and fidelity of our method from various ablation studies.
翻訳日:2022-09-23 05:05:44 公開日:2021-04-08
# スケール共変およびスケール不変ガウス微分ネットワーク

Scale-covariant and scale-invariant Gaussian derivative networks ( http://arxiv.org/abs/2011.14759v8 )

ライセンス: Link先を確認
Tony Lindeberg(参考訳) 本稿では,パラメータ化スケール空間演算をカスケードに結合して深層学習アーキテクチャを構築する,スケール空間理論とディープラーニングのハイブリッドアプローチを提案する。 学習パラメータを複数のスケールチャネル間で共有し、スケール空間プリミティブの変換特性をスケール変換で利用することにより、ネットワークは証明可能なスケール共変となる。 さらに、マルチスケールチャネル上で最大プーリングを行うことにより、画像分類のためのネットワークアーキテクチャも確実にスケール不変となる。 MNISTLargeScaleデータセットにおいて,トレーニングデータに関する4因子,テストデータに関する16因子に対して,元のMNISTからの再スケール画像を含むネットワークの性能について検討した。 その結果,訓練データに存在しないスケールでパターンを分類する性能が向上し,スケール一般化が可能となった。

This paper presents a hybrid approach between scale-space theory and deep learning, where a deep learning architecture is constructed by coupling parameterized scale-space operations in cascade. By sharing the learnt parameters between multiple scale channels, and by using the transformation properties of the scale-space primitives under scaling transformations, the resulting network becomes provably scale covariant. By in addition performing max pooling over the multiple scale channels, a resulting network architecture for image classification also becomes provably scale invariant. We investigate the performance of such networks on the MNISTLargeScale dataset, which contains rescaled images from original MNIST over a factor of 4 concerning training data and over a factor of 16 concerning testing data. It is demonstrated that the resulting approach allows for scale generalization, enabling good performance for classifying patterns at scales not present in the training data.
翻訳日:2021-06-06 14:44:00 公開日:2021-04-08
# 公平なランキングは少数派の結果を改善するか? オンライン雇用における人的・アルゴリズム的バイアスの相互作用の理解

Does Fair Ranking Improve Minority Outcomes? Understanding the Interplay of Human and Algorithmic Biases in Online Hiring ( http://arxiv.org/abs/2012.00423v2 )

ライセンス: Link先を確認
Tom S\"uhr, Sophie Hilgard, Himabindu Lakkaraju(参考訳) ランキングアルゴリズムはLinkedIn、TaskRabbit、Fiverrなど、さまざまなオンライン採用プラットフォームで広く採用されている。 以前の研究では、これらのプラットフォームで採用されるランキングアルゴリズムは様々な望ましくないバイアスの傾向を示しており、未表現候補の露出を増加させる公正ランキングアルゴリズム(Det-Greedyなど)が提案されている。 しかし、公平なランク付けアルゴリズムが実世界の成果(例えば、雇用決定)を実際に改善するかどうかを探求する作業はほとんどないし全くない。 さらに、他の要因(仕事の文脈や雇用者の固有のバイアスなど)が、実際に公正なランキングの有効性にどのように影響するか、明確な理解もできない。 本研究では、雇用者の仕事状況や固有のバイアスなど、オンライン雇用プラットフォームにおけるジェンダーバイアスのさまざまな源泉を分析し、これらの要因が雇用決定に影響を与えるランキングアルゴリズムとどのように相互作用するかを明らかにする。 我々の知る限り、この研究は、オンライン雇用の文脈における上記の要因間の相互作用を研究する最初の試みである。 オンラインフリーランシングサイトtaskrabbitのデータを用いて,オンライン採用シナリオをシミュレーションした大規模ユーザ調査を実施した。 その結果,公平なランキングアルゴリズムは少数民族の選択率を改善するが,その効果は職の文脈や候補者プロファイルに大きく依存することがわかった。

Ranking algorithms are being widely employed in various online hiring platforms including LinkedIn, TaskRabbit, and Fiverr. Prior research has demonstrated that ranking algorithms employed by these platforms are prone to a variety of undesirable biases, leading to the proposal of fair ranking algorithms (e.g., Det-Greedy) which increase exposure of underrepresented candidates. However, there is little to no work that explores whether fair ranking algorithms actually improve real world outcomes (e.g., hiring decisions) for underrepresented groups. Furthermore, there is no clear understanding as to how other factors (e.g., job context, inherent biases of the employers) may impact the efficacy of fair ranking in practice. In this work, we analyze various sources of gender biases in online hiring platforms, including the job context and inherent biases of employers and establish how these factors interact with ranking algorithms to affect hiring decisions. To the best of our knowledge, this work makes the first attempt at studying the interplay between the aforementioned factors in the context of online hiring. We carry out a largescale user study simulating online hiring scenarios with data from TaskRabbit, a popular online freelancing site. Our results demonstrate that while fair ranking algorithms generally improve the selection rates of underrepresented minorities, their effectiveness relies heavily on the job contexts and candidate profiles.
翻訳日:2021-05-30 19:32:42 公開日:2021-04-08
# アンテナ傾き最適化のための安全強化学習アーキテクチャ

A Safe Reinforcement Learning Architecture for Antenna Tilt Optimisation ( http://arxiv.org/abs/2012.01296v2 )

ライセンス: Link先を確認
Erik Aumayr, Saman Feghhi, Filippo Vannella, Ezeddin Al Hakim, Grigorios Iakovidis(参考訳) 環境との安全なインタラクションは、現実世界の問題に適用する際の強化学習(rl)の最も難しい側面の1つです。 これは、安全でないアクションが環境に高いあるいは不可逆的な悪影響を及ぼす場合に特に重要である。 ネットワーク管理における遠隔電気ティルト(RET)最適化は,基地局のアンテナ傾斜角の探索的修正によりネットワークの性能が著しく低下するおそれのある安全クリティカルなアプリケーションである。 本稿では,セルラーネットワークにおけるRET最適化に対応するために,モジュール型安全強化学習(SRL)アーキテクチャを提案する。 このアプローチでは、安全シールドが安全なベースラインに対してRLエージェントの性能を継続的にベンチマークし、ネットワーク上で実行される安全なアンテナ傾斜更新を決定する。 本研究は, SRL剤のベースライン上での性能向上を実証し, 動作の安全性を確保した。

Safe interaction with the environment is one of the most challenging aspects of Reinforcement Learning (RL) when applied to real-world problems. This is particularly important when unsafe actions have a high or irreversible negative impact on the environment. In the context of network management operations, Remote Electrical Tilt (RET) optimisation is a safety-critical application in which exploratory modifications of antenna tilt angles of base stations can cause significant performance degradation in the network. In this paper, we propose a modular Safe Reinforcement Learning (SRL) architecture which is then used to address the RET optimisation in cellular networks. In this approach, a safety shield continuously benchmarks the performance of RL agents against safe baselines, and determines safe antenna tilt updates to be performed on the network. Our results demonstrate improved performance of the SRL agent over the baseline while ensuring the safety of the performed actions.
翻訳日:2021-05-25 03:51:17 公開日:2021-04-08
# 自然摂動に対するロバスト性のための属性誘導学習

Attribute-Guided Adversarial Training for Robustness to Natural Perturbations ( http://arxiv.org/abs/2012.01806v3 )

ライセンス: Link先を確認
Tejas Gokhale, Rushil Anirudh, Bhavya Kailkhura, Jayaraman J. Thiagarajan, Chitta Baral, Yezhou Yang(参考訳) 堅牢なディープラーニングにおける既存の作業は、小さなピクセルレベルのノルムベースの摂動に重点を置いているが、現実のいくつかの設定で発生する摂動には影響しないかもしれない。 このような場合、テストデータは利用できないかもしれないが、摂動のタイプ(回転の度合いの不明など)に関する幅広い仕様が知られている。 i.i.d.ではない未確認のテストドメインに対して堅牢性が期待できる設定を考える。 しかし、訓練領域から逸脱している。 この偏差は正確には分かっていないかもしれないが、その広範な特徴付けは属性の観点から前もって指定されている。 テスト領域からデータにアクセスすることなく,属性空間への分類器の露出を最大化するために,新たなサンプルを生成することを学習する対戦型トレーニング手法を提案する。 本手法では,内的最大化が逆摂動を発生させ,外的最小化がモデルパラメータを求めることで,内的最大化から発生する逆摂動の損失を最適化することにより,内的最大化を最小化する。 我々は,自然発生する3種類の摂動(物体関連シフト,幾何学的変換,共通画像破壊)に対するアプローチの適用性を示す。 このアプローチにより、ディープニューラルネットワークは、幅広い自然発生の摂動に対して頑健になる。 mnist, cifar-10, およびclevrデータセットの新たな変種を用いて, 学習した深層ニューラルネットワークのロバスト性向上を示すことにより, 提案手法の有用性を示す。

While existing work in robust deep learning has focused on small pixel-level norm-based perturbations, this may not account for perturbations encountered in several real-world settings. In many such cases although test data might not be available, broad specifications about the types of perturbations (such as an unknown degree of rotation) may be known. We consider a setup where robustness is expected over an unseen test domain that is not i.i.d. but deviates from the training domain. While this deviation may not be exactly known, its broad characterization is specified a priori, in terms of attributes. We propose an adversarial training approach which learns to generate new samples so as to maximize exposure of the classifier to the attributes-space, without having access to the data from the test domain. Our adversarial training solves a min-max optimization problem, with the inner maximization generating adversarial perturbations, and the outer minimization finding model parameters by optimizing the loss on adversarial perturbations generated from the inner maximization. We demonstrate the applicability of our approach on three types of naturally occurring perturbations -- object-related shifts, geometric transformations, and common image corruptions. Our approach enables deep neural networks to be robust against a wide range of naturally occurring perturbations. We demonstrate the usefulness of the proposed approach by showing the robustness gains of deep neural networks trained using our adversarial training on MNIST, CIFAR-10, and a new variant of the CLEVR dataset.
翻訳日:2021-05-23 15:07:06 公開日:2021-04-08
# ドメインランダム化とメタラーニングによる視覚表現の連続的適応

Continual Adaptation of Visual Representations via Domain Randomization and Meta-learning ( http://arxiv.org/abs/2012.04324v2 )

ライセンス: Link先を確認
Riccardo Volpi, Diane Larlus, Gr\'egory Rogez(参考訳) ほとんどの標準的な学習アプローチは、異なる性質のサンプルで順次トレーニングされた時にドリフトしやすい脆弱なモデルへとつながります。 特に、モデルが異なる視覚的なドメインから連続して学習すると、過去のドメインを忘れ、最新のものを好む傾向があります。 この文脈では、忘れることに対して本質的に堅牢なモデルを学ぶ方法の一つがドメインランダム化であり、視覚タスクでは、画像操作で現在のドメインの分布をランダム化する。 この結果に基づいて,レギュラライザが,現行ドメインから異なる"副"メタドメインへのモデル転送に伴う損失を明示的に罰すると同時に,それらへの適応を容易にするメタラーニング戦略を考案する。 このようなメタドメインはランダムな画像操作によっても生成される。 我々は、分類からセマンティックセグメンテーションまで、様々な実験において、新しいドメインに移る際に破滅的な忘れをしがちなモデルをもたらすことを実証的に実証した。

Most standard learning approaches lead to fragile models which are prone to drift when sequentially trained on samples of a different nature - the well-known "catastrophic forgetting" issue. In particular, when a model consecutively learns from different visual domains, it tends to forget the past domains in favor of the most recent ones. In this context, we show that one way to learn models that are inherently more robust against forgetting is domain randomization - for vision tasks, randomizing the current domain's distribution with heavy image manipulations. Building on this result, we devise a meta-learning strategy where a regularizer explicitly penalizes any loss associated with transferring the model from the current domain to different "auxiliary" meta-domains, while also easing adaptation to them. Such meta-domains are also generated through randomized image manipulations. We empirically demonstrate in a variety of experiments - spanning from classification to semantic segmentation - that our approach results in models that are less prone to catastrophic forgetting when transferred to new domains.
翻訳日:2021-05-16 17:35:52 公開日:2021-04-08
# 構造規則化深層クラスタリングを用いた教師なしドメイン適応のための固有データ構造発見に向けて

Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain Adaptation using Structurally Regularized Deep Clustering ( http://arxiv.org/abs/2012.04280v2 )

ライセンス: Link先を確認
Hui Tang, Xiatian Zhu, Ke Chen, Kui Jia, C. L. Philip Chen(参考訳) 教師なし領域適応 (unsupervised domain adaptation, uda) とは、分布が対象領域と異なるソース領域のラベル付きデータに対して、対象領域上のラベルなしデータの予測を行う分類モデルを学ぶことである。 メインストリームのUDAメソッドは、ソース機能で訓練された分類器をターゲットの機能に簡単に適用できるように、ドメイン整合性のある特徴を学習しようとする。 優れた結果が得られたが、これらの手法は本質的なデータ構造を標的識別に損なう可能性があり、特にUDAタスクの帰納的環境における一般化の問題を提起する。 この問題に対処するため、我々は、ドメイン間の構造的類似性に関するudaの仮定に動機づけられ、制約付きクラスタリングによって内在的ターゲットの識別を直接解明することを提案し、そこでは、非常に同じ仮定にかかっている構造的ソース正規化を用いてクラスタリングソリューションを制約する。 技術的には、対象データの正規化識別クラスタリングと生成データを統合する構造規則化深層クラスタリングのハイブリッドモデルを提案し、本手法をH-SRDCと呼ぶ。 このハイブリッドモデルは,ネットワーク予測の分布と補助的分布との間のkullback-leiblerの発散を最小限に抑え,ドメイン共有型分類器とクラスタセンタロイドを学習することで構造的正規化を課す深層クラスタリングフレームワークに基づいている。 構造的類似性の仮定を豊かにすることにより、セマンティックセグメンテーションの画素レベルのUDAタスクに対してH-SRDCを拡張することができる。 画像分類とセマンティックセグメンテーションの7つのUDAベンチマークについて広範な実験を行った。 明示的な特徴アライメントを持たず,提案したH-SRDCはインダクティブ設定とトランスダクティブ設定の両方で既存の手法よりも優れている。 実装コードはhttps://github.com/huitangtang/H-SRDC.comで公開しています。

Unsupervised domain adaptation (UDA) is to learn classification models that make predictions for unlabeled data on a target domain, given labeled data on a source domain whose distribution diverges from the target one. Mainstream UDA methods strive to learn domain-aligned features such that classifiers trained on the source features can be readily applied to the target ones. Although impressive results have been achieved, these methods have a potential risk of damaging the intrinsic data structures of target discrimination, raising an issue of generalization particularly for UDA tasks in an inductive setting. To address this issue, we are motivated by a UDA assumption of structural similarity across domains, and propose to directly uncover the intrinsic target discrimination via constrained clustering, where we constrain the clustering solutions using structural source regularization that hinges on the very same assumption. Technically, we propose a hybrid model of Structurally Regularized Deep Clustering, which integrates the regularized discriminative clustering of target data with a generative one, and we thus term our method as H-SRDC. Our hybrid model is based on a deep clustering framework that minimizes the Kullback-Leibler divergence between the distribution of network prediction and an auxiliary one, where we impose structural regularization by learning domain-shared classifier and cluster centroids. By enriching the structural similarity assumption, we are able to extend H-SRDC for a pixel-level UDA task of semantic segmentation. We conduct extensive experiments on seven UDA benchmarks of image classification and semantic segmentation. With no explicit feature alignment, our proposed H-SRDC outperforms all the existing methods under both the inductive and transductive settings. We make our implementation codes publicly available at https://github.com/huitangtang/H-SRDC.
翻訳日:2021-05-16 17:34:43 公開日:2021-04-08
# (参考訳) 森林火災動態モデリングのための畳み込みLSTMニューラルネットワーク

Convolutional LSTM Neural Networks for Modeling Wildland Fire Dynamics ( http://arxiv.org/abs/2012.06679v2 )

ライセンス: CC BY 4.0
John Burge and Matthew Bonanni and Matthias Ihme and Lily Hu(参考訳) 気候の変化に伴い、森林火災の深刻度は悪化すると予想されている。 火災伝播ダイナミクスを正確に捉えたモデルは、これらの火災による被害の理解、対応、軽減に大いに役立っている。 機械学習技術はそのようなモデルを開発するための潜在的アプローチを提供する。 本研究の目的は,ConvLSTM(Convolutional Long Short-Term Memory)リカレントニューラルネットワークによる森林火災伝播のダイナミクスのモデル化の可能性を評価することである。 機械学習モデルは、数学的アナログモデルによって生成されたシミュレートされたワイルドファイアデータに基づいて訓練される。 3つのシミュレーションデータセットが分析され、それぞれが複雑度を増している。 最も単純なデータセットは、単一の結合因子として一定の風向きを含み、最も複雑なデータセットは、動的風、複雑な地形、空間的に変化する水分量、異種植物密度分布を含む。 本研究では,ConvLSTMが連続時間ステップで消火速度のダイナミクスをいかに効果的に学習できるかを検討する。 convlstmsは局所的な火災伝達イベントを捕捉できるだけでなく、火災が拡散する速度など全体の火災ダイナミクスを捉えることができることが示されている。 最後に、コンブLSTMは、以前同様の山火事の動態をモデル化するために使われた他のネットワークアーキテクチャよりも優れていることを示す。

As the climate changes, the severity of wildland fires is expected to worsen. Models that accurately capture fire propagation dynamics greatly help efforts for understanding, responding to and mitigating the damages caused by these fires. Machine learning techniques provide a potential approach for developing such models. The objective of this study is to evaluate the feasibility of using a Convolutional Long Short-Term Memory (ConvLSTM) recurrent neural network to model the dynamics of wildland fire propagation. The machine learning model is trained on simulated wildfire data generated by a mathematical analogue model. Three simulated datasets are analyzed, each with increasing degrees of complexity. The simplest dataset includes a constant wind direction as a single confounding factor, whereas the most complex dataset includes dynamic wind, complex terrain, spatially varying moisture content and heterogenous vegetation density distributions. We examine how effective the ConvLSTM can learn the fire-spread dynamics over consecutive time steps. It is shown that ConvLSTMs can capture local fire transmission events, as well as the overall fire dynamics, such as the rate at which the fire spreads. Finally, we demonstrate that ConvLSTMs outperform other network architectures that have previously been used to model similar wildland fire dynamics.
翻訳日:2021-05-11 03:28:59 公開日:2021-04-08
# 単一GPU上の1Kクラスを越えたセマンティックセグメンテーションのスケーリング

Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU ( http://arxiv.org/abs/2012.07489v2 )

ライセンス: Link先を確認
Shipra Jain, Danda Paudel Pani, Martin Danelljan, Luc Van Gool(参考訳) 最先端のオブジェクト検出法と画像分類法は、それぞれ9kクラスと10kクラスで顕著に機能する。 対照的に、セマンティックセグメンテーションデータセットのクラス数は比較的限られている。 ラベル付きデータの欠如とセグメンテーションに対する高い計算要求が考慮される場合、これは驚くべきことではない。 本稿では,メモリオーバーヘッドを増大させることなく,既存のセマンティックセマンティックセマンティクスモデルを多数のセマンティクスクラスに対してトレーニングし,拡張するための新しいトレーニング手法を提案する。 埋め込み型スケーラブルなセグメンテーション手法では,O(C) から O(1) へのセグメンテーションモデルの出力の空間的複雑さを低減し,地絡クラス確率の近似法を提案し,それをクロスエントロピー損失の計算に用いる。 提案されたアプローチは一般的であり、任意の最先端セグメンテーションモデルで採用でき、1つのgpuで任意の数のセマンティクスクラスに対して優雅にスケールすることができる。 我々のアプローチは類似しており、場合によっては、異なるバックボーンを持つDeeplabV3+モデルを採用する際に、Cityscapes、Pascal VOC、ADE20k、COCO-Stuff10kデータセットのmIoUをさらに改善する。 我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。

The state-of-the-art object detection and image classification methods can perform impressively on more than 9k and 10k classes, respectively. In contrast, the number of classes in semantic segmentation datasets is relatively limited. This is not surprising when the restrictions caused by the lack of labeled data and high computation demand for segmentation are considered. In this paper, we propose a novel training methodology to train and scale the existing semantic segmentation models for a large number of semantic classes without increasing the memory overhead. In our embedding-based scalable segmentation approach, we reduce the space complexity of the segmentation model's output from O(C) to O(1), propose an approximation method for ground-truth class probability, and use it to compute cross-entropy loss. The proposed approach is general and can be adopted by any state-of-the-art segmentation model to gracefully scale it for any number of semantic classes with only one GPU. Our approach achieves similar, and in some cases, even better mIoU for Cityscapes, Pascal VOC, ADE20k, COCO-Stuff10k datasets when adopted to DeeplabV3+ model with different backbones. We demonstrate a clear benefit of our approach on a dataset with 1284 classes, bootstrapped from LVIS and COCO annotations, with three times better mIoU than the DeeplabV3+ model.
翻訳日:2021-05-08 14:30:18 公開日:2021-04-08
# GTA:ビデオアクション理解のためのグローバルな時間的注意

GTA: Global Temporal Attention for Video Action Understanding ( http://arxiv.org/abs/2012.08510v2 )

ライセンス: Link先を確認
Bo He, Xitong Yang, Zuxuan Wu, Hao Chen, Ser-Nam Lim, Abhinav Shrivastava(参考訳) 自己注意は、長距離依存をモデル化するためのペアワイズインタラクションを学び、ビデオアクション認識に大きな改善をもたらす。 本稿では,ビデオにおける時間モデルに対する自己着想の深い理解を求める。 まず,すべての画素のフラット化による時空間情報の絡み合いモデリングが最適であり,フレーム間の時間的関係を明示的に把握できないことを示す。 この目的のために,空間的注意を疎結合にして,グローバルな時間的注意をグローバルな時間的注意に向けるGTA(Global Temporal Attention)を導入する。 画素と意味的に類似した領域にGTAを適用し,空間的粒度の異なる時間的関係を捉える。 インスタンス固有のアテンションマトリックスを計算する従来のセルフアテンションとは異なり、gtaは異なるサンプルにまたがる時間的構造をエンコードするグローバルアテンションマトリックスを直接学習する。 さらに,gtaをクロスチャネルマルチヘッド方式で強化し,チャネル間インタラクションを活用し,時間モデルを改善する。 2dおよび3dネットワークに関する広範囲な実験により,本手法は時間的モデリングを一貫して強化し,3つのビデオ行動認識データセット上で最先端のパフォーマンスを提供することが示された。

Self-attention learns pairwise interactions to model long-range dependencies, yielding great improvements for video action recognition. In this paper, we seek a deeper understanding of self-attention for temporal modeling in videos. We first demonstrate that the entangled modeling of spatio-temporal information by flattening all pixels is sub-optimal, failing to capture temporal relationships among frames explicitly. To this end, we introduce Global Temporal Attention (GTA), which performs global temporal attention on top of spatial attention in a decoupled manner. We apply GTA on both pixels and semantically similar regions to capture temporal relationships at different levels of spatial granularity. Unlike conventional self-attention that computes an instance-specific attention matrix, GTA directly learns a global attention matrix that is intended to encode temporal structures that generalize across different samples. We further augment GTA with a cross-channel multi-head fashion to exploit channel interactions for better temporal modeling. Extensive experiments on 2D and 3D networks demonstrate that our approach consistently enhances temporal modeling and provides state-of-the-art performance on three video action recognition datasets.
翻訳日:2021-05-07 05:19:34 公開日:2021-04-08
# 層還元: 層整合性によるコンバータベース自己監督モデルの高速化

Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency ( http://arxiv.org/abs/2105.00812v1 )

ライセンス: Link先を確認
Jinchuan Tian, Rongzhi Gu, Helin Wang, Yuexian Zou(参考訳) トランスフォーマーベースの自己教師型モデルは、特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを達成することができる。 しかし、これらのモデルのトレーニングと推論のプロセスは、非常に高い計算コストと大きなパラメータの予算に遭遇する可能性がある。 ALBERTで提案されたパラメータ共有戦略(PSS)はパラメータ還元の道を開くが、必要な計算量は変わらない。 興味深いことに、我々は実験において、異なるトランスフォーマー層からの特徴埋め込みの分布が、PSSの統合時に類似していることを発見した。 このような特徴分布の類似性を考えると、異なる層からの特徴埋め込みは、同様の表現力を持つと仮定する。 この作業では、レイヤ一貫性により、Transformerベースのモデルをより効率的な方法で採用することができます。各トレーニングイテレーションにおけるコンバータ層の数を均一にサンプリングし、Shallow Layer Inference(SLI)を適用して、推論ステージにおけるレイヤ数を削減できます。 実験では,我々のモデルはLibriSpeechデータセットを用いて訓練され,音声分類と音声認識の両方のタスクで評価される。 従来のBERT法と同等の性能を維持しつつ,7.8Xパラメータ削減,41.9%のトレーニング高速化,37.7%の推論高速化を実現した。

Transformer-based self-supervised models are trained as feature extractors and have empowered many downstream speech tasks to achieve state-of-the-art performance. However, both the training and inference process of these models may encounter prohibitively high computational cost and large parameter budget. Although Parameter Sharing Strategy (PSS) proposed in ALBERT paves the way for parameter reduction, the computation required remains the same. Interestingly, we found in experiments that distributions of feature embeddings from different Transformer layers are similar when PSS is integrated: a property termed as Layer Consistency (LC) in this paper. Given this similarity of feature distributions, we assume that feature embeddings from different layers would have similar representing power. In this work, Layer Consistency enables us to adopt Transformer-based models in a more efficient manner: the number of Conformer layers in each training iteration could be uniformly sampled and Shallow Layer Inference (SLI) could be applied to reduce the number of layers in inference stage. In experiments, our models are trained with LibriSpeech dataset and then evaluated on both phone classification and Speech Recognition tasks. We experimentally achieve 7.8X parameter reduction, 41.9% training speedup and 37.7% inference speedup while maintaining comparable performance with conventional BERT-like self-supervised methods.
翻訳日:2021-05-04 20:41:18 公開日:2021-04-08
# ビデオ圧縮におけるループフィルタリングのための多次元注意ネットワーク

Multi-Density Attention Network for Loop Filtering in Video Compression ( http://arxiv.org/abs/2104.12865v1 )

ライセンス: Link先を確認
Zhao Wang, Changyue Ma, Yan Ye(参考訳) ビデオ圧縮は、消費者やプロの動画アプリケーションにとって基本的な要件である。 H.264/AVCやH.265/HEVCといったビデオコーディング標準は、多くのビデオアプリケーションで帯域幅とストレージの効率的な使用を可能にするために広く市場に展開されている。 符号化アーチファクトの削減と圧縮効率の向上のために,再構成ビデオのニューラルネットワークに基づくループフィルタリングが文献で開発されている。 しかし,ループフィルタリングは,映像コンテンツのばらつきやサンプリング密度などにより難しい課題である。 本稿では,ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づくマルチ密度アテンションネットワークを提案する。 a) 多重密度特徴抽出のための並列多重解像度畳み込みストリーム,(b) 単一注意分岐,(b) サンプル相関を学習してマスクマップを生成する,(c) 複数のブランチからデータを融合するチャネル・ミューチュアルな注意手順,(d) 実信号に従ってネットワークの出力結果をさらに最適化する,オンラインスケーリング技術である。 提案するマルチ密度アテンションネットワークは,複数のサンプリング密度からリッチな特徴を学習し,解像度の異なるビデオコンテンツに対して頑健に動作する。 さらに、オンラインスケーリングプロセスは、オフライン事前学習モデルの信号適応性を高める。 実験の結果、同じビデオ品質で10.18%のビットレート削減が、最新のVersatile Video Coding (VVC)標準で達成できることが示されている。 提案アルゴリズムの客観的性能は最先端手法を上回り,主観的品質改善は細部保存とアーティファクト緩和の観点から明らかである。

Video compression is a basic requirement for consumer and professional video applications alike. Video coding standards such as H.264/AVC and H.265/HEVC are widely deployed in the market to enable efficient use of bandwidth and storage for many video applications. To reduce the coding artifacts and improve the compression efficiency, neural network based loop filtering of the reconstructed video has been developed in the literature. However, loop filtering is a challenging task due to the variation in video content and sampling densities. In this paper, we propose a on-line scaling based multi-density attention network for loop filtering in video compression. The core of our approach lies in several aspects: (a) parallel multi-resolution convolution streams for extracting multi-density features, (b) single attention branch to learn the sample correlations and generate mask maps, (c) a channel-mutual attention procedure to fuse the data from multiple branches, (d) on-line scaling technique to further optimize the output results of network according to the actual signal. The proposed multi-density attention network learns rich features from multiple sampling densities and performs robustly on video content of different resolutions. Moreover, the online scaling process enhances the signal adaptability of the off-line pre-trained model. Experimental results show that 10.18% bit-rate reduction at the same video quality can be achieved over the latest Versatile Video Coding (VVC) standard. The objective performance of the proposed algorithm outperforms the state-of-the-art methods and the subjective quality improvement is obvious in terms of detail preservation and artifact alleviation.
翻訳日:2021-05-03 19:39:42 公開日:2021-04-08
# LieTransformer: リー群に対する同変自己アテンション

LieTransformer: Equivariant self-attention for Lie Groups ( http://arxiv.org/abs/2012.10885v3 )

ライセンス: Link先を確認
Michael Hutchinson, Charline Le Lan, Sheheryar Zaidi, Emilien Dupont, Yee Whye Teh, Hyunjik Kim(参考訳) グループ同変ニューラルネットワークはグループ不変ニューラルネットワークの構成要素として用いられ、原則付きパラメータ共有による一般化性能とデータ効率の向上が示されている。 このような研究は主に群同変線型写像が必ずしも畳み込みであることを示す結果に基づいて、群同変線型写像に焦点が当てられている。 本研究は,ディープラーニングモデルの顕著な構築ブロックとして現れつつある,文学の範囲を自己意識に拡張するものである。 任意のリー群とその離散部分群に同値なリー自己結合層からなる構造であるリー変換器を提案する。 本手法の一般性は, 点雲上の形状計数, 分子特性の回帰, ハミルトン力学下での粒子軌道のモデル化など, 幅広いタスクにおいて, ベースライン法と競合する実験結果を示すことによって示される。

Group equivariant neural networks are used as building blocks of group invariant neural networks, which have been shown to improve generalisation performance and data efficiency through principled parameter sharing. Such works have mostly focused on group equivariant convolutions, building on the result that group equivariant linear maps are necessarily convolutions. In this work, we extend the scope of the literature to self-attention, that is emerging as a prominent building block of deep learning models. We propose the LieTransformer, an architecture composed of LieSelfAttention layers that are equivariant to arbitrary Lie groups and their discrete subgroups. We demonstrate the generality of our approach by showing experimental results that are competitive to baseline methods on a wide range of tasks: shape counting on point clouds, molecular property regression and modelling particle trajectories under Hamiltonian dynamics.
翻訳日:2021-05-01 04:46:25 公開日:2021-04-08
# HyperSeg: リアルタイムセマンティックセグメンテーションのためのパッチワイドハイパーネットワーク

HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation ( http://arxiv.org/abs/2012.11582v2 )

ライセンス: Link先を確認
Yuval Nirkin, Lior Wolf, Tal Hassner(参考訳) 本稿では、エンコーダがデコーダのパラメータ(重み)をエンコードし生成する、新しいリアルタイム意味セグメンテーションネットワークを提案する。 さらに、最大適応性を実現するために、各デコーダブロックの重みは空間的に異なる。 この目的のために,高レベルなコンテキスト特徴を描画するネスト型u-net,消費直前にデコーダ内の各ブロックの重みを生成するマルチヘッド重み生成モジュール,効率的なメモリ利用,新たな動的パッチワイズ畳み込みからなるプライマリネットワークからなる,新たなタイプのハイパーネットワークを設計した。 従来のブロックが少ないにもかかわらず、我々のアーキテクチャはリアルタイムのパフォーマンスを得る。 ランタイム対精度のトレードオフに関しては、一般的なセマンティックセグメンテーションベンチマークのstate of the art(sota)の結果を上回っています。 CityscapesとCamVidのリアルタイムセマンティックセグメンテーション。 コードはhttps://nirkin.com/hyperseg.com/。

We present a novel, real-time, semantic segmentation network in which the encoder both encodes and generates the parameters (weights) of the decoder. Furthermore, to allow maximal adaptivity, the weights at each decoder block vary spatially. For this purpose, we design a new type of hypernetwork, composed of a nested U-Net for drawing higher level context features, a multi-headed weight generating module which generates the weights of each block in the decoder immediately before they are consumed, for efficient memory utilization, and a primary network that is composed of novel dynamic patch-wise convolutions. Despite the usage of less-conventional blocks, our architecture obtains real-time performance. In terms of the runtime vs. accuracy trade-off, we surpass state of the art (SotA) results on popular semantic segmentation benchmarks: PASCAL VOC 2012 (val. set) and real-time semantic segmentation on Cityscapes, and CamVid. The code is available: https://nirkin.com/hyperseg.
翻訳日:2021-04-27 06:29:59 公開日:2021-04-08
# 天文画像のための自己教師付き表現学習

Self-Supervised Representation Learning for Astronomical Images ( http://arxiv.org/abs/2012.13083v2 )

ライセンス: Link先を確認
Md Abul Hayat, George Stein, Peter Harrington, Zarija Luki\'c, Mustafa Mustafa(参考訳) スカイサーベイは天文学における最大のデータ生成装置であり、有意義な科学情報を抽出するための自動化ツールが必須である。 ラベルを必要としない自己教師型学習は,様々な科学的タスクにおいて意味論的に有用なスカイサーベイ画像の表現を復元する。 これらの表現は、ラベル付きデータのみでトレーニングされた教師付きメソッドを上回る機能、または微調整された機能として直接使用できる。 我々は,Sloan Digital Sky Survey (SDSS) のマルチバンド銀河測光システムにおいて,画像表現の学習に対照的な学習フレームワークを適用した。 次に、銀河形態分類に使用し、Galaxy Zoo 2データセットとSDSSスペクトルのラベルを用いて、光度赤方偏移推定に微調整する。 どちらのダウンストリームタスクでも,同じ学習表現を用いて,教師ありの最先端結果を上回り,トレーニングに2~4分の1のラベルを用いながら教師ありモデルの精度を実現できることを示す。

Sky surveys are the largest data generators in astronomy, making automated tools for extracting meaningful scientific information an absolute necessity. We show that, without the need for labels, self-supervised learning recovers representations of sky survey images that are semantically useful for a variety of scientific tasks. These representations can be directly used as features, or fine-tuned, to outperform supervised methods trained only on labeled data. We apply a contrastive learning framework on multi-band galaxy photometry from the Sloan Digital Sky Survey (SDSS) to learn image representations. We then use them for galaxy morphology classification, and fine-tune them for photometric redshift estimation, using labels from the Galaxy Zoo 2 dataset and SDSS spectroscopy. In both downstream tasks, using the same learned representations, we outperform the supervised state-of-the-art results, and we show that our approach can achieve the accuracy of supervised models while using 2-4 times fewer labels for training.
翻訳日:2021-04-25 08:10:17 公開日:2021-04-08
# 消去による道路障害の検出

Detecting Road Obstacles by Erasing Them ( http://arxiv.org/abs/2012.13633v2 )

ライセンス: Link先を確認
Krzysztof Lis, Sina Honari, Pascal Fua, Mathieu Salzmann(参考訳) 車両は道路上の無数の障害物に遭遇し、事前に記録して検知器を訓練することは不可能である。 代わりに、イメージパッチを選択し、それらのパッチから障害を取り除く傾向がある周辺の道路テクスチャに塗り込みます。 次に、元のパッチと塗られたパッチとの相違を認識するためにトレーニングされたネットワークを使用します。 我々はまた、単眼道路障害物検出のための新しいデータセットを提供し、新しいデータセットと標準のFishyscapes Lost \& Foundベンチマークの両方において、我々のアプローチが最先端の手法よりも優れていることを示す。

Vehicles can encounter a myriad of obstacles on the road, and it is impossible to record them all beforehand to train a detector. Instead, we select image patches and inpaint them with the surrounding road texture, which tends to remove obstacles from those patches. We then uses a network trained to recognize discrepancies between the original patch and the inpainted one, which signals an erased obstacle. We also contribute a new dataset for monocular road obstacle detection, and show that our approach outperforms the state-of-the-art methods on both our new dataset and the standard Fishyscapes Lost \& Found benchmark.
翻訳日:2021-04-25 04:33:29 公開日:2021-04-08
# 教師付き学習モデルを用いた社会・行動科学論文の再現性予測

Predicting the Reproducibility of Social and Behavioral Science Papers Using Supervised Learning Models ( http://arxiv.org/abs/2104.04580v1 )

ライセンス: Link先を確認
Jian Wu, Rajal Nivargi, Sree Sai Teja Lanka, Arjun Manoj Menon, Sai Ajay Modukuri, Nishanth Nakshatri, Xin Wei, Zhuoer Wang, James Caverlee, Sarah M. Rajtmajer, C. Lee Giles(参考訳) 近年、社会・行動科学(SBS)における研究主張の再現性と堅牢性の検証に多大な努力が注がれており、その多くが資源集約的な複製プロジェクトに関与している。 本稿では,SBS論文の再現性の予測を,特徴セットに基づいた機械学習手法を用いて検討する。 本研究では,学術研究から5種類の特徴を抽出し,論文の再現性評価を支援する枠組みを提案する。 書誌機能、会場機能、著者機能は公開APIから収集されるか、パーサーをカスタマイズしたオープンソースの機械学習ライブラリを使用して抽出される。 p値などの統計的特徴は、ボディテキストのパターンを認識することによって抽出される。 資金情報などの意味的特徴は公開APIから得られるか、自然言語処理モデルを用いて抽出される。 我々は,個々の特徴と,その重要性の相互相関を解析し,人間の評価した真実ラベルの集合を予測する。 そこで我々は,SBS論文の再現性を予測する上で,比較的重要な役割を担う9つの上位機能のサブセットを特定した。 異なる特徴セットで訓練された10個の教師付き予測分類器の性能を比較することにより、結果が検証される。

In recent years, significant effort has been invested verifying the reproducibility and robustness of research claims in social and behavioral sciences (SBS), much of which has involved resource-intensive replication projects. In this paper, we investigate prediction of the reproducibility of SBS papers using machine learning methods based on a set of features. We propose a framework that extracts five types of features from scholarly work that can be used to support assessments of reproducibility of published research claims. Bibliometric features, venue features, and author features are collected from public APIs or extracted using open source machine learning libraries with customized parsers. Statistical features, such as p-values, are extracted by recognizing patterns in the body text. Semantic features, such as funding information, are obtained from public APIs or are extracted using natural language processing models. We analyze pairwise correlations between individual features and their importance for predicting a set of human-assessed ground truth labels. In doing so, we identify a subset of 9 top features that play relatively more important roles in predicting the reproducibility of SBS papers in our corpus. Results are verified by comparing performances of 10 supervised predictive classifiers trained on different sets of features.
翻訳日:2021-04-13 14:43:44 公開日:2021-04-08
# イメージスタイル転送のロバスト性の再考と改善

Rethinking and Improving the Robustness of Image Style Transfer ( http://arxiv.org/abs/2104.05623v1 )

ライセンス: Link先を確認
Pei Wang, Yijun Li, Nuno Vasconcelos(参考訳) ニューラルスタイルの転送手法の広範な研究は、事前訓練されたVGGネットワークによって抽出された特徴間の相関が、画像の視覚的スタイルをキャプチャする顕著な能力を持つことを示した。 しかし驚くべきことに、このスタイリゼーションの質は堅牢ではなく、resnetファミリのようなより先進的で軽量なネットワークの機能に適用すると格段に劣化することが多い。 異なるネットワークアーキテクチャで広範な実験を行うことで,VGGとResNetの主なアーキテクチャ的違いを表す残余接続が,スタイル伝達に適さない小さなエントロピーの特徴マップを生成することがわかった。 そこで我々は,resnetアーキテクチャのロバスト性を向上させるために,機能活性化のソフトマックス変換に基づく簡易かつ効果的な解を提案する。 実験の結果、この小さな魔法は、ランダムな重みを持つネットワークであっても、スタイライゼーション結果の質を大幅に改善できることが示されている。 これは、特徴抽出に使用されるアーキテクチャが、スタイル転送のタスクに学習重みの使用よりも重要であることを示唆している。

Extensive research in neural style transfer methods has shown that the correlation between features extracted by a pre-trained VGG network has a remarkable ability to capture the visual style of an image. Surprisingly, however, this stylization quality is not robust and often degrades significantly when applied to features from more advanced and lightweight networks, such as those in the ResNet family. By performing extensive experiments with different network architectures, we find that residual connections, which represent the main architectural difference between VGG and ResNet, produce feature maps of small entropy, which are not suitable for style transfer. To improve the robustness of the ResNet architecture, we then propose a simple yet effective solution based on a softmax transformation of the feature activations that enhances their entropy. Experimental results demonstrate that this small magic can greatly improve the quality of stylization results, even for networks with random weights. This suggests that the architecture used for feature extraction is more important than the use of learned weights for the task of style transfer.
翻訳日:2021-04-13 13:53:30 公開日:2021-04-08
# 重み付き信号時間論理のためのニューラルネットワーク

Neural Network for Weighted Signal Temporal Logic ( http://arxiv.org/abs/2104.05435v1 )

ライセンス: Link先を確認
Ruixuan Yan, Agung Julius(参考訳) 本稿では,ニューラルネットワークの特性と時間論理を結合した重み付き信号時間論理ニューラルネットワーク(wSTL-NN)を提案する。 重み付き信号時間論理(wSTL)公式は、論理演算子と時間演算子を組み合わせた部分形式から再帰的に構成される。 wSTLの量的セマンティクスは、重量が高いサブフォーミュラの量的満足度が、全体のwSTL公式の量的満足度により影響を与えるように定義される。 wSTL-NNでは、各ニューロンはwSTLサブフォーミュラに対応し、その出力は公式の量的満足度に対応する。 我々はwSTL式を時系列データを分類する機能としてwSTL-NNを使用する。 STL機能は従来の方法よりも説明しやすい。 wSTL-NNはエンドツーエンドの微分可能であり、wSTL公式の学習はバックプロパゲーションを使って行うことができる。 本稿では,wSTL-NNをスパーシフィケートする2つの手法を導入し,そのフレームワークを占有検知時系列データセットに適用し,オフィスルームの占有状況を予測する分類器を学習する。

In this paper, we propose a neuro-symbolic framework called weighted Signal Temporal Logic Neural Network (wSTL-NN) that combines the characteristics of neural networks and temporal logics. Weighted Signal Temporal Logic (wSTL) formulas are recursively composed of subformulas that are combined using logical and temporal operators. The quantitative semantics of wSTL is defined such that the quantitative satisfaction of subformulas with higher weights has more influence on the quantitative satisfaction of the overall wSTL formula. In the wSTL-NN, each neuron corresponds to a wSTL subformula, and its output corresponds to the quantitative satisfaction of the formula. We use wSTL-NN to represent wSTL formulas as features to classify time series data. STL features are more explainable than those used in classical methods. The wSTL-NN is end-to-end differentiable, which allows learning of wSTL formulas to be done using back-propagation. To reduce the number of weights, we introduce two techniques to sparsify the wSTL-NN.We apply our framework to an occupancy detection time-series dataset to learn a classifier that predicts the occupancy status of an office room.
翻訳日:2021-04-13 13:49:19 公開日:2021-04-08
# (参考訳) DenResCov-19:X線による新型コロナウイルス、肺炎、結核の自動分類のためのディープトランスファー学習ネットワーク

DenResCov-19: A deep transfer learning network for robust automatic classification of COVID-19, pneumonia, and tuberculosis from X-rays ( http://arxiv.org/abs/2104.04006v1 )

ライセンス: CC BY 4.0
Michail Mamalakis, Andrew J. Swift, Bart Vorselaars, Surajit Ray, Simonne Weeks, Weiping Ding, Richard H. Clayton, Louise S. Mackenzie, Abhirup Banerjee(参考訳) 新型コロナウイルス(COVID-19)の世界的なパンデミックは、世界の人口の豊かさに影響を与え、迅速な検査、診断、治療の需要が高まっている。 新型コロナウイルス(COVID-19)とともに、他の肺炎や結核の病因も医療システムにとって新たな課題となっている。 本研究の目的は、胸部X線画像に基づいて、新型コロナウイルス、肺炎、結核の患者を診断するための新しい深層移行学習パイプラインを開発することである。 いくつかのケースでは、DenseNetとResnetは直交性能を持つ。 提案モデルでは、畳み込みニューラルネットワークブロックを備えた余剰層を作成し、これらの2つのモデルを組み合わせて、どちらのモデルよりも優れた性能を確立する。 同じ戦略は、相補的な性能を持つ2つの競合するネットワークが観察される他のアプリケーションで有用である。 提案したネットワークの性能を,2クラス(肺炎対健康),3クラス(COVID-19を含む),4クラス(結核を含む)の分類問題で検証した。 提案するネットワークは4つのデータセットすべてにおいてこれらの肺疾患の分類に成功しており、drknet、resnet、inception-v3のベンチマークネットワークを大きく改善した。 これらの新たな発見は、新型コロナウイルスやその他の肺疾患を検出する、最先端の高速トラック決定ネットワークを提供する。

The global pandemic of COVID-19 is continuing to have a significant effect on the well-being of global population, increasing the demand for rapid testing, diagnosis, and treatment. Along with COVID-19, other etiologies of pneumonia and tuberculosis constitute additional challenges to the medical system. In this regard, the objective of this work is to develop a new deep transfer learning pipeline to diagnose patients with COVID-19, pneumonia, and tuberculosis, based on chest x-ray images. We observed in some instances DenseNet and Resnet have orthogonal performances. In our proposed model, we have created an extra layer with convolutional neural network blocks to combine these two models to establish superior performance over either model. The same strategy can be useful in other applications where two competing networks with complementary performance are observed. We have tested the performance of our proposed network on two-class (pneumonia vs healthy), three-class (including COVID-19), and four-class (including tuberculosis) classification problems. The proposed network has been able to successfully classify these lung diseases in all four datasets and has provided significant improvement over the benchmark networks of DenseNet, ResNet, and Inception-V3. These novel findings can deliver a state-of-the-art pre-screening fast-track decision network to detect COVID-19 and other lung pathologies.
翻訳日:2021-04-13 00:52:08 公開日:2021-04-08
# (参考訳) CutPaste: 異常検出とローカライゼーションのための自己監視型学習

CutPaste: Self-Supervised Learning for Anomaly Detection and Localization ( http://arxiv.org/abs/2104.04015v1 )

ライセンス: CC BY 4.0
Chun-Liang Li, Kihyuk Sohn, Jinsung Yoon, Tomas Pfister(参考訳) 画像の未知の異常パターンを異常データなしで検出する欠陥検出のための高性能モデルの構築を目指す。 そこで本研究では,正規トレーニングデータのみを用いた異常検出のための2段階フレームワークを提案する。 まず、自己教師付き深層表現を学習し、学習した表現に基づいて生成的な一クラス分類器を構築する。 我々は、画像パッチをカットし、大きな画像のランダムな位置でペーストする単純なデータ拡張戦略であるCutPasteから正規データを分類することで表現を学習する。 MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。 我々は,スクラッチから表現を学習する場合に,従来の3.1 AUCによる改善をもたらす。 ImageNet上で事前訓練された表現の転送学習により、新しい最先端の96.6 AUCを実現する。 最後に、パッチから表現を学習し抽出するためにフレームワークを拡張し、トレーニング中にアノテーションなしで欠陥領域をローカライズできるようにします。

We aim at constructing a high performance model for defect detection that detects unknown anomalous patterns of an image without anomalous data. To this end, we propose a two-stage framework for building anomaly detectors using normal training data only. We first learn self-supervised deep representations and then build a generative one-class classifier on learned representations. We learn representations by classifying normal data from the CutPaste, a simple data augmentation strategy that cuts an image patch and pastes at a random location of a large image. Our empirical study on MVTec anomaly detection dataset demonstrates the proposed algorithm is general to be able to detect various types of real-world defects. We bring the improvement upon previous arts by 3.1 AUCs when learning representations from scratch. By transfer learning on pretrained representations on ImageNet, we achieve a new state-of-theart 96.6 AUC. Lastly, we extend the framework to learn and extract representations from patches to allow localizing defective areas without annotations during training.
翻訳日:2021-04-13 00:27:40 公開日:2021-04-08
# (参考訳) TRiPOD:野生における人間の軌道と詩のダイナミクス予測

TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild ( http://arxiv.org/abs/2104.04029v1 )

ライセンス: CC BY 4.0
Vida Adeli, Mahsa Ehsanpour, Ian Reid, Juan Carlos Niebles, Silvio Savarese, Ehsan Adeli, Hamid Rezatofighi(参考訳) 人間の軌道とポーズダイナミクスの合同予測は、ロボット工学や自律運転から監視システムまで、様々な応用の基本的な構成要素である。 身体力学の予測には、人間の相互作用やシーンに存在する物体に埋め込まれた微妙な情報をキャプチャする必要がある。 本稿では,入力空間と出力空間の両方において,人間と物体の相互作用をモデル化するために,グラフ注意ネットワークに基づく新しい軌道・ポーズダイナミクス(ニックネームtripod)を提案する。 モデルは、これらの異なるレベルの相互作用を効率的に融合させるために、グラフ上のメッセージパッシングインターフェースによって補われます。 さらに,実世界の課題を取り入れるために,推定された身体関節が各フレームで可視・視認可能かどうかを示す指標を提示する。 閉ざされたり センサーの視野外だったりします 最後に,2つの挑戦的データセット(PoseTrackと3DPW)に基づいて,この共同作業のための新しいベンチマークを提案し,世界空間における予測の有効性を評価するための評価指標を提案する。 評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。

Joint forecasting of human trajectory and pose dynamics is a fundamental building block of various applications ranging from robotics and autonomous driving to surveillance systems. Predicting body dynamics requires capturing subtle information embedded in the humans' interactions with each other and with the objects present in the scene. In this paper, we propose a novel TRajectory and POse Dynamics (nicknamed TRiPOD) method based on graph attentional networks to model the human-human and human-object interactions both in the input space and the output space (decoded future output). The model is supplemented by a message passing interface over the graphs to fuse these different levels of interactions efficiently. Furthermore, to incorporate a real-world challenge, we propound to learn an indicator representing whether an estimated body joint is visible/invisible at each frame, e.g. due to occlusion or being outside the sensor field of view. Finally, we introduce a new benchmark for this joint task based on two challenging datasets (PoseTrack and 3DPW) and propose evaluation metrics to measure the effectiveness of predictions in the global space, even when there are invisible cases of joints. Our evaluation shows that TRiPOD outperforms all prior work and state-of-the-art specifically designed for each of the trajectory and pose forecasting tasks.
翻訳日:2021-04-13 00:09:09 公開日:2021-04-08
# (参考訳) サンプリングによる分類のためのグラフ準同型のスケールアップ

Scaling up graph homomorphism for classification via sampling ( http://arxiv.org/abs/2104.04040v1 )

ライセンス: CC BY 4.0
Paul Beaujean and Florian Sikora and Florian Yger(参考訳) 機能生成は、グラフ機械学習における調査のオープントピックである。 本稿では、同様の理論的性質と帰納バイアスを考慮した能力を有する同型数に対するスケーラブルな代替として、グラフ準同型密度特徴を用いて検討する。 そこで本研究では準同型密度の加法近似を計算する単純なサンプリングアルゴリズムの高性能実装を提案する。 グラフ機械学習の文脈では、サンプル準同型密度で訓練された単純な線形モデルが、標準グラフ分類データセットでグラフニューラルネットワークに匹敵するパフォーマンスを達成できることを実験で実証する。 最後に、このアルゴリズムがブルームフィルタで実装された場合、非常に大きなグラフにスケールできることを合成データ実験で示す。

Feature generation is an open topic of investigation in graph machine learning. In this paper, we study the use of graph homomorphism density features as a scalable alternative to homomorphism numbers which retain similar theoretical properties and ability to take into account inductive bias. For this, we propose a high-performance implementation of a simple sampling algorithm which computes additive approximations of homomorphism densities. In the context of graph machine learning, we demonstrate in experiments that simple linear models trained on sample homomorphism densities can achieve performance comparable to graph neural networks on standard graph classification datasets. Finally, we show in experiments on synthetic data that this algorithm scales to very large graphs when implemented with Bloom filters.
翻訳日:2021-04-12 23:46:06 公開日:2021-04-08
# (参考訳) 統計的視点による半教師付き分類器の学習:簡単なレビュー

Semi-Supervised Learning of Classifiers from a Statistical Perspective: A Brief Review ( http://arxiv.org/abs/2104.04046v1 )

ライセンス: CC BY 4.0
Daniel Ahfock, Geoffrey J. McLachlan(参考訳) 分類器の訓練データが限られた数の分類された観測であるが、はるかに多くの分類されていない観測からなる状況において、機械学習における半教師付き学習(ssl)のアプローチに注目が集まっている。 これは、取得した未分類データに対して真のクラスラベルの提供を試みる際に生じる、高い取得コストとその後の財務、時間、倫理的な問題により、分類データの調達が極めてコストがかかるためである。 本稿では,この問題に対する統計sslのアプローチを概観し,部分的に分類されたサンプルから生成した分類器が,サンプルが完全に分類された場合よりも実際の予測誤差率を小さくできるという最近の結果に注目した。

There has been increasing attention to semi-supervised learning (SSL) approaches in machine learning to forming a classifier in situations where the training data for a classifier consists of a limited number of classified observations but a much larger number of unclassified observations. This is because the procurement of classified data can be quite costly due to high acquisition costs and subsequent financial, time, and ethical issues that can arise in attempts to provide the true class labels for the unclassified data that have been acquired. We provide here a review of statistical SSL approaches to this problem, focussing on the recent result that a classifier formed from a partially classified sample can actually have smaller expected error rate than that if the sample were completely classified.
翻訳日:2021-04-12 23:30:42 公開日:2021-04-08
# (参考訳) 不均一高密度サブハイパグラフ検出

Heterogeneous Dense Subhypergraph Detection ( http://arxiv.org/abs/2104.04047v1 )

ライセンス: CC BY 4.0
Mingao Yuan and Zuofeng Shang(参考訳) ヘテロジニアス高密度ハイパーグラフの存在をテストする問題について検討する。 ヌル仮説は異質な Erd\"{o}s-R\'{e}nyi の均一なランダムハイパーグラフに対応し、その代わりの仮説は高密度な部分ハイパーグラフを含む異質な均一なランダムハイパーグラフに対応する。 エッジ確率が分かっている場合に検出境界を確立し、仮説を識別するための漸近的に強力なテストを構築する。 また,エッジ確率を含まない適応テストを構築した。

We study the problem of testing the existence of a heterogeneous dense subhypergraph. The null hypothesis corresponds to a heterogeneous Erd\"{o}s-R\'{e}nyi uniform random hypergraph and the alternative hypothesis corresponds to a heterogeneous uniform random hypergraph that contains a dense subhypergraph. We establish detection boundaries when the edge probabilities are known and construct an asymptotically powerful test for distinguishing the hypotheses. We also construct an adaptive test which does not involve edge probabilities, and hence, is more practically useful.
翻訳日:2021-04-12 23:09:13 公開日:2021-04-08
# (参考訳) 車両価格予測モデルのための量子支援特徴選択

Quantum-Assisted Feature Selection for Vehicle Price Prediction Modeling ( http://arxiv.org/abs/2104.04049v1 )

ライセンス: CC BY 4.0
David Von Dollen, Florian Neukart, Daniel Weimer, Thomas B\"ack(参考訳) 機械学習モデル評価体制の中では、特徴選択はモデルの複雑さを減らし、一般化、モデル適合、予測の精度に関するモデル性能を改善する技術である。 しかし、$k$ の最適特徴のサブセットを見つけるための機能空間の探索は、既知のnp-hard問題である。 本研究では,価格予測の基盤となる回帰問題に対する一般化平均情報係数やピアソン相関係数など,組合せ探索を二元二次モデルとして符号化する指標について検討する。 提案手法のヒューリスティックとして最小冗長性最大関係性を用いて,組合せ探索に量子支援対古典サブルーチンを活用することで,実行時間とモデル性能という形でのトレードオフを検討する。 我々は,新しい指標を用いて合成データ上で最適な部分集合を求めるために,0.9点([0,1]の範囲)の精度スコアを得る。 価格予測の現実的な問題に対して,予測モデルを検証し,平均絶対誤差スコアを量子アシスト法$(1471.02 \pm{135.6})$,再帰的特徴除去法$(1678.3 \pm{143.7})$に対して比較検討した。 本研究は, 量子支援ルーチンを活用することで, 合成および実世界のデータに対する学習アルゴリズムへの入力次元性を低減し, 予測モデル出力の質を高める解を見出した。

Within machine learning model evaluation regimes, feature selection is a technique to reduce model complexity and improve model performance in regards to generalization, model fit, and accuracy of prediction. However, the search over the space of features to find the subset of $k$ optimal features is a known NP-Hard problem. In this work, we study metrics for encoding the combinatorial search as a binary quadratic model, such as Generalized Mean Information Coefficient and Pearson Correlation Coefficient in application to the underlying regression problem of price prediction. We investigate trade-offs in the form of run-times and model performance, of leveraging quantum-assisted vs. classical subroutines for the combinatorial search, using minimum redundancy maximal relevancy as the heuristic for our approach. We achieve accuracy scores of 0.9 (in the range of [0,1]) for finding optimal subsets on synthetic data using a new metric that we define. We test and cross-validate predictive models on a real-world problem of price prediction, and show a performance improvement of mean absolute error scores for our quantum-assisted method $(1471.02 \pm{135.6})$, vs. similar methodologies such as recursive feature elimination $(1678.3 \pm{143.7})$. Our findings show that by leveraging quantum-assisted routines we find solutions that increase the quality of predictive model output while reducing the input dimensionality to the learning algorithm on synthetic and real-world data.
翻訳日:2021-04-12 22:55:32 公開日:2021-04-08
# (参考訳) AlephBERT:ヘブライ語でNLPアプリケーションを始めるための大規模な事前学習言語モデル

AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your Hebrew NLP Application With ( http://arxiv.org/abs/2104.04052v1 )

ライセンス: CC BY 4.0
Amit Seker, Elron Bandel, Dan Bareket, Idan Brusilovsky, Refael Shaked Greenfeld, Reut Tsarfaty(参考訳) 大規模事前学習言語モデル(PLM)は、言語理解技術の発達においてユビキタスになり、多くの人工知能の進歩の中心にある。 PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。 問題は2つある。 第一に、NLPモデルのトレーニングに利用できるヘブライ語リソースは、英語のリソースと同等ではない。 第二に、Hebrew PLMの進捗を評価するためのタスクやベンチマークはない。 この作業では、両方の側面を修復することを目指している。 まず,従来のヘブライ語plmよりも大きな語彙とデータセットでトレーニングされた,現代ヘブライ語のための大規模事前学習言語モデルalephbertを提案する。 第2に、AlephBERTを用いて、複数のヘブライ語タスクとベンチマークに対して、セグメンテーション、パート・オブ・Speech Tagging、フルモルフォロジー・タギング、ネームド・エンティティ認識、センティメント・アナリティクスを含む、新しい最先端の結果を提示する。 我々はAlephBERTモデルを一般公開し、ヘブライのNLPアプリケーションを開発するための単一エントリポイントを提供します。

Large Pre-trained Language Models (PLMs) have become ubiquitous in the development of language understanding technology and lie at the heart of many artificial intelligence advances. While advances reported for English using PLMs are unprecedented, reported advances using PLMs in Hebrew are few and far between. The problem is twofold. First, Hebrew resources available for training NLP models are not at the same order of magnitude as their English counterparts. Second, there are no accepted tasks and benchmarks to evaluate the progress of Hebrew PLMs on. In this work we aim to remedy both aspects. First, we present AlephBERT, a large pre-trained language model for Modern Hebrew, which is trained on larger vocabulary and a larger dataset than any Hebrew PLM before. Second, using AlephBERT we present new state-of-the-art results on multiple Hebrew tasks and benchmarks, including: Segmentation, Part-of-Speech Tagging, full Morphological Tagging, Named-Entity Recognition and Sentiment Analysis. We make our AlephBERT model publicly available, providing a single point of entry for the development of Hebrew NLP applications.
翻訳日:2021-04-12 22:41:20 公開日:2021-04-08
# (参考訳) 差分からコミットメッセージを生成するスケッチベースニューラルモデル

A Sketch-Based Neural Model for Generating Commit Messages from Diffs ( http://arxiv.org/abs/2104.04087v1 )

ライセンス: CC BY 4.0
Nicolae-Teodor Pavel and Traian Rebedea(参考訳) コミットメッセージは、特に大規模チームで働く場合、ソフトウェア開発に重要な影響を与える。 異なるスタイルの書き方を持つ複数の開発者は、しばしば同じプロジェクトに関与します。 このため、有益なコミットメッセージを書くという厳密なパターンを維持することは困難であり、最も頻繁な問題は、これらのメッセージが十分に記述できないことである。 本稿では、コード差分をコミットメッセージに変換するためにニューラルネットワーク変換(NMT)技術を適用し、このタスクのために改良されたスケッチベースのエンコーダを提案する。 私たちはアプローチを3つに分けました。 まず、この問題に対してより適切なNMTベースラインを見つけることに焦点を当てる。 次に、NMTモデルの性能は、特定のファイルタイプを含む例をトレーニングすることで改善できることを示す。 最後に,最近のコード生成手法に触発された新しいスケッチベースニューラルモデルを紹介し,スケッチベースのエンコーダが既存のアートソリューションを大幅に上回っていることを示す。 結果は、この改善が特にJavaソースコードファイルに関係していることを強調し、このタスクのために近年導入された2つの異なるデータセットを調べる。

Commit messages have an important impact in software development, especially when working in large teams. Multiple developers who have a different style of writing may often be involved in the same project. For this reason, it may be difficult to maintain a strict pattern of writing informative commit messages, with the most frequent issue being that these messages are not descriptive enough. In this paper we apply neural machine translation (NMT) techniques to convert code diffs into commit messages and we present an improved sketch-based encoder for this task. We split the approach into three parts. Firstly, we focus on finding a more suitable NMT baseline for this problem. Secondly, we show that the performance of the NMT models can be improved by training on examples containing a specific file type. Lastly, we introduce a novel sketch-based neural model inspired by recent approaches used for code generation and we show that the sketch-based encoder significantly outperforms existing state of the art solutions. The results highlight that this improvement is relevant especially for Java source code files, by examining two different datasets introduced in recent years for this task.
翻訳日:2021-04-12 22:27:58 公開日:2021-04-08
# (参考訳) 因果判定と因果効果推定は同一ではない...なぜ重要か

Causal Decision Making and Causal Effect Estimation Are Not the Same... and Why It Matters ( http://arxiv.org/abs/2104.04103v1 )

ライセンス: CC BY 4.0
Carlos Fern\'andez-Lor\'ia and Foster Provost(参考訳) 大規模意思決定(CDM)はビジネスの日常的な部分となり、ますますCDMは機械学習アルゴリズムに基づいている。 例えば、企業は消費者の行動に影響を及ぼす目的で、しばしばオファー、インセンティブ、レコメンデーションをターゲットにしている。 近年,機械学習モデルを用いたCDMと因果効果推定(CEE)に関する研究が加速されている。 この記事では、CDMはCEEと同一ではなく、正反対に正確なCEEは正確なCDMには必要ない、という重要な視点を強調します。 私たちの経験では、これは実践者やほとんどの研究者にはよく理解されていない。 技術的には、興味の見積は異なり、モデリングとCDMの統計モデルの使用の両方に重要な意味を持つ。 私たちは、これらの3つの意味を強調するために、最近の研究を取り上げます。 1) 因果的機械学習の目的関数を慎重に検討すべきであり, 可能であれば, 正確な効果サイズ推定よりも, 正確な「処理割り当て」を最適化すべきである。 (2)コンファウンディングはcdmに対してceeと同じ影響を及ぼさない。 cdmをサポートするためには、根拠のないデータと同様に、根拠のないデータで学ぶのがよいかもしれない。 最後に、(3)因果的統計的モデリングはcdmをサポートするために全く必要ではないかもしれない。 この観察は、最初は「不安定な」ように見える、少なくとも1つの一般的なcdmの実践を説明するのに役立ちます。 我々の見解では、これらの観測は将来の研究のためにかなりの肥大な土台を開く。 私たちの視点を完全に共有するかどうかに関わらず、複数の貢献分野の関連記事を参照することで、この分野の今後の研究を促進することを願っています。

Causal decision making (CDM) at scale has become a routine part of business, and increasingly CDM is based on machine learning algorithms. For example, businesses often target offers, incentives, and recommendations with the goal of affecting consumer behavior. Recently, we have seen an acceleration of research related to CDM and to causal effect estimation (CEE) using machine learned models. This article highlights an important perspective: CDM is not the same as CEE, and counterintuitively, accurate CEE is not necessary for accurate CDM. Our experience is that this is not well understood by practitioners nor by most researchers. Technically, the estimand of interest is different, and this has important implications both for modeling and for the use of statistical models for CDM. We draw on recent research to highlight three of these implications. (1) We should carefully consider the objective function of the causal machine learning, and if possible, we should optimize for accurate "treatment assignment" rather than for accurate effect-size estimation. (2) Confounding does not have the same effect on CDM as it does on CEE. The upshot here is that for supporting CDM it may be just as good to learn with confounded data as with unconfounded data. Finally, (3) causal statistical modeling may not be necessary at all to support CDM, because there may be (and perhaps often is) a proxy target for statistical modeling that can do as well or better. This observation helps to explain at least one broad common CDM practice that seems "wrong" at first blush: the widespread use of non-causal models for targeting interventions. Our perspective is that these observations open up substantial fertile ground for future research. Whether or not you share our perspective completely, we hope we facilitate future research in this area by pointing to related articles from multiple contributing fields.
翻訳日:2021-04-12 22:11:49 公開日:2021-04-08
# (参考訳) イメージベース仮想フィッティングルーム

Image-based Virtual Fitting Room ( http://arxiv.org/abs/2104.04104v1 )

ライセンス: CC BY-SA 4.0
Zhiling Huang and Junwen Bu and Jie Chen(参考訳) バーチャルフィッティングルームは、Eコマースプラットフォームやファッションデザイナーにとって難しいが便利な機能だ。 既存の作品はごくわずかな種類のファッションアイテムしか検出できない。 また、選択したファッションアイテムのテクスチャやスタイルの変更も不十分であった。 本稿では,この問題に対処するための新しいアプローチを提案する。 まずMask R-CNNを用いて、異なるファッションアイテムの領域を抽出し、選択したファッションアイテムのスタイルを変更するためにNeural Style Transferを用いた。 私たちが使ったデータセットはPaperDollのデータセットとeBayのModaNetが提供するアノテーションのイメージで構成されています。 我々は8つのモデルと最良のモデルで、68.72%のmAP、0.2%のASDRで、定量と定性の両方で非常に優れたベースラインモデルを訓練した。

Virtual fitting room is a challenging task yet useful feature for e-commerce platforms and fashion designers. Existing works can only detect very few types of fashion items. Besides they did poorly in changing the texture and style of the selected fashion items. In this project, we propose a novel approach to address this problem. We firstly used Mask R-CNN to find the regions of different fashion items, and secondly used Neural Style Transfer to change the style of the selected fashion items. The dataset we used is composed of images from PaperDoll dataset and annotations provided by eBay's ModaNet. We trained 8 models and our best model massively outperformed baseline models both quantitatively and qualitatively, with 68.72% mAP, 0.2% ASDR.
翻訳日:2021-04-12 21:58:39 公開日:2021-04-08
# (参考訳) FACESEC: 顔認識システムのためのきめ細かいロバスト性評価フレームワーク

FACESEC: A Fine-grained Robustness Evaluation Framework for Face Recognition Systems ( http://arxiv.org/abs/2104.04107v1 )

ライセンス: CC BY 4.0
Liang Tong, Zhengzhang Chen, Jingchao Ni, Wei Cheng, Dongjin Song, Haifeng Chen, Yevgeniy Vorobeychik(参考訳) 顔認識システムのきめ細かい堅牢性評価のためのフレームワークであるFACESECを提案する。 FACESECの評価は、摂動の性質(ピクセルレベルまたは顔のアクセサリーなど)、攻撃者のシステム知識(トレーニングデータと学習アーキテクチャに関する)、目標(ドッジまたは偽装)、能力(個々の入力またはそれらのセットに合わせた)の4つの次元に沿って行われる。 我々は、FACESECを用いて、5つの顔認識システムをクローズドセットとオープンセットの両方で研究し、これらに対する物理的に実現可能な攻撃を防御するための最先端のアプローチを評価する。 ニューラルネットワークの正確な知識は、ブラックボックス攻撃におけるトレーニングデータの知識よりもはるかに重要である。 さらに,オープンセットの顔認識システムは,異なるタイプの攻撃下でのクローズドセットシステムよりも脆弱であることがわかった。 しかし、他の脅威モデルのバリエーションに対する攻撃の有効性は、摂動の性質とニューラルネットワークアーキテクチャの両方に大きく依存しているように見える。 例えば、敵のフェイスマスクを含む攻撃は通常、敵に訓練されたモデルに対してもより強力であり、ArcFaceアーキテクチャは他のものよりも堅牢である。

We present FACESEC, a framework for fine-grained robustness evaluation of face recognition systems. FACESEC evaluation is performed along four dimensions of adversarial modeling: the nature of perturbation (e.g., pixel-level or face accessories), the attacker's system knowledge (about training data and learning architecture), goals (dodging or impersonation), and capability (tailored to individual inputs or across sets of these). We use FACESEC to study five face recognition systems in both closed-set and open-set settings, and to evaluate the state-of-the-art approach for defending against physically realizable attacks on these. We find that accurate knowledge of neural architecture is significantly more important than knowledge of the training data in black-box attacks. Moreover, we observe that open-set face recognition systems are more vulnerable than closed-set systems under different types of attacks. The efficacy of attacks for other threat model variations, however, appears highly dependent on both the nature of perturbation and the neural network architecture. For example, attacks that involve adversarial face masks are usually more potent, even against adversarially trained models, and the ArcFace architecture tends to be more robust than the others.
翻訳日:2021-04-12 21:46:39 公開日:2021-04-08
# (参考訳) XFORMAL:多言語形式的スタイル転送のためのベンチマーク

XFORMAL: A Benchmark for Multilingual Formality Style Transfer ( http://arxiv.org/abs/2104.04108v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou, Di Lu, Ke Zhang, Joel Tetreault(参考訳) ブラジルのポルトガル語、フランス語、イタリア語の非公式テキストの複数の形式的な改定のベンチマークであるXFORMALを作成し、リリースすることで、多言語スタイルの転送に向けた第一歩を踏み出します。 XFORMALの結果は、最先端のスタイル転送アプローチは単純なベースラインに近い性能を示し、多言語移動ではスタイル転送がさらに難しいことを示唆している。

We take the first step towards multilingual style transfer by creating and releasing XFORMAL, a benchmark of multiple formal reformulations of informal text in Brazilian Portuguese, French, and Italian. Results on XFORMAL suggest that state-of-the-art style transfer approaches perform close to simple baselines, indicating that style transfer is even more challenging when moving multilingual.
翻訳日:2021-04-12 21:25:54 公開日:2021-04-08
# (参考訳) 雑音ラベル付きデータによる学習の理論解析

A Theoretical Analysis of Learning with Noisily Labeled Data ( http://arxiv.org/abs/2104.04114v1 )

ライセンス: CC BY 4.0
Yi Xu, Qi Qian, Hao Li, Rong Jin(参考訳) ノイズラベルは、深い教師付き学習において非常に一般的である。 多くの研究は、ノイズラベルの深層学習の堅牢性を改善する傾向にあるが、希少な研究は、ノイズラベル付きデータによる学習の訓練行動を理論的に説明することに焦点を当てている。 本稿では,その2つの現象である清潔なデータファーストと相転移を理論的に説明して考察する。 具体的には、最初のエポックトレーニングで、クリーンラベルの例が最初に学習されることを示す。 次に,クリーンなデータステージから学習した後,不正なクラスラベルの割合が一定のしきい値よりも小さい場合,連続的なトレーニングモデルにより,テストエラーのさらなる改善が期待できることを示す。

Noisy labels are very common in deep supervised learning. Although many studies tend to improve the robustness of deep training for noisy labels, rare works focus on theoretically explaining the training behaviors of learning with noisily labeled data, which is a fundamental principle in understanding its generalization. In this draft, we study its two phenomena, clean data first and phase transition, by explaining them from a theoretical viewpoint. Specifically, we first show that in the first epoch training, the examples with clean labels will be learned first. We then show that after the learning from clean data stage, continuously training model can achieve further improvement in testing error when the rate of corrupted class labels is smaller than a certain threshold; otherwise, extensively training could lead to an increasing testing error.
翻訳日:2021-04-12 21:03:06 公開日:2021-04-08
# 不均一エンティティ表現のマッチングのためのディープインデックスアクティブラーニング

Deep Indexed Active Learning for Matching Heterogeneous Entity Representations ( http://arxiv.org/abs/2104.03986v1 )

ライセンス: Link先を確認
Arjit Jain, Sunita Sarawagi, Prithviraj Sen(参考訳) レコードの2つの大きなリストが与えられたとき、エンティティ解決(er)のタスクは、同じ現実世界のエンティティに対応するリストのデカルト積からペアを見つけることである。 通常、ERのようなタスクにおける受動的学習法は、有用なモデルを生成するために大量のラベル付きデータを必要とする。 アクティブラーニングは、低リソース環境でerに有望なアプローチである。 しかし、ユーザがラベルを付けるための情報的サンプルを見つけるための検索空間は、アクティブな学習をスケールしにくくするインスタンスペアタスクにおいて、二次的に成長する。 この設定では、手作りの述語、事前訓練された言語モデルの埋め込み、あるいはカルテシアン製品から不可能なペアを抽出するためのルール学習に依存している。 このブロッキングステップは、低いリコールにつながる製品領域の重要な領域を見逃す可能性がある。 本稿では,ブロッキングのリコールとブロックペアのマッチング精度を最大化するために,組込みを共同で学習するスケーラブルなアクティブラーニング手法であるdiardを提案する。 DIALはIndex-By-Committeeフレームワークを使用しており、各委員会メンバーは強力なトランスフォーマーモデルに基づいて表現を学ぶ。 学習データの作成におけるマッチングとブロッカの驚くべき違いと,そのパラメータのトレーニングに使用される目的について注目する。 5つのベンチマークデータセットと多言語レコードマッチングデータセットの実験は、精度、リコール、実行時間の観点から、我々のアプローチの有効性を示している。 コードはhttps://github.com/ArjitJ/DIALで入手できる。

Given two large lists of records, the task in entity resolution (ER) is to find the pairs from the Cartesian product of the lists that correspond to the same real world entity. Typically, passive learning methods on tasks like ER require large amounts of labeled data to yield useful models. Active Learning is a promising approach for ER in low resource settings. However, the search space, to find informative samples for the user to label, grows quadratically for instance-pair tasks making active learning hard to scale. Previous works, in this setting, rely on hand-crafted predicates, pre-trained language model embeddings, or rule learning to prune away unlikely pairs from the Cartesian product. This blocking step can miss out on important regions in the product space leading to low recall. We propose DIAL, a scalable active learning approach that jointly learns embeddings to maximize recall for blocking and accuracy for matching blocked pairs. DIAL uses an Index-By-Committee framework, where each committee member learns representations based on powerful transformer models. We highlight surprising differences between the matcher and the blocker in the creation of the training data and the objective used to train their parameters. Experiments on five benchmark datasets and a multilingual record matching dataset show the effectiveness of our approach in terms of precision, recall and running time. Code is available at https://github.com/ArjitJ/DIAL
翻訳日:2021-04-12 14:15:38 公開日:2021-04-08
# 条件付き対向ネットワークを持つ再設計都市

Re-designing cities with conditional adversarial networks ( http://arxiv.org/abs/2104.04013v1 )

ライセンス: Link先を確認
Mohamed R. Ibrahim, James Haworth, Nicola Christie(参考訳) 本稿は,1)都市介入政策,2)介入が必要な場所を特定できる注意マップ,3)介入実施後の高解像度街並み画像(1024×1024または1536×1536)を作成することにより,都市景観の街並み画像を再設計する条件付き生成広告ネットワークを提案する。 また,この研究を可能にした実生活シナリオによる都市内介入前後の街路レベル画像を含む新たなデータセットも導入する。 提案手法は実写画像に適用した様々な都市介入の訓練を行っている。 トレーニングされたモデルは、リモデリング都市で強力なパフォーマンスを示し、単一のGPUで計算される他のドメインで画像から画像への変換を適用する既存の手法よりも優れています。 この研究は、顔のランドマーク操作やセマンティックセグメンテーションからのイメージ合成の主流を超えて、敵対的学習に基づく都市の異なる属性を再考し、再設計する上で、機械学習が役割を果たすための扉を開く。

This paper introduces a conditional generative adversarial network to redesign a street-level image of urban scenes by generating 1) an urban intervention policy, 2) an attention map that localises where intervention is needed, 3) a high-resolution street-level image (1024 X 1024 or 1536 X1536) after implementing the intervention. We also introduce a new dataset that comprises aligned street-level images of before and after urban interventions from real-life scenarios that make this research possible. The introduced method has been trained on different ranges of urban interventions applied to realistic images. The trained model shows strong performance in re-modelling cities, outperforming existing methods that apply image-to-image translation in other domains that is computed in a single GPU. This research opens the door for machine intelligence to play a role in re-thinking and re-designing the different attributes of cities based on adversarial learning, going beyond the mainstream of facial landmarks manipulation or image synthesis from semantic segmentation.
翻訳日:2021-04-12 14:15:00 公開日:2021-04-08
# 生成的ランドマーク

Generative Landmarks ( http://arxiv.org/abs/2104.04055v1 )

ライセンス: Link先を確認
David Ferman, Gaurav Bharaj(参考訳) 時間的一貫性とパーソナライゼーションを改善したランドマーク検出のための汎用的アプローチを提案する。 わずかなランドマーク検出手法のほとんどは、時間的ボリューム上のアノテーションの不整合が最適なランドマーク学習につながる、手作業でラベル付けされたランドマークに依存している。 さらに、パーソナライズされた高品質なランドマークは達成が難しいことが多い。 画像翻訳問題としてランドマーク検出を提案する。 2セットの未表示のマーク(ペイント付き)と未マークの動画を撮影した。 次に,生成的逆ネットワークと周期的一貫性を用いて,非マーク画像のマーカーをシミュレートするランドマークテンプレートの変形を予測した。 我々の新しい手法は手動でラベル付けされた先行情報に頼らず、時間的に一貫性があり、画像クラスに依存しない顔と手動ランドマークの検出例を示す。

We propose a general purpose approach to detect landmarks with improved temporal consistency, and personalization. Most sparse landmark detection methods rely on laborious, manually labelled landmarks, where inconsistency in annotations over a temporal volume leads to sub-optimal landmark learning. Further, high-quality landmarks with personalization is often hard to achieve. We pose landmark detection as an image translation problem. We capture two sets of unpaired marked (with paint) and unmarked videos. We then use a generative adversarial network and cyclic consistency to predict deformations of landmark templates that simulate markers on unmarked images until these images are indistinguishable from ground-truth marked images. Our novel method does not rely on manually labelled priors, is temporally consistent, and image class agnostic -- face, and hand landmarks detection examples are shown.
翻訳日:2021-04-12 14:11:31 公開日:2021-04-08
# 味付けタコトロン : 韻律言語的特徴の条件付き学習

Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features ( http://arxiv.org/abs/2104.04050v1 )

ライセンス: Link先を確認
Mahsa Elyasi, Gaurav Bharaj(参考訳) tacotron-2のようなtts(neural sequence-to-sequence text-to-speech synthesis)は、テキストを高品質な音声に変換する。 しかし、自然韻律による音声生成は依然として課題である。 安田ら。 アル 自然言語とは異なり、Tacotron-2のエンコーダは韻律的特徴(例)を完全に表現していない。 英語では音節の強勢)は文字から始まり、フラットな基本周波数の変化をもたらす。 本研究では,より自然な韻律を実現するために,英語の2つの基本韻律的特徴であるストレス音節とピッチアクセントにTacotron-2を調和させる手法を提案する。 この目的のために、分類器を用いて、これらの特徴をエンドツーエンドで学習し、Tacotron-2のText-To-Mel Spectrogram(pre-encoder, post-encoder, in-decoder)の3つの部分に特徴条件を適用する。 さらに,プリエンコーダ段階とイントラデコーダ段階における協調的な特徴により,韻律的自然合成音声(vs. tacotron-2)が生成され,より正確なピッチアクセントとストレスパターンを持つ音声が生成できることを示した。 定量的評価の結果,合成音声と自然音声の間には,高い基本周波数パターン相関と低いメルケプストラム歪み測度が得られることがわかった。 主観評価の結果,提案手法の平均評価スコアは,自然発話(ljspeechコーパス)4.28に対して,タコトロン-2,3.91よりも4.14フェア高い値を示した。

Neural sequence-to-sequence text-to-speech synthesis (TTS), such as Tacotron-2, transforms text into high-quality speech. However, generating speech with natural prosody still remains a challenge. Yasuda et. al. show that unlike natural speech, Tacotron-2's encoder doesn't fully represent prosodic features (e.g. syllable stress in English) from characters, and result in flat fundamental frequency variations. In this work, we propose a novel carefully designed strategy for conditioning Tacotron-2 on two fundamental prosodic features in English -- stress syllable and pitch accent, that help achieve more natural prosody. To this end, we use of a classifier to learn these features in an end-to-end fashion, and apply feature conditioning at three parts of Tacotron-2's Text-To-Mel Spectrogram: pre-encoder, post-encoder, and intra-decoder. Further, we show that jointly conditioned features at pre-encoder and intra-decoder stages result in prosodically natural synthesized speech (vs. Tacotron-2), and allows the model to produce speech with more accurate pitch accent and stress patterns. Quantitative evaluations show that our formulation achieves higher fundamental frequency contour correlation, and lower Mel Cepstral Distortion measure between synthesized and natural speech. And subjective evaluation shows that the proposed method's Mean Opinion Score of 4.14 fairs higher than baseline Tacotron-2, 3.91, when compared against natural speech (LJSpeech corpus), 4.28.
翻訳日:2021-04-12 14:11:16 公開日:2021-04-08
# 移動学習方言に対するGrapheme-to-Phoneme変換モデル

Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects ( http://arxiv.org/abs/2104.04091v1 )

ライセンス: Link先を確認
Eric Engelhart, Mahsa Elyasi, Gaurav Bharaj(参考訳) Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。 古典的なG2P法はルールベースのシステムと発音辞書を含み、現代のG2P法はLSTMやTransformerベースのアテンションモデルなどの学習を取り入れている。 通常、辞書ベースの手法では、構築にかなりの手作業が必要であり、見当たらない単語への適応性は限られている。 そして、トランスフォーマーベースのモデルは、重要なトレーニングデータを必要とし、特に限られたデータを持つ方言では、うまく一般化しない。 英語の未熟な方言に適応するトランスフォーマティブ・アテンション・モデルを用いて,小型辞書を用いた新しい使用法を提案する。 本手法は,テキストから音声へのアクセント変換や,発音辞書サイズが制限された方言のロバストなg2pモデルの構築に応用できる可能性が示唆された。 私たちはインディアンとイギリス人の2つの英語方言を実験した。 イギリス英語辞書の1000語を用いてゼロから訓練されたモデルで、14211語が持たれると、完全な辞書を用いて生成されたテストセット上での音素誤り率(PER)は26.877%になる。 同じモデルはCMUDict American English Dictionaryで事前訓練され、同じデータセットで微調整され、PERはテストセットで2.469%となる。

Grapheme-to-Phoneme (G2P) models convert words to their phonetic pronunciations. Classic G2P methods include rule-based systems and pronunciation dictionaries, while modern G2P systems incorporate learning, such as, LSTM and Transformer-based attention models. Usually, dictionary-based methods require significant manual effort to build, and have limited adaptivity on unseen words. And transformer-based models require significant training data, and do not generalize well, especially for dialects with limited data. We propose a novel use of transformer-based attention model that can adapt to unseen dialects of English language, while using a small dictionary. We show that our method has potential applications for accent transfer for text-to-speech, and for building robust G2P models for dialects with limited pronunciation dictionary size. We experiment with two English dialects: Indian and British. A model trained from scratch using 1000 words from British English dictionary, with 14211 words held out, leads to phoneme error rate (PER) of 26.877%, on a test set generated using the full dictionary. The same model pretrained on CMUDict American English dictionary, and fine-tuned on the same dataset leads to PER of 2.469% on the test set.
翻訳日:2021-04-12 14:10:49 公開日:2021-04-08
# 自律システムにおけるマルチモーダルマルチタスク学習のためのソフトウェア/ハードウェア共同設計

Software/Hardware Co-design for Multi-modal Multi-task Learning in Autonomous Systems ( http://arxiv.org/abs/2104.04000v1 )

ライセンス: Link先を確認
Cong Hao, Deming Chen(参考訳) 結果の品質(QoR)とサービス品質(QoS)を同時に最適化することは、非常に難しい。 まず、複数の入力ソースがあり、例えば、異なるセンサーからのマルチモーダルデータがあり、様々なデータ前処理、センサー融合、特徴集約が必要である。 第2に、知覚、ローカライゼーション、制御など、さまざまなAIモデルを同時に実行するために必要な複数のタスクがある。 第三に、コンピューティングと制御システムは異質であり、組み込みCPU、GPU、FPGA、専用アクセラレータなどの様々な特徴を持つハードウェアコンポーネントで構成されている。 したがって、自律システムは基本的に、ハードウェアの性能と実装戦略を認識する必要があるマルチモーダルマルチタスク(mmmt)学習を必要とする。 MMMT学習は研究の関心を集めているが、自律システムにおけるその応用はいまだに未熟である。 本稿ではまず,自律システムにMMMT技術を適用する機会について論じ,解決すべき課題について論じる。 また、特に電力/リソース制限や異種プラットフォームにおいて、自律システムにとって重要なmmmtモデルとハードウェアの共同設計の必要性と機会について論じる。 我々は,mmmtモデルと異種ハードウェア実装の共設計を,ソリューション品質の向上と全体的な電力消費とクリティカルパス遅延の低減を目的として,差別化可能な最適化問題として定式化した。 我々は、自律システムとソフトウェア/ハードウェアの共同設計ソリューションにおけるMMMTのさらなる探索を提唱する。

Optimizing the quality of result (QoR) and the quality of service (QoS) of AI-empowered autonomous systems simultaneously is very challenging. First, there are multiple input sources, e.g., multi-modal data from different sensors, requiring diverse data preprocessing, sensor fusion, and feature aggregation. Second, there are multiple tasks that require various AI models to run simultaneously, e.g., perception, localization, and control. Third, the computing and control system is heterogeneous, composed of hardware components with varied features, such as embedded CPUs, GPUs, FPGAs, and dedicated accelerators. Therefore, autonomous systems essentially require multi-modal multi-task (MMMT) learning which must be aware of hardware performance and implementation strategies. While MMMT learning has been attracting intensive research interests, its applications in autonomous systems are still underexplored. In this paper, we first discuss the opportunities of applying MMMT techniques in autonomous systems and then discuss the unique challenges that must be solved. In addition, we discuss the necessity and opportunities of MMMT model and hardware co-design, which is critical for autonomous systems especially with power/resource-limited or heterogeneous platforms. We formulate the MMMT model and heterogeneous hardware implementation co-design as a differentiable optimization problem, with the objective of improving the solution quality and reducing the overall power consumption and critical path latency. We advocate for further explorations of MMMT in autonomous systems and software/hardware co-design solutions.
翻訳日:2021-04-12 14:10:11 公開日:2021-04-08
# カウンターファクトリアルを用いた気候変動の処理--データ拡張による不確実な気候における作物の成長予測

Handling Climate Change Using Counterfactuals: Using Counterfactuals in Data Augmentation to Predict Crop Growth in an Uncertain Climate Future ( http://arxiv.org/abs/2104.04008v1 )

ライセンス: Link先を確認
Mohammed Temraz and Eoin Kenny and Elodie Ruelle and Laurence Shalloo and Barry Smyth and Mark T Keane(参考訳) 気候変動は人類にとって大きな課題であり、特に農業への影響において、責任あるAIが直面するべき課題である。 本稿では,草地経営支援による持続的農業を支援するcbrシステム(pbi-cbr)について,作物生育予測の正確性について検討する。 気候変動に伴い、PBI-CBRの歴史的ケースは将来の草の生育を予測するのにあまり役に立たない。 したがって、データ拡張を用いてPBI-CBRを拡張し、(XAIからの)反ファクト的手法を用いて、特に破壊的な気候イベントに対処する。 研究1は、PBI-CBRが気候破壊期における草の生長を予測するために、歴史的、極端な気候変動(気候異常なケース)を使用する傾向があることを示している。 研究2では,2018年の干ばつ時のpbicbrの予測精度が,アウトバウンダリ上の反事実として生成される合成異常値によって向上することを示した。 この研究では、インスタンスベースのカウンターファクチュアルメソッドが、ベンチマーク、制約誘導メソッドよりも優れていることも示しています。

Climate change poses a major challenge to humanity, especially in its impact on agriculture, a challenge that a responsible AI should meet. In this paper, we examine a CBR system (PBI-CBR) designed to aid sustainable dairy farming by supporting grassland management, through accurate crop growth prediction. As climate changes, PBI-CBRs historical cases become less useful in predicting future grass growth. Hence, we extend PBI-CBR using data augmentation, to specifically handle disruptive climate events, using a counterfactual method (from XAI). Study 1 shows that historical, extreme climate-events (climate outlier cases) tend to be used by PBI-CBR to predict grass growth during climate disrupted periods. Study 2 shows that synthetic outliers, generated as counterfactuals on a outlier-boundary, improve the predictive accuracy of PBICBR, during the drought of 2018. This study also shows that an instance-based counterfactual method does better than a benchmark, constraint-guided method.
翻訳日:2021-04-12 14:06:45 公開日:2021-04-08
# Direct-PoseNet: Photometric Consistencyによる絶対的なPose回帰

Direct-PoseNet: Absolute Pose Regression with Photometric Consistency ( http://arxiv.org/abs/2104.04073v1 )

ライセンス: Link先を確認
Shuai Chen, Zirui Wang, Victor Prisacariu(参考訳) 本稿では,絶対ポーズ回帰 (apr) ネットワークと,新しいビュー合成に基づく直接マッチングモジュールを組み合わせた再局在化パイプラインを提案する。 i) 微分可能レンダリングによる姿勢回帰ネットワークを洗練するための測光的監督信号を提供する直接マッチングモジュールを設計し, ii) 姿勢回帰において, 従来の四元数からso(3)へ回転表現を変換し, 回転と翻訳損失項のバランスを取る必要をなくした。 その結果,本ネットワークは,7-scenesベンチマークとllffデータセットにおいて,すべての単一画像apr手法において最先端の性能を実現する。

We present a relocalization pipeline, which combines an absolute pose regression (APR) network with a novel view synthesis based direct matching module, offering superior accuracy while maintaining low inference time. Our contribution is twofold: i) we design a direct matching module that supplies a photometric supervision signal to refine the pose regression network via differentiable rendering; ii) we modify the rotation representation from the classical quaternion to SO(3) in pose regression, removing the need for balancing rotation and translation loss terms. As a result, our network Direct-PoseNet achieves state-of-the-art performance among all other single-image APR methods on the 7-Scenes benchmark and the LLFF dataset.
翻訳日:2021-04-12 14:06:25 公開日:2021-04-08
# 自然言語表現を用いた臨床物語からの患者の状態検出

Detecting of a Patient's Condition From Clinical Narratives Using Natural Language Representation ( http://arxiv.org/abs/2104.03969v1 )

ライセンス: Link先を確認
Thanh-Dung Le, Jerome Rambaud, Guillaume Sans, Philippe Jouvet and Rita Noumeir(参考訳) 本稿では,チュ・サント・ジャスティネ病院(chusj)における臨床ナラティブにおける概念ラベル検出のための機械学習に基づく臨床自然言語表現学習と教師付き分類フレームワークを提案する。 このフレームワークは,文脈的臨床物語入力から分布構文と潜在意味(表現学習)を共同で発見し,文脈的アウトプット(教師付き分類)におけるラベル付けの知識表現を学習する。 まず、小さなデータセットで効率的な表現学習アプローチを実現するために、数値値とテキストを混合する。 数値的なバイタルサイン値を取得するために4つの異なる方法が適用される。 そして,様々な表現学習手法を用いて,臨床物語データからリッチな構造を発見する。 第2に, 疾患予測に自動で遭遇した場合, 心不全が生じる。 バイナリ分類器は、前ステップで処理データの知識表現を学ぶために反復的に訓練される。 多層パーセプトロンニューラルネットワークは、他の識別的および生成的分類器よりも優れる。 その結果, 提案手法では, 精度, 再現率, 精度が89 %, 88 %, 89 %の分類性能が得られた。 さらに、スパルシティ低減を活用すべく、生成型オートエンコーダ(ae)学習アルゴリズムを提案する。 AEアルゴリズムは、他のスパーシリティ低減手法をオーバーパフォーマンスしている。 また、分類器の性能は、精度、リコール、精度でそれぞれ91%、91%、91%の達成に成功している。

This paper proposes a joint clinical natural language representation learning and supervised classification framework based on machine learning for detecting concept labels in clinical narratives at CHU Sainte Justine Hospital (CHUSJ). The novel framework jointly discovers distributional syntactic and latent semantic (representation learning) from contextual clinical narrative inputs and, then, learns the knowledge representation for labeling in the contextual output (supervised classification). First, for having an effective representation learning approach with a small data set, mixing of numeric values and texts. Four different methods are applied to capture the numerical vital sign values. Then, different representation learning approaches are using to discover the rich structure from clinical narrative data. Second, for an automatic encounter with disease prediction, in this case, cardiac failure. The binary classifiers are iteratively trained to learn the knowledge representation of processed data in the preceding steps. The multilayer perceptron neural network outperforms other discriminative and generative classifiers. Consequently, the proposed framework yields an overall classification performance with accuracy, recall, and precision of 89 % and 88 %, 89 %, respectively. Furthermore, a generative autoencoder (AE) learning algorithm is then proposed to leverage the sparsity reduction. Affirmatively, AE algorithm is overperforming other sparsity reduction techniques. And, the classifier performances can successfully achieve up to 91 %, 91%, and 91%, respectively, for accuracy, recall, and precision.
翻訳日:2021-04-12 14:01:59 公開日:2021-04-08
# ACERAC:微細時間離散化における効率的な強化学習

ACERAC: Efficient reinforcement learning in fine time discretization ( http://arxiv.org/abs/2104.04004v1 )

ライセンス: Link先を確認
Pawe{\l} Wawrzy\'nski, Jakub {\L}yskawa(参考訳) 本稿では,細時間離散化における強化学習(rl)の枠組みと学習アルゴリズムを提案する。 RLの主な目的の1つは、物理機械がプログラムされる代わりに最適な振る舞いを学ぶ方法を提供することである。 しかし、機械は通常細かな時間の離散化で制御される。 最も一般的なRL法は、それぞれのアクションに独立なランダム要素を適用するが、その設定には適さない。 制御されたシステムを混乱させるので実現不可能であり、単一のアクションが政策改善に翻訳可能な重要なエクスペリエンスを生み出すのに十分ではないため、十分な探索が保証されない。 本稿で紹介したRLフレームワークでは、状態と乱数要素に基づくアクションを後続のタイミングで自動相関するポリシーが検討されている。 ここで導入されたRLアルゴリズムは、そのようなポリシーを概ね最適化する。 このアルゴリズムの効率は、4つのシミュレーション学習制御問題 (ant, halfcheetah, hopper, walker2d) における他の3つのrl法 (ppo, sac, acer) で検証された。 ここで導入されたアルゴリズムは、ほとんどのケースで競合を上回っている。

We propose a framework for reinforcement learning (RL) in fine time discretization and a learning algorithm in this framework. One of the main goals of RL is to provide a way for physical machines to learn optimal behavior instead of being programmed. However, the machines are usually controlled in fine time discretization. The most common RL methods apply independent random elements to each action, which is not suitable in that setting. It is not feasible because it causes the controlled system to jerk, and does not ensure sufficient exploration since a single action is not long enough to create a significant experience that could be translated into policy improvement. In the RL framework introduced in this paper, policies are considered that produce actions based on states and random elements autocorrelated in subsequent time instants. The RL algorithm introduced here approximately optimizes such a policy. The efficiency of this algorithm is verified against three other RL methods (PPO, SAC, ACER) in four simulated learning control problems (Ant, HalfCheetah, Hopper, and Walker2D) in diverse time discretization. The algorithm introduced here outperforms the competitors in most cases considered.
翻訳日:2021-04-12 14:00:37 公開日:2021-04-08
# LISTAとそれを超える設計空間の研究

A Design Space Study for LISTA and Beyond ( http://arxiv.org/abs/2104.04110v1 )

ライセンス: Link先を確認
Tianjian Meng, Xiaohan Chen, Yifan Jiang, Zhangyang Wang(参考訳) 近年、問題固有のディープネットワークの構築において、反復アルゴリズムの展開、逆問題の解決など、大きな成功を収めている。 unrollingは、モデルベースのpremierをディープラーニングの学習能力に組み込むと考えられている。 本稿では,ディープネットワークの設計アプローチとしてのアンロールの役割を再検討する。 スパースリカバリのためのlistaを代表例として,未ロールモデルに対する設計空間調査を初めて実施した。 あらゆる可能性のあるバリエーションの中で、接続パターンやニューロンタイプを大きく変化させることに重点を置いており、LISTAから生じる巨大な設計空間につながっている。 この空間を効率的に探索し、トップパフォーマーを特定するために、ニューラルアーキテクチャサーチ(NAS)の新たなツールを活用する。 検索したトップアーキテクチャを多くの設定で慎重に検討し、LISTAよりも一貫して優れたネットワークを発見することができる。 さらに,"箱を開ける"ために,さらに可視化と分析を行い,検索したトップアーキテクチャが高度に一貫性があり,潜在的に転送可能なパターンを示していることを示す。 私たちの研究は、モデルベースの最適化とデータ駆動学習をうまく組み合わせる方法について、さらなるリフレクションと調査のきっかけになることを期待しています。

In recent years, great success has been witnessed in building problem-specific deep networks from unrolling iterative algorithms, for solving inverse problems and beyond. Unrolling is believed to incorporate the model-based prior with the learning capacity of deep learning. This paper revisits the role of unrolling as a design approach for deep networks: to what extent its resulting special architecture is superior, and can we find better? Using LISTA for sparse recovery as a representative example, we conduct the first thorough design space study for the unrolled models. Among all possible variations, we focus on extensively varying the connectivity patterns and neuron types, leading to a gigantic design space arising from LISTA. To efficiently explore this space and identify top performers, we leverage the emerging tool of neural architecture search (NAS). We carefully examine the searched top architectures in a number of settings, and are able to discover networks that are consistently better than LISTA. We further present more visualization and analysis to "open the black box", and find that the searched top architectures demonstrate highly consistent and potentially transferable patterns. We hope our study to spark more reflections and explorations on how to better mingle model-based optimization prior and data-driven learning.
翻訳日:2021-04-12 14:00:16 公開日:2021-04-08
# 動的障害を有する高速道路におけるリスクアウェアレーン選択

Risk-Aware Lane Selection on Highway with Dynamic Obstacles ( http://arxiv.org/abs/2104.04105v1 )

ライセンス: Link先を確認
Sangjae Bae, David Isele, Kikuo Fujimura, Scott J. Moura(参考訳) 本稿では,離散レーン選択アルゴリズムを提案する。 特に、高速道路の運転は、各車線が異なるレベルの交通の流れを持つターゲットのシナリオと見なされている。 車線変更が裁量的である場合、例えば、旅行時間を著しく短縮したり、より高い安全性を確保しない限り、車線変更を推奨する。 このような「便益」の評価は、ダイナミックな速度で複数の周囲の車両と共に、不確実性を伴う。 本稿では,設計に注意深いコストを考慮したリアルタイムレーン選択アルゴリズムを提案する。 このアルゴリズムは、連続時間と空間領域における他の車両の不確実な動的位置を評価する探索に基づく最適化手法である。 実演では,CARLAシミュレーション環境下に最先端のモーションプランナフレームワーク(ニューラルネットワーク統合モデル予測制御)を組み込む。

This paper proposes a discretionary lane selection algorithm. In particular, highway driving is considered as a targeted scenario, where each lane has a different level of traffic flow. When lane-changing is discretionary, it is advised not to change lanes unless highly beneficial, e.g., reducing travel time significantly or securing higher safety. Evaluating such "benefit" is a challenge, along with multiple surrounding vehicles in dynamic speed and heading with uncertainty. We propose a real-time lane-selection algorithm with careful cost considerations and with modularity in design. The algorithm is a search-based optimization method that evaluates uncertain dynamic positions of other vehicles under a continuous time and space domain. For demonstration, we incorporate a state-of-the-art motion planner framework (Neural Networks integrated Model Predictive Control) under a CARLA simulation environment.
翻訳日:2021-04-12 13:58:40 公開日:2021-04-08
# 衣料人体のための動的表面関数ネットワーク

Dynamic Surface Function Networks for Clothed Human Bodies ( http://arxiv.org/abs/2104.03978v1 )

ライセンス: Link先を確認
Andrei Burov and Matthias Nie{\ss}ner and Justus Thies(参考訳) 衣服の時間的コヒーレントな再構築と追跡のための新しい手法を提案する。 単眼のrgb-d配列が与えられると、動的表面関数ネットワークに基づく個人特異的体モデルが学習される。 この目的のために、SMPLボディモデルの標準空間に埋め込まれた多層パーセプトロン(MLP)を用いて、人物の表面を明示的にモデル化する。 古典的なフォワードレンダリングでは、表現された表面はテンプレートメッシュのトポロジーを使ってラスタライズすることができる。 テンプレートメッシュの各表面点について、mlpの評価を行い、実際の表面位置を予測する。 ポーズ依存変形を処理するために、SMPLポーズパラメータにMLPを条件付けする。 この表面表現とポーズパラメータは, 合成による解析とラスタ化の原理を用いて, 自己教師あり方式で学習できることを示す。 その結果,入力データから時間的コヒーレントなメッシュシーケンスを再構築することができた。 基礎となる表面表現は、ポーズ依存の変形を含む再構成された人の新しいアニメーションを合成するのに使うことができる。

We present a novel method for temporal coherent reconstruction and tracking of clothed humans. Given a monocular RGB-D sequence, we learn a person-specific body model which is based on a dynamic surface function network. To this end, we explicitly model the surface of the person using a multi-layer perceptron (MLP) which is embedded into the canonical space of the SMPL body model. With classical forward rendering, the represented surface can be rasterized using the topology of a template mesh. For each surface point of the template mesh, the MLP is evaluated to predict the actual surface location. To handle pose-dependent deformations, the MLP is conditioned on the SMPL pose parameters. We show that this surface representation as well as the pose parameters can be learned in a self-supervised fashion using the principle of analysis-by-synthesis and differentiable rasterization. As a result, we are able to reconstruct a temporally coherent mesh sequence from the input data. The underlying surface representation can be used to synthesize new animations of the reconstructed person including pose-dependent deformations.
翻訳日:2021-04-12 13:57:18 公開日:2021-04-08
# 補助タスクと探索を可能にするobjectnav

Auxiliary Tasks and Exploration Enable ObjectNav ( http://arxiv.org/abs/2104.04112v1 )

ライセンス: Link先を確認
Joel Ye, Dhruv Batra, Abhishek Das, and Erik Wijmans(参考訳) ObjectGoal Navigation(ObjectNav)は、エージェントが見えない環境でオブジェクトインスタンスにナビゲートする、具体化されたタスクである。 以前の研究では、バニラ視覚およびリカレントモジュールを使用するエンドツーエンドのObjectNavエージェントが示されている。 CNN+RNNは、過度な適合とサンプルの非効率のために、性能が良くない。 これにより、現在の最先端の手法では、分析および学習されたコンポーネントを混合し、環境の明示的な空間マップを操作できる。 代わりに、補助的な学習タスクと探索報酬を追加することで、汎用的な学習エージェントを再利用する。 我々のエージェントは、Habitat ObjectNav Challengeにおいて、24.5%の成功率と8.1%のSPL、それぞれ37%と8%の相対的な改善を達成した。 本分析から, エージェントは, RNNのダイナミックスを円滑にするために視覚入力を単純化し, 有効なRNN次元を最小化することで, 補助的なタスクの過度な適合を抑えることを提案する。 高性能なObjectNavエージェントは、滑らかで低次元のリカレントダイナミクスを学習することで、長い水平線上でコヒーレントな計画を維持する必要がある。 サイト: https://joel99.github.io/objectnav/

ObjectGoal Navigation (ObjectNav) is an embodied task wherein agents are to navigate to an object instance in an unseen environment. Prior works have shown that end-to-end ObjectNav agents that use vanilla visual and recurrent modules, e.g. a CNN+RNN, perform poorly due to overfitting and sample inefficiency. This has motivated current state-of-the-art methods to mix analytic and learned components and operate on explicit spatial maps of the environment. We instead re-enable a generic learned agent by adding auxiliary learning tasks and an exploration reward. Our agents achieve 24.5% success and 8.1% SPL, a 37% and 8% relative improvement over prior state-of-the-art, respectively, on the Habitat ObjectNav Challenge. From our analysis, we propose that agents will act to simplify their visual inputs so as to smooth their RNN dynamics, and that auxiliary tasks reduce overfitting by minimizing effective RNN dimensionality; i.e. a performant ObjectNav agent that must maintain coherent plans over long horizons does so by learning smooth, low-dimensional recurrent dynamics. Site: https://joel99.github.io/objectnav/
翻訳日:2021-04-12 13:57:04 公開日:2021-04-08
# 畳み込みニューラルネットワークによる太陽電池のメタライゼーション設計の改善

Improving Solar Cell Metallization Designs using Convolutional Neural Networks ( http://arxiv.org/abs/2104.04017v1 )

ライセンス: Link先を確認
Sumit Bhattacharya, Devanshu Arya, Debjani Bhowmick, Rajat Mani Thomas, Deepak Kumar Gupta(参考訳) 太陽電池の金属化設計を最適化することは、太陽電池の性能を改善する方法の1つである。 近年,Topology Optimization (TO) を用いて, 太陽電池の複雑な金属化パターンを設計し, 性能を向上することが示されている。 従来の形状最適化法では得られない従来型デザインパターンを生成する。 本稿では,この設計プロセスが深層学習にインスパイアされた戦略によりさらに改善可能であることを示す。 改良された金属化設計の獲得に使用できるCNNベースのパラメータ化スキームであるSolarNetを提案する。 SolarNetは、電極材料分布を直接最適化するのではなく、CNNモデルの重みを最適化するように最適化領域を変更する。 cnnが生成した設計は、物理方程式を用いて評価され、その結果、バックプロパゲーションのための勾配を生成する。 SolarNetは、太陽電池モデルとCNNパイプラインによるバックプロパゲーションを含むエンドツーエンドでトレーニングされている。 異なる形状の太陽電池と異なるバスバージオメトリーを応用することにより、SolarNetは従来のTOアプローチと比較して太陽電池の性能を向上させることを示した。

Optimizing the design of solar cell metallizations is one of the ways to improve the performance of solar cells. Recently, it has been shown that Topology Optimization (TO) can be used to design complex metallization patterns for solar cells that lead to improved performance. TO generates unconventional design patterns that cannot be obtained with the traditional shape optimization methods. In this paper, we show that this design process can be improved further using a deep learning inspired strategy. We present SolarNet, a CNN-based reparameterization scheme that can be used to obtain improved metallization designs. SolarNet modifies the optimization domain such that rather than optimizing the electrode material distribution directly, the weights of a CNN model are optimized. The design generated by CNN is then evaluated using the physics equations, which in turn generates gradients for backpropagation. SolarNet is trained end-to-end involving backpropagation through the solar cell model as well as the CNN pipeline. Through application on solar cells of different shapes as well as different busbar geometries, we demonstrate that SolarNet improves the performance of solar cells compared to the traditional TO approach.
翻訳日:2021-04-12 13:55:06 公開日:2021-04-08
# 核融合炉におけるトリチウム育種率の高速回帰

Fast Regression of the Tritium Breeding Ratio in Fusion Reactors ( http://arxiv.org/abs/2104.04026v1 )

ライセンス: Link先を確認
Petr M\'anek (1 and 2), Graham Van Goffrier (1), Vignesh Gopakumar (3), Nikolaos Nikolaou (1), Jonathan Shimwell (3) and Ingo Waldmann (1) ((1) Department of Physics and Astronomy, University College London, London, UK, (2) Institute of Experimental and Applied Physics, Czech Technical University, Prague, Czech Republic, (3) UK Atomic Energy Authority, Culham Science Centre, Abingdon, UK)(参考訳) トリチウム繁殖比(TBR)は、現代および次世代のD-T核融合炉の設計に欠かせない量である。 育種ブランケットで発生するトリチウム燃料と原子炉実行時に消費される燃料の比を表し、tbrは原子炉の形状と材料特性に複雑な方法で依存する。 本研究では,イギリス原子力公社で使用中のモンテカルロtbrモデルに対して,安価で高品質な近似値を生成するためのサロゲートモデルの訓練について検討した。 特徴空間の次元的縮小の可能性について検討し, 9種類のサロゲートモデルの応用可能性について検討し, ハイパーパラメータ最適化を行った。 ここでは,これらのモデルの性能とスケーリング特性について述べる。最も高速な人工ニューラルネットワークは,R^2=0.985$,平均予測時間は0.898\\mu\mathrm{s}$であり,高価なMCモデルに対して8\cdot 10^6$である。 さらに, 個別に解析したサロゲートのいずれとも対話可能な, 適応型サンプリングアルゴリズムである quality-adaptive surrogate sampling を提案する。 トイtbr理論の予備実験により,このアルゴリズムがサロゲートモデリングプロセスの高速化に有効であることを実証した。

The tritium breeding ratio (TBR) is an essential quantity for the design of modern and next-generation D-T fueled nuclear fusion reactors. Representing the ratio between tritium fuel generated in breeding blankets and fuel consumed during reactor runtime, the TBR depends on reactor geometry and material properties in a complex manner. In this work, we explored the training of surrogate models to produce a cheap but high-quality approximation for a Monte Carlo TBR model in use at the UK Atomic Energy Authority. We investigated possibilities for dimensional reduction of its feature space, reviewed 9 families of surrogate models for potential applicability, and performed hyperparameter optimisation. Here we present the performance and scaling properties of these models, the fastest of which, an artificial neural network, demonstrated $R^2=0.985$ and a mean prediction time of $0.898\ \mu\mathrm{s}$, representing a relative speedup of $8\cdot 10^6$ with respect to the expensive MC model. We further present a novel adaptive sampling algorithm, Quality-Adaptive Surrogate Sampling, capable of interfacing with any of the individually studied surrogates. Our preliminary testing on a toy TBR theory has demonstrated the efficacy of this algorithm for accelerating the surrogate modelling process.
翻訳日:2021-04-12 13:54:50 公開日:2021-04-08
# 強化学習による最適市場作り

Optimal Market Making by Reinforcement Learning ( http://arxiv.org/abs/2104.04036v1 )

ライセンス: Link先を確認
Matias Selser, Javier Kreiner, Manuel Maurette(参考訳) エージェントが商品の購入と販売の注文を最大化しながら市場に対して流動性を提供する古典的な量的金融市場形成問題を解決するために強化学習アルゴリズムを適用する。 最適なエージェントは、在庫の価格リスクと入札の拡散を捉えた利益との微妙なバランスを見つけなければならない。 我々は、元のユーティリティ関数に相当するポリシー間の順序関係を決定する報酬関数を持つ環境を設計する。 エージェントを最適解とベンチマーク対称エージェントと比較すると、Deep Q-Learningアルゴリズムが最適なエージェントを回復できることがわかった。

We apply Reinforcement Learning algorithms to solve the classic quantitative finance Market Making problem, in which an agent provides liquidity to the market by placing buy and sell orders while maximizing a utility function. The optimal agent has to find a delicate balance between the price risk of her inventory and the profits obtained by capturing the bid-ask spread. We design an environment with a reward function that determines an order relation between policies equivalent to the original utility function. When comparing our agents with the optimal solution and a benchmark symmetric agent, we find that the Deep Q-Learning algorithm manages to recover the optimal agent.
翻訳日:2021-04-12 13:54:30 公開日:2021-04-08
# CLVSA:金融市場の動向予測を目的とした畳み込みLSTMに基づく変動系列列列モデル

CLVSA: A Convolutional LSTM Based Variational Sequence-to-Sequence Model with Attention for Predicting Trends of Financial Markets ( http://arxiv.org/abs/2104.04041v1 )

ライセンス: Link先を確認
Jia Wang, Tong Sun, Benyuan Liu, Yu Cao, Hongwei Zhu(参考訳) 金融市場は複雑な力学システムである。 この複雑さは、市場と参加者間の相互作用から生じ、言い換えれば、参加者全体の活動の統合結果が市場の動向を決定する一方で、市場の動向が参加者の活動に影響を与える。 これらの相互作用は金融市場を進化させ続ける。 音声やビデオなどの自然な逐次データで観測される変動を捉える確率的リカレントモデルにインスパイアされたCLVSAは、確率的リカレント・ネットワーク、シーケンス・ツー・シーケンス・アーキテクチャ、自己保持機構、畳み込みLSTMユニットから構成されるハイブリッドモデルであり、生の金融取引データにおける変動基盤の特徴を捉える。 提案モデルは,2010年1月から2017年12月までの6つの未来をバックテストした結果に基づいて,畳み込みニューラルネットワーク,バニラlstmネットワーク,シーケンシャル・ツー・シーケンスモデルなどの基本モデルよりも優れている。 実験の結果,clvsaは,近似後段の導入により,kullback-leibler 発散に基づく余分な正規化剤を活用し,トラップの過剰フィットを防止することができた。

Financial markets are a complex dynamical system. The complexity comes from the interaction between a market and its participants, in other words, the integrated outcome of activities of the entire participants determines the markets trend, while the markets trend affects activities of participants. These interwoven interactions make financial markets keep evolving. Inspired by stochastic recurrent models that successfully capture variability observed in natural sequential data such as speech and video, we propose CLVSA, a hybrid model that consists of stochastic recurrent networks, the sequence-to-sequence architecture, the self- and inter-attention mechanism, and convolutional LSTM units to capture variationally underlying features in raw financial trading data. Our model outperforms basic models, such as convolutional neural network, vanilla LSTM network, and sequence-to-sequence model with attention, based on backtesting results of six futures from January 2010 to December 2017. Our experimental results show that, by introducing an approximate posterior, CLVSA takes advantage of an extra regularizer based on the Kullback-Leibler divergence to prevent itself from overfitting traps.
翻訳日:2021-04-12 13:54:20 公開日:2021-04-08
# (参考訳) RTIC:グラフ畳み込みネットワークを用いたテキスト・画像合成のための残差学習

RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network ( http://arxiv.org/abs/2104.03015v2 )

ライセンス: CC BY 4.0
Minchul Shin, Yoonjae Cho, Byungsoo Ko, Geonmo Gu(参考訳) 本稿では,画像検索のための画像とテキストの合成学習について検討する。 クエリは、画像に対する所望の修正を記述した画像とテキストの形式で与えられる。目標は、与えられた修正を満たすターゲットイメージを検索し、テキストと画像のモダリティの両方で情報を構成することでクエリに類似させることである。 この課題を達成するために,スキップ接続を用いた簡易な新しいアーキテクチャを提案し,遅延空間におけるソースとターゲット画像間のエラーを効果的に符号化する。 さらに,グラフ畳み込みネットワーク(GCN)と既存の合成手法を組み合わせた新しい手法を提案する。 この組み合わせは、プラグアンドプレイ方式でパフォーマンスを一貫して改善する。 広く使われているデータセットで徹底的で徹底的な実験を行い、このモデルでタスクの最先端のスコアを得る。 トレーニング条件の差が最終成績に大きく影響するため, 比較の公平性を確保するため, 評価の厳格な基準を提案する。 再現性のために、比較したすべてのメソッドを含む実装をリリースします。

In this paper, we study the compositional learning of images and texts for image retrieval. The query is given in the form of an image and text that describes the desired modifications to the image; the goal is to retrieve the target image that satisfies the given modifications and resembles the query by composing information in both the text and image modalities. To accomplish this task, we propose a simple new architecture using skip connections that can effectively encode the errors between the source and target images in the latent space. Furthermore, we introduce a novel method that combines the graph convolutional network (GCN) with existing composition methods. We find that the combination consistently improves the performance in a plug-and-play manner. We perform thorough and exhaustive experiments on several widely used datasets, and achieve state-of-the-art scores on the task with our model. To ensure fairness in comparison, we suggest a strict standard for the evaluation because a small difference in the training conditions can significantly affect the final performance. We release our implementation, including that of all the compared methods, for reproducibility.
翻訳日:2021-04-12 13:36:04 公開日:2021-04-08
# PhoNLP: ベトナム語音声タギングのための多タスク共同学習モデル : エンティティ認識と依存性解析

PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing ( http://arxiv.org/abs/2101.01476v2 )

ライセンス: Link先を確認
Linh The Nguyen, Dat Quoc Nguyen(参考訳) PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。 ベトナムのベンチマークデータセットの実験では、PhoNLPが最先端の結果を生成し、訓練済みのベトナム語モデルであるPhoBERT(Nguyen and Nguyen, 2020)を個別に微調整する単一タスク学習アプローチよりも優れていた。 PhoNLPはApache License 2.0の下でオープンソースツールキットとして公開しています。 我々はベトナム語でPhoNLPを指定するが、我々のPhoNLPトレーニングおよび評価コマンドスクリプトは、実際に、トレーニング済みのBERT言語モデルとPOSタグ付け、NER、依存性解析の3つのタスクで利用できるゴールドアノテートコーパスを持つ他の言語で直接動作する。 我々はPhoNLPがベトナム語だけでなく他の言語にも、将来のNLP研究や応用のための強力なベースラインとして役立つことを願っている。 私たちのPhoNLPは、https://github.com/VinAIResearch/PhoNLPで利用可能です。

We present the first multi-task learning model -- named PhoNLP -- for joint Vietnamese part-of-speech (POS) tagging, named entity recognition (NER) and dependency parsing. Experiments on Vietnamese benchmark datasets show that PhoNLP produces state-of-the-art results, outperforming a single-task learning approach that fine-tunes the pre-trained Vietnamese language model PhoBERT (Nguyen and Nguyen, 2020) for each task independently. We publicly release PhoNLP as an open-source toolkit under the Apache License 2.0. Although we specify PhoNLP for Vietnamese, our PhoNLP training and evaluation command scripts in fact can directly work for other languages that have a pre-trained BERT-based language model and gold annotated corpora available for the three tasks of POS tagging, NER and dependency parsing. We hope that PhoNLP can serve as a strong baseline and useful toolkit for future NLP research and applications to not only Vietnamese but also the other languages. Our PhoNLP is available at: https://github.com/VinAIResearch/PhoNLP
翻訳日:2021-04-11 11:38:19 公開日:2021-04-08
# zero-shot sim-to-real transfer of tactile control policies for aggressive swing-up manipulation

Zero-shot sim-to-real transfer of tactile control policies for aggressive swing-up manipulation ( http://arxiv.org/abs/2101.02680v2 )

ライセンス: Link先を確認
Thomas Bi, Carmelo Sferrazza and Raffaello D'Andrea(参考訳) 本稿では,視覚型触覚センサを搭載したロボットが,操作対象の物理的特性をすべて事前に把握することなく,動的操作タスクを実行できることを示す。 この目的のために、触覚センサによって提供されるフィードバックのみに頼りながら、異なる質量、半径、長さの極を180度の角度に振り上げることができるロボットシステムを提案する。 これは、ポールとソフトセンサーの相互作用を正確にモデル化する新しいシミュレータを開発することで達成される。 知覚観察履歴に基づいて条件付けされ、ポールの物理的特徴に関する事前知識を持たないフィードバックポリシーが、上記のシミュレーションで学習される。 物理システム上で評価すると、ポリシーは、さらなる適応なしに、物理的特性において著しく異なる広い範囲の極を振り上げることができる。 著者らの知る限り、これは閉ループにおけるポールの揺動操作を制御するために、高次元触覚観測からのフィードバックポリシーを用いた最初の研究である。

This paper aims to show that robots equipped with a vision-based tactile sensor can perform dynamic manipulation tasks without prior knowledge of all the physical attributes of the objects to be manipulated. For this purpose, a robotic system is presented that is able to swing up poles of different masses, radii and lengths, to an angle of 180 degrees, while relying solely on the feedback provided by the tactile sensor. This is achieved by developing a novel simulator that accurately models the interaction of a pole with the soft sensor. A feedback policy that is conditioned on a sensory observation history, and which has no prior knowledge of the physical features of the pole, is then learned in the aforementioned simulation. When evaluated on the physical system, the policy is able to swing up a wide range of poles that differ significantly in their physical attributes without further adaptation. To the authors' knowledge, this is the first work where a feedback policy from high-dimensional tactile observations is used to control the swing-up manipulation of poles in closed-loop.
翻訳日:2021-04-10 13:30:49 公開日:2021-04-08
# (参考訳) マルチモーダル核融合精製ネットワーク

Multimodal Fusion Refiner Networks ( http://arxiv.org/abs/2104.03435v1 )

ライセンス: CC BY 4.0
Sethuraman Sankaran, David Yang, Ser-Nam Lim(参考訳) マルチモーダル情報に依存するタスクは通常、異なるモーダル情報を組み合わせた融合モジュールを含む。 本研究では,強いユニモーダル表現と強いマルチモーダル表現を組み合わせたrefnet(refnet)を開発した。 ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。 このアプローチは、既存のマルチモーダル融合フレームワークにおける大きなギャップに対処し、非モーダル表現と融合表現の両方が潜在核融合空間で強くエンコードされることを保証する。 Refiner Fusion Networkはマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることができることを示す。 精細化ネットワークは, 潜伏空間に融合した埋め込みのグラフィカルな表現を誘導し, 一定の条件下で証明し, 数値実験において強い実験結果によって支持される。 これらのグラフ構造はReFNetとMulti-Similarity contrastive loss関数を組み合わせることでさらに強化される。 精製器融合ネットワークのモジュラー性は、異なる核融合アーキテクチャと容易に組み合わせることができ、さらに、ラベルなしデータセットの事前トレーニングに精製器ステップを適用でき、教師なしデータを利用して性能を向上させることができる。 3つのデータセット上の精錬機融合ネットワークのパワーを実証し,ラベル付きデータのほんの一部で性能を維持できることを示した。

Tasks that rely on multi-modal information typically include a fusion module that combines information from different modalities. In this work, we develop a Refiner Fusion Network (ReFNet) that enables fusion modules to combine strong unimodal representation with strong multimodal representations. ReFNet combines the fusion network with a decoding/defusing module, which imposes a modality-centric responsibility condition. This approach addresses a big gap in existing multimodal fusion frameworks by ensuring that both unimodal and fused representations are strongly encoded in the latent fusion space. We demonstrate that the Refiner Fusion Network can improve upon performance of powerful baseline fusion modules such as multimodal transformers. The refiner network enables inducing graphical representations of the fused embeddings in the latent space, which we prove under certain conditions and is supported by strong empirical results in the numerical experiments. These graph structures are further strengthened by combining the ReFNet with a Multi-Similarity contrastive loss function. The modular nature of Refiner Fusion Network lends itself to be combined with different fusion architectures easily, and in addition, the refiner step can be applied for pre-training on unlabeled datasets, thus leveraging unsupervised data towards improving performance. We demonstrate the power of Refiner Fusion Networks on three datasets, and further show that they can maintain performance with only a small fraction of labeled data.
翻訳日:2021-04-10 02:20:58 公開日:2021-04-08
# (参考訳) CAPTRA: 点雲からの剛体および人工物体のキャテゴリーレベルのポストラッキング

CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds ( http://arxiv.org/abs/2104.03437v1 )

ライセンス: CC BY 4.0
Yijia Weng, He Wang, Qiang Zhou, Yuzhe Qin, Yueqi Duan, Qingnan Fan, Baoquan Chen, Hao Su, Leonidas J. Guibas(参考訳) 本研究では,ポイントクラウドシーケンスからのオブジェクトのカテゴリーレベルのオンラインポーズトラッキングの問題に取り組む。 そこで本研究では,新しいオブジェクトインスタンスの9DoFポーズトラッキングと,既知のカテゴリから抽出されたオブジェクトの部品ごとのポーズトラッキングを行う統合フレームワークを提案する。 ここで、6Dポーズと3Dサイズからなる9DoFポーズは、自由な6Dポーズを持つ3Dアモーダルバウンディングボックス表現と等価である。 現在のフレームの深さ点の雲と、最終フレームから推定されたポーズを考えると、新しいエンドツーエンドパイプラインは、ポーズを正確に更新することを学びます。 1) 入力深度点雲の姿勢を正規化するポーズ標準化モジュール, 2) 小さなフレーム間デルタ回転を直接レグレッションするローテーションネットモジュール,3) 正規化された座標とセグメンテーションを予測し、3次元の大きさと翻訳の分析計算を可能にするコーディネートネットの3つのモジュールからなる。 提案手法は,高密度座標予測と直接回転回帰を組み合わせることで両世界の長所を統合し,9DoFのポーズ精度に最適化されたエンドツーエンドの微分可能なパイプラインを生成する(非微分可能RANSACを用いない)。 提案手法は,カテゴリレベルの剛性オブジェクトポーズ(NOCS-REAL275)と,高速なFPS 〜12で定性オブジェクトポーズベンチマーク(SAPIEN , BMVC)において,新しい最先端性能を実現することを示す。

In this work, we tackle the problem of category-level online pose tracking of objects from point cloud sequences. For the first time, we propose a unified framework that can handle 9DoF pose tracking for novel rigid object instances as well as per-part pose tracking for articulated objects from known categories. Here the 9DoF pose, comprising 6D pose and 3D size, is equivalent to a 3D amodal bounding box representation with free 6D pose. Given the depth point cloud at the current frame and the estimated pose from the last frame, our novel end-to-end pipeline learns to accurately update the pose. Our pipeline is composed of three modules: 1) a pose canonicalization module that normalizes the pose of the input depth point cloud; 2) RotationNet, a module that directly regresses small interframe delta rotations; and 3) CoordinateNet, a module that predicts the normalized coordinates and segmentation, enabling analytical computation of the 3D size and translation. Leveraging the small pose regime in the pose-canonicalized point clouds, our method integrates the best of both worlds by combining dense coordinate prediction and direct rotation regression, thus yielding an end-to-end differentiable pipeline optimized for 9DoF pose accuracy (without using non-differentiable RANSAC). Our extensive experiments demonstrate that our method achieves new state-of-the-art performance on category-level rigid object pose (NOCS-REAL275) and articulated object pose benchmarks (SAPIEN , BMVC) at the fastest FPS ~12.
翻訳日:2021-04-10 02:07:20 公開日:2021-04-08
# (参考訳) 構造冗長性を低減した畳み込みニューラルネットワーク

Convolutional Neural Network Pruning with Structural Redundancy Reduction ( http://arxiv.org/abs/2104.03438v1 )

ライセンス: CC BY 4.0
Zi Wang, Chengcheng Li, Xiangyang Wang(参考訳) 畳み込みニューラルネットワーク(cnn)のプルーニングは、近年最も成功したネットワーク圧縮アプローチの1つとなっている。 既存のネットワークプルーニングの作業は通常、コンパクトなアーキテクチャを実現するためにネットワーク内の最も重要でないフィルタを取り除くことに重点を置いている。 本研究では, 構造的冗長性を特定することは, 理論上, 経験上, 重要でないフィルタを見つけるよりも重要な役割を担っていると主張する。 まず,ネットワークプルーニング問題を冗長性低減の観点から統計的にモデル化し,最も構造的冗長性が高い層内のプルーニングが,すべての層で最も重要なフィルタをプルーニングするよりも優れていることを発見した。 そこで本研究では,CNNの構造的冗長性と,選択した層内のプーンフィルタを最も冗長性の高いネットワークプルーニング手法を提案する。 ベンチマークネットワークアーキテクチャとデータセットに関する実験により,提案手法が先行する最先端技術を大きく上回っていることが示された。

Convolutional neural network (CNN) pruning has become one of the most successful network compression approaches in recent years. Existing works on network pruning usually focus on removing the least important filters in the network to achieve compact architectures. In this study, we claim that identifying structural redundancy plays a more essential role than finding unimportant filters, theoretically and empirically. We first statistically model the network pruning problem in a redundancy reduction perspective and find that pruning in the layer(s) with the most structural redundancy outperforms pruning the least important filters across all layers. Based on this finding, we then propose a network pruning approach that identifies structural redundancy of a CNN and prunes filters in the selected layer(s) with the most redundancy. Experiments on various benchmark network architectures and datasets show that our proposed approach significantly outperforms the previous state-of-the-art.
翻訳日:2021-04-10 01:28:32 公開日:2021-04-08
# (参考訳) 多次元性能影響分析によるユーザエクスペリエンス自動テスト

Automated User Experience Testing through Multi-Dimensional Performance Impact Analysis ( http://arxiv.org/abs/2104.03453v1 )

ライセンス: CC BY 4.0
Chidera Biringa, Gokhan Kul(参考訳) 自動化されたソフトウェアテストスイートは数多く存在するが、通常はユニット、システム、インターフェーステストに重点を置いている。 しかし、特に新しいセキュリティ機能のようなソフトウェアアップデートは、ユーザーエクスペリエンスを低下させる可能性がある。 本稿では,コード変更が時間単位とシステムテストにどのように影響するかを学習し,その情報に基づいてユーザエクスペリエンスの変化を概説する,新しいユーザエクスペリエンステスト手法を提案する。 このようなツールは既存の継続的インテグレーションパイプラインに統合することができ、ソフトウェアチームが即座にユーザエクスペリエンスのフィードバックを提供する。 我々は,構文的,レイアウト,構文的特徴からなる特徴セットを構築し,抽象構文木ベース埋め込みを用いて,近似意味距離を計算し,機械学習アルゴリズムに入力する。 実験では,ソフトウェア更新の時間的影響を推定するために,いくつかの回帰手法を用いた。 当社のオープンソースツールは,ランダムフォレストレグレッサで絶対誤差率3.7%を達成した。

Although there are many automated software testing suites, they usually focus on unit, system, and interface testing. However, especially software updates such as new security features have the potential to diminish user experience. In this paper, we propose a novel automated user experience testing methodology that learns how code changes impact the time unit and system tests take, and extrapolate user experience changes based on this information. Such a tool can be integrated into existing continuous integration pipelines, and it provides software teams immediate user experience feedback. We construct a feature set from lexical, layout, and syntactic characteristics of the code, and using Abstract Syntax Tree-Based Embeddings, we can calculate the approximate semantic distance to feed into a machine learning algorithm. In our experiments, we use several regression methods to estimate the time impact of software updates. Our open-source tool achieved 3.7% mean absolute error rate with a random forest regressor.
翻訳日:2021-04-10 01:11:45 公開日:2021-04-08
# (参考訳) Nutribullets Hybrid: マルチドキュメントヘルス要約

Nutribullets Hybrid: Multi-document Health Summarization ( http://arxiv.org/abs/2104.03465v1 )

ライセンス: CC BY 4.0
Darsh J Shah, Lili Yu, Tao Lei and Regina Barzilay(参考訳) 本稿では,入力文書の類似性と矛盾を強調する比較要約を生成する手法を提案する。 このような要約を作成する上で重要な課題は、典型的な要約システムのトレーニングに必要な大規模な並列トレーニングデータがないことである。 この目的のために,従来の概念対テキストシステムに触発されたハイブリッド生成手法を提案する。 異なるソース間の正確な比較を可能にするため、まず入力文書から関連する関係を抽出する。 コンテンツ計画コンポーネントは、決定論的演算子を使用して、要約に含めるサブセットを特定した後、これらの関係を集約する。 表面実現コンポーネントは、この情報をテキスト入力言語モデルを用いて語彙化する。 コンテンツ選択と実現を別々にモデル化することで、制限されたアノテーションで効果的にトレーニングすることができます。 私たちは、栄養と健康の領域でモデルを実装し、テストしました。 従来の手法と比較して、我々のフレームワークはより忠実で関連性があり、集約に敏感な要約をもたらします。

We present a method for generating comparative summaries that highlights similarities and contradictions in input documents. The key challenge in creating such summaries is the lack of large parallel training data required for training typical summarization systems. To this end, we introduce a hybrid generation approach inspired by traditional concept-to-text systems. To enable accurate comparison between different sources, the model first learns to extract pertinent relations from input documents. The content planning component uses deterministic operators to aggregate these relations after identifying a subset for inclusion into a summary. The surface realization component lexicalizes this information using a text-infilling language model. By separately modeling content selection and realization, we can effectively train them with limited annotations. We implemented and tested the model in the domain of nutrition and health -- rife with inconsistencies. Compared to conventional methods, our framework leads to more faithful, relevant and aggregation-sensitive summarization -- while being equally fluent.
翻訳日:2021-04-10 01:05:28 公開日:2021-04-08
# (参考訳) 説明可能なAIユーザエクスペリエンスのための質問駆動設計プロセス

Question-Driven Design Process for Explainable AI User Experiences ( http://arxiv.org/abs/2104.03483v1 )

ライセンス: CC BY 4.0
Q. Vera Liao, Milena Pribi\'c, Jaesik Han, Sarah Miller, Daby Sow(参考訳) AIシステムの幅広い設計課題は、AIを理解するのに役立つ適切な情報を提供するための説明可能性である。 説明可能なai(xai)の技術分野は、豊富な技術ツールボックスを生み出した。 デザイナーは現在、最も適切なXAIテクニックを選択し、UXソリューションに変換する方法の課題に取り組んでいます。 XAI UXに関する設計上の課題を調査した結果,これらの課題に対処するための設計プロセスを提案する。 我々は、プロセスが満たすべき要件を特定するために、ユーザのニーズ、XAI技術の選択、XAI UXの設計、評価を根拠とした質問駆動設計プロセスを提案する。 我々は、xai技術の原型的ユーザ質問と例題間のマッピングガイドを提供し、デザイナーとaiエンジニアのコラボレーションを支援する境界オブジェクトとして機能する。 医療有害事象予測のためのxai設計のユースケースを提示し、aiシステムの設計課題に取り組むために学んだ教訓を議論する。

A pervasive design issue of AI systems is their explainability--how to provide appropriate information to help users understand the AI. The technical field of explainable AI (XAI) has produced a rich toolbox of techniques. Designers are now tasked with the challenges of how to select the most suitable XAI techniques and translate them into UX solutions. Informed by our previous work studying design challenges around XAI UX, this work proposes a design process to tackle these challenges. We review our and related prior work to identify requirements that the process should fulfill, and accordingly, propose a Question-Driven Design Process that grounds the user needs, choices of XAI techniques, design, and evaluation of XAI UX all in the user questions. We provide a mapping guide between prototypical user questions and exemplars of XAI techniques, serving as boundary objects to support collaboration between designers and AI engineers. We demonstrate it with a use case of designing XAI for healthcare adverse events prediction, and discuss lessons learned for tackling design challenges of AI systems.
翻訳日:2021-04-10 00:53:53 公開日:2021-04-08
# (参考訳) 訓練支援ベクターマシンの深い特徴

Deep Features for training Support Vector Machine ( http://arxiv.org/abs/2104.03488v1 )

ライセンス: CC BY 4.0
Loris Nanni, Stefano Ghidoni, Sheryl Brahnam(参考訳) 特徴はコンピュータビジョンにおいて重要な役割を果たす。 当初は手作りのアルゴリズムで有能な要素を検出するように設計されていたが、現在では畳み込みニューラルネットワーク(CNN)の異なる層でしばしば学習されている。 本稿では,訓練済みcnnから抽出した特徴に基づく汎用コンピュータビジョンシステムを開発した。 複数の学習された機能は単一の構造に結合され、異なる画像分類タスクに取り組む。 提案システムは,CNNの内部層から特徴を抽出し,それらを和規則で結合したSVMへの入力として利用する手法を実験的に検討した。 次元低減技術は、内部層の高次元化に使用される。 得られた視覚システムは、画像データセットの多種多様なコレクションにわたって標準CNNの性能を大幅に向上させる。 同じアプローチを用いた異なるトポロジのアンサンブルは、ウイルスデータセットの最先端の結果を得る。

Features play a crucial role in computer vision. Initially designed to detect salient elements by means of handcrafted algorithms, features are now often learned by different layers in Convolutional Neural Networks (CNNs). This paper develops a generic computer vision system based on features extracted from trained CNNs. Multiple learned features are combined into a single structure to work on different image classification tasks. The proposed system was experimentally derived by testing several approaches for extracting features from the inner layers of CNNs and using them as inputs to SVMs that are then combined by sum rule. Dimensionality reduction techniques are used to reduce the high dimensionality of inner layers. The resulting vision system is shown to significantly boost the performance of standard CNNs across a large and diverse collection of image data sets. An ensemble of different topologies using the same approach obtains state-of-the-art results on a virus data set.
翻訳日:2021-04-10 00:28:37 公開日:2021-04-08
# (参考訳) DeepI2P: ディープ分類によるイメージツーポイントクラウド登録

DeepI2P: Image-to-Point Cloud Registration via Deep Classification ( http://arxiv.org/abs/2104.03501v1 )

ライセンス: CC BY 4.0
Jiaxin Li, Gim Hee Lee(参考訳) 本稿では,イメージとポイントクラウド間の相互モダリティ登録のための新しいアプローチであるdeepi2pを提案する。 画像(例)が与えられる。 rgbカメラから)および一般的なポイントクラウド(例えば、) 同じシーンの異なる場所で撮影された3dlidarスキャナから、カメラとlidarの座標フレーム間の相対的な剛性変換を推定する。 共通特徴記述子を学習して登録の対応を確立することは、本質的には外観の欠如と2つのモダリティ間の幾何学的相関のため困難である。 登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。 分類ニューラルネットワークは、ポイントクラウド内の各点の投影がカメラフラスタム内かそれ以上であるかをラベル付けするように設計されている。 これらのラベル付きポイントはその後、新しい逆カメラ投影ソルバに渡され、相対的なポーズを推定する。 Oxford Robotcar と KITTI のデータセットによる大規模な実験結果から,本手法の有効性が示された。 ソースコードはhttps://github.com/lijx10/DeepI2Pで入手できる。

This paper presents DeepI2P: a novel approach for cross-modality registration between an image and a point cloud. Given an image (e.g. from a rgb-camera) and a general point cloud (e.g. from a 3D Lidar scanner) captured at different locations in the same scene, our method estimates the relative rigid transformation between the coordinate frames of the camera and Lidar. Learning common feature descriptors to establish correspondences for the registration is inherently challenging due to the lack of appearance and geometric correlations across the two modalities. We circumvent the difficulty by converting the registration problem into a classification and inverse camera projection optimization problem. A classification neural network is designed to label whether the projection of each point in the point cloud is within or beyond the camera frustum. These labeled points are subsequently passed into a novel inverse camera projection solver to estimate the relative pose. Extensive experimental results on Oxford Robotcar and KITTI datasets demonstrate the feasibility of our approach. Our source code is available at https://github.com/lijx10/DeepI2P
翻訳日:2021-04-10 00:20:28 公開日:2021-04-08
# (参考訳) wav2vec 2.0埋め込みによる音声からの感情認識

Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings ( http://arxiv.org/abs/2104.03502v1 )

ライセンス: CC BY 4.0
Leonardo Pepino, Pablo Riera, Luciana Ferrer(参考訳) 感情認識データセットは比較的小さいため、より高度なディープラーニングアプローチの使用が難しい。 本稿では,事前学習されたwav2vec 2.0モデルから抽出した特徴を単純なニューラルネットワークを用いてモデル化した音声感情認識のための伝達学習手法を提案する。 下流モデルと共同で学習するトレーニング可能な重みを用いて,事前学習したモデルからの複数のレイヤの出力を組み合わせることを提案する。 さらに,2種類のwav2vec 2.0モデルを用いた音声認識の性能比較を行った。 提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。

Emotion recognition datasets are relatively small, making the use of the more sophisticated deep learning approaches challenging. In this work, we propose a transfer learning method for speech emotion recognition where features extracted from pre-trained wav2vec 2.0 models are modeled using simple neural networks. We propose to combine the output of several layers from the pre-trained model using trainable weights which are learned jointly with the downstream model. Further, we compare performance using two different wav2vec 2.0 models, with and without finetuning for speech recognition. We evaluate our proposed approaches on two standard emotion databases IEMOCAP and RAVDESS, showing superior performance compared to results in the literature.
翻訳日:2021-04-10 00:03:29 公開日:2021-04-08
# (参考訳) SemEval-2021 Task 5: BERToxic を用いたヘイトスピーチの微粒化検出

Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech Using BERToxic ( http://arxiv.org/abs/2104.03506v1 )

ライセンス: CC BY 4.0
Yakoob Khan, Weicheng Ma, Soroush Vosoughi(参考訳) 本稿では,Toxic Spans Detection problem (SemEval-2021 Task 5)について述べる。 提案するBERToxicは,所定のテキスト中の有毒なテキストスパンを見つけるために事前訓練されたBERTモデルを微調整し,追加の処理後ステップを用いて境界を洗練させるシステムである。 1)連続する有毒トークン間の文字オフセットを有毒としてラベル付けし、(2)少なくとも1つの有毒トークンを有毒とラベルした単語に有毒ラベルを割り当てる。 実験により, この2つの処理ステップにより, テストセットの性能が4.16%向上することを示した。 また,データ拡張およびアンサンブルモデリング戦略がシステムに与える影響についても検討した。 我々のシステムは提供されたベースラインを大きく上回り、F1スコアは0.683となり、Lone Pineは91チーム中17位に入った。 私たちのコードはhttps://github.com/Yakoob-Khan/Toxic-Spans-Detectionで利用可能です。

This paper describes our approach to the Toxic Spans Detection problem (SemEval-2021 Task 5). We propose BERToxic, a system that fine-tunes a pre-trained BERT model to locate toxic text spans in a given text and utilizes additional post-processing steps to refine the boundaries. The post-processing steps involve (1) labeling character offsets between consecutive toxic tokens as toxic and (2) assigning a toxic label to words that have at least one token labeled as toxic. Through experiments, we show that these two post-processing steps improve the performance of our model by 4.16% on the test set. We also studied the effects of data augmentation and ensemble modeling strategies on our system. Our system significantly outperformed the provided baseline and achieved an F1-score of 0.683, placing Lone Pine in the 17th place out of 91 teams in the competition. Our code is made available at https://github.com/Yakoob-Khan/Toxic-Spans-Detection
翻訳日:2021-04-09 23:51:20 公開日:2021-04-08
# (参考訳) 3次元形状モデルに基づく認識可能な3次元顔形状の再構成

Reconstructing Recognizable 3D Face Shapes based on 3D Morphable Models ( http://arxiv.org/abs/2104.03515v1 )

ライセンス: CC BY 4.0
Diqiong Jiang, Yiwei Jin, Risheng Deng, Ruofeng Tong, Fanglue Zhang, Yukun Yai, Ming Tang(参考訳) 最近の多くの作品は、同一人物の形状パラメータを集約し、パラメトリックモデル(例えば3dmm)に基づいて異なる人物の形状を分離することで、特徴的な3d顔形状を再構成している。 しかし,これらの形状パラメータを用いた顔認識作業の精度が高いにもかかわらず,これらのパラメータから再構成した顔形状の視覚的識別は不十分である。 識別形状パラメータは、表現された3d顔形状における視覚的な識別を保証するか? 本稿では, 形状パラメータと形状形状の再構成の関係を解析し, 形状パラメータと形状幾何学領域の識別性を高めることを目的とした, 形状パラメータに対する新しい形状識別正則化(SIR)損失を提案する。 さらに、ランドマークとアイデンティティアノテーションの両方を含むトレーニングデータの欠如に対処するために、アイデンティティとランドマークのラベルを含む混合データを活用するためのネットワーク構造と関連するトレーニング戦略を提案する。 提案手法は, 形状パラメータの再構成誤差, 視覚的識別性, 顔認識精度の観点から, 既存の手法と比較する。 実験の結果,本手法は最先端手法よりも優れていた。

Many recent works have reconstructed distinctive 3D face shapes by aggregating shape parameters of the same identity and separating those of different people based on parametric models (e.g., 3D morphable models (3DMMs)). However, despite the high accuracy in the face recognition task using these shape parameters, the visual discrimination of face shapes reconstructed from those parameters is unsatisfactory. The following research question has not been answered in previous works: Do discriminative shape parameters guarantee visual discrimination in represented 3D face shapes? This paper analyzes the relationship between shape parameters and reconstructed shape geometry and proposes a novel shape identity-aware regularization(SIR) loss for shape parameters, aiming at increasing discriminability in both the shape parameter and shape geometry domains. Moreover, to cope with the lack of training data containing both landmark and identity annotations, we propose a network structure and an associated training strategy to leverage mixed data containing either identity or landmark labels. We compare our method with existing methods in terms of the reconstruction error, visual distinguishability, and face recognition accuracy of the shape parameters. Experimental results show that our method outperforms the state-of-the-art methods.
翻訳日:2021-04-09 23:42:45 公開日:2021-04-08
# (参考訳) カスケード次元リフト法による3次元深部単眼人物ポーズ推定

Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting ( http://arxiv.org/abs/2104.03520v1 )

ライセンス: CC BY 4.0
Changgong Zhang, Fangneng Zhan, Yuan Chang(参考訳) 1つの画像からの3次元ポーズ推定は、深さの曖昧さのために難しい問題である。 従来の手法の1つのタイプは、外部の2Dポーズ検出器に頼って得られた2D関節を3D空間に持ち上げる。 しかし、この種のアプローチは、3次元ポーズ推定のための強い手がかりである画像の文脈情報を捨てる。 一方、他の方法では、ジョイントを単分子画像から直接予測するが、2.5D出力表現である$P^{2.5D} = (u,v,z^{r})$は、$u$と$v$の両方が画像空間にあるが、ルート相対3D空間では$z^{r}$である。 したがって、地中真実情報(例えば、カメラからのルートジョイントの深さ)は、通常、2.5D出力を3D空間に変換するために利用され、実際の適用性が制限される。 本研究では,文脈情報を利用するだけでなく,ケースド次元リフトにより直接3次元空間に出力を生成する新しいエンドツーエンドフレームワークを提案する。 具体的には,2次元画像空間から3次元空間へのポーズを複数の連続的なサブタスクに分解する作業,1)2次元空間における個々の関節の推定,2)根相対的深さ推定,3)3次元空間への持ち上げ,それぞれが直接監督と文脈的画像特徴を用いて学習プロセスを導く。 広汎な実験により,提案フレームワークは2つの広く使用されている3次元ポーズデータセット(Human3.6M, MuPoTS-3D)上で最先端のパフォーマンスを実現することが示された。

The 3D pose estimation from a single image is a challenging problem due to depth ambiguity. One type of the previous methods lifts 2D joints, obtained by resorting to external 2D pose detectors, to the 3D space. However, this type of approaches discards the contextual information of images which are strong cues for 3D pose estimation. Meanwhile, some other methods predict the joints directly from monocular images but adopt a 2.5D output representation $P^{2.5D} = (u,v,z^{r}) $ where both $u$ and $v$ are in the image space but $z^{r}$ in root-relative 3D space. Thus, the ground-truth information (e.g., the depth of root joint from the camera) is normally utilized to transform the 2.5D output to the 3D space, which limits the applicability in practice. In this work, we propose a novel end-to-end framework that not only exploits the contextual information but also produces the output directly in the 3D space via cascaded dimension-lifting. Specifically, we decompose the task of lifting pose from 2D image space to 3D spatial space into several sequential sub-tasks, 1) kinematic skeletons \& individual joints estimation in 2D space, 2) root-relative depth estimation, and 3) lifting to the 3D space, each of which employs direct supervisions and contextual image features to guide the learning process. Extensive experiments show that the proposed framework achieves state-of-the-art performance on two widely used 3D human pose datasets (Human3.6M, MuPoTS-3D).
翻訳日:2021-04-09 23:22:14 公開日:2021-04-08
# (参考訳) ファウンダス画像におけるカップとディスクセグメンテーションのための双方向 ConvLSTM を用いたM-Net

M-Net with Bidirectional ConvLSTM for Cup and Disc Segmentation in Fundus Images ( http://arxiv.org/abs/2104.03549v1 )

ライセンス: CC BY 4.0
Maleeha Khalid Khan (1) Syed Muhammad Anwar (2)(参考訳) 緑内障は眼疾患であり、光ファイバーを劣化させることが知られており、カップの大きさが増大し、視力の恒久的な喪失につながる可能性がある。 緑内障は白内障の2番目の原因であるが、緑内障は治療できないためより危険である。 緑内障の早期診断と治療は緑内障の進行と損傷を遅らせるのに役立つ。 緑内障の検出には、Cup to Disc ratio(CDR)が重要な情報を提供する。 CDRはカップ領域とディスク領域の正確なセグメンテーションに大きく依存する。 本稿では,共同カップとディスクセグメンテーションに基づく双方向畳み込み長短期メモリ(LSTM)を用いた改良型M-Netを提案する。 提案するネットワークは,エンコーダとデコーダの機能と双方向LSTMを組み合わせたものである。 提案モデルでは,カップ/ディスク比の異常を観測可能なカップ領域とディスク領域について検討した。 提案モデルは,本モデルが視ディスクのサイススコア 0.92 とセグメンテーションカップとディスク領域の精度 98.99% を達成している。

Glaucoma is a severe eye disease that is known to deteriorate optic never fibers, causing cup size to increase, which could result in permanent loss of vision. Glaucoma is the second leading cause of blindness after cataract, but glaucoma being more dangerous as it is not curable. Early diagnoses and treatment of glaucoma can help to slow the progression of glaucoma and its damages. For the detection of glaucoma, the Cup to Disc ratio (CDR) provides significant information. The CDR depends heavily on the accurate segmentation of cup and disc regions. In this paper, we have proposed a modified M-Net with bidirectional convolution long short-term memory (LSTM), based on joint cup and disc segmentation. The proposed network combines features of encoder and decoder, with bidirectional LSTM. Our proposed model segments cup and disc regions based on which the abnormalities in cup to disc ratio can be observed. The proposed model is tested on REFUGE2 data, where our model achieves a dice score of 0.92 for optic disc and an accuracy of 98.99% in segmenting cup and disc regions
翻訳日:2021-04-09 22:50:45 公開日:2021-04-08
# (参考訳) 電子顕微鏡ボリュームによるミトコンドリアセグメンテーションのための安定なディープニューラルネットワークアーキテクチャ

Stable deep neural network architectures for mitochondria segmentation on electron microscopy volumes ( http://arxiv.org/abs/2104.03577v1 )

ライセンス: CC BY 4.0
Daniel Franco-Barranco and Arrate Mu\~noz-Barrutia and Ignacio Arganda-Carreras(参考訳) 電子顕微鏡(em)はミトコンドリアなどの細胞内オルガネラの同定を可能にし、臨床および科学研究の洞察を与える。 近年では、公共のミトコンドリアセグメンテーションデータセットに対する以前のアプローチと比較して、優れたパフォーマンス、あるいは人間レベルの精度を報告している新しいディープラーニングアーキテクチャが数多く発表されている。 残念ながら、これらの出版物の多くは、得られた結果をサポートするためにコードもトレーニングの詳細も公開していないため、再現性の問題や疑わしいモデル比較につながる。 そのため,最近の実験結果報告のベストプラクティスに従って,ミトコンドリアのセグメンテーションのための最先端のディープラーニングアーキテクチャをEMボリュームに広範な研究を行い,この課題に対する2次元および3次元U-Net様モデルの違いによる性能への影響を評価する。 各コンポーネントの貢献をよりよく理解するために、前処理と後処理操作の共通セットが実装され、各アプローチでテストされている。 さらに、すべてのアーキテクチャに対するハイパーパラメータ値の徹底的な網羅が実施され、各構成が複数回実行され、評価指標の平均および標準偏差値が報告されている。 この手法を用いて,epfl海馬ミトコンドリアセグメンテーションデータセットにおける最先端の成果を一貫して得る,非常に安定したアーキテクチャとハイパーパラメータの構成を見出した。 さらに、提案したモデルをLucchi++とKasthuri++の2つの利用可能なデータセットでベンチマークしました。 この研究に由来するコードとそのドキュメントが公開されている。

Electron microscopy (EM) allows the identification of intracellular organelles such as mitochondria, providing insights for clinical and scientific studies. In recent years, a number of novel deep learning architectures have been published reporting superior performance, or even human-level accuracy, compared to previous approaches on public mitochondria segmentation datasets. Unfortunately, many of these publications do not make neither the code nor the full training details public to support the results obtained, leading to reproducibility issues and dubious model comparisons. For that reason, and following a recent code of best practices for reporting experimental results, we present an extensive study of the state-of-the-art deep learning architectures for the segmentation of mitochondria on EM volumes, and evaluate the impact in performance of different variations of 2D and 3D U-Net-like models for this task. To better understand the contribution of each component, a common set of pre- and post-processing operations has been implemented and tested with each approach. Moreover, an exhaustive sweep of hyperparameters values for all architectures have been performed and each configuration has been run multiple times to report the mean and standard deviation values of the evaluation metrics. Using this methodology, we found very stable architectures and hyperparameter configurations that consistently obtain state-of-the-art results in the well-known EPFL Hippocampus mitochondria segmentation dataset. Furthermore, we have benchmarked our proposed models on two other available datasets, Lucchi++ and Kasthuri++, where they outperform all previous works. The code derived from this research and its documentation are publicly available.
翻訳日:2021-04-09 22:41:44 公開日:2021-04-08
# (参考訳) 不確かさを意識した生活予測装置

Uncertainty-aware Remaining Useful Life predictor ( http://arxiv.org/abs/2104.03613v1 )

ライセンス: CC BY-SA 4.0
Luca Biggio, Alexander Wieland, Manuel Arias Chao, Iason Kastanis, Olga Fink(参考訳) 有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産が定義された仕様内でいつまで運用されるかを予測する問題である。 rul予測手法を実生活アプリケーションに適用することは、メンテナンスコストとマシンダウンタイムを大幅に削減する可能性を持つインテリジェントな保守戦略の設計の前提条件である。 幅広いエンジニアリング分野における優れたパフォーマンスを考慮して、機械学習(ML)アルゴリズムは、インテリジェントなメンテナンスシステムの設計に関わる課題に取り組むための自然な候補である。 特に、潜在的に破滅的な結果や、遅すぎるか早すぎるかというメンテナンス決定に伴う実質的なコストを考えると、MLアルゴリズムは予測と並行して不確実性の推定を提供するのが望ましい。 しかし、RUL問題における不確実性推定に使用される標準的なデータ駆動手法は、大きなデータセットに十分にスケールしないか、あるいは生センサデータからRUL推定への高次元マッピングをモデル化するのに十分な表現力がない。 本研究では,DGP(Deep Gaussian Processes)を,上記の制限に対する可能な解として考える。 RUL予測に適用したいくつかのDGPの徹底的な評価と比較を行う。 N-CMAPSS (New Commercial Modular Aero-Propulsion System Simulation) では,NASAによる航空機用エンジンの性能評価を行った。 その結果,提案手法は, 精度の高いRUL予測と, 精度の高い不確実性推定を行い, より信頼性の高い(安全クリティカルな)産業用アプリケーションを実現することができた。

Remaining Useful Life (RUL) estimation is the problem of inferring how long a certain industrial asset can be expected to operate within its defined specifications. Deploying successful RUL prediction methods in real-life applications is a prerequisite for the design of intelligent maintenance strategies with the potential of drastically reducing maintenance costs and machine downtimes. In light of their superior performance in a wide range of engineering fields, Machine Learning (ML) algorithms are natural candidates to tackle the challenges involved in the design of intelligent maintenance systems. In particular, given the potentially catastrophic consequences or substantial costs associated with maintenance decisions that are either too late or too early, it is desirable that ML algorithms provide uncertainty estimates alongside their predictions. However, standard data-driven methods used for uncertainty estimation in RUL problems do not scale well to large datasets or are not sufficiently expressive to model the high-dimensional mapping from raw sensor data to RUL estimates. In this work, we consider Deep Gaussian Processes (DGPs) as possible solutions to the aforementioned limitations. We perform a thorough evaluation and comparison of several variants of DGPs applied to RUL predictions. The performance of the algorithms is evaluated on the N-CMAPSS (New Commercial Modular Aero-Propulsion System Simulation) dataset from NASA for aircraft engines. The results show that the proposed methods are able to provide very accurate RUL predictions along with sensible uncertainty estimates, providing more reliable solutions for (safety-critical) real-life industrial applications.
翻訳日:2021-04-09 22:39:00 公開日:2021-04-08
# (参考訳) ドメイン拡張メタラーニングによるオープンドメインの一般化

Open Domain Generalization with Domain-Augmented Meta-Learning ( http://arxiv.org/abs/2104.03620v1 )

ライセンス: CC BY 4.0
Yang Shu, Zhangjie Cao, Chenyu Wang, Jianmin Wang, Mingsheng Long(参考訳) 一般化能力の高いモデルを学ぶために利用可能なデータセットを活用することは、コンピュータビジョンにとって重要であり、特に未確認領域の注釈付きデータが利用できない場合である。 個別のソースドメインと対象ドメインの分布とラベル集合が異なる未知のターゲットドメインにおいて、異なるソースドメインから学び高いパフォーマンスを達成するオープンドメイン一般化(opendg)の新規かつ実用的な問題について検討する。 この問題は様々なソースドメインに適用でき、現実世界のアプリケーションにも広く適用できる。 オープンドメインの一般化表現を学習するためのドメイン拡張メタラーニングフレームワークを提案する。 新しいディリクレ混合とラベルレベルを蒸留ソフトラベルで拡張し、各ドメインを欠落クラスやその他のドメイン知識で補完する。 新しいメタ学習タスクと損失を設計してドメイン上のメタ学習を行い、ドメイン固有の知識を保持し、同時にドメイン間の知識を一般化する。 種々のマルチドメインデータセットの実験結果から、提案したドメイン拡張メタラーニング(DAML)が、未確認ドメイン認識の先行手法より優れていることが示された。

Leveraging datasets available to learn a model with high generalization ability to unseen domains is important for computer vision, especially when the unseen domain's annotated data are unavailable. We study a novel and practical problem of Open Domain Generalization (OpenDG), which learns from different source domains to achieve high performance on an unknown target domain, where the distributions and label sets of each individual source domain and the target domain can be different. The problem can be generally applied to diverse source domains and widely applicable to real-world applications. We propose a Domain-Augmented Meta-Learning framework to learn open-domain generalizable representations. We augment domains on both feature-level by a new Dirichlet mixup and label-level by distilled soft-labeling, which complements each domain with missing classes and other domain knowledge. We conduct meta-learning over domains by designing new meta-learning tasks and losses to preserve domain unique knowledge and generalize knowledge across domains simultaneously. Experiment results on various multi-domain datasets demonstrate that the proposed Domain-Augmented Meta-Learning (DAML) outperforms prior methods for unseen domain recognition.
翻訳日:2021-04-09 22:22:46 公開日:2021-04-08
# (参考訳) 誘導データ均質化によるポストホック領域適応

Post-Hoc Domain Adaptation via Guided Data Homogenization ( http://arxiv.org/abs/2104.03624v1 )

ライセンス: CC BY-SA 4.0
Kurt Willis, Luis Oala(参考訳) データ分散のシフトに対処することは、ディープラーニングモデルを現実世界の設定に展開するための重要な前提条件である。 この問題に対する一般的なアプローチは、転送学習を通じてモデルを新しい領域に調整することである。 しかし、多くの場合、これはデプロイされたモデルに対するポストホックな方法では適用されず、パラメータ調整によって事前に確立された安全認定を損なう。 このような状況下では、モデルからデータへの適応の負担をシフトさせる誘導型データ均質化によるデータ分布の変化に対処することを提案する。 このアプローチでは、ディープラーニングモデルに暗黙的に含まれているトレーニングデータに関する情報を使用して、ドメイン転送関数を学習する。 これにより、モデル自体を変更することなく、未知のシナリオにモデルをターゲットとするデプロイが可能になる。 我々は、CIFAR-10とMNISTデータセットの実験を通して、データ均質化の可能性を示す。

Addressing shifts in data distributions is an important prerequisite for the deployment of deep learning models to real-world settings. A general approach to this problem involves the adjustment of models to a new domain through transfer learning. However, in many cases, this is not applicable in a post-hoc manner to deployed models and further parameter adjustments jeopardize safety certifications that were established beforehand. In such a context, we propose to deal with changes in the data distribution via guided data homogenization which shifts the burden of adaptation from the model to the data. This approach makes use of information about the training data contained implicitly in the deep learning model to learn a domain transfer function. This allows for a targeted deployment of models to unknown scenarios without changing the model itself. We demonstrate the potential of data homogenization through experiments on the CIFAR-10 and MNIST data sets.
翻訳日:2021-04-09 22:04:07 公開日:2021-04-08
# (参考訳) 事例とシーンを融合した意味的シーン補完

Semantic Scene Completion via Integrating Instances and Scene in-the-Loop ( http://arxiv.org/abs/2104.03640v1 )

ライセンス: CC BY 4.0
Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan-Yee Lin, Xiaogang Wang, Hongsheng Li(参考訳) セマンティクスシーンの完成は、単一のビュー深度またはrgbd画像から正確なvoxel-wiseセマンティクスで完全な3dシーンを再構築することを目的としている。 屋内のシーン理解にとって重要な問題だが、難しい問題である。 本稿では,インスタンスレベルとシーンレベルのセマンティクス情報の両方を活用する,scene-instance-scene network(\textit{sisnet})という新しいフレームワークを提案する。 本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状を推定できる。 重要な洞察は、インスタンスを生の入力画像の代わりに粗い完了したセマンティックシーンから切り離して、インスタンスと全体シーンの再構築を導くことである。 sisnetはscene-to-instance(si)とinstance-to-scene(is)セマンティクス補完を行う。 特に、siは、シーンからインスタンスを効果的に分離するためにオブジェクトの周囲のコンテキストをエンコードすることができ、各インスタンスをより詳細な詳細をキャプチャするために、より高解像度にボクセル化することができる。 ISでは、きめ細かいインスタンス情報を3Dシーンに統合することで、より正確なセマンティックシーンの完成につながる。 このような反復機構を利用することで、シーンとインスタンスの完了は互いに利益をもたらし、より高い完了精度を達成する。 大規模な実験により,提案手法は実際のNYU,NYUCADおよび合成SUNCG-RGBDデータセットにおいて,常に最先端の手法より優れていることが示された。 コードと追加資料は \url{https://github.com/yjcaimeow/SISNet} で入手できる。

Semantic Scene Completion aims at reconstructing a complete 3D scene with precise voxel-wise semantics from a single-view depth or RGBD image. It is a crucial but challenging problem for indoor scene understanding. In this work, we present a novel framework named Scene-Instance-Scene Network (\textit{SISNet}), which takes advantages of both instance and scene level semantic information. Our method is capable of inferring fine-grained shape details as well as nearby objects whose semantic categories are easily mixed-up. The key insight is that we decouple the instances from a coarsely completed semantic scene instead of a raw input image to guide the reconstruction of instances and the overall scene. SISNet conducts iterative scene-to-instance (SI) and instance-to-scene (IS) semantic completion. Specifically, the SI is able to encode objects' surrounding context for effectively decoupling instances from the scene and each instance could be voxelized into higher resolution to capture finer details. With IS, fine-grained instance information can be integrated back into the 3D scene and thus leads to more accurate semantic scene completion. Utilizing such an iterative mechanism, the scene and instance completion benefits each other to achieve higher completion accuracy. Extensively experiments show that our proposed method consistently outperforms state-of-the-art methods on both real NYU, NYUCAD and synthetic SUNCG-RGBD datasets. The code and the supplementary material will be available at \url{https://github.com/yjcaimeow/SISNet}.
翻訳日:2021-04-09 21:56:54 公開日:2021-04-08
# (参考訳) DeepProg: 疾患予後を予測するトランスフォーマーベースのフレームワーク

DeepProg: A Transformer-based Framework for Predicting Disease Prognosis ( http://arxiv.org/abs/2104.03642v1 )

ライセンス: CC BY 4.0
Huy Hoang Nguyen, Simo Saarakkala, Matthew B. Blaschko, Aleksei Tiulpin(参考訳) 診断タスクを自動化するために、ディープラーニングメソッドの大部分が構築されている。 しかし、臨床実践において、より高度な疑問は、疾患の経過を予測する方法である。 この問題の現在の方法は複雑で、しばしばドメイン知識を必要とするため、実践者が使うのが難しい。 本稿では,一対多のシーケンス予測問題として予後予測タスクを定式化する。 放射線医と一般医の2人のエージェントによる臨床的意思決定プロセスに触発され,画像と補助データから疾患の予後を推定する汎用的なエンド・ツー・エンド・トランスフォーマー・ベースの枠組みを提案する。 本手法の有効性と妥当性を合成データに示し, 膝関節の構造的変形性変化の予測について検討した。

A vast majority of deep learning methods are built to automate diagnostic tasks. However, in clinical practice, a more advanced question is how to predict the course of a disease. Current methods for this problem are complicated, and often require domain knowledge, making them difficult for practitioners to use. In this paper, we formulate the prognosis prediction task as a one-to-many sequence prediction problem. Inspired by a clinical decision making process with two agents -- a radiologist and a general practitioner -- we propose a generic end-to-end transformer-based framework to estimate disease prognosis from images and auxiliary data. The effectiveness and validation of the developed method are shown on synthetic data, and in the task of predicting the development of structural osteoarthritic changes in knee joints.
翻訳日:2021-04-09 21:36:40 公開日:2021-04-08
# (参考訳) カプセル内視鏡における遠隔血管および構造物の高度画像強調法

Advanced Image Enhancement Method for Distant Vessels and Structures in Capsule Endoscopy ( http://arxiv.org/abs/2104.03668v1 )

ライセンス: CC BY 4.0
Olivier Rukundo, Marius Pedersen, {\O}istein Hovde(参考訳) 本稿では,カプセル内視鏡画像のより遠く(あるいはより暗い)部分の血管や構造について十分な情報を得るために,カプセル内視鏡画像のコントラスト向上のための高度な手法を提案する。 提案手法は,カプセル内視鏡画像の暗黒領域と明るい領域をそれぞれ拡張するための2つのアルゴリズムを組み合わせたものである。 本研究で提案した半単位重み付き双線形アルゴリズム (HWB) は, HSV の成分 V のより暗いマップの内容に応じて,より暗い領域を強化するために用いられる。 TWBは、HSVの成分Vのより明るいマップ内容の明るさが徐々に増大した後に増強操作を行い、言い換えれば、成分Vの強度内容が増加するにつれて、TWBはその平均重みを減少させる。 広範にわたる実験実験を行い、基準画像とPM強調画像の評価に基づいて、胃腸科医({\O}H)は、PM強調画像は、血管に関する情報、画像のコントラスト、カプセル内視鏡画像のより遠くにある構造物の視界や視認性に基づいて、最も優れた画像であると結論付けた。

This paper proposes an advanced method for contrast enhancement of capsule endoscopic images, with the main objective to obtain sufficient information about the vessels and structures in more distant (or darker) parts of capsule endoscopic images. The proposed method (PM) combines two algorithms for the enhancement of darker and brighter areas of capsule endoscopic images, respectively. The half-unit weighted bilinear algorithm (HWB) proposed in our previous work is used to enhance darker areas according to the darker map content of its HSV's component V. Enhancement of brighter areas is achieved thanks to the novel thresholded weighted-bilinear algorithm (TWB) developed to avoid overexposure and enlargement of specular highlight spots while preserving the hue, in such areas. The TWB performs enhancement operations following a gradual increment of the brightness of the brighter map content of its HSV's component V. In other words, the TWB decreases its averaged-weights as the intensity content of the component V increases. Extensive experimental demonstrations were conducted, and based on evaluation of the reference and PM enhanced images, a gastroenterologist ({\O}H) concluded that the PM enhanced images were the best ones based on the information about the vessels, contrast in the images, and the view or visibility of the structures in more distant parts of the capsule endoscopy images.
翻訳日:2021-04-09 21:26:19 公開日:2021-04-08
# (参考訳) ポイント・ボクセル拡散による3次元形状生成と完成

3D Shape Generation and Completion through Point-Voxel Diffusion ( http://arxiv.org/abs/2104.03670v1 )

ライセンス: CC BY 4.0
Linqi Zhou, Yilun Du, Jiajun Wu(参考訳) 本稿では,3次元形状の確率的生成モデルを提案する。 潜在ベクトルを形状に決定論的に変換することを学ぶ既存のモデルと異なり、我々のモデルであるpoint-voxel diffusion(pvd)は無条件形状生成と条件付きマルチモーダル形状完了のための統一的確率的定式化である。 PVDは3次元形状のハイブリッド・ポイント・ボクセル表現で拡散モデルを合成する。 観測された点雲データからガウス雑音への拡散過程を反転させ、(条件付き)確率関数に対する変分下限を最適化することで、一連の分節化ステップと見なすことができる。 実験により、PVDは高忠実度形状を合成し、部分点雲を完了し、実物の単視点深度スキャンから複数の完了結果を生成することができることが示された。

We propose a novel approach for probabilistic generative modeling of 3D shapes. Unlike most existing models that learn to deterministically translate a latent vector to a shape, our model, Point-Voxel Diffusion (PVD), is a unified, probabilistic formulation for unconditional shape generation and conditional, multi-modal shape completion. PVD marries denoising diffusion models with the hybrid, point-voxel representation of 3D shapes. It can be viewed as a series of denoising steps, reversing the diffusion process from observed point cloud data to Gaussian noise, and is trained by optimizing a variational lower bound to the (conditional) likelihood function. Experiments demonstrate that PVD is capable of synthesizing high-fidelity shapes, completing partial point clouds, and generating multiple completion results from single-view depth scans of real objects.
翻訳日:2021-04-09 21:13:50 公開日:2021-04-08
# (参考訳) 説明可能性に基づくグラフニューラルネットワークに対するバックドア攻撃

Explainability-based Backdoor Attacks Against Graph Neural Networks ( http://arxiv.org/abs/2104.03674v1 )

ライセンス: CC BY 4.0
Jing Xu, Minhui (Jason) Xue, Stjepan Picek(参考訳) バックドア攻撃は、ニューラルネットワークモデルにとって深刻な脅威である。 バックドアモデルでは、トリガー埋め込み入力をアタッカー・チョーゼンターゲットラベルに誤分類し、他の良質な入力で正常に実行する。 ニューラルネットワークのバックドア攻撃には、すでに多くの研究があるが、グラフニューラルネットワーク(gnn)を考えるものはごくわずかである。 そのため、GNNに対するバックドア攻撃のパフォーマンスにトリガー注入位置が及ぼす影響を説明するための集中的な研究は行われていない。 このギャップを埋めるため,我々はgnnにおけるバックドア攻撃の性能を実験的に検討する。 我々は、2つの強力なGNN説明可能性アプローチを適用し、最適なトリガー注入位置を選択して2つの攻撃目標を達成する。 ベンチマークデータセットと最先端ニューラルネットワークモデルを用いた実験結果から,GNNに対するバックドア攻撃に対するトリガ注入位置の選択において,提案手法の有効性が示された。 例えば、ノード分類タスクでは、GraphLIMEが選択したトリガー注入位置によるバックドアアタックが、2.5ドル未満の精度低下で、攻撃成功率が84ドル以上に達する。

Backdoor attacks represent a serious threat to neural network models. A backdoored model will misclassify the trigger-embedded inputs into an attacker-chosen target label while performing normally on other benign inputs. There are already numerous works on backdoor attacks on neural networks, but only a few works consider graph neural networks (GNNs). As such, there is no intensive research on explaining the impact of trigger injecting position on the performance of backdoor attacks on GNNs. To bridge this gap, we conduct an experimental investigation on the performance of backdoor attacks on GNNs. We apply two powerful GNN explainability approaches to select the optimal trigger injecting position to achieve two attacker objectives -- high attack success rate and low clean accuracy drop. Our empirical results on benchmark datasets and state-of-the-art neural network models demonstrate the proposed method's effectiveness in selecting trigger injecting position for backdoor attacks on GNNs. For instance, on the node classification task, the backdoor attack with trigger injecting position selected by GraphLIME reaches over $84 \%$ attack success rate with less than $2.5 \%$ accuracy drop
翻訳日:2021-04-09 20:44:40 公開日:2021-04-08
# (参考訳) HindSight: 部分ホール階層を表現するグラフベースの視覚モデルアーキテクチャ

HindSight: A Graph-Based Vision Model Architecture For Representing Part-Whole Hierarchies ( http://arxiv.org/abs/2104.03722v1 )

ライセンス: CC BY 4.0
Muhammad AbdurRafae(参考訳) 本稿では,画像中の部分全体階層の表現をグラフ形式で符号化するモデルアーキテクチャを提案する。 イメージを異なるレベルのパッチに分割して、これらすべてのパッチを、完全に接続されたグラフのノードとして扱うことが目的だ。 動的特徴抽出モジュールは、各グラフイテレーションでこれらのパッチから特徴表現を抽出するために使用される。 これにより、固有の階層的な情報を包含する画像のリッチなグラフ表現を学べる。 適切な自己監督型トレーニング技術を利用することで、そのようなモデルを汎用視覚エンコーダモデルとしてトレーニングし、下流の様々な視覚関連タスク(画像分類、オブジェクト検出、画像キャプチャなど)に使用することができる。 ).

This paper presents a model architecture for encoding the representations of part-whole hierarchies in images in form of a graph. The idea is to divide the image into patches of different levels and then treat all of these patches as nodes for a fully connected graph. A dynamic feature extraction module is used to extract feature representations from these patches in each graph iteration. This enables us to learn a rich graph representation of the image that encompasses the inherent part-whole hierarchical information. Utilizing proper self-supervised training techniques, such a model can be trained as a general purpose vision encoder model which can then be used for various vision related downstream tasks (e.g., Image Classification, Object Detection, Image Captioning, etc.).
翻訳日:2021-04-09 20:33:12 公開日:2021-04-08
# (参考訳) メタ学習支援プロトコル

Support-Target Protocol for Meta-Learning ( http://arxiv.org/abs/2104.03736v1 )

ライセンス: CC BY 4.0
Su Lu, Han-Jia Ye, De-Chuan Zhan(参考訳) サポート/クエリ(S/Q)トレーニングプロトコルはメタラーニングで広く使われている。 S/Qプロトコルは、タスク固有のモデルをSでトレーニングし、Qで評価し、Qのサイズと品質に依存するクエリ損失を使用してメタモデルを最適化する。 本稿ではメタラーニングのための新しいS/Tプロトコルを提案する。 タスクに対して理論的に最適なモデルTにアクセスできると仮定すると、Sで訓練されたタスク固有モデルとT/Tプロトコルを直接一致させることができる。 S/Tプロトコルの実践には2つの課題がある。 まず、タスク固有のモデルをTにマッチさせる方法を決定する必要がある。この目的のために、敵の学習によって生成された架空のデータセット上でのタスク固有のモデル間の差を最小限に抑え、タスク固有のモデルにTの予測能力を蒸留する。 第二に、私たちは通常、準備が整った最適モデルを持っていません。 代替として,グローバルに事前訓練されたメタモデルである局所タスクを微調整し,効率性と妥当性を両立させることにより,サロゲートターゲットモデルを構築する。

The support/query (S/Q) training protocol is widely used in meta-learning. S/Q protocol trains a task-specific model on S and then evaluates it on Q to optimize the meta-model using query loss, which depends on size and quality of Q. In this paper, we study a new S/T protocol for meta-learning. Assuming that we have access to the theoretically optimal model T for a task, we can directly match the task-specific model trained on S to T. S/T protocol offers a more accurate evaluation since it does not rely on possibly biased and noisy query instances. There are two challenges in putting S/T protocol into practice. Firstly, we have to determine how to match the task-specific model to T. To this end, we minimize the discrepancy between them on a fictitious dataset generated by adversarial learning, and distill the prediction ability of T to the task-specific model. Secondly, we usually do not have ready-made optimal models. As an alternative, we construct surrogate target models by fine-tuning on local tasks the globally pre-trained meta-model, maintaining both efficiency and veracity.
翻訳日:2021-04-09 20:21:27 公開日:2021-04-08
# (参考訳) 最適移動によるコンロミゼーションメトリックによるFew-Shot行動認識

Few-Shot Action Recognition with Compromised Metric via Optimal Transport ( http://arxiv.org/abs/2104.03737v1 )

ライセンス: CC BY 4.0
Su Lu, Han-Jia Ye, De-Chuan Zhan(参考訳) コンピュータビジョンシステムでは必須であるが、少数ショット画像分類の広範な研究にもかかわらず、少数ショット動作認識はまだ成熟していない。 一般的な数ショット学習アルゴリズムは、見知らぬクラスから移動可能な埋め込みを抽出し、メトリックベースの分類器を構築することで、見知らぬクラスで再利用する。 これらのアルゴリズムをアクション認識に適用する際の大きな障害は、ビデオの複雑な構造である。 既存のソリューションでは、ビデオからフレームをサンプリングし、埋め込みを集約してビデオレベルの表現を形成し、重要な時間的関係を無視している。 2つのビデオ間の明示的なシーケンスマッチングを実行し、それらの距離をマッチングコストとして定義し、シーケンス順序に過度な制限を課す。 本稿では,この2つのソリューションの利点を組み合わせるために,CMOT(Compromized Metric via Optimal Transport)を提案する。 CMOT は Optimal Transport フレームワークの下でビデオのセマンティック情報と時間情報を同時に検討し、コンテンツに敏感なタスクと順序に敏感なタスクを区別する。 詳しくは、2つのビデオからセグメントをサンプリングし、2つのセグメントシーケンス間の最適な輸送問題としてそれらの距離を計算する。 時間的順序付け情報を保存するため,一対のセグメント間の位置距離で補償することにより,地価行列を補正する。 ベンチマークデータセットの実証結果はCMOTの優位性を示している。

Although vital to computer vision systems, few-shot action recognition is still not mature despite the wide research of few-shot image classification. Popular few-shot learning algorithms extract a transferable embedding from seen classes and reuse it on unseen classes by constructing a metric-based classifier. One main obstacle to applying these algorithms in action recognition is the complex structure of videos. Some existing solutions sample frames from a video and aggregate their embeddings to form a video-level representation, neglecting important temporal relations. Others perform an explicit sequence matching between two videos and define their distance as matching cost, imposing too strong restrictions on sequence ordering. In this paper, we propose Compromised Metric via Optimal Transport (CMOT) to combine the advantages of these two solutions. CMOT simultaneously considers semantic and temporal information in videos under Optimal Transport framework, and is discriminative for both content-sensitive and ordering-sensitive tasks. In detail, given two videos, we sample segments from them and cast the calculation of their distance as an optimal transport problem between two segment sequences. To preserve the inherent temporal ordering information, we additionally amend the ground cost matrix by penalizing it with the positional distance between a pair of segments. Empirical results on benchmark datasets demonstrate the superiority of CMOT.
翻訳日:2021-04-09 19:58:39 公開日:2021-04-08
# (参考訳) AI開発における過剰規制から逃れる自主的安全約束

Voluntary safety commitments provide an escape from over-regulation in AI development ( http://arxiv.org/abs/2104.03741v1 )

ライセンス: CC BY 4.0
The Anh Han, Tom Lenaerts, Francisco C. Santos, and Luis Moniz Pereira(参考訳) 人工知能(AI)とその関連技術が私たちの日常生活に導入され、その悪用に対する恐れと不安、そしてその創造に隠された偏見が、このような問題に対処する規制の要求につながった。 しかし、よく理解されていないイノベーションプロセスを盲目的に調整することで、このプロセスを阻害し、最高の意図の下でも、生成された技術から社会が得る利益を減らすことができる。 本稿では,AI技術を用いたドメイン優越競争の基本的なダイナミクスを捉えるベースラインモデルから,リスクテイクに無条件に適用した場合に,社会的に望ましくない結果が生じることを実証する。 潜在的に安全でない行動です 過剰規制の有害な効果を解消するための代替手段として,技術者が自発的に行動の方針を追求するか,あるいは安全に行動するための拘束契約を確立するか,あるいは誓約に従わない者を許可するかを選択できる自発的コミットメントアプローチを提案する。 全体として、この研究は、仲間や機関による制裁による自発的なコミットメントが、AI技術を通じたドメイン優位性への短期的な競争において、すべてのシナリオにおいて社会的に有益な結果をもたらすことを初めて明らかにしている。 これらの結果は、倫理的で責任あるAI技術開発プロセスを保証することを目的としたガバナンスと規制ポリシーの設計に直接関係している。

With the introduction of Artificial Intelligence (AI) and related technologies in our daily lives, fear and anxiety about their misuse as well as the hidden biases in their creation have led to a demand for regulation to address such issues. Yet blindly regulating an innovation process that is not well understood, may stifle this process and reduce benefits that society may gain from the generated technology, even under the best intentions. In this paper, starting from a baseline model that captures the fundamental dynamics of a race for domain supremacy using AI technology, we demonstrate how socially unwanted outcomes may be produced when sanctioning is applied unconditionally to risk-taking, i.e. potentially unsafe, behaviours. As an alternative to resolve the detrimental effect of over-regulation, we propose a voluntary commitment approach wherein technologists have the freedom of choice between independently pursuing their course of actions or establishing binding agreements to act safely, with sanctioning of those that do not abide to what they pledged. Overall, this work reveals for the first time how voluntary commitments, with sanctions either by peers or an institution, leads to socially beneficial outcomes in all scenarios envisageable in a short-term race towards domain supremacy through AI technology. These results are directly relevant for the design of governance and regulatory policies that aim to ensure an ethical and responsible AI technology development process.
翻訳日:2021-04-09 19:39:02 公開日:2021-04-08
# (参考訳) ニューラルネットワークによるインフレ予測

Predicting Inflation with Neural Networks ( http://arxiv.org/abs/2104.03757v1 )

ライセンス: CC BY 4.0
Livia Paranhos(参考訳) 本稿では,インフレーション予測にニューラルネットワークモデルを適用する。 マクロ経済情報を共通成分に要約する特定のリカレントニューラルネットワーク、長期記憶モデル(LSTM)の使用は、この論文の大きな貢献である。 米国のデータによるエクササイズの結果、推定されたニューラルネットは通常、標準ベンチマークよりも優れた予測性能を示し、特に長い地平線において。 特にLSTMは、長い水平線で従来のフィードフォワードネットワークより優れており、インフレの長期的傾向を捉える上で、反復モデルによる利点が示唆されている。 この発見は、精度が向上する限り、比較的古い情報を予測に組み込むlstmのいわゆるlong memoryによって合理化され、推定パラメータの数を節約することができる。 興味深いことに、マクロ経済情報を含むニューラルネットは、大恐慌の前後のインフレの特徴をよく捉えており、おそらくこのエピソードにおける非線形性とマクロ情報の役割を示している。 予測に使用される推定共通コンポーネントは、ビジネスサイクルのダイナミクスや価格に関する情報を捉えることができるように思われる。

This paper applies neural network models to forecast inflation. The use of a particular recurrent neural network, the long-short term memory model, or LSTM, that summarizes macroeconomic information into common components is a major contribution of the paper. Results from an exercise with US data indicate that the estimated neural nets usually present better forecasting performance than standard benchmarks, especially at long horizons. The LSTM in particular is found to outperform the traditional feed-forward network at long horizons, suggesting an advantage of the recurrent model in capturing the long-term trend of inflation. This finding can be rationalized by the so called long memory of the LSTM that incorporates relatively old information in the forecast as long as accuracy is improved, while economizing in the number of estimated parameters. Interestingly, the neural nets containing macroeconomic information capture well the features of inflation during and after the Great Recession, possibly indicating a role for nonlinearities and macro information in this episode. The estimated common components used in the forecast seem able to capture the business cycle dynamics, as well as information on prices.
翻訳日:2021-04-09 19:38:02 公開日:2021-04-08
# (参考訳) ジョブショップスケジューリングのための強化学習環境

A Reinforcement Learning Environment For Job-Shop Scheduling ( http://arxiv.org/abs/2104.03760v1 )

ライセンス: CC BY 4.0
Pierre Tassel, Martin Gebser, Konstantin Schekotihin(参考訳) スケジューリングは、様々な自動化システムアプリケーションで発生する基本的なタスクである。例えば、ジョブショップのマシンの最適なスケジュールは、生産コストと無駄を減らすことができる。 それでも、そのようなスケジュールを見つけることはしばしば難解であり、与えられた時間制限内での組合せ最適化問題(COP)法では達成できない。 複雑な振る舞いの学習における深層強化学習(DRL)の最近の進歩は、新しいCOPアプリケーションの可能性を可能にしている。 本稿では,ジョブショップスケジューリングのための効率的なDRL環境を提案する。 さらに,cop法で用いられるスパースメイクスパン最小化基準と密接に関連した,有意義でコンパクトな状態表現と,新しい,単純な密集した報酬関数を設計する。 提案手法は従来のベンチマークインスタンスのDRLメソッドよりも大幅に優れており,最先端のCOPアプローチに近い。

Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.
翻訳日:2021-04-09 19:37:02 公開日:2021-04-08
# (参考訳) uppsala nlp at semeval-2021 task 2: word-in-context disambiguationにおける微調整と特徴抽出のための多言語モデル

Uppsala NLP at SemEval-2021 Task 2: Multilingual Language Models for Fine-tuning and Feature Extraction in Word-in-Context Disambiguation ( http://arxiv.org/abs/2104.03767v1 )

ライセンス: CC BY 4.0
Huiling You, Xingran Zhu and Sara Stymne(参考訳) 本論文では,多言語・多言語・言語間の単語間曖昧化に関するSemEval-2021タスク2へのUppsala NLPの提出について述べる。 XLM-RoBERTa(XLMR)、Multilingual BERT(mBERT)、Multilingual distilled BERT(mDistilBERT)の3つの事前学習言語モデルの有用性を検討した。 これら3つのモデルを微調整と特徴抽出の2つの設定で比較した。 2つ目のケースでは、依存性ベースの情報を使う実験も行います。 微調整は特徴抽出よりも優れている。 XLMRは細調整と特徴抽出の両方でmBERTよりも優れているが、これらの2つのモデルは多言語設定で同様の性能を示す。 mDistilBERTは微調整では性能が良くないが、特徴抽出器として使用する場合、他のモデルと同様の結果が得られる。 我々はXLMRとmBERTで微調整した2つの最良のシステムを提出した。

We describe the Uppsala NLP submission to SemEval-2021 Task 2 on multilingual and cross-lingual word-in-context disambiguation. We explore the usefulness of three pre-trained multilingual language models, XLM-RoBERTa (XLMR), Multilingual BERT (mBERT) and multilingual distilled BERT (mDistilBERT). We compare these three models in two setups, fine-tuning and as feature extractors. In the second case we also experiment with using dependency-based information. We find that fine-tuning is better than feature extraction. XLMR performs better than mBERT in the cross-lingual setting both with fine-tuning and feature extraction, whereas these two models give a similar performance in the multilingual setting. mDistilBERT performs poorly with fine-tuning but gives similar results to the other models when used as a feature extractor. We submitted our two best systems, fine-tuned with XLMR and mBERT.
翻訳日:2021-04-09 19:21:50 公開日:2021-04-08
# (参考訳) 文脈単語埋め込みを用いた意味変化の統計的に重要な検出

Statistically significant detection of semantic shifts using contextual word embeddings ( http://arxiv.org/abs/2104.03776v1 )

ライセンス: CC BY 4.0
Yang Liu, Alan Medlar and Dorota Glowacka(参考訳) 例えば、小さなデータセットにおける語彙意味シフトの検出。 歴史的言語学やデジタル人文科学では 統計力の欠如が原因で困難です この問題は、トークンごとにひとつの埋め込みを生成し、それゆえデータに存在する可変性を隠蔽する非コンテキスト的な単語埋め込みによって悪化する。 本稿では,文脈的単語埋め込みと置換に基づく統計的テストを組み合わせることで意味変化を推定する手法を提案する。 偽発見率手順を用いて複数の比較を行う。 本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。 また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。 サンプルの変動を考慮することで、全体の性能を劣化させることなく、個々の意味シフト推定の堅牢性を向上させることができることを示す。

Detecting lexical semantic shifts in smaller data sets, e.g. in historical linguistics and digital humanities, is challenging due to a lack of statistical power. This issue is exacerbated by non-contextual word embeddings that produce one embedding per token and therefore mask the variability present in the data. In this article, we propose an approach to estimate semantic shifts by combining contextual word embeddings with permutation-based statistical tests. Multiple comparisons are addressed using a false discovery rate procedure. We demonstrate the performance of this approach in simulation, achieving consistently high precision by suppressing false positives. We additionally analyzed real-world data from SemEval-2020 Task 1 and the Liverpool FC subreddit corpus. We show that by taking sample variation into account, we can improve the robustness of individual semantic shift estimates without degrading overall performance.
翻訳日:2021-04-09 19:13:51 公開日:2021-04-08
# (参考訳) 漸進的意味セグメンテーション

Progressive Semantic Segmentation ( http://arxiv.org/abs/2104.03778v1 )

ライセンス: CC BY 4.0
Chuong Huynh, Anh Tran, Khoa Luu, Minh Hoai(参考訳) この研究の目的は、GPUメモリの使用をオーバーロードしたり、出力セグメンテーションマップの細部をなくすことなく、高解像度画像を分割することである。 メモリ制約は、大きなイメージを縮小するか、イメージを別の処理のためにローカルパッチに分割する必要があることを意味する。 しかし、前者のアプローチでは細部が失われるが、後者はグローバルなイメージが欠如しているため曖昧である可能性がある。 本稿では,複数の倍率レベルで画像を見ることで局所的な曖昧さを解消するマルチスケールフレームワークMagNetを提案する。 マグネットは、各段が拡大レベルに対応する複数の処理段階を有し、1段の出力が次の段に供給され、粗い情報伝達が行われる。 各ステージは、前段よりも高分解能で画像を解析し、損失の少ないダウンサンプリングステップにより予め失われた詳細を回収し、処理段階を通じてセグメンテーション出力を段階的に洗練する。 都市ビュー、空中シーン、医療画像の高解像度データセットによる実験では、MagNetは最先端の手法を著しく上回っている。

The objective of this work is to segment high-resolution images without overloading GPU memory usage or losing the fine details in the output segmentation map. The memory constraint means that we must either downsample the big image or divide the image into local patches for separate processing. However, the former approach would lose the fine details, while the latter can be ambiguous due to the lack of a global picture. In this work, we present MagNet, a multi-scale framework that resolves local ambiguity by looking at the image at multiple magnification levels. MagNet has multiple processing stages, where each stage corresponds to a magnification level, and the output of one stage is fed into the next stage for coarse-to-fine information propagation. Each stage analyzes the image at a higher resolution than the previous stage, recovering the previously lost details due to the lossy downsampling step, and the segmentation output is progressively refined through the processing stages. Experiments on three high-resolution datasets of urban views, aerial scenes, and medical images show that MagNet consistently outperforms the state-of-the-art methods by a significant margin.
翻訳日:2021-04-09 18:59:54 公開日:2021-04-08
# (参考訳) 皮膚科の分類は知らないのか? 目に見えない条件のロングテール検出

Does Your Dermatology Classifier Know What It Doesn't Know? Detecting the Long-Tail of Unseen Conditions ( http://arxiv.org/abs/2104.03829v1 )

ライセンス: CC BY 4.0
Abhijit Guha Roy, Jie Ren, Shekoofeh Azizi, Aaron Loh, Vivek Natarajan, Basil Mustafa, Nick Pawlowski, Jan Freyberg, Yuan Liu, Zach Beaver, Nam Vo, Peggy Bui, Samantha Winter, Patricia MacWilliams, Greg S. Corrado, Umesh Telang, Yun Liu, Taylan Cemgil, Alan Karthikesalingam, Balaji Lakshminarayanan, Jim Winkens(参考訳) 我々は,自信ある分類器を訓練するのに十分なデータがない稀な条件を検知しながら,皮膚の状態を正確に分類できる深層学習ベースシステムを開発し,厳格に評価する。 我々は、このタスクを、アウト・オブ・ディストリビューション(OOD)検出問題とみなしている。 新たなアプローチである階層的外れ値検出(hod)では,各トレーニング外れ値クラスに対して複数の回避クラスを割り当て,各クラスの細粒度分類とともに,異常値対外れ値の粗い分類を共同で行う。 本稿では,現代表現学習手法 (BiT, SimCLR, MICLe) と併用して,HOD損失の有効性を実証し,その結果をさらに改善するための異なるアンサンブル戦略を探求する。 リスクレベルや皮膚の種類が変化する状況について広範なサブグループ分析を行い,各サブグループでood検出性能がどのように変化するかを調査し,ベースラインと比較し,フレームワークの利点を実証した。 最後に, 下流臨床効果を近似するコスト指標を提案する。 我々は,提案手法をベースラインシステムと比較するために,このコスト測定値を用いて,実世界の展開シナリオにおけるシステム全体の有効性を示す。

We develop and rigorously evaluate a deep learning based system that can accurately classify skin conditions while detecting rare conditions for which there is not enough data available for training a confident classifier. We frame this task as an out-of-distribution (OOD) detection problem. Our novel approach, hierarchical outlier detection (HOD) assigns multiple abstention classes for each training outlier class and jointly performs a coarse classification of inliers vs. outliers, along with fine-grained classification of the individual classes. We demonstrate the effectiveness of the HOD loss in conjunction with modern representation learning approaches (BiT, SimCLR, MICLe) and explore different ensembling strategies for further improving the results. We perform an extensive subgroup analysis over conditions of varying risk levels and different skin types to investigate how the OOD detection performance changes over each subgroup and demonstrate the gains of our framework in comparison to baselines. Finally, we introduce a cost metric to approximate downstream clinical impact. We use this cost metric to compare the proposed method against a baseline system, thereby making a stronger case for the overall system effectiveness in a real-world deployment scenario.
翻訳日:2021-04-09 18:46:55 公開日:2021-04-08
# (参考訳) ORBIT:Teachable Object Recognitionのための実世界のFew-Shotデータセット

ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition ( http://arxiv.org/abs/2104.03841v1 )

ライセンス: CC BY 4.0
Daniela Massiceti, Luisa Zintgraf, John Bronskill, Lida Theodorou, Matthew Tobias Harris, Edward Cutrell, Cecily Morrison, Katja Hofmann, Simone Stumpf(参考訳) オブジェクト認識は過去10年で大きな進歩を遂げてきたが、依然としてオブジェクトカテゴリごとに多くの高品質なトレーニング例に依存している。 対照的に、いくつかの例から新しいオブジェクトを学ぶことで、ロボット工学からユーザパーソナライズまで、多くのインパクトのあるアプリケーションが可能になる。 しかし、ほとんどの少数の機械学習研究は、現実世界にデプロイする際、これらのアプリケーションが直面する高いばらつきに欠けるベンチマークデータセットによって推進されている。 このギャップを埋めるため,我々は,視覚障害者を対象とした実世界の教示可能な物体認識システムとして,orbit datasetとbenchmarkを紹介する。 このデータセットには、携帯電話で視覚障害者が記録した486のオブジェクトの3,822本のビデオが含まれており、このベンチマークは現実的で非常に困難な認識問題を反映している。 我々は、ベンチマークで最初の最先端技術を設定し、さらなるイノベーションのための大きなスコープがあることを示し、ブラインド/ロービジョンコミュニティのためのツールを含む、幅広い現実世界のビジョンアプリケーションに影響を与える可能性を秘めている。 データセットとベンチマークコードはhttps://github.com/microsoft/ORBIT-Datasetでアクセスすることができる。

Object recognition has made great advances in the last decade, but predominately still relies on many high-quality training examples per object category. In contrast, learning new objects from only a few examples could enable many impactful applications from robotics to user personalization. Most few-shot learning research, however, has been driven by benchmark datasets that lack the high variation that these applications will face when deployed in the real-world. To close this gap, we present the ORBIT dataset and benchmark, grounded in a real-world application of teachable object recognizers for people who are blind/low vision. The dataset contains 3,822 videos of 486 objects recorded by people who are blind/low-vision on their mobile phones, and the benchmark reflects a realistic, highly challenging recognition problem, providing a rich playground to drive research in robustness to few-shot, high-variation conditions. We set the first state-of-the-art on the benchmark and show that there is massive scope for further innovation, holding the potential to impact a broad range of real-world vision applications including tools for the blind/low-vision community. The dataset and benchmark code can be accessed at https://github.com/microsoft/ORBIT-Dataset.
翻訳日:2021-04-09 18:14:50 公開日:2021-04-08
# (参考訳) InAugment: 内部拡張による分類器の改善

InAugment: Improving Classifiers via Internal Augmentation ( http://arxiv.org/abs/2104.03843v1 )

ライセンス: CC BY 4.0
Moab Arar, Ariel Shamir, Amit Bermano(参考訳) 画像拡張技術は、入力画像に回転、せん断、色歪みなどの変換関数を適用する。 これらの拡張は、ニューラルネットワークの一般化能力を改善するのに有用であることが証明された。 本稿では,画像内部統計を利用した新しい拡張操作であるinaugmentを提案する。 キーとなるアイデアは、イメージ自体からパッチをコピーし、拡張操作を適用し、それらを同じイメージ上のランダムな位置にペーストすることだ。 この手法はシンプルで実装が容易であり、既存の拡張技術と組み込むことができる。 私たちは、CIFARとImageNetという2つの一般的なデータセットでInAugmentをテストする。 我々は最先端の強化技術の改善を示す。 自動補完機能の導入は、他の拡張技術(例えば、cifarデータセットでトレーニングされた複数のアーキテクチャに対する+1%の改善)よりも大幅に改善される。 また,imagenetデータセットにおけるresnet50 と efficientnet-b3 top-1 の精度を,事前拡張法と比較して向上させた。 最後に,InAugmentを用いた畳み込みニューラルネットワークのトレーニングにより,モデルの精度と信頼性が向上するだけでなく,分布外画像の性能が向上することが示唆された。

Image augmentation techniques apply transformation functions such as rotation, shearing, or color distortion on an input image. These augmentations were proven useful in improving neural networks' generalization ability. In this paper, we present a novel augmentation operation, InAugment, that exploits image internal statistics. The key idea is to copy patches from the image itself, apply augmentation operations on them, and paste them back at random positions on the same image. This method is simple and easy to implement and can be incorporated with existing augmentation techniques. We test InAugment on two popular datasets -- CIFAR and ImageNet. We show improvement over state-of-the-art augmentation techniques. Incorporating InAugment with Auto Augment yields a significant improvement over other augmentation techniques (e.g., +1% improvement over multiple architectures trained on the CIFAR dataset). We also demonstrate an increase for ResNet50 and EfficientNet-B3 top-1's accuracy on the ImageNet dataset compared to prior augmentation methods. Finally, our experiments suggest that training convolutional neural network using InAugment not only improves the model's accuracy and confidence but its performance on out-of-distribution images.
翻訳日:2021-04-09 17:13:52 公開日:2021-04-08
# (参考訳) テキスト分類におけるアルゴリズム性能,語彙,実行時間の関係を探る

Exploring the Relationship Between Algorithm Performance, Vocabulary, and Run-Time in Text Classification ( http://arxiv.org/abs/2104.03848v1 )

ライセンス: CC BY 4.0
Wilson Fearn, Orion Weller, Kevin Seppi(参考訳) テキスト分類は自然言語処理の重要な分野であり、文書分類や感情分析など多くの応用がある。 当然のことながら、テキスト分類を行う人はアルゴリズムの実行時間に関係しており、その多くは単語の袋の表現のため、コーパスの語彙のサイズに依存する。 多くの研究で前処理技術が語彙サイズや正確性に与える影響が研究されているが、モデルの実行時間にどのように影響するかは調査されていない。 このギャップを埋めるため,前処理技術が語彙サイズ,モデル性能,モデル実行時間にどのように影響するかを総合的に検討し,4つのモデルと2つのデータセットで10の技術を評価した。 個々の手法が精度を損なわずに実行時間を短縮できるのに対し、いくつかの手法の組み合わせでは2-5%の精度で実行時間を最大65%削減できることを示す。 さらに、いくつかの前処理技術の組み合わせは、モデルの精度を向上しながら、実行時間を15%削減できる。

Text classification is a significant branch of natural language processing, and has many applications including document classification and sentiment analysis. Unsurprisingly, those who do text classification are concerned with the run-time of their algorithms, many of which depend on the size of the corpus' vocabulary due to their bag-of-words representation. Although many studies have examined the effect of preprocessing techniques on vocabulary size and accuracy, none have examined how these methods affect a model's run-time. To fill this gap, we provide a comprehensive study that examines how preprocessing techniques affect the vocabulary size, model performance, and model run-time, evaluating ten techniques over four models and two datasets. We show that some individual methods can reduce run-time with no loss of accuracy, while some combinations of methods can trade 2-5% of the accuracy for up to a 65% reduction of run-time. Furthermore, some combinations of preprocessing techniques can even provide a 15% reduction in run-time while simultaneously improving model accuracy.
翻訳日:2021-04-09 16:56:04 公開日:2021-04-08
# (参考訳) 野生におけるエンドツーエンドのニューラルフェイス認証を目指して -指向性照明効果の定量化と補正-

Towards End-to-End Neural Face Authentication in the Wild - Quantifying and Compensating for Directional Lighting Effects ( http://arxiv.org/abs/2104.03854v1 )

ライセンス: CC BY 4.0
Viktor Varkarakis, Wang Yao, Peter Corcoran(参考訳) 近年、低消費電力のニューラルアクセラレータハードウェアが利用可能となり、エンドツーエンドの顔認識アルゴリズムの改善が加わり、オンデバイス顔認識技術が実現された。 本研究では, 指向性照明がニューラルフェイス認識器(SoA)に及ぼす影響について検討する。 方向性の異なる公共データセットが不足しているため、データサンプルを増強するために合成再照明技術を用いる。 トップライティングとその変種(上左、上右)は精度にはほとんど影響を与えないが、下左または下右の方向ライティングは最も明瞭な効果を持つ。 ネットワーク重みの微調整に続いて、顔認識モデルは、全ての照明条件における元の受信者動作特性曲線(ROC)性能に近い性能を示し、微調整データセットで使用される照明拡張を超えて一般化する能力を示す。 この研究は、SoAニューラルフェイス認識モデルを調整して、指向性照明効果を補正できることを示し、顔認識を適用する前に前処理ステップを不要にする。

The recent availability of low-power neural accelerator hardware, combined with improvements in end-to-end neural facial recognition algorithms provides, enabling technology for on-device facial authentication. The present research work examines the effects of directional lighting on a State-of-Art(SoA) neural face recognizer. A synthetic re-lighting technique is used to augment data samples due to the lack of public data-sets with sufficient directional lighting variations. Top lighting and its variants (top-left, top-right) are found to have minimal effect on accuracy, while bottom-left or bottom-right directional lighting has the most pronounced effects. Following the fine-tuning of network weights, the face recognition model is shown to achieve close to the original Receiver Operating Characteristic curve (ROC)performance across all lighting conditions and demonstrates an ability to generalize beyond the lighting augmentations used in the fine-tuning data-set. This work shows that an SoA neural face recognition model can be tuned to compensate for directional lighting effects, removing the need for a pre-processing step before applying facial recognition.
翻訳日:2021-04-09 16:37:29 公開日:2021-04-08
# (参考訳) 学習記述子を用いた3次元サーフェルマップ支援ビジュアルリローカライゼーション

3D Surfel Map-Aided Visual Relocalization with Learned Descriptors ( http://arxiv.org/abs/2104.03856v1 )

ライセンス: CC BY 4.0
Haoyang Ye, Huaiyang Huang, Marco Hutter, Timothy Sandy, Ming Liu(参考訳) 本稿では,3次元サーベイルマップからの幾何情報を用いた視覚的再局在化手法を提案する。 視覚データベースは3Dサーベイルマップレンダリングのグローバルインデックスによって構築され、画像ポイントと3Dサーベイルの関連性を提供する。 サーフェル再投影制約は、ビジュアルデータベースのキーフレームポーズとマップポイントを最適化するために利用される。 階層型カメラ再ローカライズアルゴリズムは、視覚データベースを用いて6-DoFカメラのポーズを推定する。 学習済みのディスクリプタは、難しいケースのパフォーマンス向上にさらに使用される。 本手法の有効性と効率を示すために,実世界環境下での評価とシミュレーションを行い,最終カメラのポーズを3次元環境と一貫して一致させる。

In this paper, we introduce a method for visual relocalization using the geometric information from a 3D surfel map. A visual database is first built by global indices from the 3D surfel map rendering, which provides associations between image points and 3D surfels. Surfel reprojection constraints are utilized to optimize the keyframe poses and map points in the visual database. A hierarchical camera relocalization algorithm then utilizes the visual database to estimate 6-DoF camera poses. Learned descriptors are further used to improve the performance in challenging cases. We present evaluation under real-world conditions and simulation to show the effectiveness and efficiency of our method, and make the final camera poses consistently well aligned with the 3D environment.
翻訳日:2021-04-09 16:23:57 公開日:2021-04-08
# (参考訳) 深海塩分予測のための異種物体のモデル化

Modeling Object Dissimilarity for Deep Saliency Prediction ( http://arxiv.org/abs/2104.03864v1 )

ライセンス: CC BY 4.0
Bahar Aydemir, Deblina Bhattacharjee, Seungryong Kim, Tong Zhang, Mathieu Salzmann and Sabine S\"usstrunk(参考訳) 正当性予測は過去20年間に大きく進歩し、現在の手法では、色、強度、大きさのコントラストといった低レベルの情報や、物体全体の注意や視線方向といった高レベルの情報をモデル化している。 しかし、これらの手法は、人間が自然に行う物体間の相違を考慮しない。 本稿では,複数物体の出現や大きさの相違など,物体間の差異を明示的にモデル化する,検出誘導型塩分予測ネットワークを提案する。 当社のアプローチは一般的なもので、ディープサリエンシー予測ネットワークによって抽出された機能とオブジェクトの相違点を融合することが可能です。 実験によって証明されたように、この手法はベースラインネットワークの精度を一貫して向上させ、SALICON、MIT300、CAT2000の3つのサリエンシベンチマークで最先端のモデルを上回ります。

Saliency prediction has made great strides over the past two decades, with current techniques modeling low-level information, such as color, intensity and size contrasts, and high-level one, such as attention and gaze direction for entire objects. Despite this, these methods fail to account for the dissimilarity between objects, which humans naturally do. In this paper, we introduce a detection-guided saliency prediction network that explicitly models the differences between multiple objects, such as their appearance and size dissimilarities. Our approach is general, allowing us to fuse our object dissimilarities with features extracted by any deep saliency prediction network. As evidenced by our experiments, this consistently boosts the accuracy of the baseline networks, enabling us to outperform the state-of-the-art models on three saliency benchmarks, namely SALICON, MIT300 and CAT2000.
翻訳日:2021-04-09 16:06:42 公開日:2021-04-08
# (参考訳) 双曲空間におけるBERTの探索

Probing BERT in Hyperbolic Spaces ( http://arxiv.org/abs/2104.03869v1 )

ライセンス: CC BY 4.0
Boli Chen, Yao Fu, Guangwei Xu, Pengjun Xie, Chuanqi Tan, Mosha Chen, Liping Jing(参考訳) 近年,文脈化単語埋め込みで学習される言語特性を探索する様々な探索課題が提案されている。 これらの作品の多くは、これらの埋め込みが特定の計量空間(一般にユークリッド空間)にあることを暗黙的に仮定している。 この研究は、階層構造に対するより良い帰納的バイアスを示し、文脈化表現にエンコードされた言語階層を明らかにする、幾何学的特殊空間の族である双曲空間を考える。 我々は、これらの埋め込みを明示的に定義された階層を持つポインケア部分空間に投影する構造プローブであるポインケアプローブを導入する。 a) 階層構造が頭部依存構造として定義される依存木,(b) 階層構造が単語の極性(肯定性と否定性)として定義される語彙的感情。 我々は、プローブのキーデシプラタムは言語構造の存在に対する感度であると主張している。 典型的なコンテキスト型埋め込みモデルであるBERTにプローブを適用した。 構文部分空間において、このプローブはユークリッドプローブよりも木構造を回復し、bert構文の幾何が必ずしもユークリッドではない可能性を明らかにする。 感情サブスペースでは、ポジティブな感情とネガティブな感情に対する2つのメタ埋め込みの可能性を明らかにし、語彙的に制御された文脈化が埋め込みの幾何学的局在をどのように変えるかを示す。 本研究の成果は,広範囲な実験と可視化を通じて実証した。 結果はhttps://github.com/franxyao/poincareprobeで再生できます。

Recently, a variety of probing tasks are proposed to discover linguistic properties learned in contextualized word embeddings. Many of these works implicitly assume these embeddings lay in certain metric spaces, typically the Euclidean space. This work considers a family of geometrically special spaces, the hyperbolic spaces, that exhibit better inductive biases for hierarchical structures and may better reveal linguistic hierarchies encoded in contextualized representations. We introduce a Poincare probe, a structural probe projecting these embeddings into a Poincare subspace with explicitly defined hierarchies. We focus on two probing objectives: (a) dependency trees where the hierarchy is defined as head-dependent structures; (b) lexical sentiments where the hierarchy is defined as the polarity of words (positivity and negativity). We argue that a key desideratum of a probe is its sensitivity to the existence of linguistic structures. We apply our probes on BERT, a typical contextualized embedding model. In a syntactic subspace, our probe better recovers tree structures than Euclidean probes, revealing the possibility that the geometry of BERT syntax may not necessarily be Euclidean. In a sentiment subspace, we reveal two possible meta-embeddings for positive and negative sentiments and show how lexically-controlled contextualization would change the geometric localization of embeddings. We demonstrate the findings with our Poincare probe via extensive experiments and visualization. Our results can be reproduced at https://github.com/FranxYao/PoincareProbe.
翻訳日:2021-04-09 16:05:18 公開日:2021-04-08
# (参考訳) 分類・スリップページ・失敗・発見

Classification, Slippage, Failure and Discovery ( http://arxiv.org/abs/2104.03886v1 )

ライセンス: CC BY-SA 4.0
Marc B\"ohlen(参考訳) このテキストは、技術的に教育され建設的な技術批判のためのベクトルとして、機械学習が分類システムを注入する可能性を主張している。 このテキストは、画像データ作成とニューラルネットワークに基づく分類に関するいくつかの実験で、この可能性を説明している。 テキストは分類におけるスリップの様々な側面を考慮し、予測通りに実行できなかった時に機械学習システムから引き起こされる災害とは対照的に、発見の可能性を考察している。

This text argues for the potential of machine learning infused classification systems as vectors for a technically-engaged and constructive technology critique. The text describes this potential with several experiments in image data creation and neural network based classification. The text considers varying aspects of slippage in classification and considers the potential for discovery - as opposed to disaster - stemming from machine learning systems when they fail to perform as anticipated.
翻訳日:2021-04-09 15:44:15 公開日:2021-04-08
# (参考訳) アンカー生成とクラス不均衡の最適化による自律走行のための物体検出の強化

Enhancing Object Detection for Autonomous Driving by Optimizing Anchor Generation and Addressing Class Imbalance ( http://arxiv.org/abs/2104.03888v1 )

ライセンス: CC BY 4.0
Manuel Carranza-Garc\'ia, Pedro Lara-Ben\'itez, Jorge Garc\'ia-Guti\'errez, Jos\'e C. Riquelme(参考訳) オブジェクト検出は、過去数年間、コンピュータビジョンにおける最も活発なトピックの1つです。 最近の研究は主に、汎用COCOベンチマークの最先端の推進に焦点を当てている。 しかし、自動運転のような特定の用途におけるそのような検出フレームワークの使用は、まだ解決すべき領域である。 本研究では、より高速なr-cnnに基づく拡張された2次元物体検出器を提案する。 アンカー生成手順と少数クラスのパフォーマンス低下という2つの主な側面が改善されている。 デフォルトの均一アンカー構成は、車両カメラの視点投影のため、このシナリオでは適していない。 そこで我々は,画像をクラスタリングによって重要領域に分割し,進化的アルゴリズムを用いて各領域のベースアンカーを最適化する視点認識手法を提案する。 さらに,第1段階で提案される候補領域の空間情報を含めることで,第2段ヘッダネットワークの精度を高めるモジュールを追加する。 また,2段検出装置において,焦点損失の低減版を用いることで,対象物検出の難易度と低表現度を著しく向上できることを示すため,前景のクラスバランスに対処するための異なる再重み付け戦略についても検討した。 最後に,異なる学習戦略の強みを組み合わせたアンサンブルモデルを設計する。 この提案は,これまでで最も広範囲で多様なデータセットであるwaymo open datasetを用いて評価されている。 その結果,最良単一モデルを用いた場合の平均精度は6.13%,アンサンブルを用いた9.69%であった。 Faster R-CNNに対する修正は計算コストを増大させるものではなく、他のアンカーベースの検出フレームワークを最適化するために容易に拡張できる。

Object detection has been one of the most active topics in computer vision for the past years. Recent works have mainly focused on pushing the state-of-the-art in the general-purpose COCO benchmark. However, the use of such detection frameworks in specific applications such as autonomous driving is yet an area to be addressed. This study presents an enhanced 2D object detector based on Faster R-CNN that is better suited for the context of autonomous vehicles. Two main aspects are improved: the anchor generation procedure and the performance drop in minority classes. The default uniform anchor configuration is not suitable in this scenario due to the perspective projection of the vehicle cameras. Therefore, we propose a perspective-aware methodology that divides the image into key regions via clustering and uses evolutionary algorithms to optimize the base anchors for each of them. Furthermore, we add a module that enhances the precision of the second-stage header network by including the spatial information of the candidate regions proposed in the first stage. We also explore different re-weighting strategies to address the foreground-foreground class imbalance, showing that the use of a reduced version of focal loss can significantly improve the detection of difficult and underrepresented objects in two-stage detectors. Finally, we design an ensemble model to combine the strengths of the different learning strategies. Our proposal is evaluated with the Waymo Open Dataset, which is the most extensive and diverse up to date. The results demonstrate an average accuracy improvement of 6.13% mAP when using the best single model, and of 9.69% mAP with the ensemble. The proposed modifications over the Faster R-CNN do not increase computational cost and can easily be extended to optimize other anchor-based detection frameworks.
翻訳日:2021-04-09 15:34:18 公開日:2021-04-08
# (参考訳) モノトニック性へのバイアス変換器の注意について

On Biasing Transformer Attention Towards Monotonicity ( http://arxiv.org/abs/2104.03945v1 )

ライセンス: CC BY 4.0
Annette Rios, Chantal Amrhein, No\"emi Aepli, Rico Sennrich(参考訳) 自然言語処理におけるシークエンス・ツー・シークエンス・タスクの多くは、ソースシーケンスとターゲットシーケンスのアライメントにおいて概ね単調であり、以前の研究は特定の注意機能や事前学習を通じて単調な注意行動の学習を促進または強制してきた。 本研究では,標準的な注意機構と適合する単調性損失関数を導入し,グラニュムから音素への変換,形態的屈折,音訳,方言正規化など,いくつかのシーケンスからシーケンスへのタスクでテストする。 実験により、ほとんど単調な振る舞いが達成できることが示される。 パフォーマンスは混在しており、RNNベースラインよりも大きく向上している。 一般的な単調性はトランスフォーマーのマルチヘッドの注意を引かないが、頭部のサブセットのみが単調な振る舞いに偏っている場合、孤立した改善が見られる。

Many sequence-to-sequence tasks in natural language processing are roughly monotonic in the alignment between source and target sequence, and previous work has facilitated or enforced learning of monotonic attention behavior via specialized attention functions or pretraining. In this work, we introduce a monotonicity loss function that is compatible with standard attention mechanisms and test it on several sequence-to-sequence tasks: grapheme-to-phoneme conversion, morphological inflection, transliteration, and dialect normalization. Experiments show that we can achieve largely monotonic behavior. Performance is mixed, with larger gains on top of RNN baselines. General monotonicity does not benefit transformer multihead attention, however, we see isolated improvements when only a subset of heads is biased towards monotonic behavior.
翻訳日:2021-04-09 14:49:12 公開日:2021-04-08
# (参考訳) 世界革命の成果物のデレンダリング

De-rendering the World's Revolutionary Artefacts ( http://arxiv.org/abs/2104.03954v1 )

ライセンス: CC BY 4.0
Shangzhe Wu and Ameesh Makadia and Jiajun Wu and Noah Snavely and Richard Tucker and Angjoo Kanazawa(参考訳) 最近の研究は、教師なしのイメージデレンダリングにおいてエキサイティングな結果を示している -- 明示的な監督なしに、単一のイメージコレクションから3Dの形状、外観、照明を分解することを学ぶ。 しかし、これらの多くは単純な材料と照明モデルを想定している。 本研究では,実画像から環境照明や表面材料を回収する手法として,明示的な3次元監視やマルチビュー画像やマルチライト画像にも依存しないレーダを提案する。 具体的には,vasなどの鏡面反射を含む表面特性の困難さを示す回転対称アーティファクトに着目した。 そこで本研究では,新たな自己教師型アルベド判別器を導入し,トレーニング中に基盤構造を必要とせず,可塑性アルベドを復元する。 回転対称性を利用した形状再構成モジュールと連動して,世界革命的アーティファクトのデレンダリングを可能にするエンドツーエンド学習フレームワークを提案する。 実データに対して実験を行い,分解結果を実証し,自由視点レンダリングやリライティングなどのアプリケーションを実現する。

Recent works have shown exciting results in unsupervised image de-rendering -- learning to decompose 3D shape, appearance, and lighting from single-image collections without explicit supervision. However, many of these assume simplistic material and lighting models. We propose a method, termed RADAR, that can recover environment illumination and surface materials from real single-image collections, relying neither on explicit 3D supervision, nor on multi-view or multi-light images. Specifically, we focus on rotationally symmetric artefacts that exhibit challenging surface properties including specular reflections, such as vases. We introduce a novel self-supervised albedo discriminator, which allows the model to recover plausible albedo without requiring any ground-truth during training. In conjunction with a shape reconstruction module exploiting rotational symmetry, we present an end-to-end learning framework that is able to de-render the world's revolutionary artefacts. We conduct experiments on a real vase dataset and demonstrate compelling decomposition results, allowing for applications including free-viewpoint rendering and relighting.
翻訳日:2021-04-09 14:34:38 公開日:2021-04-08
# (参考訳) 一般化可能な局所的機能表現のための変調周期的活性化

Modulated Periodic Activations for Generalizable Local Functional Representations ( http://arxiv.org/abs/2104.03960v1 )

ライセンス: CC BY 4.0
Ishit Mehta, Micha\"el Gharbi, Connelly Barnes, Eli Shechtman, Ravi Ramamoorthi, Manmohan Chandraker(参考訳) 多層パーセプトロン(mlps)は、画像、形状、光場などの低次元信号を含むサンプリングおよび再構成問題に対して強力な機能表現を行う。 最近の研究は、周期的アクティベーションや位置エンコーディングを用いて、高周波コンテンツを表現する能力を大幅に改善している。 これはしばしば一般化の犠牲となり、現代の手法は1つの信号に最適化される。 我々は,複数のインスタンスに一般化し,最先端の忠実性を実現する新しい表現を提案する。 信号の符号化にはデュアルMLPアーキテクチャを用いる。 合成ネットワークは、低次元入力(例えば、)から機能マッピングを作成する。 pixel-position) を出力領域 (例) RGB色)。 変調ネットワークは、ターゲット信号に対応する潜在コードを、合成ネットワークの周期的活性化を変調するパラメータにマッピングする。 また,一般化可能な局所関数表現を提案する。 信号のドメインは通常のグリッドに分割され、各タイルは潜在コードで表現される。 テスト時、信号は遅延コードブックを推論(または直接最適化)することにより高忠実度で符号化される。 提案手法は,画像,映像,形状の汎用的な機能表現を生成し,単一信号に最適化された先行処理よりも高い再構成品質を実現する。

Multi-Layer Perceptrons (MLPs) make powerful functional representations for sampling and reconstruction problems involving low-dimensional signals like images,shapes and light fields. Recent works have significantly improved their ability to represent high-frequency content by using periodic activations or positional encodings. This often came at the expense of generalization: modern methods are typically optimized for a single signal. We present a new representation that generalizes to multiple instances and achieves state-of-the-art fidelity. We use a dual-MLP architecture to encode the signals. A synthesis network creates a functional mapping from a low-dimensional input (e.g. pixel-position) to the output domain (e.g. RGB color). A modulation network maps a latent code corresponding to the target signal to parameters that modulate the periodic activations of the synthesis network. We also propose a local-functional representation which enables generalization. The signal's domain is partitioned into a regular grid,with each tile represented by a latent code. At test time, the signal is encoded with high-fidelity by inferring (or directly optimizing) the latent code-book. Our approach produces generalizable functional representations of images, videos and shapes, and achieves higher reconstruction quality than prior works that are optimized for a single signal.
翻訳日:2021-04-09 14:15:08 公開日:2021-04-08
# (参考訳) 手書きトランスフォーマー

Handwriting Transformers ( http://arxiv.org/abs/2104.03964v1 )

ライセンス: CC BY 4.0
Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan, Mubarak Shah(参考訳) 本稿では, トランスフォーマーを用いた手書きテキスト画像生成手法であるHWTを提案する。 提案したHWTは,自己アテンション機構を用いて,スタイル例内の長短範囲関係をキャプチャし,グローバルなスタイルパターンとローカルなスタイルパターンの両方を符号化する。 さらに,提案したトランスフォーマーベースHWTは,各クエリ文字のスタイル表現を収集することにより,スタイル内容の絡み合いを可能にするエンコーダ・デコーダアテンションを備える。 私たちの知る限りでは、スタイル化された手書きテキスト生成のためのトランスフォーマティブベースの生成ネットワークを最初に導入しました。 提案するHWTは,現実的な手書きテキスト画像を生成するとともに,定性的,定量的,人為的評価により,最先端の成果を著しく上回っている。 提案したHWTは、任意の長さのテキストと任意の書き込みスタイルを数ショット設定で処理できる。 さらに、HWTは、訓練中に単語と書き方の両方が見えないという難解なシナリオを一般化し、現実的な手書きテキスト画像を生成する。

We propose a novel transformer-based styled handwritten text image generation approach, HWT, that strives to learn both style-content entanglement as well as global and local writing style patterns. The proposed HWT captures the long and short range relationships within the style examples through a self-attention mechanism, thereby encoding both global and local style patterns. Further, the proposed transformer-based HWT comprises an encoder-decoder attention that enables style-content entanglement by gathering the style representation of each query character. To the best of our knowledge, we are the first to introduce a transformer-based generative network for styled handwritten text generation. Our proposed HWT generates realistic styled handwritten text images and significantly outperforms the state-of-the-art demonstrated through extensive qualitative, quantitative and human-based evaluations. The proposed HWT can handle arbitrary length of text and any desired writing style in a few-shot setting. Further, our HWT generalizes well to the challenging scenario where both words and writing style are unseen during training, generating realistic styled handwritten text images.
翻訳日:2021-04-09 13:56:18 公開日:2021-04-08
# CARRNN: 散発時間データから深部表現学習のための連続自己回帰リカレントニューラルネットワーク

CARRNN: A Continuous Autoregressive Recurrent Neural Network for Deep Representation Learning from Sporadic Temporal Data ( http://arxiv.org/abs/2104.03739v1 )

ライセンス: Link先を確認
Mostafa Mehdipour Ghazi, Lauge S{\o}rensen, S\'ebastien Ourselin, Mads Nielsen(参考訳) 多変量長手データからの時間的パターンの学習は、特にデータが散発的である場合、例えば、データが不規則性や非同期性に悩まされる可能性がある医療アプリケーションにおいて、連続するデータポイント間の時間は特徴やサンプルによって異なるため、完了のために構築された既存のディープラーニングモデルの適用を妨げる。 本稿では,Recurrent Neural Network (RNN) とContinuous-time Autoregressive (CAR) モデルに基づく統合ディープラーニングアーキテクチャを用いて,散発データにおける複数の時間的特徴をモデル化するための新しいディープラーニングモデルを開発した。 提案モデルはCARRNNと呼ばれ、時間ラグによって変調されたニューラルネットワークを用いてトレーニング可能な一般化離散時間自己回帰モデルを用いて、不規則性と非同期性に起因する変化を記述する。 アルツハイマー病の進行モデルおよび集中治療ユニット(icu)の死亡率予測に提供されたデータを用いて,多変量時系列回帰タスクに適用し,gru(gated recurrent unit)に基づく提案モデルでは,提案するrnnモデルとgresとlstm(long short-term memory)ネットワークを用いた最先端の予測誤差が最小となる。

Learning temporal patterns from multivariate longitudinal data is challenging especially in cases when data is sporadic, as often seen in, e.g., healthcare applications where the data can suffer from irregularity and asynchronicity as the time between consecutive data points can vary across features and samples, hindering the application of existing deep learning models that are constructed for complete, evenly spaced data with fixed sequence lengths. In this paper, a novel deep learning-based model is developed for modeling multiple temporal features in sporadic data using an integrated deep learning architecture based on a recurrent neural network (RNN) unit and a continuous-time autoregressive (CAR) model. The proposed model, called CARRNN, uses a generalized discrete-time autoregressive model that is trainable end-to-end using neural networks modulated by time lags to describe the changes caused by the irregularity and asynchronicity. It is applied to multivariate time-series regression tasks using data provided for Alzheimer's disease progression modeling and intensive care unit (ICU) mortality rate prediction, where the proposed model based on a gated recurrent unit (GRU) achieves the lowest prediction errors among the proposed RNN-based models and state-of-the-art methods using GRUs and long short-term memory (LSTM) networks in their architecture.
翻訳日:2021-04-09 13:22:31 公開日:2021-04-08
# grab: 解釈可能なテキストパターンの抽出と探索のためのライブラリ

GrASP: A Library for Extracting and Exploring Human-Interpretable Textual Patterns ( http://arxiv.org/abs/2104.03958v1 )

ライセンス: Link先を確認
Piyawat Lertvittayakumjorn, Leshem Choshen, Eyal Shnarch, Francesca Toni(参考訳) データ探索は、テキストデータを含むすべてのデータサイエンスおよび機械学習プロジェクトの重要なステップである。 テキストデータからパターンを描画する既存のアルゴリズムであるGrASP用のPythonライブラリを提供する。 このライブラリは、ユーザがデータや抽出されたパターンを便利に探索できるWebベースのインターフェースを備えている。 また,このライブラリを2つの設定(spam検出と引数マイニング)で使用することを示し,テキストデータ探索以外のライブラリの今後の展開について論じる。

Data exploration is an important step of every data science and machine learning project, including those involving textual data. We provide a Python library for GrASP, an existing algorithm for drawing patterns from textual data. The library is equipped with a web-based interface empowering human users to conveniently explore the data and the extracted patterns. We also demonstrate the use of the library in two settings (spam detection and argument mining) and discuss future deployments of the library, e.g., beyond textual data exploration.
翻訳日:2021-04-09 13:21:59 公開日:2021-04-08
# 文脈半監督学習:ASRシステムにおける空気サーベイランスと非転写ATCデータを活用するためのアプローチ

Contextual Semi-Supervised Learning: An Approach To Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems ( http://arxiv.org/abs/2104.03643v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez and Iuliia Nigmatulina and Amrutha Prasad and Petr Motlicek and Karel Vesel\'y and Martin Kocour and Igor Sz\"oke(参考訳) 航空交通管理、特に航空交通管制(ATC)は、主に航空交通管制官とパイロットの間の音声通信に依存している。 ほとんどの場合、これらの音声コミュニケーションは、自動音声認識(asr)技術で活用できるよく定義された文法に従う。 飛行機へのコールサインは、atco-パイロット通信の必須部分である。 本稿では,半教師訓練中に文脈知識を付加し,コールサインを含む発話の一部を認識する際のasrシステムエラー率を低減させる2段階アプローチを提案する。 当初、WFSTは文脈知識(すなわち、文脈知識)を表す。 ATCoパイロット通信の航空監視データ)。 次に、セミ・スーパーバイザード・ラーニング(SSL)の間、第2パスの復号(すなわち)によって文脈知識が付加される。 lattice re-scoring (英語) 結果は'unseen domain'(例)を示している。 管理訓練データに存在しない空港のデータ)は、スタンドアロンのSSLと比較して、文脈的なSSLによってさらに助けられる。 そこで本研究では,発話中の発声符号のasr性能のみを評価する評価指標として,callsign word error rate (ca-wer)を導入する。 我々は,LiveATCから収集したATCベースのテストセット上で,SSL中にコンテキスト知識を追加することで,さらに17.5%のCA-WERの改善を施した32.1%CA-WERの相対的改善を得た。

Air traffic management and specifically air-traffic control (ATC) rely mostly on voice communications between Air Traffic Controllers (ATCos) and pilots. In most cases, these voice communications follow a well-defined grammar that could be leveraged in Automatic Speech Recognition (ASR) technologies. The callsign used to address an airplane is an essential part of all ATCo-pilot communications. We propose a two-steps approach to add contextual knowledge during semi-supervised training to reduce the ASR system error rates at recognizing the part of the utterance that contains the callsign. Initially, we represent in a WFST the contextual knowledge (i.e. air-surveillance data) of an ATCo-pilot communication. Then, during Semi-Supervised Learning (SSL) the contextual knowledge is added by second-pass decoding (i.e. lattice re-scoring). Results show that `unseen domains' (e.g. data from airports not present in the supervised training data) are further aided by contextual SSL when compared to standalone SSL. For this task, we introduce the Callsign Word Error Rate (CA-WER) as an evaluation metric, which only assesses ASR performance of the spoken callsign in an utterance. We obtained a 32.1% CA-WER relative improvement applying SSL with an additional 17.5% CA-WER improvement by adding contextual knowledge during SSL on a challenging ATC-based test set gathered from LiveATC.
翻訳日:2021-04-09 13:21:50 公開日:2021-04-08
# 画像クラスタリングに先立つ単一名詞

The Single-Noun Prior for Image Clustering ( http://arxiv.org/abs/2104.03952v1 )

ライセンス: Link先を確認
Niv Cohen and Yedid Hoshen(参考訳) 近年,自己教師付きクラスタリング手法は精度の向上を図っているが,教師付き分類法のようには機能していない。 これは、最近、自己教師付き機能がいくつかの重要なタスクにおける教師付き機能のパフォーマンスを上回った機能学習の状況とは対照的である。 性能格差は,人間に意味のあるクラスの違いに対応する特徴を監督せずに特定することが困難である,という仮説を立てる。 性能ギャップを低減するために、我々は「単一名詞」という先行概念を導入し、これは意味的クラスタが人間が単一名詞でラベル付けする概念に対応する傾向があることを述べる。 画像と文を共通の空間にマッピングする事前学習されたネットワークを利用することで、制約付き最適化タスクを事前に取得する。 本稿では,施設配置問題の特別な場合として,この最適化タスクを大規模に解くための簡単な手法を提案する。 提案手法は画像クラスタリングデータセットを用いて検証し,既存手法よりも高い精度が得られることを示す。

Self-supervised clustering methods have achieved increasing accuracy in recent years but do not yet perform as well as supervised classification methods. This contrasts with the situation for feature learning, where self-supervised features have recently surpassed the performance of supervised features on several important tasks. We hypothesize that the performance gap is due to the difficulty of specifying, without supervision, which features correspond to class differences that are semantic to humans. To reduce the performance gap, we introduce the "single-noun" prior - which states that semantic clusters tend to correspond to concepts that humans label by a single-noun. By utilizing a pre-trained network that maps images and sentences into a common space, we impose this prior obtaining a constrained optimization task. We show that our formulation is a special case of the facility location problem, and introduce a simple-yet-effective approach for solving this optimization task at scale. We test our approach on several commonly reported image clustering datasets and obtain significant accuracy gains over the best existing approaches.
翻訳日:2021-04-09 13:21:27 公開日:2021-04-08
# 過去をシミュレートして何をすべきかを学ぶ

Learning What To Do by Simulating the Past ( http://arxiv.org/abs/2104.03946v1 )

ライセンス: Link先を確認
David Lindner, Rohin Shah, Pieter Abbeel, Anca Dragan(参考訳) 報酬関数は指定が難しいため、最近の研究は人間のフィードバックから学ぶポリシーに焦点を当てている。 しかし、そのようなアプローチはそのようなフィードバックを得るコストがかかる。 近年の研究では、エージェントが効果的に自由な情報ソースにアクセスできることが提案されている。人間が行動したあらゆる環境において、状態はすでに人間の好みに最適化されており、エージェントは状態から人間が望むものに関する情報を抽出することができる。 このような学習は原則として可能であるが、観測された状態につながる可能性のある全ての過去の軌跡をシミュレートする必要がある。 これはgridworldsでは実現可能ですが、どのように複雑なタスクにスケールするか? 本研究では,学習した特徴エンコーダと学習した逆モデルを組み合わせることで,エージェントが人間の行動のシミュレーションに時間をかけて行なわなければならないことを推測できることを示す。 得られたアルゴリズムは、そのスキルの最適なポリシーからサンプリングされた単一の状態から、MuJoCo環境で特定のスキルを再現することができる。

Since reward functions are hard to specify, recent work has focused on learning policies from human feedback. However, such approaches are impeded by the expense of acquiring such feedback. Recent work proposed that agents have access to a source of information that is effectively free: in any environment that humans have acted in, the state will already be optimized for human preferences, and thus an agent can extract information about what humans want from the state. Such learning is possible in principle, but requires simulating all possible past trajectories that could have led to the observed state. This is feasible in gridworlds, but how do we scale it to complex tasks? In this work, we show that by combining a learned feature encoder with learned inverse models, we can enable agents to simulate human actions backwards in time to infer what they must have done. The resulting algorithm is able to reproduce a specific skill in MuJoCo environments given a single state sampled from the optimal policy for that skill.
翻訳日:2021-04-09 13:21:10 公開日:2021-04-08
# 擬似教師付き深部宇宙クラスタリング

Pseudo-supervised Deep Subspace Clustering ( http://arxiv.org/abs/2104.03531v1 )

ライセンス: Link先を確認
Juncheng Lv and Zhao Kang and Xiao Lu and Zenglin Xu(参考訳) オートエンコーダ(AE)ベースのディープサブスペースクラスタリング(DSC)手法は、分類的分離性を優先しながら、ディープニューラルネットワークを用いて抽出された強力な表現により、優れた性能を達成した。 しかし、AEの自己再構成損失は、豊富な有用な関係情報を無視し、識別不能な表現につながる可能性があるため、クラスタリング性能は必然的に低下する。 セマンティックラベルを入力せずに高いレベルの類似性を学ぶことも難しい。 dscが直面するもう1つの未解決問題は、エンコーダとデコーダの間の自己表現層によって引き起こされる$n\times n$ similarity matrixによる巨大なメモリコストである。 これらの問題に対処するため, 自己表現層で類似性を学習しながら, 復元損失の重み付けを行い, 局所構造情報を取得する。 ネットワークトレーニング中に獲得した未知の知識の恩恵を受ける疑似グラフと疑似ラベルは、類似性学習を監督するためにさらに用いられる。 共同学習と反復学習は、全体的な最適解を得るのに役立つ。 ベンチマークデータセットに関する大規模な実験は、我々のアプローチの優位性を示している。 さらに, $k$-nearest neighbors アルゴリズムと組み合わせることで,本手法が大規模なサンプル外問題に対処可能であることを示す。

Auto-Encoder (AE)-based deep subspace clustering (DSC) methods have achieved impressive performance due to the powerful representation extracted using deep neural networks while prioritizing categorical separability. However, self-reconstruction loss of an AE ignores rich useful relation information and might lead to indiscriminative representation, which inevitably degrades the clustering performance. It is also challenging to learn high-level similarity without feeding semantic labels. Another unsolved problem facing DSC is the huge memory cost due to $n\times n$ similarity matrix, which is incurred by the self-expression layer between an encoder and decoder. To tackle these problems, we use pairwise similarity to weigh the reconstruction loss to capture local structure information, while a similarity is learned by the self-expression layer. Pseudo-graphs and pseudo-labels, which allow benefiting from uncertain knowledge acquired during network training, are further employed to supervise similarity learning. Joint learning and iterative training facilitate to obtain an overall optimal solution. Extensive experiments on benchmark datasets demonstrate the superiority of our approach. By combining with the $k$-nearest neighbors algorithm, we further show that our method can address the large-scale and out-of-sample problems.
翻訳日:2021-04-09 13:20:37 公開日:2021-04-08
# 必要なものをラベル付けする:部分ラベル付きシーンによる知覚と予測のためのファイングラインドアクティブセレクション

Just Label What You Need: Fine-Grained Active Selection for Perception and Prediction through Partially Labeled Scenes ( http://arxiv.org/abs/2104.03956v1 )

ライセンス: Link先を確認
Sean Segal, Nishanth Kumar, Sergio Casas, Wenyuan Zeng, Mengye Ren, Jingkang Wang, Raquel Urtasun(参考訳) 自動運転車は衝突を避け、安全に運転するために、近くのアクターの将来の位置を認識し予測する必要がある。 学習したディープラーニングモジュールは、しばしばこのタスクに責任を持ち、大規模で高品質なトレーニングデータセットを必要とする。 データ収集は、このドメインのラベル付けよりもはるかに安価であることが多いため、ラベル付けするサンプルのサブセットの決定は、モデルのパフォーマンスに大きな影響を与える可能性がある。 現在のモデルの状態を利用してラベル付けの例を反復的に選択するアクティブラーニング技術は、この問題に対する有望な解決策を提供する。 しかし、このアプローチの魅力にもかかわらず、知覚と予測(P&P)問題に対するアクティブラーニングアプローチの科学的分析はほとんど行われていない。 本研究では,P&Pのアクティブラーニング手法について検討し,従来のアクティブラーニングの定式化がP&P設定に不適であることを確かめる。 そこで我々は,我々のアプローチがコストに配慮したものであることを保証する一般化を導入し,部分的にラベル付けされたシーンを通して,サンプルのきめ細かい選択を可能にする。 実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。

Self-driving vehicles must perceive and predict the future positions of nearby actors in order to avoid collisions and drive safely. A learned deep learning module is often responsible for this task, requiring large-scale, high-quality training datasets. As data collection is often significantly cheaper than labeling in this domain, the decision of which subset of examples to label can have a profound impact on model performance. Active learning techniques, which leverage the state of the current model to iteratively select examples for labeling, offer a promising solution to this problem. However, despite the appeal of this approach, there has been little scientific analysis of active learning approaches for the perception and prediction (P&P) problem. In this work, we study active learning techniques for P&P and find that the traditional active learning formulation is ill-suited for the P&P setting. We thus introduce generalizations that ensure that our approach is both cost-aware and allows for fine-grained selection of examples through partially labeled scenes. Our experiments on a real-world, large-scale self-driving dataset suggest that fine-grained selection can improve the performance across perception, prediction, and downstream planning tasks.
翻訳日:2021-04-09 13:20:18 公開日:2021-04-08
# スコアマッチングのための一貫したアニールサンプリングのチューニングについて

On tuning consistent annealed sampling for denoising score matching ( http://arxiv.org/abs/2104.03725v1 )

ライセンス: Link先を確認
Joan Serr\`a, Santiago Pascual, Jordi Pons(参考訳) スコアベースの生成モデルは、画像とオーディオの合成に最先端の品質を提供する。 これらのモデルからのサンプリングは反復的に行われ、通常、離散化された一連のノイズレベルと事前定義されたスキームを用いる。 本稿では,まず,スコアマッチングを訓練したモデルの3つの一般的なサンプリングスキームについて概説する。 次に,その1つに着目し,一貫した焼鈍サンプリングを行い,そのハイパーパラメータ境界について検討する。 次に、これらの境界を明示的に考慮し、少数のステップまたは可変ステップを使用する際のチューニングを容易にするハイパーパラメータの定式化を強調する。 最後に, 定式化と他のサンプリングスキームとのつながりを強調する。

Score-based generative models provide state-of-the-art quality for image and audio synthesis. Sampling from these models is performed iteratively, typically employing a discretized series of noise levels and a predefined scheme. In this note, we first overview three common sampling schemes for models trained with denoising score matching. Next, we focus on one of them, consistent annealed sampling, and study its hyper-parameter boundaries. We then highlight a possible formulation of such hyper-parameter that explicitly considers those boundaries and facilitates tuning when using few or a variable number of steps. Finally, we highlight some connections of the formulation with other sampling schemes.
翻訳日:2021-04-09 13:19:58 公開日:2021-04-08
# アンハリック・イングリッシュ機械翻訳のための拡張並列コーパス

Extended Parallel Corpus for Amharic-English Machine Translation ( http://arxiv.org/abs/2104.03543v1 )

ライセンス: Link先を確認
Andargachew Mekonnen Gezmu, Andreas N\"urnberger and Tesfaye Bayu Bati(参考訳) 本稿では,Amharic- English parallel corpusの取得,前処理,セグメンテーション,アライメントについて述べる。 リソース不足の言語であるamharicの機械翻訳に有用である。 コーパスは以前コンパイルされたコーパスよりも大きく、研究目的でリリースされている。 コーパスを用いてニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。 自動評価では、ニューラルマシン翻訳モデルは句ベースの統計機械翻訳モデルを上回る。

This paper describes the acquisition, preprocessing, segmentation, and alignment of an Amharic-English parallel corpus. It will be useful for machine translation of an under-resourced language, Amharic. The corpus is larger than previously compiled corpora; it is released for research purposes. We trained neural machine translation and phrase-based statistical machine translation models using the corpus. In the automatic evaluation, neural machine translation models outperform phrase-based statistical machine translation models.
翻訳日:2021-04-09 13:19:49 公開日:2021-04-08
# 意味的役割によるフレーズによるビデオ質問応答

Video Question Answering with Phrases via Semantic Roles ( http://arxiv.org/abs/2104.03762v1 )

ライセンス: Link先を確認
Arka Sadhu, Kan Chen, Ram Nevatia(参考訳) Video Question Answering (VidQA) 評価指標は、1ワードの回答に限られている。 これらのメトリクスは、VidQAモデルのアプリケーションシナリオを制限する。 本研究では、ビデオ記述から派生したセマンティックな役割を利用して特定のフレーズをマスキングし、VidQAを補足タスクとするVidQAPを導入する。 回答句の評価を可能にするために,予測した回答を空文字列と比較して相対的に改善する計算を行う。 VidQAデータセットにおける言語バイアスの影響を低減するため、同じ質問に対して異なる回答を持つ動画を検索する。 研究を容易にするために,ActivityNet-SRL-QAとCharades-SRL-QAを構築し,それを3つの視覚言語モデルを拡張してベンチマークする。 さらに,今後の課題を導くために,広範な解析・アブレーション研究を行う。

Video Question Answering (VidQA) evaluation metrics have been limited to a single-word answer or selecting a phrase from a fixed set of phrases. These metrics limit the VidQA models' application scenario. In this work, we leverage semantic roles derived from video descriptions to mask out certain phrases, to introduce VidQAP which poses VidQA as a fill-in-the-phrase task. To enable evaluation of answer phrases, we compute the relative improvement of the predicted answer compared to an empty string. To reduce the influence of language bias in VidQA datasets, we retrieve a video having a different answer for the same question. To facilitate research, we construct ActivityNet-SRL-QA and Charades-SRL-QA and benchmark them by extending three vision-language models. We further perform extensive analysis and ablative studies to guide future work.
翻訳日:2021-04-09 13:19:44 公開日:2021-04-08
# 視覚に基づく車体制御の強化学習へのベイズ的アプローチ

A Bayesian Approach to Reinforcement Learning of Vision-Based Vehicular Control ( http://arxiv.org/abs/2104.03807v1 )

ライセンス: Link先を確認
Zahra Gharaee and Karl Holmquist and Linbo He and Michael Felsberg(参考訳) 本稿では,自律運転のための最先端の強化学習手法を提案する。 本手法では,センサデータから車両制御信号を学習するために,時間差分学習を用いる。 エージェントは前方カメラからのイメージにアクセスでき、セマンティックセグメンテーションマップを生成するために前処理される。 基礎的真理と推定意味セグメンテーション入力の両方を用いてシステムを訓練した。 大規模な実験から得られた結果から, 地中真理入力データに基づくシステムトレーニングは, 推定入力を用いた場合であっても, 推定入力によるシステムトレーニングよりも優れた性能が得られると結論付けた。 このシステムは,CARLAシミュレータを用いて,現実的な都市環境下での訓練と評価を行う。 シミュレータには、他のシステムやメソッドとの比較が可能なベンチマークも含まれている。 システムに必要なトレーニング時間は低く、ベンチマークのパフォーマンスは、競合するアプローチよりも優れていることが示されている。

In this paper, we present a state-of-the-art reinforcement learning method for autonomous driving. Our approach employs temporal difference learning in a Bayesian framework to learn vehicle control signals from sensor data. The agent has access to images from a forward facing camera, which are preprocessed to generate semantic segmentation maps. We trained our system using both ground truth and estimated semantic segmentation input. Based on our observations from a large set of experiments, we conclude that training the system on ground truth input data leads to better performance than training the system on estimated input even if estimated input is used for evaluation. The system is trained and evaluated in a realistic simulated urban environment using the CARLA simulator. The simulator also contains a benchmark that allows for comparing to other systems and methods. The required training time of the system is shown to be lower and the performance on the benchmark superior to competing approaches.
翻訳日:2021-04-09 13:19:28 公開日:2021-04-08
# 事前学習型オートエンコーダを用いた言語間変換のための簡易幾何学的手法

A Simple Geometric Method for Cross-Lingual Linguistic Transformations with Pre-trained Autoencoders ( http://arxiv.org/abs/2104.03630v1 )

ライセンス: Link先を確認
Maarten De Raedt, Fr\'ederic Godin, Pieter Buteneers, Chris Develder and Thomas Demeester(参考訳) 複数の言語で訓練された強力な文エンコーダが増えている。 これらのシステムは、幅広い言語特性をベクトル表現に埋め込むことができる。 明示的な探索タスクは、特定の言語的性質の存在を検証するために使用できるが、ベクトル表現が間接的にその特性を操るために操作できるかどうかは不明である。 本研究では,事前学習された文エンコーダやデコーダのチューニングを必要とせず,言語特性を変換するための埋め込み空間における幾何マッピングの利用について検討する。 我々は,事前学習した多言語オートエンコーダを用いて3つの言語特性に対するアプローチを検証するとともに,モノリンガルとクロスリンガルの両方で結果を分析する。

Powerful sentence encoders trained for multiple languages are on the rise. These systems are capable of embedding a wide range of linguistic properties into vector representations. While explicit probing tasks can be used to verify the presence of specific linguistic properties, it is unclear whether the vector representations can be manipulated to indirectly steer such properties. We investigate the use of a geometric mapping in embedding space to transform linguistic properties, without any tuning of the pre-trained sentence encoder or decoder. We validate our approach on three linguistic properties using a pre-trained multilingual autoencoder and analyze the results in both monolingual and cross-lingual settings.
翻訳日:2021-04-09 13:19:14 公開日:2021-04-08
# 高原の復興: 景観改善のための半監督型アクティブラーニング

Relieving the Plateau: Active Semi-Supervised Learning for a Better Landscape ( http://arxiv.org/abs/2104.03525v1 )

ライセンス: Link先を確認
Seo Taek Kong, Soomin Jeon, Jaewon Lee, Hongseok Lee, Kyu-Hwan Jung(参考訳) 深層学習(DL)は大量のラベル付きデータに依存しており、ラベル付きサンプル効率を改善することは、その出現以来最も重要な問題である。 semi-supervised learning (ssl) はラベル付きデータよりもアクセスしやすいラベルなしデータを活用する。 active learning (al)は、ラベルなしのインスタンスを選択して、ラベル付きデータの少ないパフォーマンスを期待する。 プールベースのALでラベル付きデータのプールが利用可能であることを考えると、トレーニング時にSSLを、ラベル付きセットを更新するためにALを使用するのは当然である。 本研究では,十分に広いReLUネットワーク上での勾配勾配の収束が,グラム行列の固有スペクトルを用いて表現できることを最初に証明する。 いくつかの理論的知見を取り入れたALアルゴリズムである収束率制御(CRC)を提案する。このアルゴリズムは、学習力学の改善の観点から取得ステップを定式化し、ラベル付き集合に含めることにより問題条件を改善する。 CRCと組み合わせたSSLアルゴリズムは,ラベル付きデータが少ないため,高いパフォーマンスを実現することができる。

Deep learning (DL) relies on massive amounts of labeled data, and improving its labeled sample-efficiency remains one of the most important problems since its advent. Semi-supervised learning (SSL) leverages unlabeled data that are more accessible than their labeled counterparts. Active learning (AL) selects unlabeled instances to be annotated by a human-in-the-loop in hopes of better performance with less labeled data. Given the accessible pool of unlabeled data in pool-based AL, it seems natural to use SSL when training and AL to update the labeled set; however, algorithms designed for their combination remain limited. In this work, we first prove that convergence of gradient descent on sufficiently wide ReLU networks can be expressed in terms of their Gram matrix' eigen-spectrum. Equipped with a few theoretical insights, we propose convergence rate control (CRC), an AL algorithm that selects unlabeled data to improve the problem conditioning upon inclusion to the labeled set, by formulating an acquisition step in terms of improving training dynamics. Extensive experiments show that SSL algorithms coupled with CRC can achieve high performance using very few labeled data.
翻訳日:2021-04-09 13:19:02 公開日:2021-04-08
# Half-Truth: 部分的にフェイクなオーディオ検出データセット

Half-Truth: A Partially Fake Audio Detection Dataset ( http://arxiv.org/abs/2104.03617v1 )

ライセンス: Link先を確認
Jiangyan Yi, Ye Bai, Jianhua Tao, Zhengkun Tian, Chenglong Wang, Tao Wang, Ruibo Fu(参考訳) 多様な有望なデータセットは、ASVspoofデータベースのような偽オーディオ検出の開発を支えているように設計されている。 しかし、以前のデータセットは攻撃的な状況を無視しており、ハッカーは実際の音声に小さな偽のクリップを隠している。 これは、小さな偽のクリップをスピーチ全体の発話と区別することが難しいため、深刻な脅威となる。 そこで本稿では,半真実音声検出(had)のためのデータセットを開発した。 hadデータセットの一部のフェイクオーディオは、発話中の数単語だけを変更し、その単語の音声は最新の最先端の音声合成技術で生成される。 我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。 いくつかのベンチマーク結果は、このデータセットで示される。 その結果、一部の偽オーディオは、偽オーディオ検出のための完全偽オーディオよりもはるかに難しいことが判明した。

Diverse promising datasets have been designed to hold back the development of fake audio detection, such as ASVspoof databases. However, previous datasets ignore an attacking situation, in which the hacker hides some small fake clips in real speech audio. This poses a serious threat since that it is difficult to distinguish the small fake clip from the whole speech utterance. Therefore, this paper develops such a dataset for half-truth audio detection (HAD). Partially fake audio in the HAD dataset involves only changing a few words in an utterance.The audio of the words is generated with the very latest state-of-the-art speech synthesis technology. We can not only detect fake uttrances but also localize manipulated regions in a speech using this dataset. Some benchmark results are presented on this dataset. The results show that partially fake audio presents much more challenging than fully fake audio for fake audio detection.
翻訳日:2021-04-09 13:18:42 公開日:2021-04-08
# Sparse Non negative Matrix Factorization のアーチティパル解析 : 相違によるロバスト性

Archetypal Analysis for Sparse Nonnegative Matrix Factorization: Robustness Under Misspecification ( http://arxiv.org/abs/2104.03527v1 )

ライセンス: Link先を確認
Kayhan Behdin and Rahul Mazumder(参考訳) 我々は,非負行列因子分解 (nmf) のアーチ型正則化問題を考える。 ゴールは、非負のスパース因子の非負の線形結合としてデータ点の集合を表現することであり、アーチ型正則化(archetypal regularization)によって生じる幾何学的性質が魅力的である。 我々はジャワディとモンタナリ (2019) で研究されたロバストネスの概念を、(a) 推定アーチタイプが基礎となるアーキタイプに近く、(b) 弱ロバストネスは基礎となるアーキタイプに近い少なくとも1つの復元アーキタイプが存在することを示唆する(a) 強ロバストネスの概念に一般化する。 我々のロバスト性保証に関する理論的結果は、基礎となるデータに対する最小限の仮定の下で保持され、基礎となるアーチタイプがスパースする必要のない設定に適用されます。 我々は,最適化問題に対する新しいアルゴリズムを提案し,提案するフレームワークと理論的発展に関するさらなる知見をもたらす合成および実データセットに関する数値実験を行った。

We consider the problem of sparse nonnegative matrix factorization (NMF) with archetypal regularization. The goal is to represent a collection of data points as nonnegative linear combinations of a few nonnegative sparse factors with appealing geometric properties, arising from the use of archetypal regularization. We generalize the notion of robustness studied in Javadi and Montanari (2019) (without sparsity) to the notions of (a) strong robustness that implies each estimated archetype is close to the underlying archetypes and (b) weak robustness that implies there exists at least one recovered archetype that is close to the underlying archetypes. Our theoretical results on robustness guarantees hold under minimal assumptions on the underlying data, and applies to settings where the underlying archetypes need not be sparse. We propose new algorithms for our optimization problem; and present numerical experiments on synthetic and real datasets that shed further insights into our proposed framework and theoretical developments.
翻訳日:2021-04-09 13:18:28 公開日:2021-04-08
# 厳密な確率的二階深層学習

Exact Stochastic Second Order Deep Learning ( http://arxiv.org/abs/2104.03804v1 )

ライセンス: Link先を確認
Fares B. Mehouachi, Chaouki Kasmi(参考訳) ディープラーニングの最適化は主に、バックプロパゲーションの中心的な概念を中心に構築された一階法に支配されている。 二階微分を考慮した二階最適化法は、優れた理論的性質にもかかわらず、はるかに使われない。 この二階法の不適切さは、その計算コスト、性能の低さ、そしてディープラーニングの非凸性に起因する。 コスト効率のよい解に到達することなく、二階最適化の不適切さを解決するために、いくつかの試みが行われた。 本研究では,ニューラルネットワークの適切な正規化を前提として,この長期にわたる深層学習の問題を確率論的に解くことができることを示す。 興味深いことに、確率的ヘッシアンとその正確な固有値の表現を提供する。 非凸性問題を解き、正則化とスペクトル調整により平坦な最小値を求めるための正確な解を調整した。 一般的なデータセット上での確率的二階法を正確にテストし,その深層学習への適性を明らかにする。

Optimization in Deep Learning is mainly dominated by first-order methods which are built around the central concept of backpropagation. Second-order optimization methods, which take into account the second-order derivatives are far less used despite superior theoretical properties. This inadequacy of second-order methods stems from its exorbitant computational cost, poor performance, and the ineluctable non-convex nature of Deep Learning. Several attempts were made to resolve the inadequacy of second-order optimization without reaching a cost-effective solution, much less an exact solution. In this work, we show that this long-standing problem in Deep Learning could be solved in the stochastic case, given a suitable regularization of the neural network. Interestingly, we provide an expression of the stochastic Hessian and its exact eigenvalues. We provide a closed-form formula for the exact stochastic second-order Newton direction, we solve the non-convexity issue and adjust our exact solution to favor flat minima through regularization and spectral adjustment. We test our exact stochastic second-order method on popular datasets and reveal its adequacy for Deep Learning.
翻訳日:2021-04-09 13:18:07 公開日:2021-04-08
# 生成型adversarial networkの効率的な訓練におけるサンプル混合法の効果に関する実証的研究

An Empirical Study of the Effects of Sample-Mixing Methods for Efficient Training of Generative Adversarial Networks ( http://arxiv.org/abs/2104.03535v1 )

ライセンス: Link先を確認
Makoto Takamoto and Yusuke Morishita(参考訳) 生成的敵ネットワーク(GAN)のトレーニングは、ジェネレータが高品質なサンプルを提供する前に膨大なイテレーションを必要とすることはよく知られている。 この問題にはいくつかの研究があるが、普遍的な解決法はない。 本研究では, 試料混合法, ミックスアップ法, カットミックス法, および新たに提案された平滑化地域混合法 (srmix) が, この問題を緩和する効果について検討した。 試料混合法は幅広い分類問題の精度と堅牢性を高めることが知られており, 判別器の役割は実検体と偽検体の分類として解釈できるため, GANにも自然に適用可能である。 また, サンプル混合法を実物と偽物の明確な「ラベル」を持たない飽和損失を有するGANに適用する新たな定式化も提案した。 我々はLSUNとCelebAデータセットを用いて膨大な数値実験を行った。 その結果,Mix と SRMix は FID の点で画像の品質を向上し,特に SRMix はほとんどのケースで最高の改善を示した。 分析の結果,混合サンプルはバニラ・フェイク・サンプルと異なる特性を呈し,混合パターンは判別者の判断に大きく影響することがわかった。 mixupの生成された画像は高いレベルの機能を持っているが、低レベルの機能はそれほど印象的ではない。 一方,cutmixは逆の傾向を示した。 SRMixでは,中程度の傾向,すなわち,高い,低レベルの特徴が認められた。 我々は,GANの収束を加速し,生成したサンプルの品質を向上させるために,新たな視点を提供すると考えている。

It is well-known that training of generative adversarial networks (GANs) requires huge iterations before the generator's providing good-quality samples. Although there are several studies to tackle this problem, there is still no universal solution. In this paper, we investigated the effect of sample mixing methods, that is, Mixup, CutMix, and newly proposed Smoothed Regional Mix (SRMix), to alleviate this problem. The sample-mixing methods are known to enhance the accuracy and robustness in the wide range of classification problems, and can naturally be applicable to GANs because the role of the discriminator can be interpreted as the classification between real and fake samples. We also proposed a new formalism applying the sample-mixing methods to GANs with the saturated losses which do not have a clear "label" of real and fake. We performed a vast amount of numerical experiments using LSUN and CelebA datasets. The results showed that Mixup and SRMix improved the quality of the generated images in terms of FID in most cases, in particular, SRMix showed the best improvement in most cases. Our analysis indicates that the mixed-samples can provide different properties from the vanilla fake samples, and the mixing pattern strongly affects the decision of the discriminators. The generated images of Mixup have good high-level feature but low-level feature is not so impressible. On the other hand, CutMix showed the opposite tendency. Our SRMix showed the middle tendency, that is, showed good high and low level features. We believe that our finding provides a new perspective to accelerate the GANs convergence and improve the quality of generated samples.
翻訳日:2021-04-09 13:17:52 公開日:2021-04-08
# PDO-e$\text{S}^\text{2}$CNNs:partial Differential Operator based Equivariant Spherical CNNs

PDO-e$\text{S}^\text{2}$CNNs: Partial Differential Operator Based Equivariant Spherical CNNs ( http://arxiv.org/abs/2104.03584v1 )

ライセンス: Link先を確認
Zhengyang Shen, Tiancheng Shen, Zhouchen Lin, Jinwen Ma(参考訳) 球面信号は、惑星データ、LiDARスキャン、三次元オブジェクトのデジタル化など、多くのアプリケーションに存在し、球面データを効率的に処理できるモデルを求めている。 単に球面データを2次元平面に投影し、投影からの歪みと非効率な翻訳等価性のために平面畳み込みニューラルネットワーク(CNN)を使用する場合、うまく動作しない。 実際、球面cnnを設計する良い原理は歪みを避け、平面cnnのシフト同分散特性を球面領域の回転同分散に変換することである。 本研究では、偏微分作用素を用いて球面同変 CNN, PDO-e$\text{S}^\text{2}$CNN を設計する。 次に、PDO-e$\text{S}^\text{2}$CNNを離散化し、離散化による等分散誤差を分析する。 等分散誤差が理論的に球面領域で解析されるのはこれが初めてである。 実験では、PDO-e$\text{S}^\text{2}$CNNはパラメータ効率が向上し、他の球面CNNよりも優れていた。

Spherical signals exist in many applications, e.g., planetary data, LiDAR scans and digitalization of 3D objects, calling for models that can process spherical data effectively. It does not perform well when simply projecting spherical data into the 2D plane and then using planar convolution neural networks (CNNs), because of the distortion from projection and ineffective translation equivariance. Actually, good principles of designing spherical CNNs are avoiding distortions and converting the shift equivariance property in planar CNNs to rotation equivariance in the spherical domain. In this work, we use partial differential operators (PDOs) to design a spherical equivariant CNN, PDO-e$\text{S}^\text{2}$CNN, which is exactly rotation equivariant in the continuous domain. We then discretize PDO-e$\text{S}^\text{2}$CNNs, and analyze the equivariance error resulted from discretization. This is the first time that the equivariance error is theoretically analyzed in the spherical domain. In experiments, PDO-e$\text{S}^\text{2}$CNNs show greater parameter efficiency and outperform other spherical CNNs significantly on several tasks.
翻訳日:2021-04-09 13:17:25 公開日:2021-04-08
# SiT:自己監督型VIsion Transformer

SiT: Self-supervised vIsion Transformer ( http://arxiv.org/abs/2104.03602v1 )

ライセンス: Link先を確認
Sara Atito and Muhammad Awais and Josef Kittler(参考訳) 近年,教師あり学習とのギャップを減らし,コンピュータビジョンにおける自己指導型学習手法の推進力が高まっている。 自然言語処理(NLP)では、自己教師型学習とトランスフォーマーがすでに選択方法となっている。 近年の文献によると、トランスフォーマーはコンピュータビジョンでも人気が高まっている。 これまでのところ、視覚変換器は大規模な教師付きデータやある種のコスーパービジョンを用いて事前訓練されたときにうまく機能することが示されている。 教師のネットワークに関してです これらの教師付き事前訓練されたビジョントランスフォーマーは、最小限の変更で下流タスクに非常に良い結果をもたらす。 本研究では,イメージ/ビジョン変換器の事前学習における自己教師型学習のメリットについて検討し,下流の分類タスクに利用した。 本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。 SiTのアーキテクチャの柔軟性により、自動エンコーダとして使用でき、複数の自己管理タスクをシームレスに処理できます。 学習済みのsatは、数百万ではなく数千の画像からなる小規模データセットのダウンストリーム分類タスクのために微調整可能であることを示す。 提案手法は共通プロトコルを用いて標準データセット上で評価される。 その結果, 変圧器の強度と自己教師あり学習への適合性が示された。 我々は既存の自己教師あり学習手法を大差で上回った。 また,sitはショット学習に適しており,sitから学習した特徴の上に線形分類器を訓練することで,有用な表現を学習していることを示した。 事前トレーニング、微調整、評価コードは、https://github.com/Sara-Ahmed/SiT.comで利用できる。

Self-supervised learning methods are gaining increasing traction in computer vision due to their recent success in reducing the gap with supervised learning. In natural language processing (NLP) self-supervised learning and transformers are already the methods of choice. The recent literature suggests that the transformers are becoming increasingly popular also in computer vision. So far, the vision transformers have been shown to work well when pretrained either using a large scale supervised data or with some kind of co-supervision, e.g. in terms of teacher network. These supervised pretrained vision transformers achieve very good results in downstream tasks with minimal changes. In this work we investigate the merits of self-supervised learning for pretraining image/vision transformers and then using them for downstream classification tasks. We propose Self-supervised vIsion Transformers (SiT) and discuss several self-supervised training mechanisms to obtain a pretext model. The architectural flexibility of SiT allows us to use it as an autoencoder and work with multiple self-supervised tasks seamlessly. We show that a pretrained SiT can be finetuned for a downstream classification task on small scale datasets, consisting of a few thousand images rather than several millions. The proposed approach is evaluated on standard datasets using common protocols. The results demonstrate the strength of the transformers and their suitability for self-supervised learning. We outperformed existing self-supervised learning methods by large margin. We also observed that SiT is good for few shot learning and also showed that it is learning useful representation by simply training a linear classifier on top of the learned features from SiT. Pretraining, finetuning, and evaluation codes will be available under: https://github.com/Sara-Ahmed/SiT.
翻訳日:2021-04-09 13:17:03 公開日:2021-04-08
# 移動ロボットのセマンティック認知による空間的イマジネーション

Spatial Imagination With Semantic Cognition for Mobile Robots ( http://arxiv.org/abs/2104.03638v1 )

ライセンス: Link先を確認
Zhengcheng Shen, Linh K\"astner and Jens Lambrecht(参考訳) 経験とセマンティック認知に基づく環境の想像力は、限られた観測範囲を拡張し、マッピング、衝突回避、経路計画のためのより多くの情報を提供する大きな可能性を秘めている。 本稿では,移動ロボットが意味認識に基づく空間的想像力を実現するためのトレーニングベースアルゴリズムを提案し,提案手法の評価を行った。 本研究では,フォトリアリスティックなシミュレーション環境Habitatをトレーニングと評価に利用した。 トレーニングされたモデルは、エンコーダとしてのresent-18とバックボーンとしてのunetで構成されている。 画像や経験をリコールし、従来の意味マッピング手法と比較することにより、オブジェクトの見えない部分の想像力を普遍的に実現できることを実証する。 この手法が意味マッピングの効率と正確性を向上させることが判明した。

The imagination of the surrounding environment based on experience and semantic cognition has great potential to extend the limited observations and provide more information for mapping, collision avoidance, and path planning. This paper provides a training-based algorithm for mobile robots to perform spatial imagination based on semantic cognition and evaluates the proposed method for the mapping task. We utilize a photo-realistic simulation environment, Habitat, for training and evaluation. The trained model is composed of Resent-18 as encoder and Unet as the backbone. We demonstrate that the algorithm can perform imagination for unseen parts of the object universally, by recalling the images and experience and compare our approach with traditional semantic mapping methods. It is found that our approach will improve the efficiency and accuracy of semantic mapping.
翻訳日:2021-04-09 13:16:39 公開日:2021-04-08
# 音声言語理解のためのRNNトランスデューサモデル

RNN Transducer Models For Spoken Language Understanding ( http://arxiv.org/abs/2104.03842v1 )

ライセンス: Link先を確認
Samuel Thomas, Hong-Kwang J. Kuo, George Saon, Zolt\'an T\"uske, Brian Kingsbury, Gakuto Kurata, Zvi Kons, Ron Hoory(参考訳) 本稿では,言語理解のためのRNNトランスデューサ(RNN-T)モデルの構築と適応に関する総合的研究を行う。 これらのエンド・ツー・エンド(E2E)モデルは、3つの実践的な設定で構築される:動詞の書き起こしが利用可能なケース、利用可能なアノテーションがSLUラベルとその値のみである制約付きケース、より制限付きのケース。 本稿では、事前訓練された自動音声認識(ASR)システムからRNN-T SLUモデルを開発し、続いてSLU適応ステップを示す。 実際の音声データが入手できない環境では、様々なSLUモデルの適応に人工合成音声を用いる。 ATISコーパスと顧客コールセンタデータセットの2つのSLUデータセットで評価すると、提案モデルは他のE2Eモデルの性能を密に追跡し、最先端の結果が得られる。

We present a comprehensive study on building and adapting RNN transducer (RNN-T) models for spoken language understanding(SLU). These end-to-end (E2E) models are constructed in three practical settings: a case where verbatim transcripts are available, a constrained case where the only available annotations are SLU labels and their values, and a more restrictive case where transcripts are available but not corresponding audio. We show how RNN-T SLU models can be developed starting from pre-trained automatic speech recognition (ASR) systems, followed by an SLU adaptation step. In settings where real audio data is not available, artificially synthesized speech is used to successfully adapt various SLU models. When evaluated on two SLU data sets, the ATIS corpus and a customer call center data set, the proposed models closely track the performance of other E2E models and achieve state-of-the-art results.
翻訳日:2021-04-09 13:16:16 公開日:2021-04-08
# BR-NS:ノベルティ検索のためのアーカイブレスアプローチ

BR-NS: an Archive-less Approach to Novelty Search ( http://arxiv.org/abs/2104.03936v1 )

ライセンス: Link先を確認
Achkan Salehi, Alexandre Coninx, Stephane Doncieux(参考訳) ノベルティサーチ(NS)のような多様な検索アルゴリズムに基づくオープンエンドラーニングは、研究コミュニティからますます注目を集めているため、より複雑な実世界の問題に応用するためには、必ずしもユークリッドではない高次元の行動空間を探索する必要があると期待するのも当然である。 ノベルティ・サーチは伝統的にk-ネアレスト近傍の探索と、ユークリッド空間に居住していると仮定された以前に訪れた行動記述子のアーカイブに依存している。 これは多くの問題のために問題となる。 一方、ユークリッド距離と近距離探索は異なる振る舞いをすることが知られており、高次元空間では意味をなさない。 一方、アーカイブは、メモリを考慮すれば、アーカイブ内の最寄りの近傍を見つける計算の複雑さはそのサイズで線形に増加するため、バウンダリでなければならない。 準最適境界(sub-optimal bound)は、行動空間において「サイクリング(cycling)」となり、探索の進行を阻害する。 さらに、nsの性能は、アーカイブに要素を追加または削除する戦略や、k-nn検索で使用する近傍の数など、多くのアルゴリズム選択とハイパーパラメータに依存する。 本稿では,行動認識に基づくノベルティ探索 (BR-NS) という,行動空間で定義可能な測度を前提とせず,近隣の探索に頼らない,新規性推定の代替手法について論じる。 我々は、その実現可能性とダイナミクス、および時間複雑性の観点からアーカイブベースのnsよりも潜在的に有利な点について洞察を得るために実験を行う。

As open-ended learning based on divergent search algorithms such as Novelty Search (NS) draws more and more attention from the research community, it is natural to expect that its application to increasingly complex real-world problems will require the exploration to operate in higher dimensional Behavior Spaces which will not necessarily be Euclidean. Novelty Search traditionally relies on k-nearest neighbours search and an archive of previously visited behavior descriptors which are assumed to live in a Euclidean space. This is problematic because of a number of issues. On one hand, Euclidean distance and Nearest-neighbour search are known to behave differently and become less meaningful in high dimensional spaces. On the other hand, the archive has to be bounded since, memory considerations aside, the computational complexity of finding nearest neighbours in that archive grows linearithmically with its size. A sub-optimal bound can result in "cycling" in the behavior space, which inhibits the progress of the exploration. Furthermore, the performance of NS depends on a number of algorithmic choices and hyperparameters, such as the strategies to add or remove elements to the archive and the number of neighbours to use in k-nn search. In this paper, we discuss an alternative approach to novelty estimation, dubbed Behavior Recognition based Novelty Search (BR-NS), which does not require an archive, makes no assumption on the metrics that can be defined in the behavior space and does not rely on nearest neighbours search. We conduct experiments to gain insight into its feasibility and dynamics as well as potential advantages over archive-based NS in terms of time complexity.
翻訳日:2021-04-09 13:15:58 公開日:2021-04-08
# 人工手指制御におけるEMGのマルチモーダル融合と人間のグラフインテント推論のためのビジョン

Multimodal Fusion of EMG and Vision for Human Grasp Intent Inference in Prosthetic Hand Control ( http://arxiv.org/abs/2104.03893v1 )

ライセンス: Link先を確認
Mehrshad Zandigohar, Mo Han, Mohammadreza Sharif, Sezen Yagmur Gunay, Mariusz P. Furmanek, Mathew Yarossi, Paolo Bonato, Cagdas Onal, Taskin Padir, Deniz Erdogmus, Gunar Schirner(参考訳) 下腕のアンプでは、ロボット義手は日常の生活で細かい物体操作を行う能力を取り戻すことを約束する。 脳波や筋電図などの生理的信号に基づく現在の制御方法は、運動アーチファクト、経時的皮膚電極接合インピーダンスの変動性、筋疲労、その他の要因による推測結果の低下を招きやすい。 視覚的証拠は、しばしばオブジェクトの閉塞、照明の変化、ビューアングルに依存するオブジェクトの可変形状などによって、自身の人工物にも影響を受けやすい。 生理的および視覚的センサ計測を用いたマルチモーダルエビデンス融合は、これらのモダリティの相補的な強度による自然なアプローチである。 本稿では,ニューラルネットモデルにより処理された前腕からの視線映像,視線,筋電図を用いた意図推定のためのベイズ証拠融合フレームワークを提案する。 我々は、手が物体に近づくと、時間関数として個人と融合のパフォーマンスを分析する。 この目的のために、ニューラルネットワークコンポーネントをトレーニングするための新しいデータ処理および拡張技術を開発した。 実験データから,EMGと視覚的エビデンスは相補的な強度を示し,その結果,多モーダルなエビデンスの融合は各時間における各エビデンスモダリティより優れることが示された。 具体的には、核融合は平均して、直近の把握型分類精度を13.66%、14.8%向上させ、EMGと視覚的証拠を個別に比較した。 13のラベルのうち95.3%(チャンスレベル7.7%)の総合融解精度を達成し、より詳細な分析により、ロボットの動作を成功させるために、正しい把持が十分に早期に推測され、上位候補よりも高い信頼度で達成されていることを示している。

For lower arm amputees, robotic prosthetic hands offer the promise to regain the capability to perform fine object manipulation in activities of daily living. Current control methods based on physiological signals such as EEG and EMG are prone to poor inference outcomes due to motion artifacts, variability of skin electrode junction impedance over time, muscle fatigue, and other factors. Visual evidence is also susceptible to its own artifacts, most often due to object occlusion, lighting changes, variable shapes of objects depending on view-angle, among other factors. Multimodal evidence fusion using physiological and vision sensor measurements is a natural approach due to the complementary strengths of these modalities. In this paper, we present a Bayesian evidence fusion framework for grasp intent inference using eye-view video, gaze, and EMG from the forearm processed by neural network models. We analyze individual and fused performance as a function of time as the hand approaches the object to grasp it. For this purpose, we have also developed novel data processing and augmentation techniques to train neural network components. Our experimental data analyses demonstrate that EMG and visual evidence show complementary strengths, and as a consequence, fusion of multimodal evidence can outperform each individual evidence modality at any given time. Specifically, results indicate that, on average, fusion improves the instantaneous upcoming grasp type classification accuracy while in the reaching phase by 13.66% and 14.8%, relative to EMG and visual evidence individually. An overall fusion accuracy of 95.3% among 13 labels (compared to a chance level of 7.7%) is achieved, and more detailed analysis indicate that the correct grasp is inferred sufficiently early and with high confidence compared to the top contender, in order to allow successful robot actuation to close the loop.
翻訳日:2021-04-09 13:15:32 公開日:2021-04-08
# 分散ネットワークにおけるベイズ変分フェデレーション学習とアンラーニング

Bayesian Variational Federated Learning and Unlearning in Decentralized Networks ( http://arxiv.org/abs/2104.03834v1 )

ライセンス: Link先を確認
Jinu Gong, Osvaldo Simeone, Joonhyuk Kang(参考訳) 連合ベイズ学習(federated bayesian learning)は、認識論的不確実性を定量化し、信頼できる意思決定を可能にする、協調的トレーニングアルゴリズムの定義のための原則付きフレームワークを提供する。 共同訓練が完了すると、エージェントは彼女の法的「忘れられる権利」を行使することを決断し、共同で訓練されたモデルへの彼女の貢献を削除および破棄するよう要求する。 本稿では,ベイズフレームワーク内の分散ネットワークにおけるフェデレート学習とアンラーニングについて述べる。 指数型モデル内の局所自由エネルギー最小化問題の分散解と、局所ゴシップ駆動通信に基づくフェデレーション付き変分推論(VI)ソリューションを特に開発する。 提案プロトコルは,効率的な学習機構を実現する。

Federated Bayesian learning offers a principled framework for the definition of collaborative training algorithms that are able to quantify epistemic uncertainty and to produce trustworthy decisions. Upon the completion of collaborative training, an agent may decide to exercise her legal "right to be forgotten", which calls for her contribution to the jointly trained model to be deleted and discarded. This paper studies federated learning and unlearning in a decentralized network within a Bayesian framework. It specifically develops federated variational inference (VI) solutions based on the decentralized solution of local free energy minimization problems within exponential-family models and on local gossip-driven communication. The proposed protocols are demonstrated to yield efficient unlearning mechanisms.
翻訳日:2021-04-09 13:14:58 公開日:2021-04-08
# 単一勾配ステップがランダム二層ニューラルネットワークの逆例を見つける

A single gradient step finds adversarial examples on random two-layers neural networks ( http://arxiv.org/abs/2104.03863v1 )

ライセンス: Link先を確認
S\'ebastien Bubeck, Yeshwanth Cherapanamjeri, Gauthier Gidel and R\'emi Tachet des Combes(参考訳) Daniely と Schacham は先日、ランダム不完全な2層 ReLU ニューラルネットワーク上で勾配降下が逆例となることを示した。 アンダーコンプリート」という用語は、ニューロンの数が周囲の次元の消失分数である場合にのみその証明が成り立つという事実を指す。 それらの結果は、ニューロンの数が次元よりも大きい(また、次元における部分指数)オーバーコンプリートの場合にまで拡大する。 実際、勾配降下の1つのステップが十分であることを示す。 また,スムースなアクティベーション関数を持つ任意のサブ指数幅ランダムニューラルネットワークに対して,この結果を示す。

Daniely and Schacham recently showed that gradient descent finds adversarial examples on random undercomplete two-layers ReLU neural networks. The term "undercomplete" refers to the fact that their proof only holds when the number of neurons is a vanishing fraction of the ambient dimension. We extend their result to the overcomplete case, where the number of neurons is larger than the dimension (yet also subexponential in the dimension). In fact we prove that a single step of gradient descent suffices. We also show this result for any subexponential width random neural network with smooth activation function.
翻訳日:2021-04-09 13:14:45 公開日:2021-04-08
# Few-Shotローカライゼーションと分類のためのプロトタイプ領域提案ネットワーク

Prototypical Region Proposal Networks for Few-Shot Localization and Classification ( http://arxiv.org/abs/2104.03496v1 )

ライセンス: Link先を確認
Elliott Skomski, Aaron Tuor, Andrew Avila, Lauren Phillips, Zachary New, Henry Kvinge, Courtney D. Corley, and Nathan Hodas(参考訳) 近年,画像の分類法として,分類対象が画像の中心的な主題であるユースケースに焦点が当てられている。 このユースケースに合わせたベンチマークビジョンデータセットの成功にもかかわらず、これらの方法は一般的に、密に注釈された、多忙な画像を含むユースケースで失敗する。 関連するオブジェクトのローカライズには,ラベルなしの問合せ画像の符号化特徴をクラスセンタロイドで比較し,問合せ画像における支持集合クラスの存在と位置を示す領域提案を生成する,プロトタイプベースの少数ショットセグメンテーションモデルを用いる。 これらの領域の提案は、少数ショットの画像分類器への追加条件入力として使用される。 我々は,2つの段階(セグメンテーションと分類)をエンドツーエンドの分類モデルであるPRoPnetに統一するフレームワークを開発し,複数のオブジェクトクラスを含む自然なシーンによる画像データセットの精度向上を実証的に実証した。

Recently proposed few-shot image classification methods have generally focused on use cases where the objects to be classified are the central subject of images. Despite success on benchmark vision datasets aligned with this use case, these methods typically fail on use cases involving densely-annotated, busy images: images common in the wild where objects of relevance are not the central subject, instead appearing potentially occluded, small, or among other incidental objects belonging to other classes of potential interest. To localize relevant objects, we employ a prototype-based few-shot segmentation model which compares the encoded features of unlabeled query images with support class centroids to produce region proposals indicating the presence and location of support set classes in a query image. These region proposals are then used as additional conditioning input to few-shot image classifiers. We develop a framework to unify the two stages (segmentation and classification) into an end-to-end classification model -- PRoPnet -- and empirically demonstrate that our methods improve accuracy on image datasets with natural scenes containing multiple object classes.
翻訳日:2021-04-09 13:14:14 公開日:2021-04-08
# Py-Feat: Pythonの表情解析ツールボックス

Py-Feat: Python Facial Expression Analysis Toolbox ( http://arxiv.org/abs/2104.03509v1 )

ライセンス: Link先を確認
Jin Hyun Cheong, Tiankang Xie, Sophie Byrne, Luke J. Chang(参考訳) 表情の研究は、非常に難しい仕事だ。 感情コンピューティングの分野での最近の進歩は、画像やビデオから表情を自動的に検出する、驚くべき進歩をもたらした。 しかし、この研究の多くは心理学などの社会科学分野では広く普及していない。 現在の芸術モデルは、伝統的に社会科学訓練プログラムに組み込まれていない相当な専門知識を必要とする。 さらに、表情研究をサポートする包括的なツールや機能セットを提供する、ユーザフレンドリーでオープンソースなソフトウェアがないことも注目すべきです。 本稿では,表情データの検出,前処理,解析,可視化をサポートするオープンソースのPythonツールボックスであるPy-Featを紹介する。 Py-Featは、ドメインの専門家がコンピュータビジョンモデルを広めてベンチマークしやすくし、エンドユーザが顔表現データを素早く処理し、分析し、視覚化することを可能にする。 このプラットフォームが人間の行動研究における表情データの利用を促進することを願っている。

Studying facial expressions is a notoriously difficult endeavor. Recent advances in the field of affective computing have yielded impressive progress in automatically detecting facial expressions from pictures and videos. However, much of this work has yet to be widely disseminated in social science domains such as psychology. Current state of the art models require considerable domain expertise that is not traditionally incorporated into social science training programs. Furthermore, there is a notable absence of user-friendly and open-source software that provides a comprehensive set of tools and functions that support facial expression research. In this paper, we introduce Py-Feat, an open-source Python toolbox that provides support for detecting, preprocessing, analyzing, and visualizing facial expression data. Py-Feat makes it easy for domain experts to disseminate and benchmark computer vision models and also for end users to quickly process, analyze, and visualize face expression data. We hope this platform will facilitate increased use of facial expression data in human behavior research.
翻訳日:2021-04-09 13:13:54 公開日:2021-04-08
# 3次元CT画像による動詞分割のためのアラスラス残差接続エンコーダとアテンションデコーダフレームワーク

Atrous Residual Interconnected Encoder to Attention Decoder Framework for Vertebrae Segmentation via 3D Volumetric CT Images ( http://arxiv.org/abs/2104.03715v1 )

ライセンス: Link先を確認
Wenqiang Li, YM Tang, Ziyang Wang, KM Yu, Sandy To(参考訳) コンピュータ支援手術の前提条件としてctを用いた医用画像の自動セグメンテーションが広く適用されている。 深層学習技術の発展に伴い、深層畳み込みニューラルネットワーク(dcnn)は、医用画像の自動意味セグメンテーションにおいて堅牢な性能を示している。 しかし,DCNNに基づくセマンティックセグメンテーションアルゴリズムは,エンコーダとデコーダの機能損失,マルチスケールオブジェクト,フィルタの視野の制限,医用画像データの欠如といった課題をまだ満たしている。 本稿では,3次元容積CT画像を用いた新しい椎骨分割法を提案する。 提案モデルは,ミニバッチトレーニング性能の最適化にレイヤ正規化を用いた,エンコーダからデコーダへの構造に基づく。 エンコーダとデコーダ間の情報損失の懸念に対処するため、簡単なショートカット接続ではなく、エンコーダからデコーダへより多くの機能を渡すためにAtrous Residual Pathを設計した。 提案モデルでは,デコーダ部分のアテンションモジュールを用いて,変動スケールの特徴を抽出する。 提案モデルは,様々な指標を用いて公開データセット上で評価される。 実験の結果,本モデルは他の医学的意味セグメンテーション法と比較して競争力が得られた。

Automatic medical image segmentation based on Computed Tomography (CT) has been widely applied for computer-aided surgery as a prerequisite. With the development of deep learning technologies, deep convolutional neural networks (DCNNs) have shown robust performance in automated semantic segmentation of medical images. However, semantic segmentation algorithms based on DCNNs still meet the challenges of feature loss between encoder and decoder, multi-scale object, restricted field of view of filters, and lack of medical image data. This paper proposes a novel algorithm for automated vertebrae segmentation via 3D volumetric spine CT images. The proposed model is based on the structure of encoder to decoder, using layer normalization to optimize mini-batch training performance. To address the concern of the information loss between encoder and decoder, we designed an Atrous Residual Path to pass more features from encoder to decoder instead of an easy shortcut connection. The proposed model also applied the attention module in the decoder part to extract features from variant scales. The proposed model is evaluated on a publicly available dataset by a variety of metrics. The experimental results show that our model achieves competitive performance compared with other state-of-the-art medical semantic segmentation methods.
翻訳日:2021-04-09 13:13:40 公開日:2021-04-08
# 表面CNNのためのフィールド畳み込み

Field Convolutions for Surface CNNs ( http://arxiv.org/abs/2104.03916v1 )

ライセンス: Link先を確認
Thomas W. Mitchel, Vladimir G. Kim, Michael Kazhdan(参考訳) 簡単な観測に基づいてベクトル場に作用する新しい曲面畳み込み作用素を提案する: 与えられた点で定義された1つの座標パラメータ化に対して近傍の特徴を組み合わせる代わりに、各近傍にその座標フレーム内の点の位置を記述する。 この定式化は、内部空間の畳み込みと散乱操作における平行輸送を結合し、フィルタ自体に制約を課さず、等距離の作用と通勤する畳み込みの定義を提供し、記述ポテンシャルを増大させ、ノイズやその他のニュアンス要因に対して堅牢である。 その結果、フィールド畳み込み(field convolution)と呼ばれる豊富な畳み込みの概念が、表面上のcnnに適している。 フィールド畳み込みは柔軟で、実装はまっすぐであり、その高度に識別される性質は学習パイプライン全体にわたってカスケード効果を持つ。 残留フィールド畳み込みブロックから構築された単純なネットワークを用いて,形状分類,セグメンテーション,対応,スパースマッチングなどの基本的な幾何処理タスクにおける標準ベンチマークの結果を得る。

We present a novel surface convolution operator acting on vector fields that is based on a simple observation: instead of combining neighboring features with respect to a single coordinate parameterization defined at a given point, we have every neighbor describe the position of the point within its own coordinate frame. This formulation combines intrinsic spatial convolution with parallel transport in a scattering operation while placing no constraints on the filters themselves, providing a definition of convolution that commutes with the action of isometries, has increased descriptive potential, and is robust to noise and other nuisance factors. The result is a rich notion of convolution which we call field convolution, well-suited for CNNs on surfaces. Field convolutions are flexible and straight-forward to implement, and their highly discriminating nature has cascading effects throughout the learning pipeline. Using simple networks constructed from residual field convolution blocks, we achieve state-of-the-art results on standard benchmarks in fundamental geometry processing tasks, such as shape classification, segmentation, correspondence, and sparse matching.
翻訳日:2021-04-09 13:13:17 公開日:2021-04-08
# 単純なニューラル確率言語モデルの再検討

Revisiting Simple Neural Probabilistic Language Models ( http://arxiv.org/abs/2104.03474v1 )

ライセンス: Link先を確認
Simeng Sun, Mohit Iyyer(参考訳) 言語モデリングの最近の進歩は、ニューラルアーキテクチャの進歩だけでなく、ハードウェアと最適化の改善によっても引き起こされている。 本稿では,固定ウィンドウ内の単語埋め込みを結合し,その結果をフィードフォワードネットワークに渡して次の単語を予測する,-\citet{bengio2003anp} のニューラル確率言語モデル (nplm) を再検討する。 現代のハードウェアにスケールアップすると、このモデル(多くの制限にもかかわらず)は、単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。 解析の結果,NPLMは入力コンテキストが短いが長期依存を扱うのに苦労するベースライン変換器よりも難易度が高いことがわかった。 この結果から,トランスフォーマーをNPLMの局所連結層に置き換えることで,3つの単語レベルの言語モデリングデータセット間で小さなが一貫したパープレキシティが減少する。

Recent progress in language modeling has been driven not only by advances in neural architectures, but also through hardware and optimization improvements. In this paper, we revisit the neural probabilistic language model (NPLM) of~\citet{Bengio2003ANP}, which simply concatenates word embeddings within a fixed window and passes the result through a feed-forward network to predict the next word. When scaled up to modern hardware, this model (despite its many limitations) performs much better than expected on word-level language model benchmarks. Our analysis reveals that the NPLM achieves lower perplexity than a baseline Transformer with short input contexts but struggles to handle long-term dependencies. Inspired by this result, we modify the Transformer by replacing its first self-attention layer with the NPLM's local concatenation layer, which results in small but consistent perplexity decreases across three word-level language modeling datasets.
翻訳日:2021-04-09 13:12:24 公開日:2021-04-08
# サブネット探索による低複雑さ探査

Low-Complexity Probing via Finding Subnetworks ( http://arxiv.org/abs/2104.03514v1 )

ライセンス: Link先を確認
Steven Cao, Victor Sanh, Alexander M. Rush(参考訳) 言語特性のためのニューラルネットワークの探索における主要なアプローチは、モデルの内部表現の上に新しい浅い多層パーセプトロン(MLP)を訓練することである。 このアプローチは、モデルにエンコードされたプロパティを検出することができるが、タスクを直接学習する可能性のある新しいパラメータを追加するコストがかかる。 そこで我々は,言語的タスクを実行する既存のサブネットワークを探索する,減算的プルーニングに基づくプローブを提案する。 mlpと比較すると、サブネットワークプローブは事前学習されたモデルにおいて高い精度とランダムモデルでのより低い精度の両方を達成しているため、興味のある特性を見つけるのに優れ、学習自体が悪くなっている。 次に、各プローブの複雑さを変化させることで、パレートドープしたサブネットワークが、プローブの複雑さの予算を考慮すれば高い精度で MLP を探索することを示す。 最後に,各タスクにまたがるサブネットワークを分析し,各タスクのエンコード場所を特定し,下位レベルタスクを低レベルレイヤにキャプチャし,過去の作業で同様の結果を再現する。

The dominant approach in probing neural networks for linguistic properties is to train a new shallow multi-layer perceptron (MLP) on top of the model's internal representations. This approach can detect properties encoded in the model, but at the cost of adding new parameters that may learn the task directly. We instead propose a subtractive pruning-based probe, where we find an existing subnetwork that performs the linguistic task of interest. Compared to an MLP, the subnetwork probe achieves both higher accuracy on pre-trained models and lower accuracy on random models, so it is both better at finding properties of interest and worse at learning on its own. Next, by varying the complexity of each probe, we show that subnetwork probing Pareto-dominates MLP probing in that it achieves higher accuracy given any budget of probe complexity. Finally, we analyze the resulting subnetworks across various tasks to locate where each task is encoded, and we find that lower-level tasks are captured in lower layers, reproducing similar findings in past work.
翻訳日:2021-04-09 13:12:06 公開日:2021-04-08
# 日本語形態素解析と語彙正規化のためのユーザ生成テキストコーパス

User-Generated Text Corpus for Evaluating Japanese Morphological Analysis and Lexical Normalization ( http://arxiv.org/abs/2104.03523v1 )

ライセンス: Link先を確認
Shohei Higashiyama, Masao Utiyama, Taro Watanabe, Eiichiro Sumita(参考訳) 形態素解析(MA)と語彙正規化(LN)はどちらも,日本語ユーザ生成テキスト(UGT)にとって重要な課題である。 各種MA/LNシステムの評価と比較を行うため,日本語UGTコーパスを構築した。 コーパスは, 形態情報および正規化情報を付加した929文と, 頻繁なUGT現象を分類したカテゴリ情報から構成される。 コーパスの実験では、非一般語および非標準形に対する既存のMA/LN手法の低性能を実証し、このコーパスがUGTのさらなる研究のための挑戦的なベンチマークとなることを示した。

Morphological analysis (MA) and lexical normalization (LN) are both important tasks for Japanese user-generated text (UGT). To evaluate and compare different MA/LN systems, we have constructed a publicly available Japanese UGT corpus. Our corpus comprises 929 sentences annotated with morphological and normalization information, along with category information we classified for frequent UGT-specific phenomena. Experiments on the corpus demonstrated the low performance of existing MA/LN methods for non-general words and non-standard forms, indicating that the corpus would be a challenging benchmark for further research on UGT.
翻訳日:2021-04-09 13:11:48 公開日:2021-04-08
# BSTC: 大規模中国語-英語音声翻訳データセット

BSTC: A Large-Scale Chinese-English Speech Translation Dataset ( http://arxiv.org/abs/2104.03575v1 )

ライセンス: Link先を確認
Ruiqing Zhang, Xiyang Wang, Chuanqiang Zhang, Zhongjun HeHua Wu, Zhi Li, Haifeng Wang, Ying Chen, Qinfei Li(参考訳) 本稿では,中国語と英語の大規模翻訳データセットであるBSTC(Baidu Speech Translation Corpus)を提案する。 このデータセットは、約68時間のマンダリンデータ、手作業による書き起こしと英語への翻訳、自動音声認識(asr)モデルによる自動書き起こしを含む、講演や講義のライセンスビデオのコレクションに基づいて構築されている。 さらに,3人の経験豊富なインタプリタに対して,モックカンファレンスの設定でテスト講演を同時に解釈するように依頼しました。 このコーパスは,自動同時翻訳の研究と実用システムの開発を促進することが期待されている。 同時翻訳タスクを整理し,このコーパスを用いて同時翻訳システムの評価を行った。

This paper presents BSTC (Baidu Speech Translation Corpus), a large-scale Chinese-English speech translation dataset. This dataset is constructed based on a collection of licensed videos of talks or lectures, including about 68 hours of Mandarin data, their manual transcripts and translations into English, as well as automated transcripts by an automatic speech recognition (ASR) model. We have further asked three experienced interpreters to simultaneously interpret the testing talks in a mock conference setting. This corpus is expected to promote the research of automatic simultaneous translation as well as the development of practical systems. We have organized simultaneous translation tasks and used this corpus to evaluate automatic simultaneous translation systems.
翻訳日:2021-04-09 13:11:35 公開日:2021-04-08
# 誰が先に行くの? 分類向上のための自己監督型概念ソーティングモデル

Who Should Go First? A Self-Supervised Concept Sorting Model for Improving Taxonomy Expansion ( http://arxiv.org/abs/2104.03682v1 )

ライセンス: Link先を確認
Xiangchen Song, Jiaming Shen, Jieyu Zhang, and Jiawei Han(参考訳) 分類法は様々な機械学習やテキストマイニングシステムで広く使われ、知識を整理し、下流の作業を容易にする。 重要な課題の1つは、データとビジネスのスコープが実際のアプリケーションで大きくなるにつれて、既存の分類体系を拡大して新しい概念を組み込む必要があることである。 分類の展開過程に関する以前の研究は、新しい概念を独立かつ同時に独立に展開し、それらの間の潜在的な関係と挿入操作の適切な順序を無視した。 しかし、実際には、新しい概念は相互に相関し、局所的なハイパーニム・ハイポニム構造を形成する傾向がある。 このようなシナリオでは、新しい概念の依存関係を無視し、挿入順序がエラー伝搬を引き起こす可能性がある。 例えば、既存の分類学拡張システムは、そのハイパーネムの前に既存の分類学に仮説を挿入する可能性がある。 既存の分類体系を補完するために,新しい概念の中で局所ハイパーニム・ハイプニム構造を同時に発見し,挿入順序を決定する新しい自己教師付きフレームワークであるtaxoorderを提案する。 分類体系は任意の分類体系に直接接続でき、拡張された分類体系の品質を向上させることができる。 実世界のデータセットを用いた実験は、分類学拡張システムを強化するためのTaxoOrderの有効性を検証し、様々な評価基準の下でのベースラインと比較して、より良い分類基準をもたらす。

Taxonomies have been widely used in various machine learning and text mining systems to organize knowledge and facilitate downstream tasks. One critical challenge is that, as data and business scope grow in real applications, existing taxonomies need to be expanded to incorporate new concepts. Previous works on taxonomy expansion process the new concepts independently and simultaneously, ignoring the potential relationships among them and the appropriate order of inserting operations. However, in reality, the new concepts tend to be mutually correlated and form local hypernym-hyponym structures. In such a scenario, ignoring the dependencies of new concepts and the order of insertion may trigger error propagation. For example, existing taxonomy expansion systems may insert hyponyms to existing taxonomies before their hypernym, leading to sub-optimal expanded taxonomies. To complement existing taxonomy expansion systems, we propose TaxoOrder, a novel self-supervised framework that simultaneously discovers the local hypernym-hyponym structure among new concepts and decides the order of insertion. TaxoOrder can be directly plugged into any taxonomy expansion system and improve the quality of expanded taxonomies. Experiments on the real-world dataset validate the effectiveness of TaxoOrder to enhance taxonomy expansion systems, leading to better-resulting taxonomies with comparison to baselines under various evaluation metrics.
翻訳日:2021-04-09 13:11:24 公開日:2021-04-08
# スマートで計算可能な契約のための言語

Languages for Smart and Computable Contracts ( http://arxiv.org/abs/2104.03764v1 )

ライセンス: Link先を確認
Christopher D. Clack(参考訳) スマートコントラクトは、コンピュータ技術を使用して、商用契約のパフォーマンスを自動化する。 しかし、どのようにしてコンピュータコードは当事者の意図に忠実である、という確信が持てるのだろうか? この質問の深さと微妙さを理解するには、自然言語とコンピュータ言語の探索、それらの言語における表現の意味論、および法学と計算機科学の間のギャップが必要である。 ここでは、重要な問題のいくつかを考察し、現在の研究方向を探り、計算可能契約の具体的な方法論を含む信頼性の高いスマートコントラクトの開発における言語設計の重要性を説明します。

Smart Contracts use computer technology to automate the performance of aspects of commercial agreements. Yet how can there be confidence that the computer code is faithful to the intentions of the parties? To understand the depth and subtlety of this question requires an exploration of natural and computer languages, of the semantics of expressions in those languages, and of the gap that exists between the disciplines of law and computer science. Here we provide a perspective on some of the key issues, explore some current research directions, and explain the importance of language design in the development of reliable Smart Contracts, including the specific methodology of Computable Contracts.
翻訳日:2021-04-09 13:11:02 公開日:2021-04-08
# ベトナムで「実体認識」 新型コロナ

COVID-19 Named Entity Recognition for Vietnamese ( http://arxiv.org/abs/2104.03879v1 )

ライセンス: Link先を確認
Thinh Hung Truong, Mai Hoang Dao, Dat Quoc Nguyen(参考訳) 現在の新型コロナウイルス(COVID-19)パンデミックは、パンデミックに対抗するためにNLP研究や下流のアプリケーションを促進する多くのコーパスを生み出している。 しかし、これらのコーパスのほとんどは英語専用である。 パンデミックは世界的な問題なので、英語以外の言語でcovid-19関連のデータセットを作成する価値がある。 本稿では,ベトナムにおける最初の手動注釈付きドメイン固有データセットを提案する。 特に、我々のデータセットは名前付きエンティティ認識(NER)タスクにアノテートされ、新たに定義されたエンティティタイプは、他の将来の流行で使用できます。 我々のデータセットには、既存のベトナムのNERデータセットと比較して最も多くのエンティティが含まれています。 ベトナム語の単語セグメンテーションはnerの結果を改善するのに役立ち、ベトナム語用単言語モデルphobert (nguyen and nguyen, 2020) が多言語モデルxlm-r (conneau et al., 2020) よりも高い結果を生み出す、事前学習された言語モデルによって最高のパフォーマンスを得ることができます。 私たちはデータセットをhttps://github.com/VinAIResearch/PhoNER_COVID19で公開しています。

The current COVID-19 pandemic has lead to the creation of many corpora that facilitate NLP research and downstream applications to help fight the pandemic. However, most of these corpora are exclusively for English. As the pandemic is a global problem, it is worth creating COVID-19 related datasets for languages other than English. In this paper, we present the first manually-annotated COVID-19 domain-specific dataset for Vietnamese. Particularly, our dataset is annotated for the named entity recognition (NER) task with newly-defined entity types that can be used in other future epidemics. Our dataset also contains the largest number of entities compared to existing Vietnamese NER datasets. We empirically conduct experiments using strong baselines on our dataset, and find that: automatic Vietnamese word segmentation helps improve the NER results and the highest performances are obtained by fine-tuning pre-trained language models where the monolingual model PhoBERT for Vietnamese (Nguyen and Nguyen, 2020) produces higher results than the multilingual model XLM-R (Conneau et al., 2020). We publicly release our dataset at: https://github.com/VinAIResearch/PhoNER_COVID19
翻訳日:2021-04-09 13:10:51 公開日:2021-04-08
# 混合反復修正について

On Mixed Iterated Revisions ( http://arxiv.org/abs/2104.03571v1 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 数種類の反復的信念の変化があり、変化の種類や強さが異なる: ある作用素は公式を導入し、ある作用素はそれらを削除し、ある作用素は無条件に公式を付加する。 例えば、第1のステップは修正、第2のステップは縮小、第3のステップは以前の信念の洗練である。 本項で検討した10人のオペレーターは,辞書修正,改良,重度の離脱の3つにすべて還元可能であることが示されている。 逆に、これらの3つは、配列を再構成するコストで、レキソグラフィーのリビジョンで表現することができる。 この再構成は明示的に行う必要はなく、元のシーケンスで動作するアルゴリズムが示される。 信念変化演算子の混合シーケンスの複雑さも分析される。 その多くは、満足度チェッカーへの多項式数だけを必要とするが、もっと簡単なものもある。

Several forms of iterable belief change exist, differing in the kind of change and its strength: some operators introduce formulae, others remove them; some add formulae unconditionally, others only as additions to the previous beliefs; some only relative to the current situation, others in all possible cases. A sequence of changes may involve several of them: for example, the first step is a revision, the second a contraction and the third a refinement of the previous beliefs. The ten operators considered in this article are shown to be all reducible to three: lexicographic revision, refinement and severe withdrawal. In turn, these three can be expressed in terms of lexicographic revision at the cost of restructuring the sequence. This restructuring needs not to be done explicitly: an algorithm that works on the original sequence is shown. The complexity of mixed sequences of belief change operators is also analyzed. Most of them require only a polynomial number of calls to a satisfiability checker, some are even easier.
翻訳日:2021-04-09 13:10:29 公開日:2021-04-08
# 映像インペインティングのための進行時間特徴アライメントネットワーク

Progressive Temporal Feature Alignment Network for Video Inpainting ( http://arxiv.org/abs/2104.03507v1 )

ライセンス: Link先を確認
Xueyan Zou, Linjie Yang, Ding Liu, Yong Jae Lee(参考訳) ビデオインパインティングは、時空間の「崩壊した」領域を可算な内容で埋めることを目的としている。 この目的を達成するためには、近隣のフレームからの対応を見つけ、未知のコンテンツを忠実に表現する必要がある。 現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。 しかし、流れに基づくワーピングは、光流が正確でない場合にアーティファクトを生成できるが、時間的畳み込みは空間的不均衡に苦しむことがある。 そこで本研究では,現在フレームから抽出した特徴を光流を用いて隣接フレームから逸脱させた特徴量で徐々に強化する「進行時間特徴アライメントネットワーク」を提案する。 提案手法は時間的特徴伝播段階における空間的ずれを補正し,映像の視覚的品質と時間的一貫性を大幅に改善する。 提案アーキテクチャを用いて,既存のディープラーニング手法と比較して,DAVISおよびFVIデータセットの最先端性能を実現する。 コードはhttps://github.com/MaureenZOU/TSAMで入手できる。

Video inpainting aims to fill spatio-temporal "corrupted" regions with plausible content. To achieve this goal, it is necessary to find correspondences from neighbouring frames to faithfully hallucinate the unknown content. Current methods achieve this goal through attention, flow-based warping, or 3D temporal convolution. However, flow-based warping can create artifacts when optical flow is not accurate, while temporal convolution may suffer from spatial misalignment. We propose 'Progressive Temporal Feature Alignment Network', which progressively enriches features extracted from the current frame with the feature warped from neighbouring frames using optical flow. Our approach corrects the spatial misalignment in the temporal feature propagation stage, greatly improving visual quality and temporal consistency of the inpainted videos. Using the proposed architecture, we achieve state-of-the-art performance on the DAVIS and FVI datasets compared to existing deep learning approaches. Code is available at https://github.com/MaureenZOU/TSAM.
翻訳日:2021-04-09 13:08:38 公開日:2021-04-08
# siam-reid:再識別機能を備えたsiamese tracker

Siam-ReID: Confuser Aware Siamese Tracker with Re-identification Feature ( http://arxiv.org/abs/2104.03510v1 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, Andreas Savakis, Michael Braun, Daniel Kubacki, Ethan Dell, Lei Qian, Sean M. O'Rourke(参考訳) シームズディープネットワークトラッカーは、リアルタイムの速度と最先端の性能のために近年大きな注目を集めている。 しかし、シームズ・トラッカーは、空中画像でよく見られる類似したコンフューザーに悩まされ、トラッカー・オブジェクトが異なるポーズと照明の下で再出現する長い閉塞により、困難な状況に陥る。 本研究は,シアーム追跡者のための新しい再同定フレームワーク siamreid を提案する。 再識別機能は三重項損失とクラスバランス損失の両方を用いて訓練される。 提案手法は,UAVDT単体追跡ベンチマークにおける最先端性能を実現する。

Siamese deep-network trackers have received significant attention in recent years due to their real-time speed and state-of-the-art performance. However, Siamese trackers suffer from similar looking confusers, that are prevalent in aerial imagery and create challenging conditions due to prolonged occlusions where the tracker object re-appears under different pose and illumination. Our work proposes SiamReID, a novel re-identification framework for Siamese trackers, that incorporates confuser rejection during prolonged occlusions and is well-suited for aerial tracking. The re-identification feature is trained using both triplet loss and a class balanced loss. Our approach achieves state-of-the-art performance in the UAVDT single object tracking benchmark.
翻訳日:2021-04-09 13:08:21 公開日:2021-04-08
# TokenPose: 人間の視点推定のためのキーポイントトークンの学習

TokenPose: Learning Keypoint Tokens for Human Pose Estimation ( http://arxiv.org/abs/2104.03516v1 )

ライセンス: Link先を確認
Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang, Shu-Tao Xia, Erjin Zhou(参考訳) 人間のポーズ推定は、キーポイントを見つけるために部品間の視覚的手がかりと解剖学的制約に深く依存する。 しかし、既存のcnnベースのメソッドの多くは視覚的表現に優れており、キーポイント間の制約関係を明示的に学習する能力が欠けている。 本稿では,人間のポーズ推定のためのトークン表現(tokenpose)に基づく新しい手法を提案する。 詳しくは、各キーポイントは、画像から制約関係と外観手がかりを同時に学習するトークンとして明示的に埋め込まれている。 広範な実験により、小規模および大規模のトークンポスモデルは、より軽量である一方で、最先端のcnnベースのモデルと同等であることが示された。 具体的には、TokenPose-S と TokenPose-L はそれぞれ 72.5 AP と 75.8 AP を COCO 検証データセット上で達成し、パラメータ (\textcolor{red}{ $\downarrow 80.6\%$} 、 \textcolor{red}{$\downarrow$ 5,6.8\%$} ) と GFLOPs (\textcolor{red}{$\downarrow$ 75.3\%$} 、 \textcolor{red}{$\downarrow$ $24.7\%$} が大幅に削減された。

Human pose estimation deeply relies on visual clues and anatomical constraints between parts to locate keypoints. Most existing CNN-based methods do well in visual representation, however, lacking in the ability to explicitly learn the constraint relationships between keypoints. In this paper, we propose a novel approach based on Token representation for human Pose estimation~(TokenPose). In detail, each keypoint is explicitly embedded as a token to simultaneously learn constraint relationships and appearance cues from images. Extensive experiments show that the small and large TokenPose models are on par with state-of-the-art CNN-based counterparts while being more lightweight. Specifically, our TokenPose-S and TokenPose-L achieve 72.5 AP and 75.8 AP on COCO validation dataset respectively, with significant reduction in parameters (\textcolor{red}{ $\downarrow80.6\%$} ; \textcolor{red}{$\downarrow$ $56.8\%$}) and GFLOPs (\textcolor{red}{$\downarrow$$ 75.3\%$}; \textcolor{red}{$\downarrow$ $24.7\%$}).
翻訳日:2021-04-09 13:08:09 公開日:2021-04-08
# 相関学習による複数物体追跡

Multiple Object Tracking with Correlation Learning ( http://arxiv.org/abs/2104.03541v1 )

ライセンス: Link先を確認
Qiang Wang, Yun Zheng, Pan Pan, Yinghui Xu(参考訳) 近年の研究では、畳み込みネットワークは、検出と外観の特徴を同時に学習することにより、複数の物体追跡の性能を大幅に改善した。 しかし、畳み込みネットワーク構造自体の局所的な認識のため、空間的および時間的両方の長距離依存を効率的に得ることはできない。 空間配置を組み込むために, 局所相関モジュールを用いて対象と周囲の環境のトポロジカルな関係をモデル化し, 混み合った場面におけるモデルの識別力を高めることを提案する。 具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。 時間的文脈を活用するために、既存のアプローチでは2つ以上の隣接フレームを使用して拡張された特徴表現を構築するが、動的モーションシーンは本質的にCNNを通しての描写が困難である。 そこで本論文では,異なる層における畳み込み特徴マップ上でフレーム対フレームマッチングを確立するための学習可能な相関演算子を提案する。 提案手法は,MOTデータセットの大規模な実験結果により,相関学習と優れた性能の相関学習の有効性を示し,MOT17では76.5%,IDF1では73.6%の最先端MOTAが得られる。

Recent works have shown that convolutional networks have substantially improved the performance of multiple object tracking by simultaneously learning detection and appearance features. However, due to the local perception of the convolutional network structure itself, the long-range dependencies in both the spatial and temporal cannot be obtained efficiently. To incorporate the spatial layout, we propose to exploit the local correlation module to model the topological relationship between targets and their surrounding environment, which can enhance the discriminative power of our model in crowded scenes. Specifically, we establish dense correspondences of each spatial location and its context, and explicitly constrain the correlation volumes through self-supervised learning. To exploit the temporal context, existing approaches generally utilize two or more adjacent frames to construct an enhanced feature representation, but the dynamic motion scene is inherently difficult to depict via CNNs. Instead, our paper proposes a learnable correlation operator to establish frame-to-frame matches over convolutional feature maps in the different layers to align and propagate temporal context. With extensive experimental results on the MOT datasets, our approach demonstrates the effectiveness of correlation learning with the superior performance and obtains state-of-the-art MOTA of 76.5% and IDF1 of 73.6% on MOT17.
翻訳日:2021-04-09 13:07:37 公開日:2021-04-08
# 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit

1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit ( http://arxiv.org/abs/2104.03544v1 )

ライセンス: Link先を確認
Qiyao Wang, Pengfei Li, Li Zhu, Yi Niu(参考訳) 本稿では,icdar 2021におけるロバスト・リーディング・チャレンジ - 集積回路テキストスポッティングと審美評価 (icdar rrc-ictext 2021) のための提案手法を提案する。 テキストスポッティングタスクでは、集積回路上の文字を検出し、ヨロフ5検出モデルに基づいて分類する。 シンセテキスト,生成データ,データサンプルを用いて,小文字と非小文字のバランスをとる。 半教師付きアルゴリズムと蒸留を用いてモデルの精度をさらに向上する。 審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。 最後に,NVIDIA Tensorrtに基づく推論速度の高速化とメモリ消費の削減を目的としたモデル展開を行う。 タスク3.1では31fps,306mメモリ(rank1),タスク3.2では78.7\%f2スコア,30fpsでは306mメモリ(rank1)で59.1マップを実現する。

This paper presents our proposed methods to ICDAR 2021 Robust Reading Challenge - Integrated Circuit Text Spotting and Aesthetic Assessment (ICDAR RRC-ICTEXT 2021). For the text spotting task, we detect the characters on integrated circuit and classify them based on yolov5 detection model. We balance the lowercase and non-lowercase by using SynthText, generated data and data sampler. We adopt semi-supervised algorithm and distillation to furtherly improve the model's accuracy. For the aesthetic assessment task, we add a classification branch of 3 classes to differentiate the aesthetic classes of each character. Finally, we make model deployment to accelerate inference speed and reduce memory consumption based on NVIDIA Tensorrt. Our methods achieve 59.1 mAP on task 3.1 with 31 FPS and 306M memory (rank 1), 78.7\% F2 score on task 3.2 with 30 FPS and 306M memory (rank 1).
翻訳日:2021-04-09 13:07:15 公開日:2021-04-08
# ASFlow:適応ピラミッドサンプリングによる教師なし光フロー学習

ASFlow: Unsupervised Optical Flow Learning with Adaptive Pyramid Sampling ( http://arxiv.org/abs/2104.03560v1 )

ライセンス: Link先を確認
Kunming Luo, Ao Luo, Chuan Wang, Haoqiang Fan, Shuaicheng Liu(参考訳) 深層ピラミッドネットワークにおける適応型ピラミッドサンプリングを提案することにより,教師なし光フロー推定手法を提案する。 具体的には、ピラミッドダウンサンプリングにおいて、クロスリージョンプールを回避し、局所的な特徴収集を促進するContent Aware Pooling (CAP)モジュールを提案する。 ピラミッドアップサンプリングでは, クロスエッジ補間を回避し, 鋭い動き境界を生み出す適応フローアップサンプリング (AFU) モジュールを提案する。 MPI-SIntel, KITTI 2012, KITTI 2015 など,複数の主要なベンチマークにおいて, 教師なし光フロー推定の最適性能を実現する。 KITTI 2012 では EPE=1.5 と F1=9.67% KITTI 2015 がそれぞれ 16.7% と 13.1% を上回りました。

We present an unsupervised optical flow estimation method by proposing an adaptive pyramid sampling in the deep pyramid network. Specifically, in the pyramid downsampling, we propose an Content Aware Pooling (CAP) module, which promotes local feature gathering by avoiding cross region pooling, so that the learned features become more representative. In the pyramid upsampling, we propose an Adaptive Flow Upsampling (AFU) module, where cross edge interpolation can be avoided, producing sharp motion boundaries. Equipped with these two modules, our method achieves the best performance for unsupervised optical flow estimation on multiple leading benchmarks, including MPI-SIntel, KITTI 2012 and KITTI 2015. Particuarlly, we achieve EPE=1.5 on KITTI 2012 and F1=9.67% KITTI 2015, which outperform the previous state-of-the-art methods by 16.7% and 13.1%, respectively.
翻訳日:2021-04-09 13:06:55 公開日:2021-04-08
# PQA: 知覚的質問回答

PQA: Perceptual Question Answering ( http://arxiv.org/abs/2104.03589v1 )

ライセンス: Link先を確認
Yonggang Qi, Kai Zhang, Aneeshan Sain, Yi-Zhe Song(参考訳) 知覚的組織は、人間の視覚システムに関する数少ない確立された理論の1つである。 この研究は、セグメンテーションと検出に関する多くの深層的研究の基盤となったが、深層モデルの学習への優先的なシフト以降、研究は急速に減少している。 制限された試みのうち、ほとんどが知覚的な組織ルールを用いて複雑な視覚シーンを解釈することを目的としていた。 しかし、モデルが実世界の画像の視覚的複雑さを効果的に捉えられなかったため、これは最適でないことが証明されている。 本稿では,2つの位置変化を提唱することで,知覚的組織の研究を振り返る。 (i) 複雑な実画像の代わりに意図的に生成された合成データを調べ, (ii) 既存のデータを説明するのではなく, 新たな知覚的価値パターンの合成を機械に依頼する。 私たちの全体的な答えは、新しい視覚的挑戦、知覚的質問応答(PQA)の挑戦の導入にあります。 PQAのゴールは、知覚的質問対を観察する際に、スクラッチから答えを全て生成することで、同様の問題を解くことである(図1参照)。 したがって、我々の最初の貢献は知覚的質問応答ペアの最初のデータセットであり、それぞれが特定のゲシュタルト原理のために特別に生成される。 次に,人間心理学からの洞察を借りて,知覚的組織を自己発見問題として位置づけるエージェントを設計し,提案するグリッド・ツー・グリッドマッピングネットワークがスクラッチから解答パターンを直接生成する。 実験により, エージェントはナイーブと強固なベースラインの選択に勝ることを示した。 しかし、人間による研究では、平均的な人間と比べて天文学的により多くのデータを使って学習していることを示している。

Perceptual organization remains one of the very few established theories on the human visual system. It underpinned many pre-deep seminal works on segmentation and detection, yet research has seen a rapid decline since the preferential shift to learning deep models. Of the limited attempts, most aimed at interpreting complex visual scenes using perceptual organizational rules. This has however been proven to be sub-optimal, since models were unable to effectively capture the visual complexity in real-world imagery. In this paper, we rejuvenate the study of perceptual organization, by advocating two positional changes: (i) we examine purposefully generated synthetic data, instead of complex real imagery, and (ii) we ask machines to synthesize novel perceptually-valid patterns, instead of explaining existing data. Our overall answer lies with the introduction of a novel visual challenge -- the challenge of perceptual question answering (PQA). Upon observing example perceptual question-answer pairs, the goal for PQA is to solve similar questions by generating answers entirely from scratch (see Figure 1). Our first contribution is therefore the first dataset of perceptual question-answer pairs, each generated specifically for a particular Gestalt principle. We then borrow insights from human psychology to design an agent that casts perceptual organization as a self-attention problem, where a proposed grid-to-grid mapping network directly generates answer patterns from scratch. Experiments show our agent to outperform a selection of naive and strong baselines. A human study however indicates that ours uses astronomically more data to learn when compared to an average human, necessitating future research (with or without our dataset).
翻訳日:2021-04-09 13:06:37 公開日:2021-04-08
# VQAの共振パターンはどのように転送可能か?

How Transferable are Reasoning Patterns in VQA? ( http://arxiv.org/abs/2104.03656v1 )

ライセンス: Link先を確認
Corentin Kervadec, Theo Jaunet, Grigory Antipov, Moez Baccouche, Romain Vuillemot and Christian Wolf(参考訳) 当初から、VQA(Visual Question Answering)はタスクとして知られており、モデルがデータセットのバイアスを利用してハイレベルな推論を行う代わりにショートカットを見つける傾向にある。 古典的な手法では、トレーニングデータからバイアスを取り除くか、バイアスを検出して取り除くためにモデルに分岐を追加することでこれに対処する。 本稿では,視覚における不確実性は,視覚と言語の問題における推論の学習が成功するのを妨げる要因であると主張する。 視覚託宣を訓練し、大規模な研究では、標準モデルに比べてデータセットバイアスの急激な利用がはるかに少ないという実験的な証拠を提供する。 我々は,ビジュアル・オラクルで作業中の注意機構を調査し,それをsomaトランスフォーマモデルと比較する。 オンラインビジュアライゼーションツールで得られた推論パターンの詳細な分析と可視化を提供する(https://reasoningpatterns.github.io)。 我々はこれらの知見を,オーラルからSOTAトランスフォーマーベースのVQAモデルへの推論パターンの転送により活用する。 実験では,各質問タイプ毎の頻繁な回答の精度が向上し,一般化が向上し,データセットバイアスへの依存度が低下する証拠が得られた。

Since its inception, Visual Question Answering (VQA) is notoriously known as a task, where models are prone to exploit biases in datasets to find shortcuts instead of performing high-level reasoning. Classical methods address this by removing biases from training data, or adding branches to models to detect and remove biases. In this paper, we argue that uncertainty in vision is a dominating factor preventing the successful learning of reasoning in vision and language problems. We train a visual oracle and in a large scale study provide experimental evidence that it is much less prone to exploiting spurious dataset biases compared to standard models. We propose to study the attention mechanisms at work in the visual oracle and compare them with a SOTA Transformer-based model. We provide an in-depth analysis and visualizations of reasoning patterns obtained with an online visualization tool which we make publicly available (https://reasoningpatterns.github.io). We exploit these insights by transferring reasoning patterns from the oracle to a SOTA Transformer-based VQA model taking standard noisy visual inputs via fine-tuning. In experiments we report higher overall accuracy, as well as accuracy on infrequent answers for each question type, which provides evidence for improved generalization and a decrease of the dependency on dataset biases.
翻訳日:2021-04-09 13:06:08 公開日:2021-04-08
# DSC-PoseNet:Dual-scale Consistencyによる6DoFオブジェクトポス推定学習

DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency ( http://arxiv.org/abs/2104.03658v1 )

ライセンス: Link先を確認
Zongxin Yang, Xin Yu, Yi Yang(参考訳) 2Dオブジェクトバウンディングボックスラベリングと比較して、特にシーンの奥行き画像が利用できない場合、人間が3Dオブジェクトのポーズをアノテートすることは極めて困難である。 本稿では,RGB画像と2次元オブジェクトアノテーションのみを付与した場合に,オブジェクトのポーズを効果的に推定できるかどうかを検討する。 そこで本稿では,2dオブジェクトバウンディングボックスから6dofオブジェクトのポーズを得るための2段階ポーズ推定フレームワークを提案する。 最初のステップでは、フレームワークは、オブジェクトを実データや合成データから弱い教師付きで分割することを学び、セグメンテーションマスクはポーズ推定の先行として機能する。 第2のステップでは,dsc-posenetと呼ばれる2次元ポーズ推定ネットワークを設計し,差分レンダラを用いて物体のポーズを予測する。 具体的に言うと、DSC-PoseNetはまず、セグメンテーションマスクと可視化されたオブジェクトマスクを比較して、元の画像スケールでオブジェクトのポーズを予測する。 そして、再びポーズを見積もるために、オブジェクト領域を一定のスケールにリサイズします。 この方法では, 大規模変動を排除し, 回転推定に焦点を合わせ, ポーズ推定を容易にする。 さらに,初期ポーズ推定を用いて疑似接地真実を生成し,自己教師あり方式でdsc-posenetを訓練する。 これら2つの尺度における推定結果は、最終ポーズ推定としてまとめられる。 広範に使用されているベンチマーク実験により, 提案手法は, 合成データ上で訓練された最先端モデルよりも高い性能を示し, 完全教師付き手法と同等であることがわかった。

Compared to 2D object bounding-box labeling, it is very difficult for humans to annotate 3D object poses, especially when depth images of scenes are unavailable. This paper investigates whether we can estimate the object poses effectively when only RGB images and 2D object annotations are given. To this end, we present a two-step pose estimation framework to attain 6DoF object poses from 2D object bounding-boxes. In the first step, the framework learns to segment objects from real and synthetic data in a weakly-supervised fashion, and the segmentation masks will act as a prior for pose estimation. In the second step, we design a dual-scale pose estimation network, namely DSC-PoseNet, to predict object poses by employing a differential renderer. To be specific, our DSC-PoseNet firstly predicts object poses in the original image scale by comparing the segmentation masks and the rendered visible object masks. Then, we resize object regions to a fixed scale to estimate poses once again. In this fashion, we eliminate large scale variations and focus on rotation estimation, thus facilitating pose estimation. Moreover, we exploit the initial pose estimation to generate pseudo ground-truth to train our DSC-PoseNet in a self-supervised manner. The estimation results in these two scales are ensembled as our final pose estimation. Extensive experiments on widely-used benchmarks demonstrate that our method outperforms state-of-the-art models trained on synthetic data by a large margin and even is on par with several fully-supervised methods.
翻訳日:2021-04-09 13:05:47 公開日:2021-04-08
# Piecewise Linear Unit を用いた特殊アクティベーション関数の学習

Learning specialized activation functions with the Piecewise Linear Unit ( http://arxiv.org/abs/2104.03693v1 )

ライセンス: Link先を確認
Yucong Zhou, Zezhou Zhu, Zhao Zhong(参考訳) アクティベーション関数の選択は、現代のディープニューラルネットワークにとって不可欠である。 Rectified Linear Unit(ReLU)などの手作業で設計されたアクティベーション関数は、様々なタスクやモデルで有望なパフォーマンスを示す。 自動検出アクティベーション関数であるswishが提案され、多くの挑戦的なデータセットでreluを上回っている。 しかし、主な欠点は2つある。 第一に、木に基づく探索空間は高度に離散的で制限され、探索は困難である。 第二に、サンプルベースの探索法は非効率であり、データセットやニューラルアーキテクチャごとに特別なアクティベーション関数を見つけることは不可能である。 これらの欠点に対処するために、慎重に設計された定式化と学習手法を組み込んだPiecewise Linear Unit(PWLU)と呼ばれる新しいアクティベーション関数を提案する。 特別なアクティベーション関数を学習し、ImageNetやCOCOといった大規模データセット上でSOTAパフォーマンスを達成することができる。 例えば、ImageNet分類データセットでは、PWLUはResNet-18/ResNet-50/MobileNet-V2/MobileNet-V3/EfficientNet-B0のSwishよりも0.9%/0.53%/1.0%/1.7%/1.0%トップ-1精度を改善している。 PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。

The choice of activation functions is crucial for modern deep neural networks. Popular hand-designed activation functions like Rectified Linear Unit(ReLU) and its variants show promising performance in various tasks and models. Swish, the automatically discovered activation function, has been proposed and outperforms ReLU on many challenging datasets. However, it has two main drawbacks. First, the tree-based search space is highly discrete and restricted, which is difficult for searching. Second, the sample-based searching method is inefficient, making it infeasible to find specialized activation functions for each dataset or neural architecture. To tackle these drawbacks, we propose a new activation function called Piecewise Linear Unit(PWLU), which incorporates a carefully designed formulation and learning method. It can learn specialized activation functions and achieves SOTA performance on large-scale datasets like ImageNet and COCO. For example, on ImageNet classification dataset, PWLU improves 0.9%/0.53%/1.0%/1.7%/1.0% top-1 accuracy over Swish for ResNet-18/ResNet-50/MobileNet-V2/MobileNet-V3/EfficientNet-B0. PWLU is also easy to implement and efficient at inference, which can be widely applied in real-world applications.
翻訳日:2021-04-09 13:05:17 公開日:2021-04-08
# ハイパースペクトル画像分類のためのロバスト自己組立ネットワーク

Robust Self-Ensembling Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2104.03765v1 )

ライセンス: Link先を確認
Yonghao Xu, Bo Du, and Liangpei Zhang(参考訳) 近年の研究では、ハイパースペクトル画像(HSI)分類タスクにおけるディープラーニングアルゴリズムの大きな可能性を示している。 しかしながら、これらのモデルのトレーニングは通常、大量のラベル付きデータを必要とする。 HSI用のピクセルレベルのアノテーションの収集は手間と時間を要するため、小さなサンプルサイズで優れた性能が得られるアルゴリズムを開発することは非常に重要である。 本研究では,この問題に対処する頑健な自己認識ネットワーク(RSEN)を提案する。 提案するrsenは,ベースネットワークとアンサンブルネットワークを含む2つのサブネットワークで構成されている。 ラベル付きデータからの教師付き損失とラベル付きデータからの教師なし損失の両方の制約により、ベースネットワークとアンサンブルネットワークは相互に学習し、自己センシング機構を実現することができる。 提案手法は,hsi分類タスクに自己センシング技術を導入する最初の試みであり,ネットワークトレーニングを支援するためにhsiのラベルなしデータを利用する方法について異なる視点を提供する。 さらに,自己センシング学習のロバスト性を高めるための新しい一貫性フィルタを提案する。 3つのベンチマークHSIデータセットの大規模な実験により、提案アルゴリズムは最先端の手法と比較して競合性能が得られることを示した。

Recent research has shown the great potential of deep learning algorithms in the hyperspectral image (HSI) classification task. Nevertheless, training these models usually requires a large amount of labeled data. Since the collection of pixel-level annotations for HSI is laborious and time-consuming, developing algorithms that can yield good performance in the small sample size situation is of great significance. In this study, we propose a robust self-ensembling network (RSEN) to address this problem. The proposed RSEN consists of two subnetworks including a base network and an ensemble network. With the constraint of both the supervised loss from the labeled data and the unsupervised loss from the unlabeled data, the base network and the ensemble network can learn from each other, achieving the self-ensembling mechanism. To the best of our knowledge, the proposed method is the first attempt to introduce the self-ensembling technique into the HSI classification task, which provides a different view on how to utilize the unlabeled data in HSI to assist the network training. We further propose a novel consistency filter to increase the robustness of self-ensembling learning. Extensive experiments on three benchmark HSI datasets demonstrate that the proposed algorithm can yield competitive performance compared with the state-of-the-art methods.
翻訳日:2021-04-09 13:04:55 公開日:2021-04-08
# モノクロ3次元物体検出のための幾何学的距離分解

Geometry-based Distance Decomposition for Monocular 3D Object Detection ( http://arxiv.org/abs/2104.03775v1 )

ライセンス: Link先を確認
Xuepeng Shi, Qi Ye, Xiaozhi Chen, Chuangrong Chen, Zhixiang Chen, Tae-Kyun Kim(参考訳) モノクロ3D物体検出は自動運転にとって非常に重要であるが、依然として困難である。 主な課題は、明示的な深度情報がない場合の物体の距離を予測することである。 既存のほとんどの手法では距離を単一変数として回帰するのとは異なり、新しい幾何学に基づく距離分解法を提案する。 分解因子は、最も代表的かつ安定な変数、すなわち、オブジェクトの距離を分解する。 画像平面の物理的高さと投影された視覚高さ。 さらに, この分解は, 2つの高さ間の自己一貫性を保ち, 両者が不正確な場合のロバストな距離予測に繋がる。 この分解により、異なるシナリオにおける距離の不確実性の原因を追跡できる。 このような分解は距離予測を解釈可能、正確、堅牢にする。 提案手法は,RGB画像からの3次元境界ボックスをコンパクトなアーキテクチャで直接予測し,学習と推論をシンプルかつ効率的にする。 実験の結果,KITTIデータセット上での単眼3次元物体検出と鳥眼視タスクの最先端性能を実現し,異なるカメラ固有の画像に一般化できることが示唆された。

Monocular 3D object detection is of great significance for autonomous driving but remains challenging. The core challenge is to predict the distance of objects in the absence of explicit depth information. Unlike regressing the distance as a single variable in most existing methods, we propose a novel geometry-based distance decomposition to recover the distance by its factors. The decomposition factors the distance of objects into the most representative and stable variables, i.e. the physical height and the projected visual height in the image plane. Moreover, the decomposition maintains the self-consistency between the two heights, leading to the robust distance prediction when both predicted heights are inaccurate. The decomposition also enables us to trace the cause of the distance uncertainty for different scenarios. Such decomposition makes the distance prediction interpretable, accurate, and robust. Our method directly predicts 3D bounding boxes from RGB images with a compact architecture, making the training and inference simple and efficient. The experimental results show that our method achieves the state-of-the-art performance on the monocular 3D Object detection and Birds Eye View tasks on the KITTI dataset, and can generalize to images with different camera intrinsics.
翻訳日:2021-04-09 13:04:36 公開日:2021-04-08
# Affine-modeled video extract from a single motion blurred image

Affine-modeled video extraction from a single motion blurred image ( http://arxiv.org/abs/2104.03777v1 )

ライセンス: Link先を確認
Daoyu Li, Liheng Bian, and Jun Zhang(参考訳) モーションブルー画像は露光時間における複数のシャープフレームの時間平均である。 これらのシャープなビデオフレームを単一のぼやけた画像から復元することは、その強い不適切さだけでなく、回転や深度での運動といった現実における様々な複雑な動きによって、非自明である。 本稿では,アフィン運動モデルを用いた一般化された映像抽出法について述べる。 そのワークフローでは、動くオブジェクトはアルファチャネルで最初にセジメントされる。 これにより、異なる動きの異なる物体を分離して回収することができる。 次に、各ビデオクリップを参照フレームの一連のアフィン変換としてモデル化することにより、可変空間を縮小し、リングアーティファクトを減衰させるために、$l0$-normの総変分正規化を導入する。 微分可能なアフィン作用素はアフィンモデルの勾配-蛍光最適化を実現するために用いられ、これはアーティファクトをさらに削減するための新しい粗大な戦略に従う。 その結果、アフィンパラメータとシャープ参照画像の両方が検索される。 最終的にステップワイズアフィン変換に入力され、シャープなビデオフレームを復元する。 ステップワイズ検索はフレームオーダーの曖昧さをバイパスする性質を維持する。 公開データセットと実際のキャプチャデータの両方の実験は、報告されたテクニックの最先端のパフォーマンスを検証する。

A motion-blurred image is the temporal average of multiple sharp frames over the exposure time. Recovering these sharp video frames from a single blurred image is nontrivial, due to not only its strong ill-posedness, but also various types of complex motion in reality such as rotation and motion in depth. In this work, we report a generalized video extraction method using the affine motion modeling, enabling to tackle multiple types of complex motion and their mixing. In its workflow, the moving objects are first segemented in the alpha channel. This allows separate recovery of different objects with different motion. Then, we reduce the variable space by modeling each video clip as a series of affine transformations of a reference frame, and introduce the $l0$-norm total variation regularization to attenuate the ringing artifact. The differentiable affine operators are employed to realize gradient-descent optimization of the affine model, which follows a novel coarse-to-fine strategy to further reduce artifacts. As a result, both the affine parameters and sharp reference image are retrieved. They are finally input into stepwise affine transformation to recover the sharp video frames. The stepwise retrieval maintains the nature to bypass the frame order ambiguity. Experiments on both public datasets and real captured data validate the state-of-the-art performance of the reported technique.
翻訳日:2021-04-09 13:04:17 公開日:2021-04-08
# ロバスト微分可能SVD

Robust Differentiable SVD ( http://arxiv.org/abs/2104.03821v1 )

ライセンス: Link先を確認
Wei Wang, Zheng Dang, Yinlin Hu, Pascal Fua and Mathieu Salzmann(参考訳) 対称行列の固有分解は多くのコンピュータビジョンアルゴリズムの中心にある。 しかし、固有ベクトルの微分は数値的に不安定である傾向があり、SVDを用いて解析的に計算するか、パワーイテレーション(PI)法を用いて近似する。 この不安定性は互いに近い固有値の存在によって生じる。 これにより、固有分解をディープネットワークに組み込むことが難しくなり、特に大きな行列を扱う場合、しばしば収束が低下する。 これは、データを小さな任意のグループに分割することで緩和できるが、理論的根拠がなく、固有分解の全力を活用できない。 これまでの研究では,前方通過時のSVDと後方通過時の勾配を計算するためにPIを用いてこれを緩和した。 しかし、PIを用いて複数の固有ベクトルを計算するのに必要な反復デフレ手順は誤りを蓄積し、不正確な勾配をもたらす傾向にある。 ここでは, SVD勾配のテイラー展開が, 反復過程に頼らずにPIを用いて得られる勾配と理論的に等価であることを示し, より正確な勾配を得る。 この精度の向上による画像分類とスタイル転送の利点を実証する。

Eigendecomposition of symmetric matrices is at the heart of many computer vision algorithms. However, the derivatives of the eigenvectors tend to be numerically unstable, whether using the SVD to compute them analytically or using the Power Iteration (PI) method to approximate them. This instability arises in the presence of eigenvalues that are close to each other. This makes integrating eigendecomposition into deep networks difficult and often results in poor convergence, particularly when dealing with large matrices. While this can be mitigated by partitioning the data into small arbitrary groups, doing so has no theoretical basis and makes it impossible to exploit the full power of eigendecomposition. In previous work, we mitigated this using SVD during the forward pass and PI to compute the gradients during the backward pass. However, the iterative deflation procedure required to compute multiple eigenvectors using PI tends to accumulate errors and yield inaccurate gradients. Here, we show that the Taylor expansion of the SVD gradient is theoretically equivalent to the gradient obtained using PI without relying in practice on an iterative process and thus yields more accurate gradients. We demonstrate the benefits of this increased accuracy for image classification and style transfer.
翻訳日:2021-04-09 13:03:55 公開日:2021-04-08
# CoCoNets: 連続したコントラスト3Dシーン表現

CoCoNets: Continuous Contrastive 3D Scene Representations ( http://arxiv.org/abs/2104.03851v1 )

ライセンス: Link先を確認
Shamit Lal, Mihir Prabhudesai, Ishita Mediratta, Adam W. Harley, Katerina Fragkiadaki(参考訳) 本稿では,RGB と RGB-D の提示した画像と映像からのアモーダル3次元特徴表現の自己教師付き学習,オブジェクトやシーンのセマンティックコンテンツへの依存,および視覚的対応,オブジェクト追跡,オブジェクト検出といった下流タスクにおけるシーン表現の評価を行う。 このモデルは、3D特徴点の形でシーンの潜在3D表現を推論し、各連続世界3D点を対応する特徴ベクトルにマッピングする。 このモデルは、クエリビューから予測される3D特徴点クラウドとマッチングし、クエリビューで予測される3D特徴点クラウドをレンダリングすることで、コントラスト的なビュー予測のために訓練される。 特に、この表現は入力ビューから見えなくても、任意の3Dロケーションに対してクエリすることができる。 我々のモデルは、最近のエキサイティングな研究の3つの強力なアイデアをまとめている。ビュー予測のための神経的ボトルネックとしての3D特徴格子、3Dグリッドの解像度制限を扱う暗黙の関数、特徴表現の教師なしトレーニングのための対照的な学習である。 得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。 我々は,3次元グリッド空間分解能に制限された3次元特徴学習とビュー予測の既存手法よりも優れており,アモーダルな3次元表現を構築しようとしなかったり,非畳み込みボトルネックによる組み合わせシーンの変動に対処しなかったりしている。

This paper explores self-supervised learning of amodal 3D feature representations from RGB and RGB-D posed images and videos, agnostic to object and scene semantic content, and evaluates the resulting scene representations in the downstream tasks of visual correspondence, object tracking, and object detection. The model infers a latent3D representation of the scene in the form of 3D feature points, where each continuous world 3D point is mapped to its corresponding feature vector. The model is trained for contrastive view prediction by rendering 3D feature clouds in queried viewpoints and matching against the 3D feature point cloud predicted from the query view. Notably, the representation can be queried for any 3D location, even if it is not visible from the input view. Our model brings together three powerful ideas of recent exciting research work: 3D feature grids as a neural bottleneck for view prediction, implicit functions for handling resolution limitations of 3D grids, and contrastive learning for unsupervised training of feature representations. We show the resulting 3D visual feature representations effectively scale across objects and scenes, imagine information occluded or missing from the input viewpoints, track objects over time, align semantically related objects in 3D, and improve 3D object detection. We outperform many existing state-of-the-art methods for 3D feature learning and view prediction, which are either limited by 3D grid spatial resolution, do not attempt to build amodal 3D representations, or do not handle combinatorial scene variability due to their non-convolutional bottlenecks.
翻訳日:2021-04-09 13:03:38 公開日:2021-04-08
# SMD-Nets: ステレオ混合密度ネットワーク

SMD-Nets: Stereo Mixture Density Networks ( http://arxiv.org/abs/2104.03866v1 )

ライセンス: Link先を確認
Fabio Tosi, Yiyi Liao, Carolin Schmitt, Andreas Geiger(参考訳) ステレオマッチングの精度はここ数年でディープラーニングによって大幅に向上したが、シャープな境界と高解像度の出力の回復は依然として困難である。 本稿では,2dおよび3dアーキテクチャの幅広いクラスに対応可能な,単純かつ効果的な学習フレームワークであるステレオ混合密度ネットワーク(smd-nets)を提案する。 具体的には, バイモーダル混合密度を出力表現として活用し, 観測結果に内在する有理不確かさを明示的にモデル化しながら, 不連続近傍の鋭く正確な不一致推定を可能にすることを示す。 さらに,画像領域における不一致推定を連続問題として定式化し,任意の空間精度で不一致を問合せする。 我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。 実験では,物体境界付近での深度精度の向上と,標準GPU上の超高分解能不均一マップの予測を行った。 各種ステレオバックボーンの性能を向上することにより,本手法の柔軟性を実証する。

Despite stereo matching accuracy has greatly improved by deep learning in the last few years, recovering sharp boundaries and high-resolution outputs efficiently remains challenging. In this paper, we propose Stereo Mixture Density Networks (SMD-Nets), a simple yet effective learning framework compatible with a wide class of 2D and 3D architectures which ameliorates both issues. Specifically, we exploit bimodal mixture densities as output representation and show that this allows for sharp and precise disparity estimates near discontinuities while explicitly modeling the aleatoric uncertainty inherent in the observations. Moreover, we formulate disparity estimation as a continuous problem in the image domain, allowing our model to query disparities at arbitrary spatial precision. We carry out comprehensive experiments on a new high-resolution and highly realistic synthetic stereo dataset, consisting of stereo pairs at 8Mpx resolution, as well as on real-world stereo datasets. Our experiments demonstrate increased depth accuracy near object boundaries and prediction of ultra high-resolution disparity maps on standard GPUs. We demonstrate the flexibility of our technique by improving the performance of a variety of stereo backbones.
翻訳日:2021-04-09 13:03:07 公開日:2021-04-08
# 複数の劣化を伴うブラインド超解法のための条件付きメタネットワーク

Conditional Meta-Network for Blind Super-Resolution with Multiple Degradations ( http://arxiv.org/abs/2104.03926v1 )

ライセンス: Link先を確認
Guanghao Yin, Wei Wang, Zehuan Yuan, Shouqian Sun, Changhu Wang(参考訳) 単一画像の超解像法(SISR)は単一劣化において大きな成功を収めているが、実際のシナリオでは複数の劣化効果で性能低下を被っている。 近年,複数の劣化に対する盲目および非盲目モデルが検討されている。 しかし、これらの手法は通常、トレーニングデータとテストデータの間の分散シフトに対して著しく劣化する。 この目的に向けて,SRフレームワークが入力分布の変化に適応する方法を学ぶのに役立つ条件付きメタネットワークフレームワーク(CMDSR)を初めて提案する。 本稿では,基本SRネットワーク(BaseNet)のパラメータの適応に使用する条件ネットを用いて,タスクレベルでの劣化を抽出する。 具体的には、我々のフレームワークのConditionNetは、最初に、同じタスクから一連の劣化したイメージパッチで構成されたサポートセットから劣化を学習する。 そして、適応的なBaseNetは条件の特徴に応じてパラメータを素早くシフトします。 さらに, 劣化を早期に抽出するために, 内部タスク間距離を減少させ, タスクレベルの機能間のタスク間距離を増加させるタスクコントラスト損失を提案する。 劣化マップを事前に定義しなければ、我々のブラインドフレームワークは1つのパラメータを更新して、かなりのSR結果を得ることができる。 広範囲にわたる実験は、様々な盲目、さらには盲目の方法に対するCMDSRの有効性を示す。 柔軟なBaseNet構造は、CMDSRが大規模なSISRモデルの一般的なフレームワークであることを明らかにする。

Although single-image super-resolution (SISR) methods have achieved great success on single degradation, they still suffer performance drop with multiple degrading effects in real scenarios. Recently, some blind and non-blind models for multiple degradations have been explored. However, those methods usually degrade significantly for distribution shifts between the training and test data. Towards this end, we propose a conditional meta-network framework (named CMDSR) for the first time, which helps SR framework learn how to adapt to changes in input distribution. We extract degradation prior at task-level with the proposed ConditionNet, which will be used to adapt the parameters of the basic SR network (BaseNet). Specifically, the ConditionNet of our framework first learns the degradation prior from a support set, which is composed of a series of degraded image patches from the same task. Then the adaptive BaseNet rapidly shifts its parameters according to the conditional features. Moreover, in order to better extract degradation prior, we propose a task contrastive loss to decrease the inner-task distance and increase the cross-task distance between task-level features. Without predefining degradation maps, our blind framework can conduct one single parameter update to yield considerable SR results. Extensive experiments demonstrate the effectiveness of CMDSR over various blind, even non-blind methods. The flexible BaseNet structure also reveals that CMDSR can be a general framework for large series of SISR models.
翻訳日:2021-04-09 13:02:48 公開日:2021-04-08
# SNARF:非リジッドニューラルインシシット形状のアニメーションのための微分フォワードスキニング

SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes ( http://arxiv.org/abs/2104.03953v1 )

ライセンス: Link先を確認
Xu Chen, Yufeng Zheng, Michael J. Black, Otmar Hilliges, Andreas Geiger(参考訳) ニューラルな暗黙の表面表現は、連続的かつ解像度に依存しない方法で3次元形状をキャプチャするための有望なパラダイムとして登場した。 しかし、それらを明瞭な形に適応させることは非自明である。 既存のアプローチは、正準点に変形した逆ワープ場を学ぶ。 しかし、後方ワープフィールドはポーズに依存するため、学習するには大量のデータを必要とするため、これは問題となる。 そこで本研究では,多角形メッシュに対する線形ブレンドスキン(LBS)の利点とニューラル暗黙表面の利点を,直接の監督なしに前方変形場を学習することによって組み合わせたSNARFを提案する。 この変形場は標準的、ポーズ独立な空間で定義され、見えないポーズを一般化することができる。 変形点の対応は暗黙的に定義され、トポロジーの変化下では一意ではないため、ポーズ付きメッシュから変形場を学ぶことは困難である。 そこで本研究では,任意の変形点の正準対応を反復的ルート探索を用いて発見するフォワードスキニングモデルを提案する。 骨変化を伴う3次元メッシュからエンドツーエンドのトレーニングを可能にする,暗黙的な分化による分析勾配を導出する。 最先端のニューラルネットワークの暗黙的表現と比較すると,このアプローチは,精度を維持しつつ,未認識のポーズを一般化する。 我々は,多様で目立たないポーズの3D人間に挑戦するシナリオにおいて,本手法を実証する。

Neural implicit surface representations have emerged as a promising paradigm to capture 3D shapes in a continuous and resolution-independent manner. However, adapting them to articulated shapes is non-trivial. Existing approaches learn a backward warp field that maps deformed to canonical points. However, this is problematic since the backward warp field is pose dependent and thus requires large amounts of data to learn. To address this, we introduce SNARF, which combines the advantages of linear blend skinning (LBS) for polygonal meshes with those of neural implicit surfaces by learning a forward deformation field without direct supervision. This deformation field is defined in canonical, pose-independent space, allowing for generalization to unseen poses. Learning the deformation field from posed meshes alone is challenging since the correspondences of deformed points are defined implicitly and may not be unique under changes of topology. We propose a forward skinning model that finds all canonical correspondences of any deformed point using iterative root finding. We derive analytical gradients via implicit differentiation, enabling end-to-end training from 3D meshes with bone transformations. Compared to state-of-the-art neural implicit representations, our approach generalizes better to unseen poses while preserving accuracy. We demonstrate our method in challenging scenarios on (clothed) 3D humans in diverse and unseen poses.
翻訳日:2021-04-09 13:02:26 公開日:2021-04-08
# Panoptic Segmentation Forecasting

Panoptic Segmentation Forecasting ( http://arxiv.org/abs/2104.03962v1 )

ライセンス: Link先を確認
Colin Graber and Grace Tsai and Michael Firman and Gabriel Brostow and Alexander Schwing(参考訳) 我々の目標は、最近の観測結果から近い将来の予測を行うことです。 我々は、この予測能力、すなわち予測能力は、観察を受動的に分析するだけでなく、リアルタイムで反応する必要がある自律エージェントの成功に不可欠であると考えている。 重要なことに、選択されたシーン分解に基づいて正確な予測ヒンジが生じる。 動的シーンを個々の「物」と背景の「物」に分解することで、優れた予測が達成できると考えている。 背景の「足」は主にカメラの動きによって動き、前景の「物」はカメラと個々の物体の動きによって動く。 この分解後、panoptic segmentation forecastingを導入する。 パノプティクスのセグメンテーション予測は、インスタンスの軌跡を予測したり、将来の画像フレームの出現を予測する既存の極端間の中間領域を開く。 この課題に対処するために、我々は2成分モデルを開発する。一方のコンポーネントは、オードメトリーを予測して背景物の力学を学習し、もう一方のコンポーネントは検出された物の力学を予測する。 この新しいタスクのリーダーボードを確立し、利用可能なベースラインを上回る最先端のモデルを検証する。

Our goal is to forecast the near future given a set of recent observations. We think this ability to forecast, i.e., to anticipate, is integral for the success of autonomous agents which need not only passively analyze an observation but also must react to it in real-time. Importantly, accurate forecasting hinges upon the chosen scene decomposition. We think that superior forecasting can be achieved by decomposing a dynamic scene into individual 'things' and background 'stuff'. Background 'stuff' largely moves because of camera motion, while foreground 'things' move because of both camera and individual object motion. Following this decomposition, we introduce panoptic segmentation forecasting. Panoptic segmentation forecasting opens up a middle-ground between existing extremes, which either forecast instance trajectories or predict the appearance of future image frames. To address this task we develop a two-component model: one component learns the dynamics of the background stuff by anticipating odometry, the other one anticipates the dynamics of detected things. We establish a leaderboard for this novel task, and validate a state-of-the-art model that outperforms available baselines.
翻訳日:2021-04-09 13:02:00 公開日:2021-04-08
# InfinityGAN:無限解像合成を目指して

InfinityGAN: Towards Infinite-Resolution Image Synthesis ( http://arxiv.org/abs/2104.03963v1 )

ライセンス: Link先を確認
Chieh Hubert Lin, Hsin-Ying Lee, Yen-Chi Cheng, Sergey Tulyakov, Ming-Hsuan Yang(参考訳) 任意の解像度画像を生成するinfinityganを提案する。 この問題はいくつかの重要な課題と関連している。 第一に、既存のモデルを高解像度にスケールすることは、計算と高解像度のトレーニングデータの可用性の両面でリソースに制約される。 Infinity-GANは、低い計算資源とシームレスにパッチ・バイ・パッチを訓練し、推測する。 第二に、大きな画像は局所的でグローバルに一貫性があり、反復的なパターンを避け、リアルに見えるべきである。 これらの問題に対処するために、InfinityGANはグローバルな外観、局所構造、テクスチャを考慮に入れ、この定式化により、これまで達成できなかった解像度とディテールのレベルで画像を生成することができる。 InfinityGANは、並列化可能な推論を特徴とするベースラインよりも優れたグローバル構造を持つ画像を生成する。 最後に, 任意の入力と出力解像度での空間的, マルチモーダルなアウトペインティング, 画像のインタクションなど, 本手法でアンロックされたいくつかのアプリケーションについて述べる。

We present InfinityGAN, a method to generate arbitrary-resolution images. The problem is associated with several key challenges. First, scaling existing models to a high resolution is resource-constrained, both in terms of computation and availability of high-resolution training data. Infinity-GAN trains and infers patch-by-patch seamlessly with low computational resources. Second, large images should be locally and globally consistent, avoid repetitive patterns, and look realistic. To address these, InfinityGAN takes global appearance, local structure and texture into account.With this formulation, we can generate images with resolution and level of detail not attainable before. Experimental evaluation supports that InfinityGAN generates imageswith superior global structure compared to baselines at the same time featuring parallelizable inference. Finally, we how several applications unlocked by our approach, such as fusing styles spatially, multi-modal outpainting and image inbetweening at arbitrary input and output resolutions
翻訳日:2021-04-09 13:01:43 公開日:2021-04-08
# 静止画像からの光流れの学習

Learning optical flow from still images ( http://arxiv.org/abs/2104.03965v1 )

ライセンス: Link先を確認
Filippo Aleotti, Matteo Poggi, Stefano Mattoccia(参考訳) 本稿では,光フローネットワークをトレーニングするためのデータ不足を取り上げ,ラベル付き合成データセットやラベルなし実ビデオなどの既存の情報源の限界を強調する。 具体的には,手軽に利用可能な実画像から高精度な光学フローアノテーションを迅速かつ大量に生成する枠組みを提案する。 画像が与えられた場合、既製の単眼深度推定ネットワークを用いて、観測シーンのための可視点雲を構築する。 そして、カメラを、既知の動きベクトルと回転角で再構成した環境で仮想的に移動させ、入力画像の各画素と新しいフレームの各画素を接続する新しいビューと対応する光フローフィールドを合成する。 我々のデータでトレーニングすると、最新の光学フローネットワークは、注釈付き合成データセットやラベルなしビデオでトレーニングされたのと同じモデルと比較して、実際のデータを見るのに優れた一般化を実現し、合成画像と組み合わせればより優れた特殊化を実現します。

This paper deals with the scarcity of data for training optical flow networks, highlighting the limitations of existing sources such as labeled synthetic datasets or unlabeled real videos. Specifically, we introduce a framework to generate accurate ground-truth optical flow annotations quickly and in large amounts from any readily available single real picture. Given an image, we use an off-the-shelf monocular depth estimation network to build a plausible point cloud for the observed scene. Then, we virtually move the camera in the reconstructed environment with known motion vectors and rotation angles, allowing us to synthesize both a novel view and the corresponding optical flow field connecting each pixel in the input image to the one in the new frame. When trained with our data, state-of-the-art optical flow networks achieve superior generalization to unseen real data compared to the same models trained either on annotated synthetic datasets or unlabeled videos, and better specialization if combined with synthetic images.
翻訳日:2021-04-09 13:01:24 公開日:2021-04-08
# 型付きラムダ計算に基づく対話型シェルの提案

A Proposal for an Interactive Shell Based on a Typed Lambda Calculus ( http://arxiv.org/abs/2104.03678v1 )

ライセンス: Link先を確認
Kouji Matsui(参考訳) 本稿では,対話型シェル置換のためにラムダ計算を前提とした関数型プログラミング言語Favalonを提案する。 Favalonは、型推論、フレキシブルなランタイム型メタデータ、シェルがコマンドをリンクするのと同じテクニックを使用して、既存のライブラリやコマンドの型付きバージョンとシームレスに統合する。 Favalonの構文の多くはユーザ定義関数でカスタマイズ可能で、コマンドラインシェルに精通している人なら誰でも拡張できる。 さらに、favalonの型推論エンジンはランタイムライブラリから分離でき、他のアプリケーションに簡単に再利用できる。

This paper presents Favalon, a functional programming language built on the premise of a lambda calculus for use as an interactive shell replacement. Favalon seamlessly integrates with typed versions of existing libraries and commands using type inference, flexible runtime type metadata, and the same techniques employed by shells to link commands together. Much of Favalon's syntax is customizable via user-defined functions, allowing it to be extended by anyone who is familiar with a command-line shell. Furthermore, Favalon's type inference engine can be separated from its runtime library and easily repurposed for other applications.
翻訳日:2021-04-09 13:01:07 公開日:2021-04-08
# メタファーが政治談話にどう影響するか:ニューラルメタファー検出を用いた大規模トピック非依存研究

How Metaphors Impact Political Discourse: A Large-Scale Topic-Agnostic Study Using Neural Metaphor Detection ( http://arxiv.org/abs/2104.03928v1 )

ライセンス: Link先を確認
Vinodkumar Prabhakaran, Marek Rei, Ekaterina Shutova(参考訳) メタファーは政治的レトリックにおいて効果的なフレーミング装置として広く用いられている。 政治談話における戦争メタファーのような特定のメタファーの有効性は以前にも記録されているが、これらの研究はしばしば少数の手書きのメタファーの使用例に依存している。 大規模なトピックに依存しない研究は、メタファーの汎用的な説得力を確立するために必要であり、その説得力を導く幅広いパターンに光を当てる必要がある。 本稿では,政治的言論におけるメタファーの大規模データ駆動研究について述べる。 この調査は、2017年2月まで、Facebookの公開ページに412人の政治家が投稿した8万5千件以上の投稿の公開データセットで実施する。 Our contributions are threefold: we show evidence that metaphor use correlates with ideological leanings in complex ways that depend on concurrent political events such as winning or losing elections; we show that posts with metaphors elicit more engagement from their audience overall even after controlling for various socio-political factors such as gender and political party affiliation; and finally, we demonstrate that metaphoricity is indeed the reason for increased engagement of posts, through a fine-grained linguistic analysis of metaphorical vs. literal usages of 513 words across 70K posts.

Metaphors are widely used in political rhetoric as an effective framing device. While the efficacy of specific metaphors such as the war metaphor in political discourse has been documented before, those studies often rely on small number of hand-coded instances of metaphor use. Larger-scale topic-agnostic studies are required to establish the general persuasiveness of metaphors as a device, and to shed light on the broader patterns that guide their persuasiveness. In this paper, we present a large-scale data-driven study of metaphors used in political discourse. We conduct this study on a publicly available dataset of over 85K posts made by 412 US politicians in their Facebook public pages, up until Feb 2017. Our contributions are threefold: we show evidence that metaphor use correlates with ideological leanings in complex ways that depend on concurrent political events such as winning or losing elections; we show that posts with metaphors elicit more engagement from their audience overall even after controlling for various socio-political factors such as gender and political party affiliation; and finally, we demonstrate that metaphoricity is indeed the reason for increased engagement of posts, through a fine-grained linguistic analysis of metaphorical vs. literal usages of 513 words across 70K posts.
翻訳日:2021-04-09 13:00:57 公開日:2021-04-08
# 自然言語処理に基づく機械学習による臨床物語における心不全の検出

Machine Learning Based on Natural Language Processing to Detect Cardiac Failure in Clinical Narratives ( http://arxiv.org/abs/2104.03934v1 )

ライセンス: Link先を確認
Thanh-Dung Le, Rita Noumeir, Jerome Rambaud, Guillaume Sans, and Philippe Jouvet(参考訳) 本研究の目的は、チュサント・ジャスティネ病院の研究データウェアハウスにおける医師ノートを用いて、患者の心不全や健康状態を自動的に検出する自然言語処理に基づく機械学習アルゴリズムを開発することである。 まず,baba-of-word (BoW), term frequency inverse document frequency (TFIDF), Neural word embeddeds (word2vec)を用いて単語表現学習を行った。 それぞれの表現技法は、重要なケアデータにおける単語の意味と統語的分析を維持することを目的としている。 これは、単語表現の相互情報を強化するのに役立ち、さらに適切な分析ステップの利点をもたらす。 第2に、前ステップから生成された単語表現ベクトル空間を通じて、心不全または安定した患者の状態を検出するために機械学習分類器を用いた。 この機械学習アプローチは、ロジスティック回帰(LR)、ガウスネーブベイズ(Gaussian Naive-Bayes、GaussianNB)、多層パーセプトロンニューラルネットワーク(MLPNN)を含む教師付きバイナリ分類アルゴリズムに基づいている。 技術的には、主に分類器の訓練中に経験的損失を最適化する。 その結果、精度(acc)、精度(pre)、リコール(rec)、F1スコア(f1)を含む高い分類性能を得るための自動学習アルゴリズムが実現された。 その結果, TFIDF と MLPNN の組み合わせは, 総合的な性能で常に他の組み合わせよりも優れていた。 機能選択を伴わない場合, 提案したフレームワークは, acc, pre, rec, f1が84%, 82%, 85%, 83%の総合的な分類性能を示した。 注目すべきは,機能選択がうまく適用できれば,全体のパフォーマンスが評価毎に最大4%向上することです。

The purpose of the study presented herein is to develop a machine learning algorithm based on natural language processing that automatically detects whether a patient has a cardiac failure or a healthy condition by using physician notes in Research Data Warehouse at CHU Sainte Justine Hospital. First, a word representation learning technique was employed by using bag-of-word (BoW), term frequency inverse document frequency (TFIDF), and neural word embeddings (word2vec). Each representation technique aims to retain the words semantic and syntactic analysis in critical care data. It helps to enrich the mutual information for the word representation and leads to an advantage for further appropriate analysis steps. Second, a machine learning classifier was used to detect the patients condition for either cardiac failure or stable patient through the created word representation vector space from the previous step. This machine learning approach is based on a supervised binary classification algorithm, including logistic regression (LR), Gaussian Naive-Bayes (GaussianNB), and multilayer perceptron neural network (MLPNN). Technically, it mainly optimizes the empirical loss during training the classifiers. As a result, an automatic learning algorithm would be accomplished to draw a high classification performance, including accuracy (acc), precision (pre), recall (rec), and F1 score (f1). The results show that the combination of TFIDF and MLPNN always outperformed other combinations with all overall performance. In the case without any feature selection, the proposed framework yielded an overall classification performance with acc, pre, rec, and f1 of 84% and 82%, 85%, and 83%, respectively. Significantly, if the feature selection was well applied, the overall performance would finally improve up to 4% for each evaluation.
翻訳日:2021-04-09 13:00:39 公開日:2021-04-08
# GiとPalスコア:ディープニューラルネットワークの一般化統計

Gi and Pal Scores: Deep Neural Network Generalization Statistics ( http://arxiv.org/abs/2104.03469v1 )

ライセンス: Link先を確認
Yair Schiff, Brian Quanz, Payel Das, Pin-Yu Chen(参考訳) ディープラーニングの分野は、さまざまな回帰、分類、制御タスクにおける人間のようなパフォーマンスの実証的な証拠に富んでいる。 しかし、これらの成功にもかかわらず、この分野は強い理論上の誤差境界とネットワークの一般化と学習不変性の一貫した尺度を欠いている。 本研究では,深いニューラルネットワークの一般化能力を捉える2つの新しい尺度であるGi-scoreとPal-scoreを紹介する。 収入不平等の尺度であるgini係数とpalma比に着想を得た本統計は、一般化ギャップを正確に予測する摂動に対するネットワークの不変性、すなわちトレーニングとテストセットの精度の差のロバストな尺度である。

The field of Deep Learning is rich with empirical evidence of human-like performance on a variety of regression, classification, and control tasks. However, despite these successes, the field lacks strong theoretical error bounds and consistent measures of network generalization and learned invariances. In this work, we introduce two new measures, the Gi-score and Pal-score, that capture a deep neural network's generalization capabilities. Inspired by the Gini coefficient and Palma ratio, measures of income inequality, our statistics are robust measures of a network's invariance to perturbations that accurately predict generalization gaps, i.e., the difference between accuracy on training and test sets.
翻訳日:2021-04-09 12:59:22 公開日:2021-04-08
# Neural Temporal Point Processs: レビュー

Neural Temporal Point Processes: A Review ( http://arxiv.org/abs/2104.03528v1 )

ライセンス: Link先を確認
Oleksandr Shchur, Ali Caner T\"urkmen, Tim Januschowski, Stephan G\"unnemann(参考訳) 時間点過程(TPP)は連続時間事象列の確率的生成モデルである。 ニューラルTPPは、ポイントプロセス文学の基本概念とディープラーニングアプローチを組み合わせることで、柔軟で効率的なモデルの構築を可能にする。 ニューラルTPPの話題は近年大きな注目を集めており、このクラスのモデルに多くの新しいアーキテクチャや応用が開発されている。 本稿では,ニューラルTPPに関する既存の知識体系を統合することを目的とする。 具体的には、ニューラルTPPモデルを定義するための重要な設計選択と一般的な原則に焦点を当てる。 次に,文献に共通する適用領域の概要について述べる。 本稿では,ニューラルTPPの分野における今後の課題の一覧と今後の研究の方向性について述べる。

Temporal point processes (TPP) are probabilistic generative models for continuous-time event sequences. Neural TPPs combine the fundamental ideas from point process literature with deep learning approaches, thus enabling construction of flexible and efficient models. The topic of neural TPPs has attracted significant attention in the recent years, leading to the development of numerous new architectures and applications for this class of models. In this review paper we aim to consolidate the existing body of knowledge on neural TPPs. Specifically, we focus on important design choices and general principles for defining neural TPP models. Next, we provide an overview of application areas commonly considered in the literature. We conclude this survey with the list of open challenges and important directions for future work in the field of neural TPPs.
翻訳日:2021-04-09 12:59:10 公開日:2021-04-08
# 強化学習を用いたグラフ分割とスパース行列順序付け

Graph Partitioning and Sparse Matrix Ordering using Reinforcement Learning ( http://arxiv.org/abs/2104.03546v1 )

ライセンス: Link先を確認
Alice Gatti, Zhixiong Hu, Pieter Ghysels, Esmond G. Ng, Tess Smidt(参考訳) 本稿では,強化学習とグラフ畳み込みニューラルネットワークに基づくグラフ分割手法を提案する。 新たな強化学習に基づくアプローチは,グラフの粗い表現で得られた所定の分割を洗練し,アルゴリズムを再帰的に適用する。 ニューラルネットワークはグラフ注意層を使用して実装され、アドバンテージアクター評論家(A2C)エージェントを使用してトレーニングされる。 正規化カットまたは商カットを最小化するエッジセパレータと、小さな頂点セパレータを見出すエッジセパレータの2つの変種を示す。 頂点分離器は、その三角因子化が補充を減少させるようにスパース行列を置換する入れ子分解順序を構築するために使用される。 分割品質をMETISおよびScotchを用いて得られるパーティショニングと比較し、スパースソルバSuperLUにおいてネストされた分離順序を評価する。 その結果,提案手法はmetisやscotchと同様の分割品質が得られることがわかった。 さらに、この方法は、あるクラスのグラフから別のグラフへ一般化し、 suitesparse sparse matrix collectionの様々なグラフ上でうまく機能する。

We present a novel method for graph partitioning, based on reinforcement learning and graph convolutional neural networks. The new reinforcement learning based approach is used to refine a given partitioning obtained on a coarser representation of the graph, and the algorithm is applied recursively. The neural network is implemented using graph attention layers, and trained using an advantage actor critic (A2C) agent. We present two variants, one for finding an edge separator that minimizes the normalized cut or quotient cut, and one that finds a small vertex separator. The vertex separators are then used to construct a nested dissection ordering for permuting a sparse matrix so that its triangular factorization will incur less fill-in. The partitioning quality is compared with partitions obtained using METIS and Scotch, and the nested dissection ordering is evaluated in the sparse solver SuperLU. Our results show that the proposed method achieves similar partitioning quality than METIS and Scotch. Furthermore, the method generalizes from one class of graphs to another, and works well on a variety of graphs from the SuiteSparse sparse matrix collection.
翻訳日:2021-04-09 12:59:00 公開日:2021-04-08
# 線形文脈バンディットにおける良き表現の活用

Leveraging Good Representations in Linear Contextual Bandits ( http://arxiv.org/abs/2104.03781v1 )

ライセンス: Link先を確認
Matteo Papini, Andrea Tirinzoni, Marcello Restelli, Alessandro Lazaric and Matteo Pirotta(参考訳) 線形文脈バンディット文学は主に、与えられた表現に対する効率的な学習アルゴリズムの設計に焦点を当てている。 しかし、文脈的バンディット問題は、学習アルゴリズムの後悔に直接影響を及ぼす異なる特徴を持つ複数の線形表現を許容することがある。 特に、最近の研究は、一定の問題依存的後悔が達成できる「良い」表現が存在することを示した。 本稿ではまず,文献で提案されている「良い」表現の異なる定義を体系的に分析する。 そこで我々は,$M$の候補集合において,最適な表現に適応できる新しい選択アルゴリズムを提案する。 我々は、LinUCBを最良の表現($\ln M$ factorまで)で実行したことによる後悔よりも、後悔は決して悪いことではないことを示した。 その結果,本アルゴリズムは,集合内で「よい」表現が利用可能であれば,常に後悔する。 さらに,初期表現が「良い」場合であっても,暗黙的に「良い」表現を構築することによって,アルゴリズムが常に後悔することを示す。 最後に,多くの標準的な文脈的包帯問題における理論的知見を実証的に検証した。

The linear contextual bandit literature is mostly focused on the design of efficient learning algorithms for a given representation. However, a contextual bandit problem may admit multiple linear representations, each one with different characteristics that directly impact the regret of the learning algorithm. In particular, recent works showed that there exist "good" representations for which constant problem-dependent regret can be achieved. In this paper, we first provide a systematic analysis of the different definitions of "good" representations proposed in the literature. We then propose a novel selection algorithm able to adapt to the best representation in a set of $M$ candidates. We show that the regret is indeed never worse than the regret obtained by running LinUCB on the best representation (up to a $\ln M$ factor). As a result, our algorithm achieves constant regret whenever a "good" representation is available in the set. Furthermore, we show that the algorithm may still achieve constant regret by implicitly constructing a "good" representation, even when none of the initial representations is "good". Finally, we empirically validate our theoretical findings in a number of standard contextual bandit problems.
翻訳日:2021-04-09 12:58:41 公開日:2021-04-08
# 情報ギャップ下における線形バンディットのインセンティブ探索

Incentivizing Exploration in Linear Bandits under Information Gap ( http://arxiv.org/abs/2104.03860v1 )

ライセンス: Link先を確認
Huazheng Wang, Haifeng Xu, Chuanhao Li, Zhiyuan Liu, Hongning Wang(参考訳) 本研究では,リニアバンディットにおける筋電図利用者の探索にインセンティブを与える問題について検討する。 長期報酬を最大化するために、このシステムは、利用者に探索用アームを引き出すインセンティブを与え、エクスプロイト、探索、補償のトレードオフをバランスさせることを目的としている。 本研究では,ユーザによって観察されるコンテキスト特徴が,ユーザのプライベート情報に基づく特徴がシステムからアクセスできないような,新たな,実用的なモチベーションを持つ環境について考察する。 このような情報ギャップ下での探索をインセンティブ化する新しい手法を提案し,その方法がサブリニア後悔とサブリニア補償の両方を達成することを証明した。 我々は,情報ギャップによる付加的な補償を,ユーザと同じコンテキスト,すなわち情報ギャップのないシステムに対して理論的かつ経験的に分析する。 問題の範囲を低くした補償も提供します。

We study the problem of incentivizing exploration for myopic users in linear bandits, where the users tend to exploit arm with the highest predicted reward instead of exploring. In order to maximize the long-term reward, the system offers compensation to incentivize the users to pull the exploratory arms, with the goal of balancing the trade-off among exploitation, exploration and compensation. We consider a new and practically motivated setting where the context features observed by the user are more informative than those used by the system, e.g., features based on users' private information are not accessible by the system. We propose a new method to incentivize exploration under such information gap, and prove that the method achieves both sublinear regret and sublinear compensation. We theoretical and empirically analyze the added compensation due to the information gap, compared with the case that the system has access to the same context features as the user, i.e., without information gap. We also provide a compensation lower bound of our problem.
翻訳日:2021-04-09 12:58:23 公開日:2021-04-08
# OGGN: ニューラルネットワークの逆関数モデリングのための新しい一般化されたOracleガイド生成アーキテクチャ

OGGN: A Novel Generalized Oracle Guided Generative Architecture for Modelling Inverse Function of Artificial Neural Networks ( http://arxiv.org/abs/2104.03935v1 )

ライセンス: Link先を確認
Mohammad Aaftab V, Mansi Sharma(参考訳) 本稿では,ANN(Artificial Neural Network)の逆関数を,完全にあるいは部分的にモデル化するための新しい生成ニューラルネットワークアーキテクチャを提案する。 ann の完全な逆関数のモデル化は、所望の出力に対応するすべての特徴の値を生成することを伴う。 一方、逆関数を部分的にモデル化することは、特徴のサブセットの値を生成し、残りの特徴値を修正することを意味する。 特徴セット生成は、人工知能ニューラルネットワークにとって重要なステップであり、工学と科学のいくつかの実践的な応用に有用である。 提案されているOracle Guided Generative Neural Networkは、OGGNと呼ばれ、さまざまな機能生成問題に対処する柔軟性がある。 一般に、ANNは与えられた特徴ベクトルに基づいてターゲット値を予測することができる。 OGGNアーキテクチャは、ANNの所定の目標値が与えられた特徴ベクトルを生成することができる。 生成された特徴ベクトルが前方ANNに供給されると、ANNが予測した目標値は所定の目標値に近接する。 したがって、OGGNアーキテクチャは、前方ANNで表される関数の逆関数をマッピングすることができる。 また、この作品にも重要な貢献がある。 本稿では,制約関数として定義された関数の新しいクラスについても紹介する。 この制約関数により、ニューラルネットワークは与えられた局所空間を長時間調査することができる。 したがって、損失関数の局所的な最適点を見つけることは、グローバルな最適点を見つけることとは別に可能である。 OGGNは、多くの変数の多項式方程式系の解法にも適用できる。 合成データセットの実験は、様々なユースケースにおけるOGGNの有効性を検証する。

This paper presents a novel Generative Neural Network Architecture for modelling the inverse function of an Artificial Neural Network (ANN) either completely or partially. Modelling the complete inverse function of an ANN involves generating the values of all features that corresponds to a desired output. On the other hand, partially modelling the inverse function means generating the values of a subset of features and fixing the remaining feature values. The feature set generation is a critical step for artificial neural networks, useful in several practical applications in engineering and science. The proposed Oracle Guided Generative Neural Network, dubbed as OGGN, is flexible to handle a variety of feature generation problems. In general, an ANN is able to predict the target values based on given feature vectors. The OGGN architecture enables to generate feature vectors given the predetermined target values of an ANN. When generated feature vectors are fed to the forward ANN, the target value predicted by ANN will be close to the predetermined target values. Therefore, the OGGN architecture is able to map, inverse function of the function represented by forward ANN. Besides, there is another important contribution of this work. This paper also introduces a new class of functions, defined as constraint functions. The constraint functions enable a neural network to investigate a given local space for a longer period of time. Thus, enabling to find a local optimum of the loss function apart from just being able to find the global optimum. OGGN can also be adapted to solve a system of polynomial equations in many variables. The experiments on synthetic datasets validate the effectiveness of OGGN on various use cases.
翻訳日:2021-04-09 12:58:05 公開日:2021-04-08
# 従来の自律ナビゲーションシステムへの深部強化学習型障害物回避の展開に向けて

Towards Deployment of Deep-Reinforcement-Learning-Based Obstacle Avoidance into Conventional Autonomous Navigation Systems ( http://arxiv.org/abs/2104.03616v1 )

ライセンス: Link先を確認
Linh K\"astner, Teham Buiyan, Xinlin Zhao, Lei Jiao, Zhengcheng Shen and Jens Lambrecht(参考訳) 近年,移動ロボットは様々な産業,特に物流において重要なツールとなっている。 深層強化学習は、過度に保守的なアプローチを置き換える代替案として現れ、より効率的で柔軟なナビゲーションを約束した。 しかし、深層強化学習のアプローチは、局所的な極小さと長期記憶の欠如のため、長距離ナビゲーションには適していないため、モバイルロボティクスの産業アプリケーションへの広範な統合を妨げる。 本稿では,従来のナビゲーションスタックに深層強化学習に基づくローカルプランナを組み込んだナビゲーションシステムを提案する。 そこで,従来の手法とともに深層強化学習アルゴリズムを訓練し,テストするためのフレームワークを提案する。 従来型プランナーに対する深層強化学習型ナビゲーションシステムの評価を行い,安全性,効率,ロバスト性の観点から評価した。

Recently, mobile robots have become important tools in various industries, especially in logistics. Deep reinforcement learning emerged as an alternative planning method to replace overly conservative approaches and promises more efficient and flexible navigation. However, deep reinforcement learning approaches are not suitable for long-range navigation due to their proneness to local minima and lack of long term memory, which hinders its widespread integration into industrial applications of mobile robotics. In this paper, we propose a navigation system incorporating deep-reinforcement-learning-based local planners into conventional navigation stacks for long-range navigation. Therefore, a framework for training and testing the deep reinforcement learning algorithms along with classic approaches is presented. We evaluated our deep-reinforcement-learning-enhanced navigation system against various conventional planners and found that our system outperforms them in terms of safety, efficiency and robustness.
翻訳日:2021-04-09 12:56:57 公開日:2021-04-08
# waypointジェネレータを用いた深部強化学習に基づく障害物回避と従来のグローバルプランナーとの接続

Connecting Deep-Reinforcement-Learning-based Obstacle Avoidance with Conventional Global Planners using Waypoint Generators ( http://arxiv.org/abs/2104.03663v1 )

ライセンス: Link先を確認
Linh K\"astner, Teham Buiyan, Xinlin Zhao, Zhengcheng Shen, Cornelius Marx and Jens Lambrecht(参考訳) 深層強化学習は,高動的環境において効率的な動的障害物回避手法として出現した。 過度に保守的あるいは非効率なナビゲーションアプローチを置き換える可能性がある。 しかし、深層強化学習の既存ナビゲーションシステムへの統合は、深層強化学習に基づくナビゲーションの明快な性質から、まだ未開のフロンティアであり、現在のナビゲーションシステムへの広範な統合を妨げている。 本稿では,新しい深部力覚学習に基づく障害物回避手法と,waypoint生成を用いた従来のグローバル計画手法を連携させる中間プランナーの概念を提案する。 そこで,既存のナビゲーションシステムと異なるwaypointジェネレータを統合し,従来のナビゲーションシステムと比較する。 その結果,特に動的環境において,安全性,効率性,経路平滑性が向上した。

Deep Reinforcement Learning has emerged as an efficient dynamic obstacle avoidance method in highly dynamic environments. It has the potential to replace overly conservative or inefficient navigation approaches. However, the integration of Deep Reinforcement Learning into existing navigation systems is still an open frontier due to the myopic nature of Deep-Reinforcement-Learning-based navigation, which hinders its widespread integration into current navigation systems. In this paper, we propose the concept of an intermediate planner to interconnect novel Deep-Reinforcement-Learning-based obstacle avoidance with conventional global planning methods using waypoint generation. Therefore, we integrate different waypoint generators into existing navigation systems and compare the joint system against traditional ones. We found an increased performance in terms of safety, efficiency and path smoothness especially in highly dynamic environments.
翻訳日:2021-04-09 12:56:44 公開日:2021-04-08
# 表現型音声合成のためのマルチスケールスタイル制御

Towards Multi-Scale Style Control for Expressive Speech Synthesis ( http://arxiv.org/abs/2104.03521v1 )

ライセンス: Link先を確認
Xiang Li, Changhe Song, Jingbei Li, Zhiyong Wu, Jia Jia, Helen Meng(参考訳) 本稿では,エンドツーエンドの音声合成のためのマルチスケール音声スタイルモデリング手法を提案する。 提案手法では,マルチスケールの参照エンコーダを用いて,対象音声の大域的発話レベルと局所的な準音素レベルの両方の特徴を抽出し,入力音素列の拡張として音声合成モデルに入力する。 訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。 提案手法をスタイル伝達タスクに適用することにより,マルチスケール音声スタイルモデルの制御性や合成音声の表現性を大幅に向上することを示す実験結果が得られた。 さらに,各尺度のスタイル抽出に異なる参照音声を割り当てることで,提案手法の柔軟性をさらに明らかにした。

This paper introduces a multi-scale speech style modeling method for end-to-end expressive speech synthesis. The proposed method employs a multi-scale reference encoder to extract both the global-scale utterance-level and the local-scale quasi-phoneme-level style features of the target speech, which are then fed into the speech synthesis model as an extension to the input phoneme sequence. During training time, the multi-scale style model could be jointly trained with the speech synthesis model in an end-to-end fashion. By applying the proposed method to style transfer task, experimental results indicate that the controllability of the multi-scale speech style model and the expressiveness of the synthesized speech are greatly improved. Moreover, by assigning different reference speeches to extraction of style on each scale, the flexibility of the proposed method is further revealed.
翻訳日:2021-04-09 12:56:30 公開日:2021-04-08
# WNARS:WFSTに基づく非自己回帰ストリーミングエンドツーエンド音声認識

WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition ( http://arxiv.org/abs/2104.03587v1 )

ライセンス: Link先を確認
Zhichao Wang, Wenwen Yang, Pan Zhou, Wei Chen(参考訳) 近年,自動音声認識(ASR)分野において,注目型エンコーダデコーダ(AED)のエンド・ツー・エンド(E2E)モデルが注目されている。 しかし、AEDモデルは商用アプリケーションにデプロイする際の欠点がある。 自己回帰ビームサーチデコーディングは、高速アプリケーションでは非効率である。 また、外部語レベルの言語モデルを統合することも不便である。 最も重要なことは、AEDモデルがグローバルなアテンションメカニズムのためにストリーミング認識が困難であることです。 本稿では,これらの問題を解決するために,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサ(WFST)を用いた新しいフレームワークWNARSを提案する。 我々は、自己回帰ビーム探索からCTC分岐復号に切り換え、WFSTでチャンクワイズストリーミングでファーストパス復号を行う。 そして、デコーダブランチは、生成した仮説を非自己回帰的に第2パス復元する。 AISHELL-1タスクでは、WNARSは640msのレイテンシで5.22%の文字エラー率を達成しています。 提案手法は,強いTDNN-BLSTM格子のないMMIベースラインと比較して,50%レイテンシで20%以上の改善を実現している。

Recently, attention-based encoder-decoder (AED) end-to-end (E2E) models have drawn more and more attention in the field of automatic speech recognition (ASR). AED models, however, still have drawbacks when deploying in commercial applications. Autoregressive beam search decoding makes it inefficient for high-concurrency applications. It is also inconvenient to integrate external word-level language models. The most important thing is that AED models are difficult for streaming recognition due to global attention mechanism. In this paper, we propose a novel framework, namely WNARS, using hybrid CTC-attention AED models and weighted finite-state transducers (WFST) to solve these problems together. We switch from autoregressive beam search to CTC branch decoding, which performs first-pass decoding with WFST in chunk-wise streaming way. The decoder branch then performs second-pass rescoring on the generated hypotheses non-autoregressively. On the AISHELL-1 task, our WNARS achieves a character error rate of 5.22% with 640ms latency, to the best of our knowledge, which is the state-of-the-art performance for online ASR. Further experiments on our 10,000-hour Mandarin task show the proposed method achieves more than 20% improvements with 50% latency compared to a strong TDNN-BLSTM lattice-free MMI baseline.
翻訳日:2021-04-09 12:56:17 公開日:2021-04-08
# クロスドメインコミュニケーションの実現 - AIとHWエンジニアのギャップを埋める方法

Enabling Cross-Domain Communication: How to Bridge the Gap between AI and HW Engineers ( http://arxiv.org/abs/2104.03780v1 )

ライセンス: Link先を確認
Michael J. Klaiber, Axel J. Acosta, Ingo Feldner, Falk Rehm(参考訳) システム設計における重要な問題は、ハードウェア、ソフトウェア、ドメインエキスパート間のコミュニケーションの欠如である。 最近の研究では、ニューラルアクセラレーターの自動HW/SW共設計フローの進展が、この種のコミュニケーションを時代遅れにしているように見える。 しかし、現実世界のシステムの多くは、複数の処理ユニット、通信ネットワーク、メモリで構成されている。 したがって、(再構成可能な)ニューラルアクセラレータのHW/SW共設計プロセスは、共通の共設計手法への重要なサブプロブレムである。 究極の課題は、システムレベルでの設計空間探索の制約を定義することです - ハードウェアアーキテクチャの深い知識と理解を必要とするタスク、ワークロードのハードウェアとアプリケーションドメインへのマッピングなどです。 人工知能。 ほとんどのプロジェクトでは、これらのスキルが複数の人、あるいは異なるチームに分散されているため、デジタルシステムのための確立されたエンドツーエンド開発方法論が存在しない主な理由の1つです。 本稿は、(構成可能な)専用アクセラレータを含むシステムのための方法論を確立し、その過程で言語やツールが果たす中心的な役割を概説する可能性について論じる。

A key issue in system design is the lack of communication between hardware, software and domain expert. Recent research work shows progress in automatic HW/SW co-design flows of neural accelerators that seems to make this kind of communication obsolete. Most real-world systems, however, are a composition of multiple processing units, communication networks and memories. A HW/SW co-design process of (reconfigurable) neural accelerators, therefore, is an important sub-problem towards a common co-design methodology. The ultimate challenge is to define the constraints for the design space exploration on system level - a task which requires deep knowledge and understanding of hardware architectures, mapping of workloads onto hardware and the application domain, e.g. artificial intelligence. For most projects, these skills are distributed among several people or even different teams which is one of the major reasons why there is no established end-to-end development methodology for digital systems. This position paper discusses possibilities how to establish such a methodology for systems that include (reconfigurable) dedicated accelerators and outlines the central role that languages and tools play in the process.
翻訳日:2021-04-09 12:55:54 公開日:2021-04-08
# ドメイン適応と少数話者適応のための機械音声連鎖の検討

Exploring Machine Speech Chain for Domain Adaptation and Few-Shot Speaker Adaptation ( http://arxiv.org/abs/2104.03815v1 )

ライセンス: Link先を確認
Fengpeng Yue, Yan Deng, Lei He, Tom Ko(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)とテキスト音声(TTS)の両方を1つのサークルに統合して共同訓練を行うマシン音声チェインは、大量の未ペアデータを活用することで、データ拡張に有効であることが証明されている。 本稿では,音声連鎖におけるTS->ASRパイプラインを用いて,ターゲット領域からのテキストデータのみを用いて,ニューラルTSモデルとE2E ASRモデルの両方のドメイン適応を行う。 我々は、オーディオブックドメイン(LibriSpeech)からプレゼンテーションドメイン(TED-Lium)に適応して実験を行い、TED-Liumテストセット上でのE2E ASRモデルの相対単語誤り率(WER)を10%削減し、プレゼンテーションドメインでニューラルTSによって生成された合成音声において相対WERを51.5%削減する。 さらに,対象話者からの発話を教師なしの方法で使用することにより,E2E ASRに少数話者適応を適用することにより,さらなる利得が得られる。

Machine Speech Chain, which integrates both end-to-end (E2E) automatic speech recognition (ASR) and text-to-speech (TTS) into one circle for joint training, has been proven to be effective in data augmentation by leveraging large amounts of unpaired data. In this paper, we explore the TTS->ASR pipeline in speech chain to do domain adaptation for both neural TTS and E2E ASR models, with only text data from target domain. We conduct experiments by adapting from audiobook domain (LibriSpeech) to presentation domain (TED-LIUM), there is a relative word error rate (WER) reduction of 10% for the E2E ASR model on the TED-LIUM test set, and a relative WER reduction of 51.5% in synthetic speech generated by neural TTS in the presentation domain. Further, we apply few-shot speaker adaptation for the E2E ASR by using a few utterances from target speakers in an unsupervised way, results in additional gains.
翻訳日:2021-04-09 12:55:37 公開日:2021-04-08
# MetricGAN+: 音声強調のためのMetricGANの改良版

MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement ( http://arxiv.org/abs/2104.03538v1 )

ライセンス: Link先を確認
Szu-Wei Fu, Cheng Yu, Tsun-An Hsieh, Peter Plantinga, Mirco Ravanelli, Xugang Lu, Yu Tsao(参考訳) 音声強調モデルの訓練に用いられるコスト関数と人間の聴覚知覚との差は、通常、強調音声の品質を満足させることができない。 したがって、人間の知覚を考慮した客観的評価指標は、ギャップを減らすための橋渡しとなる可能性がある。 従来提案したMetricGANは,メトリックを識別器に接続することで,客観的なメトリクスを最適化するように設計されていた。 目標評価関数のスコアのみがトレーニング中に必要となるため、メトリクスは差別化できないこともある。 本研究では,音声処理のドメイン知識を組み込んだ3つの学習手法を提案する。 これらの手法を用いて、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPESQスコアを0.3増加させ、最先端の結果(PESQスコア=3.15)を達成できることが示された。

The discrepancy between the cost function used for training a speech enhancement model and human auditory perception usually makes the quality of enhanced speech unsatisfactory. Objective evaluation metrics which consider human perception can hence serve as a bridge to reduce the gap. Our previously proposed MetricGAN was designed to optimize objective metrics by connecting the metric with a discriminator. Because only the scores of the target evaluation functions are needed during training, the metrics can even be non-differentiable. In this study, we propose a MetricGAN+ in which three training techniques incorporating domain-knowledge of speech processing are proposed. With these techniques, experimental results on the VoiceBank-DEMAND dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).
翻訳日:2021-04-09 12:55:14 公開日:2021-04-08
# 簡素なゲームにおける投票力の計算と贈収賄

Computation and Bribery of Voting Power in Delegative Simple Games ( http://arxiv.org/abs/2104.03692v1 )

ライセンス: Link先を確認
Gianlorenzo D'Angelo, Esmaeil Delfaraz and Hugo Gilbert(参考訳) 軽量投票ゲームは、協調ゲームにおいて最も重要なクラスの1つである。 最近、張とグロッシ[53]は、流動民主主義選挙における各有権者の相対的重要性を分析するのに好適な、エレガントな単純ゲーム(delegative simple game)と呼ばれる、このクラスの変種を提案した。 さらに、彼らはデリゲートグラフにおける各エージェント(すなわち有権者と議員の両方)の重要性を、彼女が蓄積した総投票重量と、代表者から受け取った支持構造に基づいて計算するために、遅延的バンジャフ指数(delagative Banzhaf index)と呼ばれるパワーインデックスを定義した。 単純ゲームに関するいくつかの結果を得る。 まず,delegative simple gamesにおけるdelegative banzhafとshapley-shubikの値を計算する擬似多項時間アルゴリズムを提案する。 次に、代表者の投票力/重みを最大化・最小化することを目的とした贈収賄問題について、定員数を最大にすることで検討する。 投票者のパワーインデックス値の最小化/最大化の問題はNPハードであることを示す。 さらに、投票者の投票重量を最大化するために1-1/e$よりもよい近似保証を持つことは、$p = np$ でない限り不可能であると証明する。 最後に,エージェントが持つ最小のパワーインデックス値を最大化する,与えられた数のグルを持つデリゲーショングラフを見つけることは計算量的に難しい問題であることを示す。

Weighted voting games is one of the most important classes of cooperative games. Recently, Zhang and Grossi [53] proposed a variant of this class, called delegative simple games, which is well suited to analyse the relative importance of each voter in liquid democracy elections. Moreover, they defined a power index, called the delagative Banzhaf index to compute the importance of each agent (i.e., both voters and delegators) in a delegation graph based on two key parameters: the total voting weight she has accumulated and the structure of supports she receives from her delegators. We obtain several results related to delegative simple games. We first propose a pseudo-polynomial time algorithm to compute the delegative Banzhaf and Shapley-Shubik values in delegative simple games. We then investigate a bribery problem where the goal is to maximize/minimize the voting power/weight of a given voter in a delegation graph by changing at most a fixed number of delegations. We show that the problems of minimizing/maximizing a voter's power index value are strongly NP-hard. Furthermore, we prove that having a better approximation guarantee than $1-1/e$ to maximize the voting weight of a voter is not possible, unless $P = NP$, then we provide some parameterized complexity results for this problem. Finally, we show that finding a delegation graph with a given number of gurus that maximizes the minimum power index value an agent can have is a computationally hard problem.
翻訳日:2021-04-09 12:54:57 公開日:2021-04-08
# ネットワーク内最適化による3次元顔画像再構成

Riggable 3D Face Reconstruction via In-Network Optimization ( http://arxiv.org/abs/2104.03493v1 )

ライセンス: Link先を確認
Ziqian Bai, Zhaopeng Cui, Xiaoming Liu, Ping Tan(参考訳) 本稿では,表情,ポーズ,照度など,個人化された顔リグと画像ごとのパラメータを共同で推定する,単眼画像からの3次元顔再構成法を提案する。 この目的を達成するために、ネットワーク内最適化の異なるエンドツーエンドのトレーニング可能なネットワークを設計する。 ネットワークはまず、フェースリグをニューラルデコーダでコンパクトな潜伏符号としてパラメータ化し、学習可能な最適化を通じて潜伏符号と画像ごとのパラメータを推定する。 パーソナライズされた顔リグを推定することで,静的な再構築を超越し,ビデオ再ターゲティングなどの下流アプリケーションを可能にする。 ネットワーク内での最適化は、第一原理から導かれる制約を明示的に強制し、回帰に基づく手法よりも優先事項を導入する。 最後に、ディープラーニングによるデータ駆動前処理を利用して、不適切な単眼設定を制約し、最適化の困難さを緩和する。 実験により,SOTA再構成精度,ロバスト性,一般化性を実現し,標準的な顔リグアプリケーションをサポートすることを確認した。

This paper presents a method for riggable 3D face reconstruction from monocular images, which jointly estimates a personalized face rig and per-image parameters including expressions, poses, and illuminations. To achieve this goal, we design an end-to-end trainable network embedded with a differentiable in-network optimization. The network first parameterizes the face rig as a compact latent code with a neural decoder, and then estimates the latent code as well as per-image parameters via a learnable optimization. By estimating a personalized face rig, our method goes beyond static reconstructions and enables downstream applications such as video retargeting. In-network optimization explicitly enforces constraints derived from the first principles, thus introduces additional priors than regression-based methods. Finally, data-driven priors from deep learning are utilized to constrain the ill-posed monocular setting and ease the optimization difficulty. Experiments demonstrate that our method achieves SOTA reconstruction accuracy, reasonable robustness and generalization ability, and supports standard face rig applications.
翻訳日:2021-04-09 12:54:34 公開日:2021-04-08
# マルチモーダルデータにおける知識の蒸留によるMRIによるアルツハイマー病予測

MRI-based Alzheimer's disease prediction via distilling the knowledge in multi-modal data ( http://arxiv.org/abs/2104.03618v1 )

ライセンス: Link先を確認
Hao Guan (1), Chaoyue Wang (1), Dacheng Tao (1) ((1) School of Computer Science, The University of Sydney)(参考訳) 軽度認知障害(MCI)変換予測、すなわち、アルツハイマー病(AD)に転換するリスクの高いMCI患者を特定することは、ADの進行を予防または遅らせるために不可欠である。 従来の研究では、マルチモーダルデータの融合は予測精度を効果的に向上させることが示されているが、それらの応用は主にマルチモーダルデータの可用性の制限や高コストによって制限されている。 MRI(MRI)のみを用いた効果的な予測モデルの構築は依然として困難な研究課題である。 本研究では,MCI変換予測のためのMRIネットワークにマルチモーダルデータから学習した知識を抽出することを目的としたマルチモーダルマルチインスタンス蒸留方式を提案する。 既存の蒸留アルゴリズムとは対照的に、提案したマルチインスタンス確率は、複雑な萎縮分布を表現する優れた能力を示し、MRIベースのネットワークを誘導して入力MRIをよりよく探索することができる。 我々の知る限り、マルチモーダル情報から抽出した余分なインスペクションを活用することで、MRIに基づく予測モデルの改善を試みる最初の研究である。 実験は、我々のフレームワークの利点を実証し、データ限定臨床環境での可能性を示している。

Mild cognitive impairment (MCI) conversion prediction, i.e., identifying MCI patients of high risks converting to Alzheimer's disease (AD), is essential for preventing or slowing the progression of AD. Although previous studies have shown that the fusion of multi-modal data can effectively improve the prediction accuracy, their applications are largely restricted by the limited availability or high cost of multi-modal data. Building an effective prediction model using only magnetic resonance imaging (MRI) remains a challenging research topic. In this work, we propose a multi-modal multi-instance distillation scheme, which aims to distill the knowledge learned from multi-modal data to an MRI-based network for MCI conversion prediction. In contrast to existing distillation algorithms, the proposed multi-instance probabilities demonstrate a superior capability of representing the complicated atrophy distributions, and can guide the MRI-based network to better explore the input MRI. To our best knowledge, this is the first study that attempts to improve an MRI-based prediction model by leveraging extra supervision distilled from multi-modal information. Experiments demonstrate the advantage of our framework, suggesting its potentials in the data-limited clinical settings.
翻訳日:2021-04-09 12:54:16 公開日:2021-04-08
# befd: 血管分割のための境界拡張と特徴分断

BEFD: Boundary Enhancement and Feature Denoising for Vessel Segmentation ( http://arxiv.org/abs/2104.03768v1 )

ライセンス: Link先を確認
Mo Zhang, Fei Yu, Jie Zhao, Li Zhang, Quanzheng Li(参考訳) 血管のセグメンテーションは多くの診断や研究用途に不可欠である。 近年、CNNベースのモデルではセグメンテーションの課題が突破されてきているが、そのような手法は通常、船体セグメンテーションに不可欠なオブジェクト境界や微妙な構造といった高周波情報を失う。 この問題に対処するため,我々は,終端から終端にかけて任意のエンコーダ・デコーダ・アーキテクチャに統合可能な意味セグメンテーションにおける境界情報を抽出するネットワーク能力を容易にするために,境界拡張と特徴分断(befd)モジュールを提案する。 Sobelエッジ検出器を導入することで、ネットワークは事前に追加のエッジを取得することができ、医用画像セグメンテーションのための教師なしの方法で境界を拡張できる。 さらに,低レベルの特徴に隠された雑音を低減するために,雑音ブロックを用いる。 網膜血管データセットと血管柄付きデータセットの実験結果は,新しいBEFDモジュールの優れた性能を示す。

Blood vessel segmentation is crucial for many diagnostic and research applications. In recent years, CNN-based models have leaded to breakthroughs in the task of segmentation, however, such methods usually lose high-frequency information like object boundaries and subtle structures, which are vital to vessel segmentation. To tackle this issue, we propose Boundary Enhancement and Feature Denoising (BEFD) module to facilitate the network ability of extracting boundary information in semantic segmentation, which can be integrated into arbitrary encoder-decoder architecture in an end-to-end way. By introducing Sobel edge detector, the network is able to acquire additional edge prior, thus enhancing boundary in an unsupervised manner for medical image segmentation. In addition, we also utilize a denoising block to reduce the noise hidden in the low-level features. Experimental results on retinal vessel dataset and angiocarpy dataset demonstrate the superior performance of the new BEFD module.
翻訳日:2021-04-09 12:53:55 公開日:2021-04-08
# 不確かさを意識した時間的自己学習(UATS):前立腺領域のセグメンテーションのための半教師付き学習

Uncertainty-Aware Temporal Self-Learning (UATS): Semi-Supervised Learning for Segmentation of Prostate Zones and Beyond ( http://arxiv.org/abs/2104.03840v1 )

ライセンス: Link先を確認
Anneke Meyer, Suhita Ghosh, Daniel Schindele, Martin Schostak, Sebastian Stober, Christian Hansen, Marko Rak(参考訳) 様々な畳み込みニューラルネットワーク(CNN)に基づく概念が、前立腺の自動分割と、その粗い部分分割をトランジションゾーン(TZ)と周辺ゾーン(PZ)に導入している。 しかし, TZ, PZ, 遠位前立腺尿道(DPU)および前線維筋肉腫(AFS)の微細な分節化を目標とすると, 課題はより困難になり, 人間のパフォーマンスのレベルではまだ解決されていない。 ひとつの理由として、教師付きトレーニングのためのラベル付きデータの不足がある。 そこで本研究では,半教師付き学習 (ssl) 手法である不確実性認識時間学習 (uats) を適用し,コストと時間を要する手話の真理ラベリングを克服する手法を提案する。 SSL技術と時間的アンサンブルと不確実性誘導型自己学習を組み合わせることで、ラベルのないイメージを活用できます。 本手法は, 教師付きベースラインよりも有意に優れ, 最大78.9%, 87.3%, 75.3%, 50.6%, TZ, PZ, DPU, AFSのDice係数が得られた。 得られた結果は、すべての構造に対する人間性能の範囲である。 さらに,この手法の雑音に対する頑健性について検討し,ラベル付きデータの比率や海馬や皮膚病変のセグメンテーションといった課題に対する一般化能力を示す。 UATSは、特に最小限のラベル付きデータに対して、教師付きベースラインよりも優れたセグメンテーション品質を実現した。

Various convolutional neural network (CNN) based concepts have been introduced for the prostate's automatic segmentation and its coarse subdivision into transition zone (TZ) and peripheral zone (PZ). However, when targeting a fine-grained segmentation of TZ, PZ, distal prostatic urethra (DPU) and the anterior fibromuscular stroma (AFS), the task becomes more challenging and has not yet been solved at the level of human performance. One reason might be the insufficient amount of labeled data for supervised training. Therefore, we propose to apply a semi-supervised learning (SSL) technique named uncertainty-aware temporal self-learning (UATS) to overcome the expensive and time-consuming manual ground truth labeling. We combine the SSL techniques temporal ensembling and uncertainty-guided self-learning to benefit from unlabeled images, which are often readily available. Our method significantly outperforms the supervised baseline and obtained a Dice coefficient (DC) of up to 78.9% , 87.3%, 75.3%, 50.6% for TZ, PZ, DPU and AFS, respectively. The obtained results are in the range of human inter-rater performance for all structures. Moreover, we investigate the method's robustness against noise and demonstrate the generalization capability for varying ratios of labeled data and on other challenging tasks, namely the hippocampus and skin lesion segmentation. UATS achieved superiority segmentation quality compared to the supervised baseline, particularly for minimal amounts of labeled data.
翻訳日:2021-04-09 12:53:38 公開日:2021-04-08
# 尿路内視鏡像における病変検出のためのトランスファーラーニングアプローチ

A transfer-learning approach for lesion detection in endoscopic images from the urinary tract ( http://arxiv.org/abs/2104.03927v1 )

ライセンス: Link先を確認
Jorge F. Lazo, Sara Moccia, Aldo Marzullo, Michele Catellani, Ottavio De Cobelli, Benoit Rosa, Michel de Mathelin, Elena De Momi(参考訳) 尿管鏡および嚢胞内視鏡は、尿路沿いの腫瘍を同定し治療するための金標準法である。 通常の手術では病変の10~20%が欠落していたことが報告されている。 本研究では,2段階のトレーニング戦略を用いて3つの異なる畳み込みニューラルネットワーク(cnns)を実装し,病変の有無に関わらず尿路からの画像を分類する。 尿管内視鏡および膀胱内視鏡検査で計6,101枚の画像が得られた。 CNNは3つのデータセット上で2段階の方法でトランスファー学習を使用してトレーニングされ、テストされた。 1) 尿管内視鏡像のみ, 2) 嚢胞内視鏡像のみ, 3) 両者の組み合わせが得られた。 膀胱内視鏡検査では,roc曲線 (auc) 値0.846以下の領域の検索が良好であった。 resnet50は尿管内視鏡および両データセットの組み合わせにおいて, 0.987および0.940のauc値で最高の結果を得た。 両方のドメインを理解したトレーニングデータセットを使用することで、一般的にパフォーマンスが向上するが、転送学習の第2段階の実行は、同等のパフォーマンスを達成する。 すべてのシナリオでパフォーマンスが向上する単一のモデルはありませんが、ResNet50は、ほとんどのシナリオで最高のパフォーマンスを達成するネットワークです。 その結果,尿路系内視鏡像の病変検出の改善を視野に入れ,さらなる調査の機会が開けた。

Ureteroscopy and cystoscopy are the gold standard methods to identify and treat tumors along the urinary tract. It has been reported that during a normal procedure a rate of 10-20 % of the lesions could be missed. In this work we study the implementation of 3 different Convolutional Neural Networks (CNNs), using a 2-steps training strategy, to classify images from the urinary tract with and without lesions. A total of 6,101 images from ureteroscopy and cystoscopy procedures were collected. The CNNs were trained and tested using transfer learning in a two-steps fashion on 3 datasets. The datasets used were: 1) only ureteroscopy images, 2) only cystoscopy images and 3) the combination of both of them. For cystoscopy data, VGG performed better obtaining an Area Under the ROC Curve (AUC) value of 0.846. In the cases of ureteroscopy and the combination of both datasets, ResNet50 achieved the best results with AUC values of 0.987 and 0.940. The use of a training dataset that comprehends both domains results in general better performances, but performing a second stage of transfer learning achieves comparable ones. There is no single model which performs better in all scenarios, but ResNet50 is the network that achieves the best performances in most of them. The obtained results open the opportunity for further investigation with a view for improving lesion detection in endoscopic images of the urinary system.
翻訳日:2021-04-09 12:53:09 公開日:2021-04-08
# MCMCを模擬したガウス過程による雑音可能性からの近似ベイズ推定

Approximate Bayesian inference from noisy likelihoods with Gaussian process emulated MCMC ( http://arxiv.org/abs/2104.03942v1 )

ライセンス: Link先を確認
Marko J\"arvenp\"a\"a, Jukka Corander(参考訳) 複素モデルの応用においてますます一般的になりつつある計算制約により、限られたノイズ可能性評価しか得られない場合に、近似ベイズ推定を効率的に行う方法を提案する。 提案手法は,gaussian process (gp) を用いたlog-likelihood関数を局所的にモデル化し,metropolis-hastings (mh) アルゴリズムが適用可能であれば,その進展をエミュレートする手法である。 予め特定されたエラー許容範囲内で、各MHの受け入れ/拒絶判定を行うような逐次的な設計戦略を用いて、新しいログ状評価位置を選択する。 その結果得られたアプローチは、gpモデルを完全に活用するため、概念的にはシンプルでサンプル効率がよい。 また、GPモデリングの仮定違反に対してより堅牢であり、グローバルGPサロゲートモデリングに基づく様々な既存の推論手法と比較して、後方が前よりもかなり集中している典型的な状況に適している。 提案手法の確率論的解釈と中央理論的な側面を考察し,シミュレータに基づく統計モデルにおける確率的推論の文脈における結果アルゴリズムの利点を実証する。

We present an efficient approach for doing approximate Bayesian inference when only a limited number of noisy likelihood evaluations can be obtained due to computational constraints, which is becoming increasingly common for applications of complex models. Our main methodological innovation is to model the log-likelihood function using a Gaussian process (GP) in a local fashion and apply this model to emulate the progression that an exact Metropolis-Hastings (MH) algorithm would take if it was applicable. New log-likelihood evaluation locations are selected using sequential experimental design strategies such that each MH accept/reject decision is done within a pre-specified error tolerance. The resulting approach is conceptually simple and sample-efficient as it takes full advantage of the GP model. It is also more robust to violations of GP modelling assumptions and better suited for the typical situation where the posterior is substantially more concentrated than the prior, compared with various existing inference methods based on global GP surrogate modelling. We discuss the probabilistic interpretations and central theoretical aspects of our approach, and we then demonstrate the benefits of the resulting algorithm in the context of likelihood-free inference for simulator-based statistical models.
翻訳日:2021-04-09 12:52:20 公開日:2021-04-08
# リモートおよびポータブルレーザー誘起分解分光のための半教師付きオンデバイスニューラルネットワーク適応

Semi-supervised on-device neural network adaptation for remote and portable laser-induced breakdown spectroscopy ( http://arxiv.org/abs/2104.03439v1 )

ライセンス: Link先を確認
Kshitij Bhardwaj and Maya Gokhale(参考訳) レーザー誘起分解分光法(LIBS)は、金属の工業分析や宇宙探査など、ターゲット試料の化学組成を決定するために用いられる、一般的な高速元素分析法である。 近年,LIBSデータ処理における機械学習(ML)技術の利用が増加している。 しかし、LIBSのMLは、 (i) 予測モデルは、高度にリソースを制約されたバッテリー駆動のポータブルなLIBSシステムにデプロイする必要があるため軽量でなければならない; (ii) 遠隔操作が可能であるため、モデルは、トレーニングデータや動的環境/センサノイズに異なる入力タイプがないため、入力分布におけるドメインシフトに自己適応できなければならない。 このオンデバイスでのモデルのリトレーニングは、リモートlibsシステムに新しいラベル付きデータがないため、高速であるだけでなく、教師なしであるべきである。 本稿では,新たな入力データに対してラベルを必要とせずにデバイス上で適用可能な軽量多層パーセプトロン(MLP)モデルを提案する。 データストリーミング中の平均精度は89.3%、適応をサポートしないMLPモデルに比べて最大2.1%高い精度を示している。 また,Google Pixel2電話機上でのモデルの推論と再トレーニング性能も特徴付ける。

Laser-induced breakdown spectroscopy (LIBS) is a popular, fast elemental analysis technique used to determine the chemical composition of target samples, such as in industrial analysis of metals or in space exploration. Recently, there has been a rise in the use of machine learning (ML) techniques for LIBS data processing. However, ML for LIBS is challenging as: (i) the predictive models must be lightweight since they need to be deployed in highly resource-constrained and battery-operated portable LIBS systems; and (ii) since these systems can be remote, the models must be able to self-adapt to any domain shift in input distributions which could be due to the lack of different types of inputs in training data or dynamic environmental/sensor noise. This on-device retraining of model should not only be fast but also unsupervised due to the absence of new labeled data in remote LIBS systems. We introduce a lightweight multi-layer perceptron (MLP) model for LIBS that can be adapted on-device without requiring labels for new input data. It shows 89.3% average accuracy during data streaming, and up to 2.1% better accuracy compared to an MLP model that does not support adaptation. Finally, we also characterize the inference and retraining performance of our model on Google Pixel2 phone.
翻訳日:2021-04-09 12:51:34 公開日:2021-04-08
# 空気中におけるコミュニケーションとフェデレーション学習の協調最適化

Joint Optimization of Communications and Federated Learning Over the Air ( http://arxiv.org/abs/2104.03490v1 )

ライセンス: Link先を確認
Xin Fan, Yue Wang, Yan Huo, and Zhi Tian(参考訳) フェデレートラーニング(FL)は、データプライバシを保護しながら、リッチな分散データを利用するための魅力的なパラダイムである。 それにもかかわらず、非理想的通信リンクと限られた送信リソースは高速で正確なflの実装のボトルネックとなっている。 本稿では,リアル無線ネットワークにおけるアナログアグリゲーション伝送に基づく通信とFLの協調最適化について検討する。 まず,空気上のFLの収束速度に対する閉形式式を導出し,FLに対するアナログ凝集の影響を理論的に定量化する。 解析結果に基づいて,パラメータサーバが作業者のサブセットを選択し,適切な電力スケーリング係数を決定することのできる,正確なFL実装のための共同最適化モデルを開発した。 空気上のflの実用的設定は観測不能パラメータに遭遇するので,制御近似を用いた作業者選択と電力割当の協調最適化を再構成する。 最後に、探索空間を小さくすることで、単純かつ最適な有限集合探索法により、結果の混合整数プログラミング問題を効率的に解く。 シミュレーションの結果,提案手法はベンチマーク法を上回り,ノイズのない無線チャネル上でflが実装される理想的な場合と同等の性能が得られることがわかった。

Federated learning (FL) is an attractive paradigm for making use of rich distributed data while protecting data privacy. Nonetheless, nonideal communication links and limited transmission resources have become the bottleneck of the implementation of fast and accurate FL. In this paper, we study joint optimization of communications and FL based on analog aggregation transmission in realistic wireless networks. We first derive a closed-form expression for the expected convergence rate of FL over the air, which theoretically quantifies the impact of analog aggregation on FL. Based on the analytical result, we develop a joint optimization model for accurate FL implementation, which allows a parameter server to select a subset of workers and determine an appropriate power scaling factor. Since the practical setting of FL over the air encounters unobservable parameters, we reformulate the joint optimization of worker selection and power allocation using controlled approximation. Finally, we efficiently solve the resulting mixed-integer programming problem via a simple yet optimal finite-set search method by reducing the search space. Simulation results show that the proposed solutions developed for realistic wireless analog channels outperform a benchmark method, and achieve comparable performance of the ideal case where FL is implemented over noise-free wireless channels.
翻訳日:2021-04-09 12:51:13 公開日:2021-04-08
# 強化学習を用いた数値積分のための効率的な時間ステップ

Efficient time stepping for numerical integration using reinforcement learning ( http://arxiv.org/abs/2104.03562v1 )

ライセンス: Link先を確認
Michael Dellnitz and Eyke H\"ullermeier and Marvin L\"ucke and Sina Ober-Bl\"obaum and Christian Offen and Sebastian Peitz and Karlson Pfannschmidt(参考訳) 科学と工学における多くの問題は積分の効率的な数値近似を必要とするが、特に重要な応用は微分方程式の初期値問題の数値解である。 複素系では、等距離離散化は、禁止的に大きな誤差または計算の労力をもたらすため、しばしば不適切である。 この目的のためにテイラー級数展開に基づく誤差推定子に依存する適応スキームが開発されている。 これらの推定子a)は強い滑らかさの仮定に依存しており、b) 複雑なシステムに対する誤ったステップ(つまり、ステップ拒否のメカニズムが必要)をもたらす可能性があるが、我々は機械学習に基づくデータ駆動時間ステッピングスキーム、特に強化学習(rl)とメタラーニングを提案する。 まず、(スムースまたはハイブリッドシステムの場合)1人または複数のベース学習者がrlを使用して訓練される。 次に、メタ学習者を訓練し、(システム状態に依存する)現在の状況に最適なベース学習者を選択する。 滑らかかつ非滑らかな問題を含むいくつかの例は、最先端の数値スキームに対する我々のアプローチの優れた性能を示している。 コードはhttps://github.com/lueckem/quadrature-MLで入手できる。

Many problems in science and engineering require the efficient numerical approximation of integrals, a particularly important application being the numerical solution of initial value problems for differential equations. For complex systems, an equidistant discretization is often inadvisable, as it either results in prohibitively large errors or computational effort. To this end, adaptive schemes have been developed that rely on error estimators based on Taylor series expansions. While these estimators a) rely on strong smoothness assumptions and b) may still result in erroneous steps for complex systems (and thus require step rejection mechanisms), we here propose a data-driven time stepping scheme based on machine learning, and more specifically on reinforcement learning (RL) and meta-learning. First, one or several (in the case of non-smooth or hybrid systems) base learners are trained using RL. Then, a meta-learner is trained which (depending on the system state) selects the base learner that appears to be optimal for the current situation. Several examples including both smooth and non-smooth problems demonstrate the superior performance of our approach over state-of-the-art numerical schemes. The code is available under https://github.com/lueckem/quadrature-ML.
翻訳日:2021-04-09 12:50:55 公開日:2021-04-08
# GKD:グラフ独立推論のための半教師付きグラフ知識蒸留

GKD: Semi-supervised Graph Knowledge Distillation for Graph-Independent Inference ( http://arxiv.org/abs/2104.03597v1 )

ライセンス: Link先を確認
Mahsa Ghorbani, Mojtaba Bahrami, Anees Kazi, Mahdieh SoleymaniBaghshah, Hamid R. Rabiee, and Nassir Navab(参考訳) マルチモーダル医療データの増大により、画像や非画像データなどの様々なモダリティを同時に処理し、疾患予測領域に関する包括的な洞察を得る機会が開かれた。 グラフ畳み込みネットワーク(GCN)を用いた最近の研究は、患者の疾患予測関連を調査しながら、異質なモダリティを統合するための新しい半教師付きアプローチを提供する。 しかし、グラフ構築に使用されるメタデータが推論時に利用できない場合(例えば、異なる集団から来る場合)、従来の手法では性能が低下する。 そこで本研究では,知識蒸留に基づく新しい半教師付き手法GKDを提案する。 学習段階でのみグラフと非グラフモダリティの恩恵を受けるために,ディープニューラルネットワークの他にラベル伝達アルゴリズムを用いた教師コンポーネントをトレーニングする。 教師コンポーネントは利用可能なすべての情報をソフトな擬似ラベルに埋め込む。 次に、ソフト擬似ラベルを使用して、グラフモダリティが利用できない未発見のテストデータの病気予測のための深層学生ネットワークを訓練する。 自閉症スペクトラム障害とアルツハイマー病を診断するための2つの公開データセットと,合成多モードデータセットの徹底的な解析を行った。 これらの実験によると、GKDは従来のグラフベースのディープラーニング手法よりも精度、AUC、マクロF1で優れている。

The increased amount of multi-modal medical data has opened the opportunities to simultaneously process various modalities such as imaging and non-imaging data to gain a comprehensive insight into the disease prediction domain. Recent studies using Graph Convolutional Networks (GCNs) provide novel semi-supervised approaches for integrating heterogeneous modalities while investigating the patients' associations for disease prediction. However, when the meta-data used for graph construction is not available at inference time (e.g., coming from a distinct population), the conventional methods exhibit poor performance. To address this issue, we propose a novel semi-supervised approach named GKD based on knowledge distillation. We train a teacher component that employs the label-propagation algorithm besides a deep neural network to benefit from the graph and non-graph modalities only in the training phase. The teacher component embeds all the available information into the soft pseudo-labels. The soft pseudo-labels are then used to train a deep student network for disease prediction of unseen test data for which the graph modality is unavailable. We perform our experiments on two public datasets for diagnosing Autism spectrum disorder, and Alzheimer's disease, along with a thorough analysis on synthetic multi-modal datasets. According to these experiments, GKD outperforms the previous graph-based deep learning methods in terms of accuracy, AUC, and Macro F1.
翻訳日:2021-04-09 12:50:34 公開日:2021-04-08
# IoTにおける多変量時系列異常検出のための変換器を用いたグラフ構造学習

Learning Graph Structures with Transformer for Multivariate Time Series Anomaly Detection in IoT ( http://arxiv.org/abs/2104.03466v1 )

ライセンス: Link先を確認
Zekai Chen, Dingshuo Chen, Zixuan Yuan, Xiuzhen Cheng, Xiao Zhang(参考訳) 様々なインターネットに接続されたセンサーデバイスを含む多くの現実世界のiotシステムは、大量の多変量時系列データを生成する。 一方、スマート電力グリッドや配水ネットワークといった重要なIoTインフラストラクチャは、しばしばサイバー攻撃の標的であり、研究価値を異常に検出する。 しかし,センサ間の複雑なトポロジカルおよび非線形依存関係を考えると,そのような関係性をモデル化することは,効率的かつ正確な異常検出システムでは避けられない。 さらに、多変量時系列の時間依存性と確率性のため、異常検出は依然として大きな課題である。 本研究は,グラフ構造を自動学習し,グラフ畳み込みと時間依存性のモデル化を行い,多変量時系列異常検出のための新しいフレームワークであるgtaを提案した。 グラフ構造学習の基本的な考え方は、Gumbel-softmaxサンプリング戦略に基づいて、センサ間の双方向関連を直接学習する接続学習ポリシーと呼ばれる。 また,グラフノード間の異常情報フローをモデル化するために,影響伝播畳み込みという新しいグラフ畳み込みを考案した。 さらに,2次複雑性を克服するために,従来のマルチヘッド自己注意の代わりにマルチブランチアテンション機構を提案する。 4つの公開異常検出ベンチマークに関する広範な実験は、我々のアプローチが他の最先端技術よりも優れていることを示している。

Many real-world IoT systems comprising various internet-connected sensory devices generate substantial amounts of multivariate time series data. Meanwhile, those critical IoT infrastructures, such as smart power grids and water distribution networks, are often targets of cyber-attacks, making anomaly detection of high research value. However, considering the complex topological and nonlinear dependencies that are initially unknown among sensors, modeling such relatedness is inevitable for any efficient and accurate anomaly detection system. Additionally, due to multivariate time series' temporal dependency and stochasticity, their anomaly detection remains a big challenge. This work proposed a novel framework, namely GTA, for multivariate time series anomaly detection by automatically learning a graph structure followed by the graph convolution and modeling the temporal dependency through a Transformer-based architecture. The core idea of learning graph structure is called the connection learning policy based on the Gumbel-softmax sampling strategy to learn bi-directed associations among sensors directly. We also devised a novel graph convolution named Influence Propagation convolution to model the anomaly information flow between graph nodes. Moreover, we proposed a multi-branch attention mechanism to substitute for original multi-head self-attention to overcome the quadratic complexity challenge. The extensive experiments on four public anomaly detection benchmarks further demonstrate our approach's superiority over other state-of-the-arts.
翻訳日:2021-04-09 12:49:55 公開日:2021-04-08
# QD-GCN: 分散コミュニティ検索のためのクエリ駆動グラフ畳み込みネットワーク

QD-GCN: Query-Driven Graph Convolutional Networks for Attributed Community Search ( http://arxiv.org/abs/2104.03583v1 )

ライセンス: Link先を確認
Yuli Jiang, Yu Rong, Hong Cheng, Xin Huang, Kangfei Zhao, Junzhou Huang(参考訳) 近年,コミュニティ検出やグラフクラスタリングと関連するが,異なる問題である有意なコミュニティ検索が文献で広く研究されている。 グラフから既存の静的なコミュニティを見つけ出すコミュニティ検出と比較すると,任意のクエリを与えられた凝集構造と均質なノード属性の両方を持つ動的コミュニティを見つけることを目的としているため,属性付きコミュニティ検索(ACS)の方が難しい。 ACS問題を解くために最も一般的なパラダイムは、構造マッチングと属性フィルタリングという2つのサブプロブレムとして問題を単純化し、それらを別々に扱うことである。 しかし、実世界のグラフでは、コミュニティ構造とノード属性は実際には相互に相関している。 この静脈において、現在の研究は、ACS問題に不可欠なこれらの相関を捉えることはできない。 本稿では,クエリ駆動型グラフ畳み込みネットワーク(qd-gcn)を提案する。 特にQD-GCNでは,グラフトポロジとノード属性を同時に符号化する強力なツールであるGraph Convolutional Networksを活用して,クエリ依存のコミュニティ情報を元のグラフから抽出する。 このクエリ依存のコミュニティ情報を利用することで、QD-GCNはクエリを指定してターゲットコミュニティを予測することができる。 qd-gcnが既存のコミュニティ検索アルゴリズムよりも効率と有効性の両方において優れていることが実世界グラフ実験によって示されている。

Recently, attributed community search, a related but different problem to community detection and graph clustering, has been widely studied in the literature. Compared with the community detection that finds all existing static communities from a graph, the attributed community search (ACS) is more challenging since it aims to find dynamic communities with both cohesive structures and homogeneous node attributes given arbitrary queries. To solve the ACS problem, the most popular paradigm is to simplify the problem as two sub-problems, that is, structural matching and attribute filtering and deal with them separately. However, in real-world graphs, the community structure and the node attributes are actually correlated to each other. In this vein, current studies cannot capture these correlations which are vital for the ACS problem. In this paper, we propose Query-Driven Graph Convolutional Networks (QD-GCN), an end-to-end framework that unifies the community structure as well as node attribute to solve the ACS problem. In particular, QD-GCN leverages the Graph Convolutional Networks, which is a powerful tool to encode the graph topology and node attributes concurrently, as the backbones to extract the query-dependent community information from the original graph. By utilizing this query-dependent community information, QD-GCN is able to predict the target community given any queries. Experiments on real-world graphs with ground-truth communities demonstrate that QD-GCN outperforms existing attributed community search algorithms in terms of both efficiency and effectiveness.
翻訳日:2021-04-09 12:49:32 公開日:2021-04-08
# 残留ガウス過程:マルチフィデリティシミュレーションのための可搬性非パラメトリックベイズエミュレータ

Residual Gaussian Process: A Tractable Nonparametric Bayesian Emulator for Multi-fidelity Simulations ( http://arxiv.org/abs/2104.03743v1 )

ライセンス: Link先を確認
Wei W. Xing, Akeel A. Shah, Peng Wang, Shandian Zhe Qian Fu, and Robert. M. Kirby(参考訳) 多重忠実性モデリングにおける課題は、精度、不確実性推定、高次元性に関するものである。 最下位の忠実度解の和として最も高い忠実度解と連続する忠実度レベルにおける解間の残差とが書かれ、ガウス過程が低忠実度解および各残差の上に置かれる新規な付加構造が導入された。 得られたモデルは予測後段に対する閉形式解を備えており、不確実性推定を必要とする高度な高次元タスクに適用できる。 その利点は、単変量ベンチマークと3つの挑戦的多変量問題で示される。 特に計算予算が限られているモデルを改善するために,アクティブな学習がいかに有効かを示す。 さらに、不定値の場合の平均予測に対して誤差境界を導出する。

Challenges in multi-fidelity modeling relate to accuracy, uncertainty estimation and high-dimensionality. A novel additive structure is introduced in which the highest fidelity solution is written as a sum of the lowest fidelity solution and residuals between the solutions at successive fidelity levels, with Gaussian process priors placed over the low fidelity solution and each of the residuals. The resulting model is equipped with a closed-form solution for the predictive posterior, making it applicable to advanced, high-dimensional tasks that require uncertainty estimation. Its advantages are demonstrated on univariate benchmarks and on three challenging multivariate problems. It is shown how active learning can be used to enhance the model, especially with a limited computational budget. Furthermore, error bounds are derived for the mean prediction in the univariate case.
翻訳日:2021-04-09 12:49:05 公開日:2021-04-08
# クリーントレーニングデータのない音声の聴取:ノイズ2雑音アプローチ

Speech Denoising without Clean Training Data: a Noise2Noise Approach ( http://arxiv.org/abs/2104.03838v1 )

ライセンス: Link先を確認
Madhav Mahesh Kashyap, Anuj Tambwekar, Krishnamoorthy Manohara, S Natarajan(参考訳) 本稿では, 雑音下音声サンプルのみを用いて, 深層音声認識ネットワークを訓練できることを示すことにより, 深層学習に基づく音声デオライズ手法で要求されるクリーン音声データの重み依存問題に対処する。 従来の認識では、優れた発声性能を達成するためには、ノイズの多い音声サンプルと完全にクリーンな音声サンプルの両方が必要であり、高価な録音装置と極端に制御された防音録音スタジオが必要である。 これらの要件は、特に経済的に不利な地域や低リソース言語において、データ収集において大きな課題となる。 本研究は, 雑音訓練音声のみを用いて, ディープニューラルネットワークを用いた音声の学習を成功させることを示す。 さらに, 複雑な雑音分布と低信号対雑音比(高雑音環境)を含む場合において, クリーントレーニング音声目標を用いた従来の訓練方式よりも高い音化性能を達成できることが判明した。 本研究は,20階層のDeep Complex U-Netアーキテクチャを用いた実環境雑音と合成雑音の両方に対する提案手法の有効性を実証した。

This paper tackles the problem of the heavy dependence of clean speech data required by deep learning based audio-denoising methods by showing that it is possible to train deep speech denoising networks using only noisy speech samples. Conventional wisdom dictates that in order to achieve good speech denoising performance, there is a requirement for a large quantity of both noisy speech samples and perfectly clean speech samples, resulting in a need for expensive audio recording equipment and extremely controlled soundproof recording studios. These requirements pose significant challenges in data collection, especially in economically disadvantaged regions and for low resource languages. This work shows that speech denoising deep neural networks can be successfully trained utilizing only noisy training audio. Furthermore it is revealed that such training regimes achieve superior denoising performance over conventional training regimes utilizing clean training audio targets, in cases involving complex noise distributions and low Signal-to-Noise ratios (high noise environments). This is demonstrated through experiments studying the efficacy of our proposed approach over both real-world noises and synthetic noises using the 20 layered Deep Complex U-Net architecture.
翻訳日:2021-04-09 12:48:52 公開日:2021-04-08
# SerumRNN: ステップバイステップオーディオVSTエフェクトプログラミング

SerumRNN: Step by Step Audio VST Effect Programming ( http://arxiv.org/abs/2104.03876v1 )

ライセンス: Link先を確認
Christopher Mitcheltree, Hideki Koike(参考訳) 音声生成VSTシンセサイザーをプログラムする学習は、通常、非効率な試行錯誤によって得られる時間のかかるプロセスであり、長年の経験の後にのみ習得される。 音声設計者のための教育的・創造的なツールとして,音声効果を適用し,ユーザの入力音声を所望の音声へ変更するためのステップ・バイ・ステップの指示を行うシステムであるsoseornnを提案する。 我々はXfer Records Serumにシステムを適用し、現在オーディオ制作コミュニティで使われている最もポピュラーで複雑なVSTシンセサイザーの1つである。 以上の結果から,SerumRNNは様々なオーディオ効果やシンセサイザープリセットに対して,常に有用なフィードバックを提供することができることがわかった。 本稿では,反復システムの利点を示し,SerumRNNがエフェクトの優先順位付けを学習し,様々なベースラインよりも効率の良いエフェクト順序列を発見できることを示す。

Learning to program an audio production VST synthesizer is a time consuming process, usually obtained through inefficient trial and error and only mastered after years of experience. As an educational and creative tool for sound designers, we propose SerumRNN: a system that provides step-by-step instructions for applying audio effects to change a user's input audio towards a desired sound. We apply our system to Xfer Records Serum: currently one of the most popular and complex VST synthesizers used by the audio production community. Our results indicate that SerumRNN is consistently able to provide useful feedback for a variety of different audio effects and synthesizer presets. We demonstrate the benefits of using an iterative system and show that SerumRNN learns to prioritize effects and can discover more efficient effect order sequences than a variety of baselines.
翻訳日:2021-04-09 12:48:33 公開日:2021-04-08
# ニューラルネットワークを用いたマッチングフィルタリングの一般化

Generalized Approach to Matched Filtering using Neural Networks ( http://arxiv.org/abs/2104.03961v1 )

ライセンス: Link先を確認
Jingkai Yan, Mariam Avagyan, Robert E. Colgan, Do\u{g}a Veske, Imre Bartos, John Wright, Zsuzsa M\'arka, Szabolcs M\'arka(参考訳) 重力波科学は先駆的な分野であり、現在急速に進化しているデータ分析手法は深層学習技術を模倣し発明している。 フィールドの洗練された旗艦探索の大部分は、コア内のタイムテストされたマッチングフィルタリング原理に依存している。 本稿では,新たな深層学習と従来の手法との関係について重要な考察を行う。マッチングフィルタリングは,特定のニューラルネットワークと正式に等価である。 つまり、ニューラルネットワークは、マッチしたフィルタリングを正確に実装するために分析的に構築することができ、さらにデータでトレーニングしたり、パフォーマンスを改善するためにさらなる複雑さで強化することができる。 この基本的な等価性は、重力波信号に対する異なるアプローチの相対的複雑さを共通の枠組みで特徴付ける「複雑度標準ろうそく」を定義することを可能にする。 さらに、ニューラルネットワークが圧倒的なノイズの中で信号を見つける問題にどうアプローチするかの手がかりとなる興味深い対称性を垣間見ることができる。 さらに,提案したニューラルネットワークアーキテクチャは,パラメータ分布の事前知識の有無にかかわらず,マッチングフィルタリングよりも優れていることを示す。 事前が与えられると、提案したニューラルネットワークは統計的に最適な性能に近づくことができる。 また,mnet-shallowとmnet-deepという2つの異なるニューラルネットワークアーキテクチャを提案し,検討した。 MNet-Shallowはより単純な構造を持ち、MNet-Deepはより柔軟で幅広い分布を扱うことができる。 LIGOデータと合成インジェクションを用いた実験により理論的知見を裏付ける。 最後に,重力波検出における深層学習の役割に関する新たな視点を提案する。

Gravitational wave science is a pioneering field with rapidly evolving data analysis methodology currently assimilating and inventing deep learning techniques. The bulk of the sophisticated flagship searches of the field rely on the time-tested matched filtering principle within their core. In this paper, we make a key observation on the relationship between the emerging deep learning and the traditional techniques: matched filtering is formally equivalent to a particular neural network. This means that a neural network can be constructed analytically to exactly implement matched filtering, and can be further trained on data or boosted with additional complexity for improved performance. This fundamental equivalence allows us to define a "complexity standard candle" allowing us to characterize the relative complexity of the different approaches to gravitational wave signals in a common framework. Additionally it also provides a glimpse of an intriguing symmetry that could provide clues on how neural networks approach the problem of finding signals in overwhelming noise. Moreover, we show that the proposed neural network architecture can outperform matched filtering, both with or without knowledge of a prior on the parameter distribution. When a prior is given, the proposed neural network can approach the statistically optimal performance. We also propose and investigate two different neural network architectures MNet-Shallow and MNet-Deep, both of which implement matched filtering at initialization and can be trained on data. MNet-Shallow has simpler structure, while MNet-Deep is more flexible and can deal with a wider range of distributions. Our theoretical findings are corroborated by experiments using real LIGO data and synthetic injections. Finally, our results suggest new perspectives on the role of deep learning in gravitational wave detection.
翻訳日:2021-04-09 12:47:51 公開日:2021-04-08
# (参考訳) SOLO: オンライン検索, 組合せ最適化問題のオフライン学習

SOLO: Search Online, Learn Offline for Combinatorial Optimization Problems ( http://arxiv.org/abs/2104.01646v2 )

ライセンス: CC BY 4.0
Joel Oren, Chana Ross, Maksym Lefarov, Felix Richter, Ayal Taitler, Zohar Feldman, Christian Daniel, Dotan Di Castro(参考訳) 本研究では,マシンスケジューリング,ルーティング,割り当てといった実世界のアプリケーションにおける組合せ問題について検討する。 強化学習(RL)と計画を組み合わせる手法を提案する。 この方法は、オフラインでもオンラインでも、問題コンポーネント(例えばスケジューリング問題におけるジョブ)が事前に知られておらず、意思決定プロセス中に到着するコンビネータ問題でも同じように適用することができる。 私たちのソリューションは非常に汎用的でスケーラブルで、問題パラメータの分散知識を活用しています。 我々は、解法プロセスをMDPとして構成し、状態がグラフとして表現されるディープQラーニングアプローチを採用し、訓練されたポリシーが原則化された方法で任意の変更に対処できるようにする。 学習されたポリシーは期待通りに機能するが、小さな偏差は組合せ設定においてかなりの負の効果を持つ。 これらの欠点を、互換性のある探索アルゴリズムであるモンテカルロ木探索において、グラフ畳み込みポリシーを非最適ヒューリスティックとして利用することで軽減し、全体的な性能を大幅に向上させる。 提案手法は, マシンスケジューリングとキャパシタ付き車両ルーティングの2つの問題について実証する。 本手法は, 計算時間と性能の両方において, 独自に調整した数学解法, 美術学習に基づくアルゴリズム, および共通ヒューリスティックスよりも優れていることを示す。

We study combinatorial problems with real world applications such as machine scheduling, routing, and assignment. We propose a method that combines Reinforcement Learning (RL) and planning. This method can equally be applied to both the offline, as well as online, variants of the combinatorial problem, in which the problem components (e.g., jobs in scheduling problems) are not known in advance, but rather arrive during the decision-making process. Our solution is quite generic, scalable, and leverages distributional knowledge of the problem parameters. We frame the solution process as an MDP, and take a Deep Q-Learning approach wherein states are represented as graphs, thereby allowing our trained policies to deal with arbitrary changes in a principled manner. Though learned policies work well in expectation, small deviations can have substantial negative effects in combinatorial settings. We mitigate these drawbacks by employing our graph-convolutional policies as non-optimal heuristics in a compatible search algorithm, Monte Carlo Tree Search, to significantly improve overall performance. We demonstrate our method on two problems: Machine Scheduling and Capacitated Vehicle Routing. We show that our method outperforms custom-tailored mathematical solvers, state of the art learning-based algorithms, and common heuristics, both in computation time and performance.
翻訳日:2021-04-09 11:48:09 公開日:2021-04-08
# (参考訳) InverseForm: 構造化境界認識セグメンテーションのためのロス関数

InverseForm: A Loss Function for Structured Boundary-Aware Segmentation ( http://arxiv.org/abs/2104.02745v2 )

ライセンス: CC BY 4.0
Shubhankar Borse, Ying Wang, Yizhe Zhang, Fatih Porikli(参考訳) 本稿では,推定と対象境界間のパラメトリック変換の程度を効率的に学習する逆変換ネットワークを用いた意味セグメンテーションのための新しい境界認識損失項を提案する。 このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完し、そのサイズと計算複雑性を増大させることなくセグメンテーションバックボーンモデルの一貫性と顕著な性能向上を可能にする。 都市景観,NYU-Depth-v2,PASCALを含む3つの屋内および屋外セグメンテーション・ベンチマークにおける損失関数の定量的および定性的効果を解析し,複数のバックボーンネットワークのトレーニングフェーズに統合した。 実験の結果,提案手法はベースラインを一貫して上回り,また2つのデータセットに対して新たな最先端設定を行うことができた。

We present a novel boundary-aware loss term for semantic segmentation using an inverse-transformation network, which efficiently learns the degree of parametric transformations between estimated and target boundaries. This plug-in loss term complements the cross-entropy loss in capturing boundary transformations and allows consistent and significant performance improvement on segmentation backbone models without increasing their size and computational complexity. We analyze the quantitative and qualitative effects of our loss function on three indoor and outdoor segmentation benchmarks, including Cityscapes, NYU-Depth-v2, and PASCAL, integrating it into the training phase of several backbone networks in both single-task and multi-task settings. Our extensive experiments show that the proposed method consistently outperforms baselines, and even sets the new state-of-the-art on two datasets.
翻訳日:2021-04-09 11:28:49 公開日:2021-04-08
# (参考訳) Plinius: セキュアで永続的な機械学習モデルトレーニング

Plinius: Secure and Persistent Machine Learning Model Training ( http://arxiv.org/abs/2104.02987v2 )

ライセンス: CC BY 4.0
Peterson Yuhala, Pascal Felber, Valerio Schiavoni, Alain Tchana(参考訳) クラウドベースの機械学習(ML)技術の普及に伴い、MLデータに対するプライバシと整合性の保証が求められている。 さらに、DRAMが直面している大きなスケーラビリティ上の課題とセカンダリストレージのアクセス時間の高さは、MLシステムにとって大きなパフォーマンスボトルネックとなっている。 セキュリティ面に取り組むためのソリューションは存在するが、パフォーマンスは依然として問題である。 永続メモリ(PM)は電力損失(DRAMとは違い)に耐性があり、高速かつきめ細かなメモリアクセス(ディスクストレージとは違い)を提供し、遅延と帯域幅はDRAMに近い(それぞれ ns と GB/s の順)。 本稿では,Intel SGXエンクレーブを用いたMLフレームワークであるPLINIUSと,フォールトトレランス保証のためのPMを提案する。 p liniusは、(i)pm上のmlモデルの暗号化ミラーコピーを作成し、維持するために、新しいミラーリングメカニズムを使用し、(ii) システム障害後のほぼ瞬時データ回復のために、バイトアドレス可能なpmで暗号化されたトレーニングデータを生成する。 ディスクベースのチェックポイントシステムと比較して、PLINIUSは実PMハードウェア上でモデルを保存および復元するためにそれぞれ3.2倍と3.7倍高速であり、SGXエンクレーブで堅牢かつセキュアなMLモデルのトレーニングを実現する。

With the increasing popularity of cloud based machine learning (ML) techniques there comes a need for privacy and integrity guarantees for ML data. In addition, the significant scalability challenges faced by DRAM coupled with the high access-times of secondary storage represent a huge performance bottleneck for ML systems. While solutions exist to tackle the security aspect, performance remains an issue. Persistent memory (PM) is resilient to power loss (unlike DRAM), provides fast and fine-granular access to memory (unlike disk storage) and has latency and bandwidth close to DRAM (in the order of ns and GB/s, respectively). We present PLINIUS, a ML framework using Intel SGX enclaves for secure training of ML models and PM for fault tolerance guarantees. P LINIUS uses a novel mirroring mechanism to create and maintain (i) encrypted mirror copies of ML models on PM, and (ii) encrypted training data in byte-addressable PM, for near-instantaneous data recovery after a system failure. Compared to disk-based checkpointing systems,PLINIUS is 3.2x and 3.7x faster respectively for saving and restoring models on real PM hardware, achieving robust and secure ML model training in SGX enclaves.
翻訳日:2021-04-09 11:13:08 公開日:2021-04-08
# (参考訳) 予測モデルにおけるgoogle trendsの適切な利用

The Proper Use of Google Trends in Forecasting Models ( http://arxiv.org/abs/2104.03065v2 )

ライセンス: CC BY 4.0
Marcelo C. Medeiros, Henrique F. Pires(参考訳) Google Trendsは、学者でも民間でも公共部門でも、予測者が使っている最も人気のある無料ツールの1つとして広く知られている。 いくつかの異なる分野から、google trendsが予測の正確性を改善することを結論付ける多くの論文がある。 しかし、広く知られていないと思われるのは、google検索データの各サンプルが、同じ検索語、データ、場所を設定する場合でも、互いに異なることだ。 これは、偶然に任意の結論を見つけることができることを意味する。 本稿は,問題になり得る理由と,その克服方法を明らかにすることを目的とする。

It is widely known that Google Trends have become one of the most popular free tools used by forecasters both in academics and in the private and public sectors. There are many papers, from several different fields, concluding that Google Trends improve forecasts' accuracy. However, what seems to be widely unknown, is that each sample of Google search data is different from the other, even if you set the same search term, data and location. This means that it is possible to find arbitrary conclusions merely by chance. This paper aims to show why and when it can become a problem and how to overcome this obstacle.
翻訳日:2021-04-09 10:47:20 公開日:2021-04-08
# talk, don't write: direct speech-based image retrieval の検討

Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval ( http://arxiv.org/abs/2104.01894v2 )

ライセンス: Link先を確認
Ramon Sanabria, Austin Waters, Jason Baldridge(参考訳) 音声に基づく画像検索は, 検索自体に重きを置くことなく, 共同表現学習の指標として研究されてきた。 そのため、絶対的な意味でも、自動音声認識(ASR)と強力なテキストエンコーダを組み合わせた代替戦略においても、音声ベースの検索が実際にどの程度うまく機能するかは不明だ。 本研究では,エンコーダアーキテクチャの選択,トレーニング方法論(非モーダルおよびマルチモーダル事前学習を含む),その他の要因を幅広く研究し,拡張する。 実験では、Flickr Audio、Places Audio、Localized Narrativesの3つのデータセットで、さまざまなタイプの音声をカバーしています。 私たちの最高のモデル構成は、例えば、Flickr Audioでは21.8%から33.2%、Places Audioでは27.6%から53.4%にリコール・アット・ワンをプッシュするなど、最先端技術よりも大幅に向上する。 また,音声の自発的,アクセント的,あるいは自動書き起こしが困難である場合,asr-to-textエンコーディングのカスケードを克服できる最善の音声モデルを示す。

Speech-based image retrieval has been studied as a proxy for joint representation learning, usually without emphasis on retrieval itself. As such, it is unclear how well speech-based retrieval can work in practice -- both in an absolute sense and versus alternative strategies that combine automatic speech recognition (ASR) with strong text encoders. In this work, we extensively study and expand choices of encoder architectures, training methodology (including unimodal and multimodal pretraining), and other factors. Our experiments cover different types of speech in three datasets: Flickr Audio, Places Audio, and Localized Narratives. Our best model configuration achieves large gains over state of the art, e.g., pushing recall-at-one from 21.8% to 33.2% for Flickr Audio and 27.6% to 53.4% for Places Audio. We also show our best speech-based models can match or exceed cascaded ASR-to-text encoding when speech is spontaneous, accented, or otherwise hard to automatically transcribe.
翻訳日:2021-04-09 10:38:17 公開日:2021-04-08
# HumAID: ディープラーニングベンチマークを備えたTwitterの人手による災害データ

HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep Learning Benchmarks ( http://arxiv.org/abs/2104.03090v2 )

ライセンス: Link先を確認
Firoj Alam, Umair Qazi, Muhammad Imran, Ferda Ofli(参考訳) ソーシャルネットワークは情報消費や普及に広く使われており、特に自然災害などの時間的危機的な出来事で使われている。 その膨大な量にもかかわらず、ソーシャルメディアのコンテンツはどんなアプリケーションでも直接使うにはうるさすぎることが多い。 したがって、効率的な消費と意思決定を容易にするために、利用可能なコンテンツをフィルタリング、分類、簡潔に要約することが重要である。 このような問題に対処するために、ラベル付きデータセットの作成に先立って、教師付きモデリングアプローチを用いて自動分類システムが開発された。 しかし、既存のデータセットは異なる側面(例えば、サイズ、重複を含む)に限定されており、より高度でデータに精通したディープラーニングモデルをサポートするには適していない。 本稿では,2016年から2019年にかけて発生した19の災害イベントを対象に,約2400万ツイートのプールから抽出した,約77万ツイートの大規模データセットを提案する。 また,人間のアノテーションに対するソーシャルメディアデータサンプリングにおいて重要なデータ収集・サンプリングパイプラインを提案する。 本稿では,古典的および深層学習(fastTextおよびtransformer)モデルを用いた多クラス分類結果について報告する。 データセットと関連するリソースが公開されている。 https://crisisnlp.qcri.org/humaid_dataset.html

Social networks are widely used for information consumption and dissemination, especially during time-critical events such as natural disasters. Despite its significantly large volume, social media content is often too noisy for direct use in any application. Therefore, it is important to filter, categorize, and concisely summarize the available content to facilitate effective consumption and decision-making. To address such issues automatic classification systems have been developed using supervised modeling approaches, thanks to the earlier efforts on creating labeled datasets. However, existing datasets are limited in different aspects (e.g., size, contains duplicates) and less suitable to support more advanced and data-hungry deep learning models. In this paper, we present a new large-scale dataset with ~77K human-labeled tweets, sampled from a pool of ~24 million tweets across 19 disaster events that happened between 2016 and 2019. Moreover, we propose a data collection and sampling pipeline, which is important for social media data sampling for human annotation. We report multiclass classification results using classic and deep learning (fastText and transformer) based models to set the ground for future studies. The dataset and associated resources are publicly available. https://crisisnlp.qcri.org/humaid_dataset.html
翻訳日:2021-04-09 10:37:57 公開日:2021-04-08
# メカトロニクス系の異種多変量時系列データを用いたオートエンコーダに基づく表現学習

Autoencoder-based Representation Learning from Heterogeneous Multivariate Time Series Data of Mechatronic Systems ( http://arxiv.org/abs/2104.02784v2 )

ライセンス: Link先を確認
Karl-Philipp Kortmann, Moritz Fehsenfeld and Mark Wielitzka(参考訳) 現代のメカトロニクス系のセンサと制御データは、サンプリングレートと値範囲の異なる異種時系列としてしばしば利用できる。 教師付き機械学習の分野からの適切な分類と回帰手法は、例えば条件監視の文脈では予測タスクにすでに存在しているが、その性能はラベル付きトレーニングデータの数と強く一致している。 それらの規定は、人的時間や追加のセンサーという形で高い労力に結びつくことが多い。 本稿では,データベースの異種性に特化して対処し,既存の手法と比較してラベル付きトレーニングデータの量を削減するオートエンコーダネットワークを用いた教師なし特徴抽出手法を提案する。 異なるアプリケーションドメインからのメカトロニクスシステムの3つの公開データセットを使用して結果を検証する。

Sensor and control data of modern mechatronic systems are often available as heterogeneous time series with different sampling rates and value ranges. Suitable classification and regression methods from the field of supervised machine learning already exist for predictive tasks, for example in the context of condition monitoring, but their performance scales strongly with the number of labeled training data. Their provision is often associated with high effort in the form of person-hours or additional sensors. In this paper, we present a method for unsupervised feature extraction using autoencoder networks that specifically addresses the heterogeneous nature of the database and reduces the amount of labeled training data required compared to existing methods. Three public datasets of mechatronic systems from different application domains are used to validate the results.
翻訳日:2021-04-09 10:37:37 公開日:2021-04-08
# DG-Font: 教師なしフォント生成のための変形可能な生成ネットワーク

DG-Font: Deformable Generative Networks for Unsupervised Font Generation ( http://arxiv.org/abs/2104.03064v2 )

ライセンス: Link先を確認
Yangchen Xie and Xinyuan Chen and Li Sun and Yue Lu(参考訳) フォント生成は、特に多くの文字で構成され、近年多くの注目を集めている一部の書記システムにとって、困難な問題である。 しかし、既存のフォント生成手法はしばしば教師付き学習である。 大量のペアデータが必要で、それは労働集約的で収集に費用がかかる。 また、一般的な画像から画像への翻訳モデルは、フォント生成に直接適用できないテクスチャや色の集合としてスタイルを定義することが多い。 そこで本研究では,非教師なしフォント生成(dgfont)のための新しい変形可能な生成ネットワークを提案する。 本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。 fdscの出力はミキサーに供給され、最終的な結果を生成する。 FDSCを利用して、ミキサーは完全な構造を持つ高品質なキャラクタを出力する。 生成画像の品質をさらに向上するために,コンテンツエンコーダ内の3つの変形可能な畳み込み層を用いて,スタイル不変特徴表現を学習する。 実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。 ソースコードはhttps://github.com/ecnuycxie/DG-Font.comで入手できる。

Font generation is a challenging problem especially for some writing systems that consist of a large number of characters and has attracted a lot of attention in recent years. However, existing methods for font generation are often in supervised learning. They require a large number of paired data, which is labor-intensive and expensive to collect. Besides, common image-to-image translation models often define style as the set of textures and colors, which cannot be directly applied to font generation. To address these problems, we propose novel deformable generative networks for unsupervised font generation (DGFont). We introduce a feature deformation skip connection (FDSC) which predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level feature maps from the content encoder. The outputs of FDSC are fed into a mixer to generate the final results. Taking advantage of FDSC, the mixer outputs a high-quality character with a complete structure. To further improve the quality of generated images, we use three deformable convolution layers in the content encoder to learn style-invariant feature representations. Experiments demonstrate that our model generates characters in higher quality than state-of-art methods. The source code is available at https://github.com/ecnuycxie/DG-Font.
翻訳日:2021-04-09 10:36:59 公開日:2021-04-08
# 視覚言語表現学習のためのエンド・ツー・エンド事前学習

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning ( http://arxiv.org/abs/2104.03135v2 )

ライセンス: Link先を確認
Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu, Jianlong Fu(参考訳) 我々は、数百万の画像テキストペアから相互にアライメントを学習することを目的とした、視覚言語事前学習(VLPT)のための畳み込みニューラルネットワーク(CNN)とトランスフォーマーの共同学習について研究する。 State-of-the-art approach extract salient image region andaligned region with words-by-step。 領域ベースの視覚的特徴は通常画像の一部を表現するため、既存の視覚言語モデルがペアの自然言語から意味を完全に理解することは困難である。 本稿では,全体像を入力として取り出す「tHe bOx から tHe bOx を抽出する」ための SOHO を提案し,エンドツーエンドで視覚言語表現を学習する。 SOHOは、領域ベースのアプローチよりも10倍高速な推論を可能にするバウンディングボックスアノテーションを必要としない。 特に、SOHOは、横断的な理解を容易にする視覚辞書(VD)を通して、包括的でコンパクトな画像の特徴を抽出することを学ぶ。 VDは、類似のセマンティクスの一貫した視覚的抽象化を表現するように設計されている。 これはオンザフライで更新され、提案するプレトレーニングタスクマスクビジュアルモデリング(mvm)で利用されます。 我々は、標準VLPT設定に従うことで、確立された4つの視覚言語タスクの実験を行う。 特に、MSCOCOテキスト検索5kテストスプリットの2.0% R@1スコア、NLVR$^2$テストPスプリットの1.5%精度、SNLI-VEテストスプリットの6.7%精度の絶対ゲインを達成する。

We study joint learning of Convolutional Neural Network (CNN) and Transformer for vision-language pre-training (VLPT) which aims to learn cross-modal alignments from millions of image-text pairs. State-of-the-art approaches extract salient image regions and align regions with words step-by-step. As region-based visual features usually represent parts of an image, it is challenging for existing vision-language models to fully understand the semantics from paired natural languages. In this paper, we propose SOHO to "See Out of tHe bOx" that takes a whole image as input, and learns vision-language representation in an end-to-end manner. SOHO does not require bounding box annotations which enables inference 10 times faster than region-based approaches. In particular, SOHO learns to extract comprehensive yet compact image features through a visual dictionary (VD) that facilitates cross-modal understanding. VD is designed to represent consistent visual abstractions of similar semantics. It is updated on-the-fly and utilized in our proposed pre-training task Masked Visual Modeling (MVM). We conduct experiments on four well-established vision-language tasks by following standard VLPT settings. In particular, SOHO achieves absolute gains of 2.0% R@1 score on MSCOCO text retrieval 5k test split, 1.5% accuracy on NLVR$^2$ test-P split, 6.7% accuracy on SNLI-VE test split, respectively.
翻訳日:2021-04-09 10:36:39 公開日:2021-04-08
# 自己接触と人間行動について

On Self-Contact and Human Pose ( http://arxiv.org/abs/2104.03176v2 )

ライセンス: Link先を確認
Lea M\"uller and Ahmed A. A. Osman and Siyu Tang and Chun-Hao P. Huang and Michael J. Black(参考訳) 人々は1時間に23回顔に触れ、腕と脚を渡り、腰に手を置くなどします。 多くの人の画像には何らかの形の自己接触が含まれているが、現在の3D人間のポーズと形状(HPS)回帰法はこの接触を推定できないのが普通である。 そこで我々は,自己接触によるポーズ推定を大幅に改善する新しいデータセットと手法を開発した。 まず、3dスキャンに適合するsmpl-xボディを含む3dコンタクトポーズ(3dcp)と、amassのポーズのデータセットを作成します。 第2に、これを活用して、amazon mechanical turkによって収集された画像のmtpデータセットを作成し、自己接触で3dcpのポーズを模倣する人々を含む。 第3に,接触制約を含む新しいHPS最適化手法SMPLify-XMCを開発した。 第4に、より多様な画像に対して、離散自己接触(DSC)情報を用いた画像のデータセットをラベル付けし、ポーズ最適化中に離散接触を利用する新たな最適化手法SMPLify-DCを使用する。 最後に、SPINトレーニング中にデータセットを使用して、TUCH(Towards Understanding Contact in Humans)と呼ばれる新しい3Dヒューマンポーズ回帰器を学習します。 新たな自己接触トレーニングデータにより,保持されていないテストデータと既存の3DPWのようなデータセットの3次元ポーズ推定が大幅に向上することを示す。 本手法は, 自己接触ポーズの結果を改善するだけでなく, 非接触ポーズの精度を向上させる。 コードとデータは、https://tuch.is.tue.mpg.deで研究目的に利用できる。

People touch their face 23 times an hour, they cross their arms and legs, put their hands on their hips, etc. While many images of people contain some form of self-contact, current 3D human pose and shape (HPS) regression methods typically fail to estimate this contact. To address this, we develop new datasets and methods that significantly improve human pose estimation with self-contact. First, we create a dataset of 3D Contact Poses (3DCP) containing SMPL-X bodies fit to 3D scans as well as poses from AMASS, which we refine to ensure good contact. Second, we leverage this to create the Mimic-The-Pose (MTP) dataset of images, collected via Amazon Mechanical Turk, containing people mimicking the 3DCP poses with selfcontact. Third, we develop a novel HPS optimization method, SMPLify-XMC, that includes contact constraints and uses the known 3DCP body pose during fitting to create near ground-truth poses for MTP images. Fourth, for more image variety, we label a dataset of in-the-wild images with Discrete Self-Contact (DSC) information and use another new optimization method, SMPLify-DC, that exploits discrete contacts during pose optimization. Finally, we use our datasets during SPIN training to learn a new 3D human pose regressor, called TUCH (Towards Understanding Contact in Humans). We show that the new self-contact training data significantly improves 3D human pose estimates on withheld test data and existing datasets like 3DPW. Not only does our method improve results for self-contact poses, but it also improves accuracy for non-contact poses. The code and data are available for research purposes at https://tuch.is.tue.mpg.de.
翻訳日:2021-04-09 10:36:12 公開日:2021-04-08
# ディエンス対応の教師なし学習のためのワープ整合性

Warp Consistency for Unsupervised Learning of Dense Correspondences ( http://arxiv.org/abs/2104.03308v2 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Fisher Yu and Luc Van Gool(参考訳) 密接な対応を学習する上での鍵となる課題は、実画像対に対する地道一致の欠如にある。 光度整合性損失は教師なしの代替手段を提供するが、幾何学的および意味的マッチングタスクにおいてユビキタスな大きな外観変化に苦しむ。 さらに、合成トレーニングペアに依存する手法は、実際のデータに対する一般化の貧弱さに悩まされることが多い。 密接な対応回帰のための教師なし学習目標であるwarp一貫性を提案する。 当社の目標は,外観や視点の変化が大きい設定でも有効です。 一対の実際の画像が与えられたとき、まず、ランダムにサンプリングされたワープを元の画像の1つに適用することにより、三重項画像を構築する。 三重項間のフロー一貫性の制約をすべて導出し解析する。 観測結果と実験結果から,導出した2つの制約を応用した一般教師なしの目的を設計する。 我々は、幾何学的および意味的マッチングタスクのための最近の3つの密接な対応ネットワークをトレーニングすることにより、ワープ整合性損失を検証する。 当社のアプローチでは,MegaDepth,RobotCar,TSSなど,いくつかの挑戦的なベンチマークに対して,新たな最先端性を実現しています。 コードとモデルはhttps://github.com/PruneTruong/DenseMatching.comでリリースされる。

The key challenge in learning dense correspondences lies in the lack of ground-truth matches for real image pairs. While photometric consistency losses provide unsupervised alternatives, they struggle with large appearance changes, which are ubiquitous in geometric and semantic matching tasks. Moreover, methods relying on synthetic training pairs often suffer from poor generalisation to real data. We propose Warp Consistency, an unsupervised learning objective for dense correspondence regression. Our objective is effective even in settings with large appearance and view-point changes. Given a pair of real images, we first construct an image triplet by applying a randomly sampled warp to one of the original images. We derive and analyze all flow-consistency constraints arising between the triplet. From our observations and empirical results, we design a general unsupervised objective employing two of the derived constraints. We validate our warp consistency loss by training three recent dense correspondence networks for the geometric and semantic matching tasks. Our approach sets a new state-of-the-art on several challenging benchmarks, including MegaDepth, RobotCar and TSS. Code and models will be released at https://github.com/PruneTruong/DenseMatching.
翻訳日:2021-04-09 10:35:40 公開日:2021-04-08
# SCANimate: スキン付きアバターネットワークの微妙な監視による学習

SCANimate: Weakly Supervised Learning of Skinned Clothed Avatar Networks ( http://arxiv.org/abs/2104.03313v2 )

ライセンス: Link先を確認
Shunsuke Saito, Jinlong Yang, Qianli Ma, Michael J. Black(参考訳) SCANimateは、服を着た人間の生の3Dスキャンを行い、それらをアニマタブルなアバターに変える、エンドツーエンドのトレーニング可能なフレームワークである。 これらのアバターはポーズパラメータによって駆動され、自然に動き変形するリアルな服装を持つ。 SCANimateは、カスタマイズされたメッシュテンプレートやサーフェスメッシュ登録に依存しない。 人体スキャンにsmplのようなパラメトリック3dボディーモデルを適用することは容易であるが,ボディートポロジーの表面登録はボディー形状から著しくずれる可能性があるため,しばしばそうではない。 また, 調音変換は可逆であり, 擬似および非擬似形状における幾何的周期の整合性をもたらす。 これらの観察により,テンプレートベース表面登録を伴わずに関節変形を解消することで,スキャンを正準的なポーズに整列させる弱い教師付き学習法が得られた。 さらに, 位置依存変形をモデル化しながらアライメントスキャンの欠落領域を完備化するために, 局所的なポーズ認識型暗黙関数を導入し, 学習したポーズ補正を用いて形状をモデル化する。 一般的なグローバルポーズ埋め込みとは対照的に、我々の局所ポーズ条件付けは長距離スプリアス相関を著しく低減し、特に訓練データに制限がある場合、目に見えないポーズへの一般化を改善する。 本手法はポーズ認識型外観モデルに適用でき,完全にテクスチャ化されたアバターを生成できる。 トレーニングデータの量が異なる各種衣料品について,各設定における忠実度と汎用性の観点から,既存ソリューションや他の変種よりも優れていることを示す。 コードはhttps://scanimate.is.tue.mpg.deで入手できる。

We present SCANimate, an end-to-end trainable framework that takes raw 3D scans of a clothed human and turns them into an animatable avatar. These avatars are driven by pose parameters and have realistic clothing that moves and deforms naturally. SCANimate does not rely on a customized mesh template or surface mesh registration. We observe that fitting a parametric 3D body model, like SMPL, to a clothed human scan is tractable while surface registration of the body topology to the scan is often not, because clothing can deviate significantly from the body shape. We also observe that articulated transformations are invertible, resulting in geometric cycle consistency in the posed and unposed shapes. These observations lead us to a weakly supervised learning method that aligns scans into a canonical pose by disentangling articulated deformations without template-based surface registration. Furthermore, to complete missing regions in the aligned scans while modeling pose-dependent deformations, we introduce a locally pose-aware implicit function that learns to complete and model geometry with learned pose correctives. In contrast to commonly used global pose embeddings, our local pose conditioning significantly reduces long-range spurious correlations and improves generalization to unseen poses, especially when training data is limited. Our method can be applied to pose-aware appearance modeling to generate a fully textured avatar. We demonstrate our approach on various clothing types with different amounts of training data, outperforming existing solutions and other variants in terms of fidelity and generality in every setting. The code is available at https://scanimate.is.tue.mpg.de.
翻訳日:2021-04-09 10:35:22 公開日:2021-04-08