このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210325となっている論文です。

PDF登録状況(公開日: 20210325)

TitleAuthorsAbstract論文公表日・翻訳日
# 最も単純で不均一で均質な木-テンソル状態を持つ長鎖量子スピン鎖の性質

Properties of the simplest inhomogeneous and homogeneous Tree-Tensor-States for Long-Ranged Quantum Spin Chains with or without disorder ( http://arxiv.org/abs/2001.10731v2 )

ライセンス: Link先を確認
Cecile Monthus(参考訳) 長方形量子スピン鎖の基底状態を記述するために, パリティと時間反転対称性を尊重する最も単純なツリーテンソル状態 (TTS) について検討した。 明示的な公式は、任意の一スピンおよび二スピン可観測性を計算することができる一点および二点還元密度行列に対して与えられる。 1体と2体の貢献しか持たないハミルトニアンは、TSの最適パラメータを得るためにTSのエネルギーを評価・最小化することができる。 TTSパラメータのこの変分最適化は、ブロック内再正規化ハミルトニアンの対角化に基づく従来のブロックスピン再正規化法と比較される。

The simplest Tree-Tensor-States (TTS) respecting the Parity and the Time-Reversal symmetries are studied in order to describe the ground states of Long-Ranged Quantum Spin Chains with or without disorder. Explicit formulas are given for the one-point and two-point reduced density matrices that allow to compute any one-spin and two-spin observable. For Hamiltonians containing only one-body and two-body contributions, the energy of the TTS can be then evaluated and minimized in order to obtain the optimal parameters of the TTS. This variational optimization of the TTS parameters is compared with the traditional block-spin renormalization procedure based on the diagonalization of some intra-block renormalized Hamiltonian.
翻訳日:2023-06-05 07:04:18 公開日:2021-03-25
# ベクトル時間反転による1km長マルチモードファイバによる高忠実度空間モード伝送

High-fidelity spatial mode transmission through a 1-km-long multimode fiber via vectorial time reversal ( http://arxiv.org/abs/2003.09883v3 )

ライセンス: Link先を確認
Yiyu Zhou, Boris Braverman, Alexander Fyffe, Runzhou Zhang, Jiapeng Zhao, Alan E. Willner, Zhimin Shi, Robert W. Boyd(参考訳) 標準マルチモードファイバによってサポートされている多くの空間モードは、量子通信や古典通信のチャネル容量を桁違いに増やす有望なプラットフォームである。 しかし, 長い多モード繊維の実用化は, クロストークと偏光混合によって著しく妨げられている。 これらの課題を克服するため,我々は,前方伝播信号ビームの波面と偏光を,補助的な後方伝播プローブビームの位相共役となるようにディジタル的にプリシェープし,ベクトル時間反転法を考案し,実験的に実証する。 本稿では,210 Laguerre-GaussモードとHermite-Gaussモードの80%以上のモード忠実度を,不安定な1km長繊維上のベクトル時間反転を用いて報告する。 また,本手法により実現可能な可能性を示すため,多モード長繊維上の実用的でスケーラブルな空間モード多重化量子通信プロトコルを提案する。

The large number of spatial modes supported by standard multimode fibers is a promising platform for boosting the channel capacity of quantum and classical communications by orders of magnitude. However, the practical use of long multimode fibers is severely hampered by modal crosstalk and polarization mixing. To overcome these challenges, we develop and experimentally demonstrate a vectorial time reversal technique, which is accomplished by digitally pre-shaping the wavefront and polarization of the forward-propagating signal beam to be the phase conjugate of an auxiliary, backward-propagating probe beam. Here, we report an average modal fidelity above 80% for 210 Laguerre-Gauss and Hermite-Gauss modes by using vectorial time reversal over an unstabilized 1-km-long fiber. We also propose a practical and scalable spatial-mode-multiplexed quantum communication protocol over long multimode fibers to illustrate potential applications that can be enabled by our technique.
翻訳日:2023-05-28 11:42:51 公開日:2021-03-25
# 一次元散逸ハバード模型の厳密なリウビリアンスペクトル

Exact Liouvillian Spectrum of a One-Dimensional Dissipative Hubbard Model ( http://arxiv.org/abs/2003.14202v2 )

ライセンス: Link先を確認
Masaya Nakagawa, Norio Kawakami, Masahito Ueda(参考訳) 2体損失を持つ1次元散逸ハバードモデルは正確に解くことができる。 我々は、bethe-ansatz法の非エルミート拡大を用いて、liouvillian superoperatorの正確な固有スペクトルを得る。 定常状態、リウヴィリアのギャップ、および相関長のばらつきを伴う例外的な点を見つける。 量子ゼノ効果によって引き起こされるスピン電荷分離の散逸バージョンも示されている。 この結果は、非弾性衝突を受ける超低温原子で試験できるオープン量子多体系の、正確に解けるリウビリアンの新しいクラスを提示する。

A one-dimensional dissipative Hubbard model with two-body loss is shown to be exactly solvable. We obtain an exact eigenspectrum of a Liouvillian superoperator by employing a non-Hermitian extension of the Bethe-ansatz method. We find steady states, the Liouvillian gap, and an exceptional point that is accompanied by the divergence of the correlation length. A dissipative version of spin-charge separation induced by the quantum Zeno effect is also demonstrated. Our result presents a new class of exactly solvable Liouvillians of open quantum many-body systems, which can be tested with ultracold atoms subject to inelastic collisions.
翻訳日:2023-05-27 07:40:45 公開日:2021-03-25
# 在宅勤務は開発者の生産性にどのように影響するか? --COVID-19パンデミックにおけるBaiduの事例

How does Working from Home Affect Developer Productivity? -- A Case Study of Baidu During COVID-19 Pandemic ( http://arxiv.org/abs/2005.13167v3 )

ライセンス: Link先を確認
Lingfeng Bao, Tao Li, Xin Xia, Kaiyu Zhu, Hui Li, and Xiaohu Yang(参考訳) 現在、在宅勤務(WFH)は、企業と従業員の両方にとって大きなメリットがある(例えば、雇用満足度の増加と従業員の維持)ため、一般的な仕事の取り決めとなっている。 これまで多くの研究が、在宅勤務が従業員の生産性に与える影響を調査してきた。 しかし,これらの研究の多くは,調査や面接などの質的分析手法を用いており,研究参加者は長期にわたり在宅勤務を行わない。 新型コロナウイルス(COVID-19)の感染拡大を受け、多くの企業が従業員に在宅勤務を要請した。 本研究では,中国最大のIT企業であるBaidu Inc.の開発者の日々の活動のデータセットに基づいて,在宅勤務と現場勤務の開発者の生産性の違いを定量的に分析する。 合計で、139人の開発者活動の約4千の記録、138人の作業日を収集しました。 これらの記録のうち、新型コロナウイルス(covid-19)パンデミックによる在宅勤務時の記録は1,103件である。 WFHは、ビルド/コミット/コードレビューの数など、さまざまなメトリクスの観点から、開発者の生産性に肯定的な影響と否定的な影響の両方があります。 また、在宅勤務は、プログラミング言語、プロジェクトタイプ/エイジ/サイズなど、異なる特徴を持つプロジェクトに対して異なる影響を与えることに気付きました。 例えば、在宅勤務は大規模なプロジェクトの開発者の生産性に悪影響を及ぼす。 さらに、生産性は開発者によって異なります。 これらの結果に基づいて、Baiduの開発者からフィードバックを受け、WFHが開発者の生産性に異なる影響を与える理由を理解しています。

Nowadays, working from home (WFH) has become a popular work arrangement due to its many potential benefits for both companies and employees (e.g., increasing job satisfaction and retention of employees). Many previous studies have investigated the impact of working from home on the productivity of employees. However, most of these studies usually use a qualitative analysis method such as survey and interview, and the studied participants do not work from home for a long continuing time. Due to the outbreak of coronavirus disease 2019 (COVID-19), a large number of companies asked their employees to work from home, which provides us an opportunity to investigate whether working from home affects their productivity. In this study, to investigate the difference of developer productivity between working from home and working onsite, we conduct a quantitative analysis based on a dataset of developers' daily activities from Baidu Inc, one of the largest IT companies in China. In total, we collected approximately four thousand records of 139 developers' activities of 138 working days. Out of these records, 1,103 records are submitted when developers work from home due to COVID-19 pandemic. We find that WFH has both positive and negative impacts on developer productivity in terms of different metrics, e.g., the number of builds/commits/code reviews. We also notice that working from home has different impacts on projects with different characteristics including programming language, project type/age/size. For example, working from home has a negative impact on developer productivity for large projects. Additionally, we find that productivity varies for different developers. Based on these findings, we get some feedbacks from developers of Baidu and understand some reasons why WFH has different impacts on developer productivity.
翻訳日:2023-05-18 05:22:52 公開日:2021-03-25
# QCosmologyからのQMetrology:De Sitter空間における2量子量子の絡み合いによる研究

QMetrology from QCosmology: Study with Entangled Two Qubit Open Quantum System in De Sitter Space ( http://arxiv.org/abs/2005.13555v5 )

ライセンス: Link先を確認
Sayantan Choudhury, Satyaki Chowdhury, Nitin Gupta, Abinash Swain(参考訳) 本稿では,パラメータ推定理論と量子メトロロジーの概念をフィッシャー情報に応用し,マルコフ近似の下での2つの絡み合った量子ビット系の開量子力学における物理量の役割を解明する。 このようなシステムを特徴づける様々な物理パラメータが存在するが、量子力学的観測可能なものとして扱うことはできない。 このような量の物理的に一貫したパラメータ空間を決定するために、詳細なパラメータ推定分析を行うことが必須となる。 我々はこれらのパラメータを正確に推定するために古典的フィッシャー情報(CFI)と量子フィッシャー情報(QFI)の両方を適用する。 古典的パラメータ推定理論と比較して量子メトロロジーは2倍の優れた役割を果たし、パラメータ推定の精度と精度を向上させる。 さらに,本論文では,古典的パラメータ推定に匹敵する量子メソロジーの新たな方法を提案する。 また,非局所性に起因したベルの不等式振動(Bell's Inequality Violation in early time scale)の観点から,長期の量子エンタングルメント(quantum entanglement at early time scale)が原因で生じる非平衡的特徴の回復の興味深い結果を示す。

In this paper, our prime objective is to apply the techniques of parameter estimation theory and the concept of Quantum Metrology in the form of Fisher Information to investigate the role of certain physical quantities in the open quantum dynamics of a two entangled qubit system under the Markovian approximation. There exist various physical parameters which characterize such system, but can not be treated as any quantum mechanical observable. It becomes imperative to do a detailed parameter estimation analysis to determine the physically consistent parameter space of such quantities. We apply both Classical Fisher Information (CFI) and Quantum Fisher Information (QFI) to correctly estimate these parameters, which play significant role to describe the out-of-equilibrium and the long range quantum entanglement phenomena of open quantum system. Quantum Metrology, compared to classical parameter estimation theory, plays a two-fold superior role, improving the precision and accuracy of parameter estimation. Additionally, in this paper we present a new avenue in terms of Quantum Metrology, which beats the classical parameter estimation. We also present an interesting result of revival of out-of-equilibrium feature at the late time scales, arising due to the long range quantum entanglement at early time scale and provide a physical interpretation for the same in terms of Bell's Inequality Violation in early time scale giving rise to non-locality.
翻訳日:2023-05-18 05:04:17 公開日:2021-03-25
# D-ACC:Q-Learningに基づくランプ付きハイウェイの動的適応クルーズ制御

D-ACC: Dynamic Adaptive Cruise Control for Highways with Ramps Based on Deep Q-Learning ( http://arxiv.org/abs/2006.01411v4 )

ライセンス: Link先を確認
Lokesh Das and Myounggyu Won(参考訳) アダプティブクルーズ制御(acc)システムは、車両が所望のヘッドウェイ距離を自動的に先行車両まで維持することを可能にする。 商用車にも採用されている。 近年の研究では、ACCの有効利用は、現在の交通条件に応じて、ヘッドウェイ距離の適応を通じて、交通の流れを改善することが示されている。 本稿では,現在最先端の知的ACCシステムは,道路距離を最適に決定する上で,ランプ上の交通動態を適切に考慮しないモデルベースアプローチの制限により,ランプ付き高速道路において性能が低いことを示す。 そこで本研究では,幹線道路とランプの動的に変化する交通条件に応じて,頭部距離を効果的に適応する深層強化学習に基づく動的適応型クルーズ制御システム(D-ACC)を提案する。 交通シミュレータ (sumo) と車両間通信 (v2x) ネットワークシミュレータ (veins) の組み合わせにより, 多数の交通シナリオにおいて広範なシミュレーションを行う。 高速区間における最先端のインテリジェントACCシステムと比較して,D-ACCは交通流を最大70%改善することを示した。

An Adaptive Cruise Control (ACC) system allows vehicles to maintain a desired headway distance to a preceding vehicle automatically. It is increasingly adopted by commercial vehicles. Recent research demonstrates that the effective use of ACC can improve the traffic flow through the adaptation of the headway distance in response to the current traffic conditions. In this paper, we demonstrate that a state-of-the-art intelligent ACC system performs poorly on highways with ramps due to the limitation of the model-based approaches that do not take into account appropriately the traffic dynamics on ramps in determining the optimal headway distance. We then propose a dynamic adaptive cruise control system (D-ACC) based on deep reinforcement learning that adapts the headway distance effectively according to dynamically changing traffic conditions for both the main road and ramp to optimize the traffic flow. Extensive simulations are performed with a combination of a traffic simulator (SUMO) and vehicle-to-everything communication (V2X) network simulator (Veins) under numerous traffic scenarios. We demonstrate that D-ACC improves the traffic flow by up to 70% compared with a state-of-the-art intelligent ACC system in a highway segment with a ramp.
翻訳日:2023-05-17 09:01:23 公開日:2021-03-25
# 異なる熱浴に結合した量子発振子の絡み合い

Entanglement of quantum oscillators coupled to different heat baths ( http://arxiv.org/abs/2007.00288v2 )

ライセンス: Link先を確認
Wei-Can Syu, Da-Shin Lee and Chen-Pin Yeh(参考訳) 量子スカラー場の熱浴と相互作用する2つの結合振動子の非平衡ダイナミクスを温度差$T_1$と$T_2$で検討した。 特に量子状態の絡み合いや分離性に注目している。 2つの振動子の臨界温度である$T_{1c}$と$T_{2c}$は、絡み合いが消えるよりも高い。 2つの減衰パラメータが大きく異なる場合、例えば$\gamma_1 \ll \gamma_2$, 臨界温度$T_{1c}$は2つの通常のモード周波数の中で高い周波数である$\Omega_+$に対して非常に大きく、$T_{1c} \gg \Omega_+$, $T_{2c} \propto \Omega_+$はホットエンタングメントの可能性がある。 温度依存性減衰パラメータ$\gamma_{1;2,T}$の2つの発振器の熱浴からの絡み合いについても論じる。

We study the non-equilibrium dynamics of two coupled oscillators interacting with their own heat baths of quantum scalar fields at different temperature $T_1$ and $T_2$ with bilinear couplings between them. We particularly focus on the entanglement or inseparability property of their quantum states. The critical temperatures of two respective oscillators, $T_{1c}$ and $T_{2c}$, higher than which the entanglement disappears, can be determined. It is found that when two damping parameters are largely different, say $\gamma_1 \ll \gamma_2$, the critical temperature $T_{1c}$ with respect to the frequency $\Omega_+$, the higher frequency among two normal modes frequencies, can be very large, $T_{1c} \gg \Omega_+$, while $T_{2c} \propto \Omega_+$ with the possibility of hot entanglement. The entanglement of two oscillators with the temperature-dependent damping parameters $\gamma_{1;2,T}$ from heat baths is also discussed.
翻訳日:2023-05-11 23:19:24 公開日:2021-03-25
# 光子加重幾何状態における有用な非古典性の量を制御することができるか?

Can we control the amount of useful nonclassicality in a photon added hypergeometric state? ( http://arxiv.org/abs/2007.14269v2 )

ライセンス: Link先を確認
Priya Malpani, Kishore Thapliyal, and Anirban Pathak(参考訳) 非ガウス性誘導操作は、近年、異なる観点から研究されている。 本稿では,有限次元量子状態における非古典性向上における非ガウス性誘導演算である光子付加の役割,すなわち超幾何学的状態について,数量化器と非古典性測度の助けを借りて検討する。 我々は、単一光子源と反古典性の品質を特徴づけるための測度が類似した結論、すなわち、平均光子数が低い状態パラメータを全て選択する必要がある量子的特徴の獲得につながることを観察した。 この状態からビームスプリッタの出力で発生する2モードの絡み合った状態の超幾何状態とコンカレンスを加えた光子のウィグナー対数ネガティリティは、状態パラメータと光子数加算を増やすことで非古典性を高めることができるが、状態の次元は減少する。 原則として、状態の次元の減少はホールバーニングと類似しており、したがって非古典性を高めることが期待されている。 さらに、ウィグナー関数の変動は、コンカレンスポテンシャルとウィグナー対数的負性率を通して観察された同じ特徴を質的に表すだけでなく、量子状態の非ガウス性も示している。

Non-Gaussianity inducing operations are studied in the recent past from different perspectives. Here, we study the role of photon addition, a non-Gaussianity inducing operation, in the enhancement of nonclassicality in a finite dimensional quantum state, namely hypergeometric state with the help of some quantifiers and measures of nonclassicality. We observed that measures to characterize the quality of single photon source and anticlassicality lead to the similar conclusion, i.e., to obtain the desired quantum features one has to choose all the state parameters such that average photon numbers remains low. Wigner logarithmic negativity of the photon added hypergeometric state and concurrence of the two-mode entangled state generated at the output of a beamsplitter from this state show that nonclassicality can be enhanced by increasing the state parameter and photon number addition but decreasing the dimension of the state. In principle, decreasing the dimension of the state is analogous to holeburning and is thus expected to increase nonclassicality. Further, the variation of Wigner function not only qualitatively illustrates the same features as observed quantitatively through concurrence potential and Wigner logarithimic negativity, but illustrate non-Gaussianity of the quantum state as well.
翻訳日:2023-05-07 23:19:18 公開日:2021-03-25
# 観測者なし標準量子力学

Standard Quantum Mechanics without observers ( http://arxiv.org/abs/2008.04930v3 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 標準量子力学の射影仮説は基本的に測定に依存する。 しかし測定は、デバイスの測定のような人間中心の概念の存在を暗黙的に示唆している。 本稿では、標準量子力学の代替的な定式化を提案し、プロジェクション仮定を、測定と観測を基本とみなさないバージョンに置き換える。 より正確には、位相空間上の量子状態を表すウィグナー関数は、位相空間の古典的な粗粒化の領域に厳密に制限される必要がある。 これにより状態がマクロレベルで準古典的であることが保証される。 粗粒領域内では、量子系を表すウィグナー関数の時間発展は、シュル=オディンガー方程式の位相空間同値であるリウヴィル・フォン・ノイマン方程式に従うために必要である。 投射は、システムが粗粒領域から他の領域へ遷移する際に、ボルン則に従ってその1つを選択することで起こると仮定されるが、測定には言及しない。 量子力学の標準的な定式化との関係や、現在の定式化が解決する問題、特にウィグナーの友人のパラドックスとの関連について説明する。 提案手法の実験結果と公開問題について考察した。

The Projection Postulate from Standard Quantum Mechanics relies fundamentally on measurements. But measurements implicitly suggest the existence of anthropocentric notions like measuring devices, which should rather emerge from the theory. This article proposes an alternative formulation of the Standard Quantum Mechanics, in which the Projection Postulate is replaced with a version in which measurements and observations are not assumed as fundamental. More precisely, the Wigner functions representing the quantum states on the phase space are required to be tightly constrained to regions of the classical coarse-graining of the phase space. This ensures that states are quasiclassical at the macro level. Within a coarse-graining region, the time evolution of the Wigner functions representing the quantum system is required to obey the Liouville-von Neumann equation, the phase-space equivalent of the Schr\"odinger equation. The projection is postulated to happen when the system transitions from a coarse-graining region to others, by selecting one of them according to the Born rule, but without reference to a measurements. The connection with the standard formulation of Quantum Mechanics is explained, as well as the problems that the present formulation solves, in particular the Wigner's friend type of paradoxes. Experimental consequences and open problems of the proposed formulation are discussed.
翻訳日:2023-05-06 13:50:56 公開日:2021-03-25
# ブロック長の小さい量子鍵分布のセキュリティ解析と量子空間通信への応用

Security analysis of quantum key distribution with small block length and its application to quantum space communications ( http://arxiv.org/abs/2009.04882v2 )

ライセンス: Link先を確認
Charles Ci-Wen Lim, Feihu Xu, Jian-Wei Pan, Artur Ekert(参考訳) 実世界の量子鍵分布(QKD)のセキュリティは、システムが一定時間間隔で収集できるデータポイントの数に依存する。 現在まで、最先端の有限鍵セキュリティ分析では、正の秘密鍵を得るために1E4ビットのブロック長を必要とする。 しかし、この要件は、特にエンタングルメントベースの衛星QKDシステムでは、全体のチャネル損失が70dB以上になる場合、実際に達成することが非常に困難である。 本稿では,標準チャネルおよびプロトコル設定のブロック長要件を14%から17%削減可能な,改良された有限鍵セキュリティ解析を提供する。 現実的には、この削減は、絡み合った衛星QKDの数週間の計測時間と資源を節約し、宇宙ベースのQKD技術を現実に近づける可能性がある。 アプリケーションとして、改良された分析を用いて、最近報告されたMicius QKD衛星が、セキュリティレベル1E-5$の正の秘密鍵を生成可能であることを示す。

The security of real-world quantum key distribution (QKD) critically depends on the number of data points the system can collect in a fixed time interval. To date, state-of-the-art finite-key security analyses require block lengths in the order of 1E4 bits to obtain positive secret keys. This requirement, however, can be very difficult to achieve in practice, especially in the case of entanglement-based satellite QKD systems, where the overall channel loss can go up to 70 dB or more. Here, we provide an improved finite-key security analysis which can reduce the block length requirement by 14% to 17% for standard channel and protocol settings. In practical terms, this reduction could save entanglement-based satellite QKD weeks of measurement time and resources, thereby bringing space-based QKD technology closer to reality. As an application, we use the improved analysis to show that the recently reported Micius QKD satellite is capable of generating positive secret keys with a $1E-5$ security level.
翻訳日:2023-05-03 00:46:21 公開日:2021-03-25
# ナノスケールシミュレーションのための効率的なDFTソルバ

An Efficient DFT Solver for Nanoscale Simulations and Beyond ( http://arxiv.org/abs/2010.07385v2 )

ライセンス: Link先を確認
Xuecheng Shao, Wenhui Mi, and Michele Pavanello(参考訳) 本稿では,DFTをナノスケールを超えるシステムサイズに拡張し,予測に必要な精度を保ちながら,DFTの適用性を高めるための一軌道収束自己整合場(OE-SCF)法を提案する。 OE-SCFは反復解法であり、(典型的には計算コストがかかる)パウリポテンシャルを外部ポテンシャルとして扱い、反復後に更新する。 OE-SCFは収束に達するのに最大12回の反復しか必要としないため、現在の軌道自由DFT解法よりも劇的に優れている。 単一cpuのみを採用し、これまでシリコン素材のab initioシミュレーションを最大で実施した。 OE-SCFは、バルクカットしたSiナノ粒子のエネルギーを直径最大16nmの関数として収束させることができる。 格子マッチングが非常に大きなスラブサイズである2つの金属スラブ間にSiスラブを挟むと、偏極および界面電荷移動をモデル化する。 さらに、OE-SCFは、ナノスケールを超えるシステムサイズに対応しながら、軌道のないDFTシミュレーションにさらに正確な機能を採用するための扉を開く。

We present the One-orbital Ensemble Self-Consistent Field (OE-SCF) method, an {alternative} orbital-free DFT solver that extends the applicability of DFT to system sizes beyond the nanoscale while retaining the accuracy required to be predictive. OE-SCF is an iterative solver where the (typically computationally expensive) Pauli potential is treated as an external potential and updated after each iteration. Because only up to a dozen iterations are needed to reach convergence, OE-SCF dramatically outperforms current orbital-free DFT solvers. Employing merely a single CPU, we carried out the largest ab initio simulation for silicon-based materials to date. OE-SCF is able to converge the energy of bulk-cut Si nanoparticles as a function of their diameter up to 16 nm, for the first time reproducing known empirical results. We model polarization and interface charge transfer when a Si slab is sandwiched between two metal slabs where lattice matching mandates a very large slab size. Additionally, OE-SCF opens the door to adopt even more accurate functionals in orbital-free DFT simulations while still tackling systems sizes beyond the nanoscale.
翻訳日:2023-04-29 02:26:30 公開日:2021-03-25
# 臨界多体系における再正規化1/N$拡張の発生

Emergence of a Renormalized $1/N$ Expansion in Quenched Critical Many-Body Systems ( http://arxiv.org/abs/2010.08364v3 )

ライセンス: Link先を確認
Benjamin Geiger, Juan Diego Urbina, Klaus Richter(参考訳) 不安定な多体量子系の1/N$展開の運命は、臨界性にまたがる待ち行列によって実現され、量子-古典遷移を支配し、局所分岐率$\lambda$の平均場解の非摂動的に説明する再正規化パラメータとして${\rm e}^{2\lambda t}/N$の出現を示す。 ${\rm e}^{2\lambda t}/n$の観点では、積分可能なボース=ハバードダイマーの自己トラップ遷移や、ソリトン形成に対する魅力的なボソニック系の一般的な不安定性のような、臨界性のパラダイム的例の準古典的拡張は、任意に高いオーダーにプッシュされる。 数値シミュレーションとの合意は、素パラメータ1/N$の拡張の範囲外において、適切に結合された長期の $\lambda t\to \infty$ quasiclassical $N\to \infty$ regime において、我々の結果の一般的な性質を支持する。 多体双曲線系をスクランブルするために、本研究は時間外コリケータの予想された多重指数形式に対する公式な根拠を提供する。

We consider the fate of $1/N$ expansions in unstable many-body quantum systems, as realized by a quench across criticality, and show the emergence of ${\rm e}^{2\lambda t}/N$ as a renormalized parameter ruling the quantum-classical transition and accounting nonperturbatively for the local divergence rate $\lambda$ of mean-field solutions. In terms of ${\rm e}^{2\lambda t}/N$, quasiclassical expansions of paradigmatic examples of criticality, like the self-trapping transition in an integrable Bose-Hubbard dimer and the generic instability of attractive bosonic systems toward soliton formation, are pushed to arbitrarily high orders. The agreement with numerical simulations supports the general nature of our results in the appropriately combined long-time $\lambda t\to \infty$ quasiclassical $N\to \infty$ regime, out of reach of expansions in the bare parameter $1/N$. For scrambling in many-body hyperbolic systems, our results provide formal grounds to a conjectured multiexponential form of out-of-time-ordered correlators.
翻訳日:2023-04-28 22:13:44 公開日:2021-03-25
# 単一量子エミッタディック強化

Single Quantum Emitter Dicke Enhancement ( http://arxiv.org/abs/2010.12585v2 )

ライセンス: Link先を確認
Tommaso Tufarelli, Daniel Friedrich, Heiko Gro{\ss}, Joachim Hamm, Ortwin Hess and Bert Hecht(参考訳) 同一のエミッタを同じフィールドモードに結合することは、光物質の相互作用を強化するための確立された方法である。 しかし、結果として得られる$\sqrt{n}$の結合強度の増大は「線形化」(事実上半古典的)ダイナミクスのコストで得られる。 ここで、代わりに、光-物質相互作用の非線形特性を維持しつつ、 \textit{single}量子エミッタの結合定数を強化する新しいアプローチを示す。 我々は、同じフィールドモードに集約されたほぼ退化遷移を持つ1つの量子エミッタを考える。 このような条件下では、実効的なJaynes-Cummingsモデルが出現し、次数$\sqrt{N}$のカップリング定数が増加する。 一般的な結論の妥当性と結果が、指導的ケース$N=2$に対して解析的に証明される。 さらに,jaynes-cummings物理に代表されるスペクトル線形状と光子自己相関関数が密接に一致し,量子光学非線形性が保持されることを示した。 本研究は近年の広帯域プラズモンナノ共振器強結合実験とよく一致し, 環境条件下での単一光子非線形性の制御と検出を容易にする。

Coupling $N$ identical emitters to the same field mode is well-established method to enhance light matter interaction. However, the resulting $\sqrt{N}$ boost of the coupling strength comes at the cost of a "linearized" (effectively semi-classical) dynamics. Here, we instead demonstrate a new approach for enhancing the coupling constant of a \textit{single} quantum emitter, while retaining the nonlinear character of the light-matter interaction. We consider a single quantum emitter with $N$ nearly degenerate transitions that are collectively coupled to the same field mode. We show that in such conditions an effective Jaynes-Cummings model emerges, with a boosted coupling constant of order $\sqrt{N}$. The validity and consequences of our general conclusions are analytically demonstrated for the instructive case $N=2$. We further observe that our system can closely match the spectral line shapes and photon autocorrelation functions typical of Jaynes-Cummings physics, hence proving that quantum optical nonlinearities are retained. Our findings match up very well with recent broadband plasmonic nanoresonator strong-coupling experiments and will therefore facilitate the control and detection of single-photon nonlinearities at ambient conditions.
翻訳日:2023-04-27 22:33:57 公開日:2021-03-25
# サブミリメートル膜ホールにおけるMOTの実証

Demonstration of a MOT in a Sub-Millimeter Membrane Hole ( http://arxiv.org/abs/2011.06692v3 )

ライセンス: Link先を確認
Jongmin Lee, Grant Biedermann, John Mudrick, Erica A. Douglas, and Yuan-Yu Jau(参考訳) 透明膜内の直径1mm以下の孔内に冷原子アンサンブル(いわゆる膜膜モット)が形成されることを実証した。 サブドップラー冷却工程では、膜MOTに閉じ込められた原子は10uKまで冷却される。 非架橋膜孔内の原子番号は約10^4〜10^5、モット雲の1/e^2径は400um膜孔の約180mmである。 このような膜装置は、原則として、強い原子-光相互作用のために懸濁膜導波路によって生じるエバネッセント場光学トラップに冷却原子を効率よくロードすることができ、導波路で十分な熱散逸を行うことができる。 これは光原子トラップ統合プラットフォーム(ATIP)への重要なステップである。

We demonstrate the generation of a cold-atom ensemble within a sub-millimeter diameter hole in a transparent membrane, a so-called "membrane MOT". With a sub-Doppler cooling process, the atoms trapped by the membrane MOT are cooled down to 10 uK. The atom number inside the unbridged/bridged membrane hole is about 10^4 to 10^5, and the 1/e^2-diameter of the MOT cloud is about 180 um for a 400 um-diameter membrane hole. Such a membrane device can, in principle, efficiently load cold atoms into the evanescent-field optical trap generated by the suspended membrane waveguide for strong atom-light interaction and provide the capability of sufficient heat dissipation at the waveguide. This represents a key step toward the photonic atom trap integrated platform (ATIP).
翻訳日:2023-04-24 05:34:15 公開日:2021-03-25
# 非エルミート帯域の任意の位相巻線の観測

Observation of arbitrary topological windings of a non-Hermitian band ( http://arxiv.org/abs/2011.14275v2 )

ライセンス: Link先を確認
Kai Wang, Avik Dutt, Ki Youl Yang, Casey C. Wojcik, Jelena Vu\v{c}kovi\'c, Shanhui Fan(参考訳) 非エルミート系のエネルギーバンドにおける非自明な位相的特徴は、古典的または量子的開系において堅牢な物理挙動を達成するための有望な経路を提供する。 非エルミート系に特有の重要な位相的特徴は、複素エネルギー平面におけるエネルギーバンドの非自明な巻線である。 ここでは、非エルミート格子ハミルトニアンを、同時位相および振幅変調を受けるリング共振器で形成される周波数合成次元に沿って実装し、複素バンド構造を直接特徴付けることにより、そのような非自明な巻線の直接的な実験的デモンストレーションを行う。 さらに、変調波形を変化させることで、トポロジカルな巻線を容易に制御できることを示す。 本研究は,非保存系におけるトポロジカルな非自明な位相を実験的に合成し,評価するための経路を開く。

The non-trivial topological features in the energy band of non-Hermitian systems provide promising pathways to achieve robust physical behaviors in classical or quantum open systems. A key topological feature, unique to non-Hermitian systems, is the non-trivial winding of the energy band in the complex energy plane. Here we provide direct experimental demonstrations of such non-trivial winding, by implementing non-Hermitian lattice Hamiltonians along a frequency synthetic dimension formed in a ring resonator undergoing simultaneous phase and amplitude modulations, and by directly characterizing the complex band structures. Moreover, we show that the topological winding can be straightforwardly controlled by changing the modulation waveform. Our results open a pathway for the experimental synthesis and characterization of topologically non-trivial phases in non-conservative systems.
翻訳日:2023-04-22 16:45:37 公開日:2021-03-25
# 超伝導量子ビット上の位相的2次元フロケ格子

Topological two-dimensional Floquet lattice on a single superconducting qubit ( http://arxiv.org/abs/2012.01459v2 )

ライセンス: Link先を確認
Daniel Malz and Adam Smith(参考訳) これまでの理論および実験的研究により、現在のnisqデバイスはアナログ量子シミュレーションの強力なプラットフォームであることが示された。 最先端の量子コンピュータによって提供される厳密な制御レベルでは、フロッケ・ハミルトニアン(あるいは時間依存のハミルトニアン)の幅広いクラスを実装することができる。 次に、IBM Quantum Experienceでこれらのモデルのシングルキュービットバージョンを実装し、Bernevig-Hughes-Zhang Chern絶縁体の時間バージョンを実験的に実現した。 我々のデータから、トポロジカル遷移の存在を推測できるので、Martin, Refael, Halperin によるトポロジカルな周波数変換の以前の提案を実現することができる。 本研究は、量子コンピュータの多周波駆動による多体システムの研究における約束と限界を強調する。

Previous theoretical and experimental research has shown that current NISQ devices constitute powerful platforms for analogue quantum simulation. With the exquisite level of control offered by state-of-the-art quantum computers, we show that one can go further and implement a wide class of Floquet Hamiltonians, or timedependent Hamiltonians in general. We then implement a single-qubit version of these models in the IBM Quantum Experience and experimentally realize a temporal version of the Bernevig-Hughes-Zhang Chern insulator. From our data we can infer the presence of a topological transition, thus realizing an earlier proposal of topological frequency conversion by Martin, Refael, and Halperin. Our study highlights promises and limitations when studying many-body systems through multi-frequency driving of quantum computers.
翻訳日:2023-04-22 07:38:10 公開日:2021-03-25
# 熱力学的極限における断熱的定理:バルクにギャップを持つ系

Adiabatic theorem in the thermodynamic limit: Systems with a gap in the bulk ( http://arxiv.org/abs/2012.15239v2 )

ライセンス: Link先を確認
Joscha Henheik and Stefan Teufel(参考訳) バルク内のみのスペクトルギャップを仮定する拡張フェルミオン系に対する一般化された超断熱定理を証明した。 より正確には、無限系が一意な基底状態を持ち、対応する GNS-ハミルトニアンがその固有値 0 より上のスペクトルギャップを持つと仮定する。 さらに、類似の断熱定理は、対応する有限体積ハミルトニアンがスペクトルギャップを持たないにもかかわらず、システムサイズの逆の力よりも早く消える誤差まで、有限系の大部分を保っていることを示す。

We prove a generalised super-adiabatic theorem for extended fermionic systems assuming a spectral gap only in the bulk. More precisely, we assume that the infinite system has a unique ground state and that the corresponding GNS-Hamiltonian has a spectral gap above its eigenvalue zero. Moreover, we show that a similar adiabatic theorem also holds in the bulk of finite systems up to errors that vanish faster than any inverse power of the system size, although the corresponding finite volume Hamiltonians need not have a spectral gap.
翻訳日:2023-04-18 07:49:25 公開日:2021-03-25
# 熱力学極限における断熱定理:一様ギャップを持つ系

Adiabatic theorem in the thermodynamic limit: Systems with a uniform gap ( http://arxiv.org/abs/2012.15238v2 )

ライセンス: Link先を確認
Joscha Henheik and Stefan Teufel(参考訳) 有限格子上のガッピング多体系に対する断熱理論の最近の結果は熱力学的極限において有効である。 より正確には、可観測体の準局所代数上の無限体積ダイナミクスを記述する自己同型群に対する一般化された超断熱定理を証明する。 鍵となる仮定は、ガッピング有限体積ハミルトニアン列の存在であり、熱力学的極限において同じ無限体積ダイナミクスを生成する。 我々のアディバティック定理は、スペクトルギャップを閉じるギャップのある基底状態の摂動(つまり共鳴とこの意味では「一般化された」)についても成り立ち、アディバティックパラメータ(しばしば「スーパー・アディバティック」と呼ばれる性質)の全ての順序に対するアディバティック近似を提供する。 有限格子に対する既存の結果に加えて、断熱膨張の再開を行い、厳密な局所性を持たない可観測性を可能にする。 最後に、無限系の摂動のクラスに対しても線形および高次応答理論の有効性を証明した。 結果とその証明はそれ自体が新しく興味深いものだと考えていますが、後続の記事で示されるように、バルクにのみギャップがあるシステムに対する断熱的な定理の証明の基盤でもあるのです。

We show that recent results on adiabatic theory for interacting gapped many-body systems on finite lattices remain valid in the thermodynamic limit. More precisely, we prove a generalised super-adiabatic theorem for the automorphism group describing the infinite volume dynamics on the quasi-local algebra of observables. The key assumption is the existence of a sequence of gapped finite volume Hamiltonians which generates the same infinite volume dynamics in the thermodynamic limit. Our adiabatic theorem holds also for certain perturbations of gapped ground states that close the spectral gap (so it is an adiabatic theorem also for resonances and in this sense `generalised'), and it provides an adiabatic approximation to all orders in the adiabatic parameter (a property often called `super-adiabatic'). In addition to existing results for finite lattices, we also perform a resummation of the adiabatic expansion and allow for observables that are not strictly local. Finally, as an application, we prove the validity of linear and higher order response theory for our class of perturbations also for infinite systems. While we consider the result and its proof as new and interesting in itself, they also lay the foundation for the proof of an adiabatic theorem for systems with a gap only in the bulk, which will be presented in a follow-up article.
翻訳日:2023-04-18 07:49:14 公開日:2021-03-25
# 導波路qedにおける多体局在

Many-body localization in waveguide QED ( http://arxiv.org/abs/2101.01645v2 )

ライセンス: Link先を確認
Nikos Fayard, Lo\"ic Henriet, Ana Asenjo-Garcia and Darrick Chang(参考訳) 量子多体レベルでは、一般に原子光のインターフェイスは、非摂動的な方法で解決または理解することが困難である。 本稿では,2段階の原子が1次元の導波管内で光子と相互作用し伝播する導波管量子力学モデルについて考察し,原子位置障害の相互作用,光の多重散乱,量子非線形相互作用,散逸について検討する。 我々は、原子が半励起以下であれば、定性的議論を展開し、そのような系が多体局在〜(MBL)相を示すという数値的な証拠を示す。 興味深いことに、mblは通常閉システムに関して定式化されているが、本システムは本質的にオープンである。 しかしながら、放散はエネルギーの系境界への輸送とその後の放射損失に由来するため、mbl相における輸送の欠如は導波路qed系を本質的に閉ざし、mblの概念を適用させる。 逆に, 励起密度が大きいため, システムが当初非局在化相にある場合, 急速の初期散逸は, エネルギーを後回しで効率的に輸送できないため, mbl相に動的に遷移することを示した。 これらの現象は、最先端の実験装置で実現可能である。

At the quantum many-body level, atom-light interfaces generally remain challenging to solve for or understand in a non-perturbative fashion. Here, we consider a waveguide quantum electrodynamics model, where two-level atoms interact with and via propagating photons in a one-dimensional waveguide, and specifically investigate the interplay of atomic position disorder, multiple scattering of light, quantum nonlinear interactions and dissipation. We develop qualitative arguments and present numerical evidence that such a system exhibits a many-body localized~(MBL) phase, provided that atoms are less than half excited. Interestingly, while MBL is usually formulated with respect to closed systems, this system is intrinsically open. However, as dissipation originates from transport of energy to the system boundaries and the subsequent radiative loss, the lack of transport in the MBL phase makes the waveguide QED system look essentially closed and makes applicable the notions of MBL. Conversely, we show that if the system is initially in a delocalized phase due to a large excitation density, rapid initial dissipation can leave the system unable to efficiently transport energy at later times, resulting in a dynamical transition to an MBL phase. These phenomena can be feasibly realized in state-of-the-art experimental setups.
翻訳日:2023-04-17 19:58:53 公開日:2021-03-25
# ナノ粒子の量子回転

Quantum rotations of nanoparticles ( http://arxiv.org/abs/2102.00992v2 )

ライセンス: Link先を確認
Benjamin A. Stickler and Klaus Hornberger and M. S. Kim(参考訳) 微小な剛体の回転は、質量運動の中心に存在しない顕著な量子現象を示す。 超高真空中でナノ粒子を浮遊させることで、研究者たちはこれらの量子効果を未探検の質量と大きさで観察し活用するための有望なプラットフォームを開発している。 最近の実験的および理論的ブレークスルーは、ナノスケール回転の精巧な制御を示し、回転重ね合わせの最初のテーブルトップテストと次世代の超精密トルクセンサのステージを設定する。 本稿では,その実験状況を概観し,マクロ的な量子回転への道筋について論じる。

Rotations of microscale rigid bodies exhibit pronounced quantum phenomena that do not exist for their center-of-mass motion. By levitating nanoparticles in ultra-high vacuum, researchers are developing a promising platform for observing and exploiting these quantum effects in an unexplored mass and size regime. Recent experimental and theoretical breakthroughs demonstrate exquisite control of nanoscale rotations, setting the stage for the first table-top tests of rotational superpositions and for the next generation of ultra-precise torque sensors. Here, we review the experimental state of the art and discuss promising routes towards macroscopic quantum rotations.
翻訳日:2023-04-13 02:56:48 公開日:2021-03-25
# ラマン過程におけるストークスとアンチストークス光子の理想的なペアリング

Ideal pairing of the Stokes and anti-Stokes photons in the Raman process ( http://arxiv.org/abs/2102.09450v2 )

ライセンス: Link先を確認
Kishore Thapliyal and Jan Perina Jr(参考訳) 独立ストークスおよび反ストークス非線形相互作用を持つラマン過程の量子モデルを開発し、ストークス中の光子と反ストークス場の間の非古典的相関を研究する。 レーザポンプ振幅,ストークスとアンチストークスのカップリング定数の比,および相関を形成する際の振動モードの個体数と損失を解明する。 g^{(2)}$強度相互相関関数、ノイズ還元因子、二モード主スクイージング分散、対数ネガティビティ、非古典度深さ、ステアリングパラメータ、ベルパラメータはストークス場とアンチストークス場の相関関係に照らし合わせて解析される。 光子対のみからなるストークス場と反ストークス場を持つ条件は、パラメトリックダウンコンバージョンにおいて双対ビームで起こるのと同様である。 非ゼロ平均熱フォノン数を可能にする。

A quantum model of the Raman process with the independent Stokes and anti-Stokes nonlinear interactions is developed to study nonclassical correlations between the photons in the Stokes and anti-Stokes fields. The role of the laser pump amplitude, the ratio of the Stokes and anti-Stokes coupling constants and the population and losses of the vibrational mode in forming the correlations is elucidated. The $ g^{(2)} $ intensity cross-correlation function, noise-reduction-factor, two-mode principal squeezing variance, logarithmic negativity, non-classicality depth, steering parameter and the Bell parameter are analyzed side-by-side to shed light to the correlations between the Stokes and anti-Stokes fields. Conditions for having the Stokes and anti-Stokes fields composed of only photon pairs, similarly as it occurs in twin beams in parametric down-conversion, are revealed. They allow for nonzero mean thermal phonon numbers.
翻訳日:2023-04-10 19:59:06 公開日:2021-03-25
# 自由空間における光スカイミオン構造の合成と観察

Synthesis and observation of optical skyrmionic structure in free space ( http://arxiv.org/abs/2103.11293v2 )

ライセンス: Link先を確認
Jie Zhu, Sheng Liu, and Yong-Sheng Zhang(参考訳) スキャミオン(skyrmion)は、局所的な乱れに対して位相的に安定な構造である。 磁気ストレージシステムにおけるスカイミオンの潜在能力は、物理学者の間でかなりの研究関心を集めている。 近年、光学スキャミオンが発見され、いくつかの優れた特性を持つ。 しかし、例えばエバネッセント波からなる表面プラズモンでは、これらの光学スカイマリオンが観察されている。 このタイプの光スカイミオンは操作が困難であり、実際に適用することは困難である。 本研究では,自由空間線形光学系において,異なるskyrmion数を持つ複数のskyrmionic光学構造を実現する。 自由空間光学を用いた操作の利便性のため、スカイミオンの当初の応用を除いて、例えば小さな物体の操作や長距離での伝搬を可能にするために、スカイミオン光学構造も広く適用できる。

The skyrmion, which is characterised by a topological integer, is a structure that is topologically stable against local disturbances. The huge potential of skyrmions for use in magnetic storage systems has drawn considerable research interest among physicists. Recently, the optical skyrmion was discovered and has some excellent properties. However, these optical skyrmions have been observed, for example, in surface plasmons that consist of evanescent waves. This type of optical skyrmion is difficult to manipulate and also difficult to apply in practice. In this work, we realise several skyrmionic optical structures with different skyrmion numbers in a free-space linear optical system. Because of the convenience of operation using free-space optics, with the exception of the original applications of skyrmions, skyrmionic optical structures can also be applied widely, e.g. to enable manipulation of tiny objects or propagation over long distances.
翻訳日:2023-04-07 06:37:19 公開日:2021-03-25
# 分子基底状態に対する断熱量子コンピューティングのシミュレーション

Simulation of adiabatic quantum computing for molecular ground states ( http://arxiv.org/abs/2103.12059v2 )

ライセンス: Link先を確認
Vladimir Kremenetski, Carlos Mejuto-Zaera, Stephen J. Cotton, Norm M. Tubman(参考訳) 量子計算は多くの実用的な応用において大きなスピードアップをもたらすことを約束しており、特にエキサイティングなものは量子多体系のシミュレーションである。 adiabatic state preparation (asp) は、量子コンピュータが物理システムの基底状態を再現しシミュレートする方法の一つである。 本稿では,aspの時間ダイナミクスを精度良く古典的にシミュレートするための新しい手法について検討し,最も重要な決定因子のみにヒルベルト空間を切断するための適応サンプリング構成相互作用(asci)スキームを用いて,少ない計算資源のみを探索する。 我々は、このトランケーションが無視可能なエラーをもたらすことを検証し、ASPを小分子系とHubbardモデルの集合にシミュレートするために、この新しいアプローチを使用する。 さらに、量子ハードウェア上でASPを高速化する2つのアプローチについて検討する。 i) Hartree-Fock初期状態の代わりに完全なアクティブ空間構成相互作用(CASCI)波動関数を用いる。 (ii)~初期ハミルトニアンと対象ハミルトニアンの間の非線形補間。 CASCI波動関数と活性空間の制限から始めると、非線形補間は行わないが、多くの系でかなりのスピードアップが得られることが分かる。 さらに、(初期状態に基づく)最小ギャップ位置における興味深い傾向と、原子価電子の数のような特定の分子特性に臨界時間がどのように依存するかを観察した。 重要なことに、要求される状態の準備時間は、実際のハードウェア上で asp の効率的な実行を妨げる直接の指数関数的壁を示しない。

Quantum computation promises to provide substantial speedups in many practical applications with a particularly exciting one being the simulation of quantum many-body systems. Adiabatic state preparation (ASP) is one way that quantum computers could recreate and simulate the ground state of a physical system. In this paper we explore a novel approach for classically simulating the time dynamics of ASP with high accuracy, and with only modest computational resources via an adaptive sampling configuration interaction (ASCI) scheme for truncating the Hilbert space to only the most important determinants. We verify that this truncation introduces negligible error, and use this new approach to simulate ASP for sets of small molecular systems and Hubbard models. Further, we examine two approaches to speeding up ASP when performed on quantum hardware: (i) using the complete active space configuration interaction (CASCI) wavefunction instead of the Hartree-Fock initial state and (ii)~a non-linear interpolation between initial and target Hamiltonians. We find that starting with a CASCI wavefunction with a limited active space yields substantial speedups for many of the systems examined while non-linear interpolation does not. Additionally, we observe interesting trends in the minimum gap location (based on the initial state) as well as how critical time can depend on certain molecular properties such as the number of valence electrons. Importantly, we find that the required state preparation times do not show an immediate exponential wall that would preclude an efficient run of ASP on actual hardware.
翻訳日:2023-04-07 04:29:18 公開日:2021-03-25
# 絡み合いスワッピングに基づく量子セキュアなマルチパーティ集計

Quantum Secure Multi-party Summation Based on entanglement swapping ( http://arxiv.org/abs/2103.12271v2 )

ライセンス: Link先を確認
Hong Chang, Yiting Wu, Gongde Guo, and Song Lin(参考訳) 本稿では,複数の不信任当事者が秘密データの要約を安全に計算できる,量子セキュアなマルチパーティ要約プロトコルを提案する。 提案プロトコルでは,このセキュアなタスクを実現するために,半信頼の第三者が導入された。 さらに、$d$レベルの猫状態とベル状態の絡み合わせは、各当事者と半信頼の第三者の間でメッセージを安全に送信するために使用される。 最終的に、いくつかの一般的な攻撃に対するセキュリティが分析され、提案プロトコルが理論的に安全であることを示す。

In this paper, we present a quantum secure multi-party summation protocol, which allows multiple mutually distrustful parties to securely compute the summation of their secret data. In the presented protocol, a semitrusted third party is introduced to help multiple parties to achieve this secure task. Besides, the entanglement swapping of $d$-level cat states and Bell states is employed to securely transmit message between each party and the semitrusted third party. At last, its security against some common attacks is analyzed, which shows that the presented protocol is secure in theory.
翻訳日:2023-04-07 02:23:38 公開日:2021-03-25
# $\mathcal{PT}$-symmetric Hamiltonian に基づく温度貯水池の量子熱力学

Quantum thermodynamics aspects with a thermal reservoir based on $\mathcal{PT}$-symmetric Hamiltonians ( http://arxiv.org/abs/2103.12678v2 )

ライセンス: Link先を確認
Jonas F. G. Santos and Fabricio S. Luiz(参考訳) 量子調和振動子の力学に対する非エルミート量子力学の背景における量子熱力学の側面に関する結果を示す。 量子熱力学過程におけるパラメータのより良い制御が望まれるので、衝突モデルの概念を用いて、$\mathcal{pt}$-symmetric hamiltonianに基づく単純な熱貯水池のプロトタイプを導入し、配置された熱状態の単一調和振動子の熱化過程下でその効果を研究する。 我々は,貯水池の$\mathcal{pt}$-symmetric特徴を制御することで,系と貯水池の間の熱流を逆転させ,長期にわたってコヒーレンスを保ち,エントロピー生産を減少させることを検証した。 さらに,標準熱貯水池を$\mathcal{PT}$-symmetric Hamiltonianに基づいて熱貯水池に置き換える量子オットーサイクルの修正を検討した。 $\mathcal{PT}$-symmetricパラメータに依存する有効温度を定義することにより、$\mathcal{PT}$-symmetricパラメータを変化させることで、量子オットーサイクルの構成をエンジンから冷蔵庫に交換することができる。 以上の結果から,コヒーレンス保護やエントロピー生成抑制といった量子熱力学プロトコルの改善には,$\mathcal{PT}$-symmetric effectが有効であることが示唆された。

We present results concerning aspects of quantum thermodynamics under the background of non-Hermitian quantum mechanics for the dynamics of a quantum harmonic oscillator. Since a better control over the parameters in quantum thermodynamics processes is desired, we use concepts from collisional model to introduce a simple prototype of thermal reservoir based on $\mathcal{PT}$-symmetric Hamiltonians and study its effects under the thermalization process of a single harmonic oscillator prepared in a displaced thermal state. We verify that controlling the $\mathcal{PT}$-symmetric features of the reservoir allows to reverse the heat flow between system and reservoir, as well as to preserve the coherence over a longer period of time and reduce the entropy production. Furthermore, we considered a modified quantum Otto cycle in which the standard hot thermal reservoir is replaced by the thermal reservoir based on $\mathcal{PT}$-symmetric Hamiltonians. By defining an effective temperature depending on the $\mathcal{PT}$-symmetric parameter, it is possible to interchange the quantum Otto cycle configuration from engine to refrigerator by varying the $\mathcal{PT}$-symmetric parameter. Our results indicate that $\mathcal{PT}$-symmetric effects could be useful to achieve an improvement in quantum thermodynamics protocols such as coherence protection and entropy production reduction.
翻訳日:2023-04-07 02:06:09 公開日:2021-03-25
# 量子コンピュータ上の多重位相フェルミオンの安定化

Stabilizing multiple topological fermions on a quantum computer ( http://arxiv.org/abs/2103.12783v2 )

ライセンス: Link先を確認
Jin Ming Koh, Tommy Tai, Yong Han Phee, Wei En Ng, and Ching Hua Lee(参考訳) 古典的および単粒子的設定では、非自明なバンドトポロジーは常にロバストな境界モードをもたらす。 しかし、量子多体系では、ポーリの排他が利用可能な位相モードの限られた数を占めることを妨げるため、複数の位相フェルミオンが常に共存できるとは限らない。 本研究では,IBM量子コンピュータを用いて,特殊に設計された2-フェルミオン相互作用により,トポロジカルモードの数よりも多くのフェルミオンを安定させることができることを示す。 我々の実証は、トランスモンベースの量子ハードウェアにおける前例のない複雑さのBDIクラスとDクラスのトポロジカルハミルトニアンは実現し、従来のトロッタ化以上のテンソルネットワーク支援回路再コンパイルアプローチに極めて依存している。 また,反復量子位相推定(iqpe)による多重フェルミオン位相バンド構造の完全再構成も達成した。 全体として、我々の研究は、NISQ時代の量子コンピュータが、単一粒子トポロジカル不変量の文脈を超えたトポロジカル安定化のためにどのように活用されるかを示す。

In classical and single-particle settings, non-trivial band topology always gives rise to robust boundary modes. For quantum many-body systems, however, multiple topological fermions are not always able to coexist, since Pauli exclusion prevents additional fermions from occupying the limited number of available topological modes. In this work, we show, through IBM quantum computers, how one can robustly stabilize more fermions than the number of topological modes through specially designed 2-fermion interactions. Our demonstration hinges on the realization of BDI- and D-class topological Hamiltonians of unprecedented complexity on transmon-based quantum hardware, and crucially relied on tensor network-aided circuit recompilation approaches beyond conventional trotterization. We also achieved the full reconstruction of multiple-fermion topological band structures through iterative quantum phase estimation (IQPE). All in all, our work showcases how advances in quantum algorithm implementation enables NISQ-era quantum computers to be exploited for topological stabilization beyond the context of single-particle topological invariants.
翻訳日:2023-04-07 01:57:20 公開日:2021-03-25
# 超平面上のゼロレンジポテンシャルを持つ真空分極

Vacuum polarization with zero-range potentials on a hyperplane ( http://arxiv.org/abs/2103.13720v1 )

ライセンス: Link先を確認
Davide Fermi(参考訳) 背景ゼロレンジポテンシャルによって誘導される中性スカラー場の量子真空揺らぎを, 共次元の平面超平面上に1ドルで(d+1)$-Dミンコフスキー時空で調べる。 完全な反射面と半透明面はどちらも考慮され、量子場理論のユニタリティーと一致する最も一般的な局所的、均質的、等方的境界条件を参照する。 再正規化真空分極は場の零質量と非零質量の両方で計算され、ゼータ正則化技法の局所バージョンを実装している。 真空偏極の漸近的挙動は、超平面からの距離が小さくて大きいために決定される。 境界分散は、純粋なディラックデルタポテンシャルの特定の場合において軟化されることが示されている。

The quantum vacuum fluctuations of a neutral scalar field induced by background zero-range potentials concentrated on a flat hyperplane of co-dimension $1$ in $(d+1)$-dimensional Minkowski spacetime are investigated. Perfectly reflecting and semitransparent surfaces are both taken into account, making reference to the most general local, homogeneous and isotropic boundary conditions compatible with the unitarity of the quantum field theory. The renormalized vacuum polarization is computed for both zero and non-zero mass of the field, implementing a local version of the zeta regularization technique. The asymptotic behaviours of the vacuum polarization for small and large distances from the hyperplane are determined to leading order. It is shown that boundary divergences are soften in the specific case of a pure Dirac delta potential.
翻訳日:2023-04-06 21:50:42 公開日:2021-03-25
# 分子集合体における強い励起子-振動結合 HEOM空間におけるポラロン変換を用いたダイナミクス

Strong Exciton-Vibrational Coupling in Molecular Assemblies. Dynamics using the Polaron Transformation in HEOM Space ( http://arxiv.org/abs/2103.13645v1 )

ライセンス: Link先を確認
Joachim Seibt, Oliver K\"uhn(参考訳) 凝集分子におけるフレンケル励起子ダイナミクスの文脈において、ポーラロン変換法は、電子励起状態の集団に起因する対角要素が振動自由度に関連するゆらぎから切り離されるような処理を促進する。 本稿では,環境に起因する全ての振動成分を持つ開量子システムに対する「階層的運動方程式」(heom)手法の文脈において,ポーラロン変換がどのように適用できるかを初めて記述する。 生成関数法を用いて励起状態ポテンシャルエネルギー面のシフトを導入することにより、ポラロン変換の階層方程式を時間伝播に類似させて導出する。 本研究では, 従来のポラロン変換を伴わずとも, モノマーの電子励起に結合したアンダーダムおよび過大な振動子のダイナミクスを計算し, それぞれの振動座標の期待値のダイナミクスについて検討した。 さらに,下部励起ポテンシャルエネルギー表面のミニマム間の熱エネルギーに匹敵するバリアを有するダイマーのダイナミクスについて検討した。 ポラロン変換によって導入されたエネルギー的に高いポテンシャル最小値を持つ単量体での局在の仮定は、転移ダイナミクスに大きな影響を与えることが判明した。 ここでは、ポラロン変換が局所的あるいは排他的に実行されるかどうかを明確に区別する。 これは、ポーラロン変換が振動の平衡のみを考慮し、励起力学を考慮しないという事実を反映している。 我々は,分子集合体の発光スペクトルの計算のための初期状態を得るために,この欠点を補うためのアプローチをスケッチする。

In the context of Frenkel exciton dynamics in aggregated molecules the polaron transformation technique facilitates a treatment where diagonal elements attributed to electronic excited-state populations are decoupled from fluctuations associated with vibrational degrees-of-freedom. In this article we describe for the first time how the polaron transformation can be applied in the context of the "Hierarchical Equations of Motion" (HEOM) technique for treatment of open quantum systems with all vibrational components attributed to an environment. By using a generating function approach to introduce a shift in the excited state potential energy surface, we derive hierarchical equations for polaron transformation in analogy to those for time propagation. We demonstrate the applicability of the developed approach by calculating the dynamics of underdamped and overdamped oscillators coupled to electronic excitation of a monomer without and with previous polaron transformation and study the dynamics of the expectation value of the respective vibrational coordinates. Furthermore, we investigate the dynamics of a dimer with a barrier comparable to the thermal energy between the minima of the lower excitonic potential energy surface. It turns out that the assumption of localization at the monomer unit with energetically higher potential minimum, introduced via polaron transformation, has a substantial influence on the transfer dynamics. Here, it makes a clear difference whether the polaron transformation is performed in the local or exciton basis. This reflects the fact that the polaron transformation only accounts for equilibration of the vibrational, but not of the excitonic dynamics. We sketch an approach to compensate this shortcoming in view of obtaining an initial state for the calculation of emission spectra of molecular aggregates.
翻訳日:2023-04-06 21:50:29 公開日:2021-03-25
# 発光フェルミオンの$\eta$ペアリング:高温における非平衡ペアリング機構

$\eta$ Pairing of Light-Emitting Fermions: Nonequilibrium Pairing Mechanism at High Temperatures ( http://arxiv.org/abs/2103.13624v1 )

ライセンス: Link先を確認
Masaya Nakagawa, Naoto Tsuji, Norio Kawakami, Masahito Ueda(参考訳) 強い相互作用を持つフェルミオン原子は、原子からの自然発光の存在下で、非平衡定常状態において$\eta$-pairing超流動相関を生じる。 内部スピン状態間の自然崩壊を受けるハバードモデルに基づいて、パウリの排除原理による放射減衰の禁止と、ダビロン・デカイ過程間の破壊的干渉が非平衡$\eta$ペアリングをもたらすことを示す。 定常状態の非熱的性質のため、ペア相関は完全に無相関な無限温度初期状態から生じ、コヒーレント原子対を高温で形成することができる。 光格子におけるフェルミオン原子の実験的実装について論じる。

Strongly interacting fermionic atoms are shown to develop $\eta$-pairing superfluid correlations in a nonequilibrium steady state in the presence of spontaneous emission of light from atoms. On the basis of the Hubbard model subject to spontaneous decay between internal spin states, we show that prohibition of radiative decay due to the Pauli exclusion principle and destructive interference between doublon-decay processes lead to nonequilibrium $\eta$ pairing. Because of the non-thermal nature of the steady state, pair correlations arise even from a completely uncorrelated infinite-temperature initial state, allowing coherent atom pairs to be formed at high temperatures. Experimental implementation with fermionic atoms in an optical lattice is discussed.
翻訳日:2023-04-06 21:49:53 公開日:2021-03-25
# 格子状量子ビット間結合の存在下でのトモグラフィ

Tomography in the presence of stray inter-qubit coupling ( http://arxiv.org/abs/2103.13611v1 )

ライセンス: Link先を確認
Tanay Roy, Ziqian Li, Eliot Kapit, David I. Schuster(参考訳) トモグラフィーは、状態再構成による量子過程の診断を可能にするため、量子計算の必須部分である。 既存のトモグラフィープロトコルは、通常シングルキュービット回転を必要とする様々なポーリ作用素の期待値の決定に基づいている。 しかし、現実のシステムでは、キュービットはしばしばある種の避けられない層結合を発達させ、パートナーとは独立に1キュービットを操作することが困難になる。 したがって、それらのシステムに適用される標準プロトコルは、真の量子状態の完全な再現をもたらす。 我々は,ソフトウェアの寄生カップリングによる誤りを訂正し,量子状態を正確に決定できる結合補償トモグラフィ( coupling compensationd tomography)というプロトコルを開発した。 我々は、常に$\textit{zz}$結合を持つ2つのトランスモンキュービットのシステム上で、このスキームの性能を示す。 提案手法は, 任意のトモグラフィパルスおよび非直交軸の回転を容易に利用し, 異なる種類の層間結合を持つ大規模システムに適用可能な汎用トモグラフィーツールである。

Tomography is an indispensable part of quantum computation as it enables diagnosis of a quantum process through state reconstruction. Existing tomographic protocols are based on determining expectation values of various Pauli operators which typically require single-qubit rotations. However, in realistic systems, qubits often develop some form of unavoidable stray coupling making it difficult to manipulate one qubit independent of its partners. Consequently, standard protocols applied to those systems result in unfaithful reproduction of the true quantum state. We have developed a protocol, called coupling compensated tomography, that can correct for errors due to parasitic couplings completely in software and accurately determine the quantum state. We demonstrate the performance of our scheme on a system of two transmon qubits with always-on $\textit{ZZ}$ coupling. Our technique is a generic tomography tool that can be applied to large systems with different types of stray inter-qubit couplings and facilitates the use of arbitrary tomography pulses and even non-orthogonal axes of rotation.
翻訳日:2023-04-06 21:49:39 公開日:2021-03-25
# 女性雇用における保育サービスの効果の定量化

Quantifying the efficacy of childcare services on women employment ( http://arxiv.org/abs/2103.13570v1 )

ライセンス: Link先を確認
Jing-Yi Liao, Ying Kong, Tao Zhou(参考訳) 女性は母親になった後、労働市場に戻ります。 直感的には、育児サービスは母親のペナルティを和らげるために女性の雇用を促進することができる。 しかし、最もよく知られている研究は、女性雇用への影響を定量的に分析する代わりに、育児サービスが出生率に及ぼす影響に焦点を当てた。 地域レベルでの全国パネルデータと中国人データを用いて,育児サービスと女性雇用の量的関係,すなわち,育児サービスの参加率は,女性の相対雇用率と男性との正の相関関係を明らかにする。 さらなる分析は、このようなポジティブな影響が、脆弱な雇用ジレンマを壊すことに大きく影響している可能性を示唆している。

Women are set back in the labor market after becoming mother. Intuitively, childcare services are able to promote women employment as they may reconciliate the motherhood penalty. However, most known studies concentrated on the effects of childcare services on fertility rate, instead of quantitative analyses about the effects on women employment. Using worldwide panel data and Chinese data at province level, this paper unfolds the quantitative relationship between childcare services and women employment, that is, the attendance rate of childcare services is positively correlated with the relative employment rate of women to men. Further analysis suggests that such a positive impact may largely resulted from breaking the vulnerable employment dilemma.
翻訳日:2023-04-06 21:49:21 公開日:2021-03-25
# 2電子中性原子における核スピンを用いたrydberg量子計算

Rydberg quantum computation with nuclear spins in two-electron neutral atoms ( http://arxiv.org/abs/2103.13847v1 )

ライセンス: Link先を確認
Xiao-Feng Shi(参考訳) 2つの原子価電子と非ゼロ核スピンを持つアルカリ-アース--~(AEL)原子は、量子コンピューティングのリドベルク状態に励起される。 典型的なALE基底状態は超微細な分割を持たないが、残念ながらRydbergの励起にはGHzスケールの分割が必要であると思われる。 強磁場はGHzスケールのスプリッティングを誘導するが、実験ではノイズを避けることが望ましい。 ここでは, ael同位体の現実的なデータを用いて, この課題に対する2つの解を提案する。 最初の理論では、2つの核スピン量子状態 $|0\rangle$ と $|1\rangle$ はそれぞれ 1~G のオーダーで弱磁場から MHz スケールの detuning $\Delta$ が生じる。 適切な比が$\Delta$ と $\Omega$ のとき、qubit state $|1\rangle$ は Rydberg 状態に完全に興奮し、$|0\rangle$ はそこに残る。 2つ目の理論では、適切な中間状態を選択することで、2光子リドバーグ励起が1つの核スピン量子ビット状態で進行できることが示される。 2つ目の理論は磁場の大きさが何であれ適用できる。 これらの理論は、ライドバーグ封鎖の幅広い適用可能性と2電子中性原子における核スピン量子メモリの非比較的な利点を組み合わせることで、量子計算の汎用性をもたらす。

Alkaline-earth-like~(AEL) atoms with two valence electrons and a nonzero nuclear spin can be excited to Rydberg state for quantum computing. Typical AEL ground states possess no hyperfine splitting, but unfortunately a GHz-scale splitting seems necessary for Rydberg excitation. Though strong magnetic fields can induce a GHz-scale splitting, weak fields are desirable to avoid noise in experiments. Here, we provide two solutions to this outstanding challenge with realistic data of well-studied AEL isotopes. In the first theory, the two nuclear spin qubit states $|0\rangle$ and $|1\rangle$ are excited to Rydberg states $|r\rangle$ with detuning $\Delta$ and 0, respectively, where a MHz-scale detuning $\Delta$ arises from a weak magnetic field on the order of 1~G. With a proper ratio between $\Delta$ and $\Omega$, the qubit state $|1\rangle$ can be fully excited to the Rydberg state while $|0\rangle$ remains there. In the second theory, we show that by choosing appropriate intermediate states a two-photon Rydberg excitation can proceed with only one nuclear spin qubit state. The second theory is applicable whatever the magnitude of the magnetic field is. These theories bring a versatile means for quantum computation by combining the broad applicability of Rydberg blockade and the incomparable advantages of nuclear-spin quantum memory in two-electron neutral atoms.
翻訳日:2023-04-06 21:43:55 公開日:2021-03-25
# 誘電体材料により誘導されるトラップイオンの加熱

Heating of a trapped ion induced by dielectric materials ( http://arxiv.org/abs/2103.13846v1 )

ライセンス: Link先を確認
Markus Teller, Dario A. Fioretto, Philip C. Holz, Philipp Schindler, Viktor Messerer, Klemens Sch\"uppert, Yueyang Zou, Rainer Blatt, John Chiaverini, Jeremy Sage, Tracy E. Northup(参考訳) 表面による電界ノイズは、近くの閉じ込められたイオンの動きを妨害し、量子コンピューティングアルゴリズムの基礎となるゲート演算の忠実さを損なう。 誘電体材料がイオンの動きに与える影響を予測する手法を提案する。 このような誘電体はイオントラップの構成要素である。 自由パラメータを持たないモデルと誘電鏡に近接して閉じ込められたイオンの測定との間には定量的な一致が見られる。 このアプローチは、イオントラップベースの量子コンピュータとネットワークノードの設計を最適化するために使用できると期待している。

Electric-field noise due to surfaces disturbs the motion of nearby trapped ions, compromising the fidelity of gate operations that are the basis for quantum computing algorithms. We present a method that predicts the effect of dielectric materials on the ion's motion. Such dielectrics are integral components of ion traps. Quantitative agreement is found between a model with no free parameters and measurements of a trapped ion in proximity to dielectric mirrors. We expect that this approach can be used to optimize the design of ion-trap-based quantum computers and network nodes.
翻訳日:2023-04-06 21:43:29 公開日:2021-03-25
# $^{15}$Nitrogen-Vacancy Centerにおける基底状態マイクロ波刺激ラマン遷移と断熱スピン移動

Ground State Microwave-Stimulated Raman Transitions and Adiabatic Spin Transfer in the $^{15}$Nitrogen-Vacancy Center ( http://arxiv.org/abs/2103.13788v1 )

ライセンス: Link先を確認
Florian B\"ohm, Niko Nikolay, Sascha Neinert, Christoph E. Nebel, and Oliver Benson(参考訳) マイクロ波パルスシーケンスは、窒素空孔(NV)中心における電子スピン基底状態のコヒーレントな操作の基礎である。 本研究では,NV中心の電子三重項基底状態における2つのスピンサブレベル間の双極子-禁断遷移を駆動する2つの方法である,刺激ラマン遷移(SRT)と刺激ラマン断熱通路(STIRAP)を示す。 これはマルチトーンラマンマイクロ波パルスによって実現され、srtの仮想レベルまたは2つの断熱的および部分的に重なり合う共振マイクロ波パルスを介して2つのデチューン遷移を同時に駆動する。 我々は,SRTとSTIRAPの力学の理論的枠組みを定式化し,単一NV中心の基底状態における双極子-禁制遷移を観察することにより,集団反転の理論的予測を実験的に検証した。 2つのスキームを比較すると、STIRAPのSRTと比較して、スピンスワップの堅牢性と成功率が向上した。

Microwave pulse sequences are the basis of coherent manipulation of the electronic spin ground state in nitrogen-vacancy (NV) centers. In this work we demonstrate stimulated Raman transitions (SRT) and stimulated Raman adiabatic passage (STIRAP), two ways to drive the dipole-forbidden transition between two spin sublevels in the electronic triplet ground state of the NV center. This is achieved by a multitone Raman microwave pulse which simultaneously drives two detuned transitions via a virtual level for SRT or via two adiabatic and partially overlapping resonant microwave pulses for STIRAP. We lay the theoretical framework of SRT and STIRAP dynamics and verify experimentally the theoretical predictions of population inversion by observing the dipole-forbidden transition in the ground state of a single NV center. A comparison of the two schemes showed a better robustness and success of the spin swap for STIRAP as compared to SRT.
翻訳日:2023-04-06 21:43:18 公開日:2021-03-25
# 量子ソフトウェアモデル:古典的および量子的ソフトウェアシステム設計のための密度行列

Quantum Software Models: The Density Matrix for Classical and Quantum Software Systems Design ( http://arxiv.org/abs/2103.13755v1 )

ライセンス: Link先を確認
Iaakov Exman and Alon Tsalik Shmilovich(参考訳) 線形ソフトウェアモデルは、古典的ソフトウェアシステムのモジュラー設計のための厳密な線形代数的手続きを可能にする。 これらの手順は、ソフトウェアシステムの行列表現(例えばラプラシアン)にスペクトル的アプローチを適用する。 量子コンピュータに対する近年の集中的な研究は、量子コンピューティングが古典コンピューティングの実用的な代替手段として実現できるという期待を高めている。 量子ソフトウェアに望ましい機能について問い合わせ、量子ソフトウェアシステムのモジュール設計手順を事前に準備することは合理的である。 しかし、モジュール設計には古典的ソフトウェアシステムと量子ソフトウェアシステムには2つの全く別の手順があるというわけにはいかない。 この論文は、古典的および量子的両方のソフトウェアシステムに対して、単一の統一的で厳密な設計手順が存在するべきだと主張している。 古典的および量子的ソフトウェアシステムの共通設計手順は、密度演算子のフォン・ノイマン量子概念とその密度行列表現である。 本稿では、設計密度行列から得られる射影演算子を用いてモジュラー設計を定式化し、古典的ケースに対するラプラシア行列スペクトルの線形ソフトウェアモデルと等価性を示す。 古典的ソフトウェアと量子ソフトウェアの両方の設計手順を実践するアプリケーションは、ケーススタディによって示される。

Linear Software Models enable rigorous linear algebraic procedures for modular design of classical software systems. These procedures apply a spectral approach to matrix representations - e.g. the Laplacian - of the software system. Recent intensive research efforts towards quantum computers have increased expectations that quantum computing could in due time materialize as a practical alternative to classical computing. It is reasonable to inquire about quantum software desirable features and prepare in advance modular design procedures for quantum software systems. However, it does not make sense to have two totally separate procedures for modular design, one for classical software systems and another for quantum software systems. This paper claims that there should be just a single unified and rigorous design procedure for both classical and quantum software systems. Our common design procedure starting point for both classical and quantum software systems is Von Neumann quantum notion of Density Operator and its Density Matrix representation. This paper formulates and demonstrates modular design in terms of projection operators obtained from a design Density Matrix and shows their equivalence to the Linear Software Models results of the Laplacian matrix spectrum for the classical case. The application in practice of the design procedure for both classical and quantum software is illustrated by case studies.
翻訳日:2023-04-06 21:42:39 公開日:2021-03-25
# 多体系における影響関数:時間的絡み合いと行列生成状態表現

Influence functional of many-body systems: temporal entanglement and matrix-product state representation ( http://arxiv.org/abs/2103.13741v1 )

ライセンス: Link先を確認
Michael Sonner, Alessio Lerose, Dmitry A. Abanin(参考訳) ファインマン・ヴァーノン影響汎関数 (if) は、量子環境が開量子系のダイナミクスに与える影響を記述するために導入された。 我々は、孤立スピン系における量子多体力学を記述するためのIF手法を適用し、系を局所サブシステムの環境と見なす。 if は、ある多体モデルでのみ正確に計算できるが、一般に、系または系のアンサンブルが翻訳不変であれば、自己矛盾方程式を満たす。 我々はIFを時間領域における架空の波動関数と見なし、行列積状態(MPS)を用いて近似する。 IFの時間的絡み合いが十分に低い場合、このアプローチは効率的である。 熱化から多体局在化に至るまで,様々な動的挙動を示すモデルを解析し,IFアプローチの汎用性について述べる。 特に、量子イジングモデルにおける非平衡ダイナミクスをフロケとハミルトニアンの両方の設定で研究する。 時間的絡み合いのエントロピーは空間的絡み合いに比べて有意に低くなり, IFを連続的に解析する。 無限温度鎖に埋もれた不純物の緩和や、励起の閉じ込めに伴う磁化の長寿命振動力学など、様々な状態における局所観測物の熱力学的-極限進化をシミュレートする。 障害回避を形式主義に取り入れることで,IF法による離散時間結晶応答を解析する。 この場合、時間的絡み合いエントロピーは進化時間とともに対数的にスケールする。 IFアプローチは、エルゴード状態と非エルゴード状態の両方において、多体非平衡現象に関する新しいレンズを提供し、オープン量子システム理論と量子統計物理学を結びつける。

Feynman-Vernon influence functional (IF) was originally introduced to describe the effect of a quantum environment on the dynamics of an open quantum system. We apply the IF approach to describe quantum many-body dynamics in isolated spin systems, viewing the system as an environment for its local subsystems. While the IF can be computed exactly only in certain many-body models, it generally satisfies a self-consistency equation, provided the system, or an ensemble of systems, are translationally invariant. We view the IF as a fictitious wavefunction in the temporal domain, and approximate it using matrix-product states (MPS). This approach is efficient provided the temporal entanglement of the IF is sufficiently low. We illustrate the versatility of the IF approach by analyzing several models that exhibit a range of dynamical behaviors, from thermalizing to many-body localized. In particular, we study the non-equilibrium dynamics in the quantum Ising model in both Floquet and Hamiltonian settings. We find that temporal entanglement entropy may be significantly lower compared to the spatial entanglement and analyze the IF in the continuous-time limit. We simulate the thermodynamic-limit evolution of local observables in various regimes, including the relaxation of impurities embedded in an infinite-temperature chain, and the long-lived oscillatory dynamics of the magnetization associated with the confinement of excitations. By incorporating disorder-averaging into the formalism, we analyze discrete time-crystalline response using the IF method. In this case, we find that the temporal entanglement entropy scales logarithmically with evolution time. The IF approach offers a new lens on many-body non-equilibrium phenomena, both in ergodic and non-ergodic regimes, connecting the theory of open quantum systems theory to quantum statistical physics.
翻訳日:2023-04-06 21:41:56 公開日:2021-03-25
# フェルミオンペアの量子登録

Quantum Register of Fermion Pairs ( http://arxiv.org/abs/2103.13992v1 )

ライセンス: Link先を確認
Thomas Hartke, Botond Oreg, Ningyuan Jia, Martin Zwierlein(参考訳) フェルミオン(Fermion)は、原子と核、複雑な物質、中性子星を形成する物質である。 しかし、多くのフェルミ系に対する我々の理解は限定的であり、古典的コンピュータはしばしば強い相互作用を持つパウリ原理の複雑な相互作用を扱うのに不十分である。 超低温フェルミオン原子に基づく量子シミュレータは、個々のフェルミオンをコヒーレントに制御することなく「アナログ」な方法で、パラダイム的なフェルミ系を直接実現する。 一方、フェルミオンモデルのデジタル量子計算は、フェルミオン反対称性の実装において重大な課題に直面し、フェルミオンを基本単位としてネイティブに使用するアーキテクチャを求める。 ここでは、光格子に閉じ込められた数百個のフェルミオン原子対からなるロバスト量子レジスタを示す。 それぞれのフェルミオン対がスピンシンガレットを形成することにより、クォービットは共通運動と相対運動を記述した近縮退した対称性で保護された2粒子波動関数の集合として実現される。 縮退は原子の反動エネルギーによって持ち上げられ、質量と格子の波長のみに依存するため、2フェルミオン運動量子ビットは閉じ込められた電位のノイズに影響を受けない。 量子コヒーレンスを10秒以上観測する。 普遍制御は原子間の相互作用を変調することで与えられる。 自由原子対を密結合した分子に状態依存的コヒーレント変換することで、運動の絡み合い速度を3桁以上調整し、コヒーレンス時間内に10^4$のラムゼー振動を発生させる。 サイト分解された運動状態の読み出しでは、フェルミオン対は二重井戸にコヒーレントに分割され、絡み合ったベル対を生成する。 ここで提示された手法は、完全にプログラム可能な量子シミュレーションとフェルミオンに基づくデジタル量子計算への扉を開く。

Fermions are the building blocks of matter, forming atoms and nuclei, complex materials and neutron stars. Our understanding of many-fermion systems is however limited, as classical computers are often insufficient to handle the intricate interplay of the Pauli principle with strong interactions. Quantum simulators based on ultracold fermionic atoms instead directly realize paradigmatic Fermi systems, albeit in "analog" fashion, without coherent control of individual fermions. Digital qubit-based quantum computation of fermion models, on the other hand, faces significant challenges in implementing fermionic anti-symmetrization, calling for an architecture that natively employs fermions as the fundamental unit. Here we demonstrate a robust quantum register composed of hundreds of fermionic atom pairs trapped in an optical lattice. With each fermion pair forming a spin-singlet, the qubit is realized as a set of near-degenerate, symmetry-protected two-particle wavefunctions describing common and relative motion. Degeneracy is lifted by the atomic recoil energy, only dependent on mass and lattice wavelength, thereby rendering two-fermion motional qubits insensitive against noise of the confining potential. We observe quantum coherence beyond ten seconds. Universal control is provided by modulating interactions between the atoms. Via state-dependent, coherent conversion of free atom pairs into tightly bound molecules, we tune the speed of motional entanglement over three orders of magnitude, yielding $10^4$ Ramsey oscillations within the coherence time. For site-resolved motional state readout, fermion pairs are coherently split into a double well, creating entangled Bell pairs. The methods presented here open the door towards fully programmable quantum simulation and digital quantum computation based on fermions.
翻訳日:2023-04-06 21:35:36 公開日:2021-03-25
# 一般化量子木探索

Generalised Quantum Tree Search ( http://arxiv.org/abs/2103.13976v1 )

ライセンス: Link先を確認
Andre Sequeira, Luis Paulo Santos, Luis Soares Barbosa(参考訳) この拡張された抽象報告は、非定数分岐因子の存在下でも有効な量子スピードアップを示す一般化木探索問題に対する量子アルゴリズム的アプローチに関する現在進行中の研究に関するものである。 2つの戦略を要約し、現在の作業の概要を概説する。

This extended abstract reports on on-going research on quantum algorithmic approaches to the problem of generalised tree search that may exhibit effective quantum speedup, even in the presence of non-constant branching factors. Two strategies are briefly summarised and current work outlined.
翻訳日:2023-04-06 21:34:35 公開日:2021-03-25
# TrackYourHealth PlatformによるCOVID-19パンデミック研究アプリの開発

Developing Apps for Researching the COVID-19 Pandemic with the TrackYourHealth Platform ( http://arxiv.org/abs/2103.13954v1 )

ライセンス: Link先を確認
Carsten Vogel, R\"udiger Pryss, Johannes Schobel, Winfried Schlee and Felix Beierle(参考訳) ロックダウンやその他の深刻な日常生活の変化によって、ほぼ全員が新型コロナウイルス(COVID-19)の影響を受けている。 科学者や医師は、主に一般市民の身体と精神の健康を研究し、監視し、改善することに興味を持っている。 モバイルヘルスアプリ(mhealth)と、それぞれ生態学的瞬間的評価(ema)を行うアプリは、この文脈で役立つ。 しかし、このようなモバイルアプリケーションの開発には、コストのかかるソフトウェア開発の取り組み、厳格なプライバシー規則、倫理ガイドラインの遵守、地方法、規制など多くの課題が伴う。 本稿では、高度に構成可能で汎用的でモジュール化されたモバイルデータ収集およびEMAプラットフォームであるTrackYourHealth(TYH)について紹介する。 我々はTYHを紹介し、同様のアプリの研究者や開発者が直面している特定の課題、特に医療分野に関連するアプリを開発する際にも強調する。

Through lockdowns and other severe changes to daily life, almost everyone is affected by the COVID-19 pandemic. Scientists and medical doctors are - among others - mainly interested in researching, monitoring, and improving physical and mental health of the general population. Mobile health apps (mHealth), and apps conducting ecological momentary assessments (EMA) respectively, can help in this context. However, developing such mobile applications poses many challenges like costly software development efforts, strict privacy rules, compliance with ethical guidelines, local laws, and regulations. In this paper, we present TrackYourHealth (TYH), a highly configurable, generic, and modular mobile data collection and EMA platform, which enabled us to develop and release two mobile multi-platform applications related to COVID-19 in just a few weeks. We present TYH and highlight specific challenges researchers and developers of similar apps may also face, especially when developing apps related to the medical field.
翻訳日:2023-04-06 21:34:14 公開日:2021-03-25
# 平面と球面の間のカシミール相互作用:中間温度における近接力近似の補正

Casimir Interaction Between a Plane and a Sphere: Correction to the Proximity-Force Approximation at Intermediate Temperatures ( http://arxiv.org/abs/2103.13927v1 )

ライセンス: Link先を確認
Vinicius Henning, Benjamin Spreng, Paulo A. Maia Neto, Gert-Ludwig Ingold(参考訳) 有限温度$T$における平面と半径$R$の球面の間のカシミール相互作用エネルギーを、最も近いアプローチ距離$L$の関数として考える。 典型的な実験条件は、熱波長 $\lambda_T=\hbar c/k_\mathrm{B}T$ が条件 $L\ll \lambda_T\ll R$ を満たすようなものである。 平面波の散乱公式を定式化することにより, 中間温度に対して有効である近接力近似に対する主補正を導出する。 解析結果は球面形状と温度の合同効果を捉え,温度依存対数項の和として記述した。 驚くべきことに、2つの対数項は松原ゼロ周波数寄与から生じる。

We consider the Casimir interaction energy between a plane and a sphere of radius $R$ at finite temperature $T$ as a function of the distance of closest approach $L$. Typical experimental conditions are such that the thermal wavelength $\lambda_T=\hbar c/k_\mathrm{B}T$ satisfies the condition $L\ll \lambda_T\ll R$. We derive the leading correction to the proximity-force approximation valid for such intermediate temperatures by developing the scattering formula in the plane-wave basis. Our analytical result captures the joint effect of the spherical geometry and temperature and is written as a sum of temperature-dependent logarithmic terms. Surprisingly, two of the logarithmic terms arise from the Matsubara zero-frequency contribution.
翻訳日:2023-04-06 21:33:36 公開日:2021-03-25
# 切断ノイマン級数による測定誤差緩和

Measurement Error Mitigation via Truncated Neumann Series ( http://arxiv.org/abs/2103.13856v1 )

ライセンス: Link先を確認
Kun Wang, Yu-Ao Chen, and Xin Wang(参考訳) 短期量子プロセッサの測定は、必然的にハードウェアの欠陥によって読み出しエラーにつながる。 このような避けられないエラーの軽減は、短期量子ハードウェアのパワーをよりよく探求し拡張するために重要である。 本研究では,切断ノイマン級数を用いた量子期待値の計算における測定誤差を緩和する手法を提案する。 基本的考え方は、乱数列の項によって決定された逐次的な測定によって生成される様々なノイズ予測値を組み合わせることでエラーをキャンセルすることである。 本手法を数値的に検証した結果,計算精度が大幅に向上した。 提案手法は, ノイズ構造を前提とせず, 騒音行列を予め学習するための校正手順を必要とせず, 最も重要な点として, 測定装置の耐雑音性が適度である限り, 誤差低減のオーバーヘッドはシステムサイズに依存しない。 これらの利点は、短期量子デバイスにおける実測誤差低減手法として、我々の手法に有効である。

Measurements on near-term quantum processors are inevitably subject to hardware imperfections that lead to readout errors. Mitigation of such unavoidable errors is crucial to better explore and extend the power of near-term quantum hardware. In this work, we propose a method to mitigate measurement errors in computing quantum expectation values using the truncated Neumann series. The essential idea is to cancel the errors by combining various noisy expectation values generated by sequential measurements determined by terms in the truncated series. We numerically test this method and find that the computation accuracy is substantially improved. Our method possesses several advantages: it does not assume any noise structure, it does not require the calibration procedure to learn the noise matrix a prior, and most importantly, the incurred error mitigation overhead is independent of system size, as long as the noise resistance of the measurement device is moderate. All these advantages empower our method as a practical measurement error mitigation method for near-term quantum devices.
翻訳日:2023-04-06 21:32:55 公開日:2021-03-25
# 非可換グラフと凸角の情報理論パラメータ

Information theoretic parameters of non-commutative graphs and convex corners ( http://arxiv.org/abs/2103.14091v1 )

ライセンス: Link先を確認
Gareth Boreland, Ivan G. Todorov and Andreas Winter(参考訳) 非可換凸コーナーに対する第二の反ブロッカ定理を確立し、対ブロッキング演算が凸コーナーの有界集合上で連続であることを示し、周知のグラフ理論量を一般化する任意の凸コーナーの最適化パラメータを定義する。 凸角に関する状態のエントロピーを定義し、一般化された分数色数の観点からその最大値を特徴付け、凸角とその反ブロッカ間のエントロピー相補性を示すエントロピー分解結果を確立する。 凸角の2つの極端テンソル積を同定し、テンソル化に関して導入されたパラメータの挙動を調べる。 非可換グラフを特色として、分数 chromatic number とclique cover number の量子バージョンと、状態とグラフに関して連続であることを示す状態の非可換グラフエントロピーの概念を得る。 非可換グラフのウィッツェンハウゼン率を定義し、特定の場合においてパラメータの値を計算する。

We establish a second anti-blocker theorem for non-commutative convex corners, show that the anti-blocking operation is continuous on bounded sets of convex corners, and define optimisation parameters for a given convex corner that generalise well-known graph theoretic quantities. We define the entropy of a state with respect to a convex corner, characterise its maximum value in terms of a generalised fractional chromatic number and establish entropy splitting results that demonstrate the entropic complementarity between a convex corner and its anti-blocker. We identify two extremal tensor products of convex corners and examine the behaviour of the introduced parameters with respect to tensoring. Specialising to non-commutative graphs, we obtain quantum versions of the fractional chromatic number and the clique covering number, as well as a notion of non-commutative graph entropy of a state, which we show to be continuous with respect to the state and the graph. We define the Witsenhausen rate of a non-commutative graph and compute the values of our parameters in some specific cases.
翻訳日:2023-04-06 21:26:01 公開日:2021-03-25
# 1550nmのギガヘルツ用16素子超伝導ナノワイヤ単光子検出器

16-Element Superconducting Nanowire Single-Photon Detector for Gigahertz Counting at 1550-nm ( http://arxiv.org/abs/2103.14086v1 )

ライセンス: Link先を確認
Timothy. M. Rambo and Amy R. Conover and Aaron J. Miller(参考訳) 1550nmでのシステム検出効率が83.4$\%、9.6nsの平均デッドタイムが9.6nsであり、毎秒1ギガ秒でシステム検出効率が$>50\%となる、線形配列された16素子の超伝導ナノワイヤ単光子検出器を提案する。 この装置は既存のスケーラブルな商用プロセスで設計・製造された。

We present a linearly arrayed, 16-element, superconducting nanowire single-photon detector with 83.4$\%$ system detection efficiency at 1550 nm and a mean per-element dead-time of 9.6-ns, enabling counting at 1 giga-count per second with $>50\%$ System Detection Efficiency. This device was designed and fabricated in an existing scalable commercial process.
翻訳日:2023-04-06 21:25:44 公開日:2021-03-25
# 量子刺激による複雑細胞オートマトン同定

Quantum-inspired identification of complex cellular automata ( http://arxiv.org/abs/2103.14053v1 )

ライセンス: Link先を確認
Matthew Ho, Andri Pradana, Thomas J. Elliott, Lock Yue Chew, and Mile Gu(参考訳) 基本細胞オートマトン(ECA)は複雑なシステムの象徴的な例である。 近傍の更新規則に従って進化するバイナリセルの1次元文字列によってのみ記述されるが、一部のECA規則は普遍計算が可能な複雑なダイナミクスを示す。 しかし、どの規則が複雑な振る舞いを示すかを正確に分類することは重要な課題である。 ここでは、量子統計メモリ(量子機械のクラスを用いて確率過程をモデル化するために必要なメモリ)が確率過程の構造を定量化するために用いられる量子確率モデリングのツールを用いて、この問題にアプローチする。 ECAルールを確率的パターンの変換として見ることにより、量子統計メモリによって定量化された構造を生成するか、その場合、どれくらいの速さで生成されるのか? この測定の時間的成長は、単純なECAと複雑なECAを正確に区別する。 さらに、複雑なECAを定量的に識別するためのより洗練された手段を提供し、それらが構造を生成する速度でECAの複雑さをランク付けできるスペクトルを提供する。

Elementary cellular automata (ECA) present iconic examples of complex systems. Though described only by one-dimensional strings of binary cells evolving according to nearest-neighbour update rules, certain ECA rules manifest complex dynamics capable of universal computation. Yet, the classification of precisely which rules exhibit complex behaviour remains a significant challenge. Here we approach this question using tools from quantum stochastic modelling, where quantum statistical memory -- the memory required to model a stochastic process using a class of quantum machines -- can be used to quantify the structure of a stochastic process. By viewing ECA rules as transformations of stochastic patterns, we ask: Does an ECA generate structure as quantified by the quantum statistical memory, and if so, how quickly? We illustrate how the growth of this measure over time correctly distinguishes simple ECA from complex counterparts. Moreover, it provides a more refined means for quantitatively identifying complex ECAs -- providing a spectrum on which we can rank the complexity of ECA by the rate in which they generate structure.
翻訳日:2023-04-06 21:25:23 公開日:2021-03-25
# ギンツブルク-ランダウ方程式の離散ソリトン

Discrete Solitons of the Ginzburg-Landau Equation ( http://arxiv.org/abs/2103.14004v1 )

ライセンス: Link先を確認
Mario Salerno, Fatkhulla Kh. Abdullaev(参考訳) 本章では、離散複素ギンツブルク-ランダウ方程式の局所化および拡張散逸解に関する最近の結果について述べる。 特に,線形および非線形特性から生じる離散回折効果,立方晶項の存在下での自局在散逸ソリトンの存在,飽和非線形性による変調不安定性について論じる。 局所および拡張散逸性離散ソリトンの動的安定性についても論じる。

In this chapter we review recent results concerning localized and extended dissipative solutions of the discrete complex Ginzburg-Landau equation. In particular, we discuss discrete diffraction effects arising both from linear and nonlinear properties, the existence of self-localized dissipative solitons in the presence of cubic-quintic terms and modulational instability induced by saturable nonlinearities. Dynamical stability properties of localized and extended dissipative discrete solitons are also discussed.
翻訳日:2023-04-06 21:23:50 公開日:2021-03-25
# sagnac干渉計の半古典的位相解析

Semiclassical Phase Analysis for a Trapped-Atom Sagnac Interferometer ( http://arxiv.org/abs/2103.13996v1 )

ライセンス: Link先を確認
Zhe Luo, E R Moan, and C A Sackett(参考訳) sagnac原子干渉計は、円柱対称調和ポテンシャルに閉じ込められたボース・アインシュタイン凝縮体を用いて構築することができる。 レーザービームとのブラッグ相互作用を用いて、原子は円形の軌道に打ち上げることができ、2つの逆伝播干渉計によって多くの共通モードノイズを排除できる。 完全に対称で調和的なポテンシャルでは、干渉計の出力は装置の回転速度にのみ依存する。 しかし、理想の場合からの逸脱はスプリアス位相シフトを引き起こす可能性がある。 これらの位相シフトは、収束電位における非調和摂動、レーザービームの角偏差、レーザーパルスのタイミング偏差、初期凝縮の運動励起に対して理論的に解析されている。 解析的および数値的な結果から、摂動の2次効果が導かれる。 軌道数とトラップ軸周波数比による位相シフトのスケーリングを決定する。 その結果、感度の高いパラメータは10^{-9}$ rad/sの回転センシング精度に対応するために10^{-5}$レベルで制御されるべきであることがわかった。 先行方向の摂動は、完全円筒対称の場合、非調和性やその他の誤差が存在する場合でも抑制される。 摂動項の1つを実験的に測定した。

A Sagnac atom interferometer can be constructed using a Bose-Einstein condensate trapped in a cylindrically symmetric harmonic potential. Using the Bragg interaction with a set of laser beams, the atoms can be launched into circular orbits, with two counterpropagating interferometers allowing many sources of common-mode noise to be excluded. In a perfectly symmetric and harmonic potential, the interferometer output would depend only on the rotation rate of the apparatus. However, deviations from the ideal case can lead to spurious phase shifts. These phase shifts have been theoretically analyzed for anharmonic perturbations up to quartic in the confining potential, as well as angular deviations of the laser beams, timing deviations of the laser pulses, and motional excitations of the initial condensate. Analytical and numerical results show the leading effects of the perturbations to be second order. The scaling of the phase shifts with the number of orbits and the trap axial frequency ratio are determined. The results indicate that sensitive parameters should be controlled at the $10^{-5}$ level to accommodate a rotation sensing accuracy of $10^{-9}$ rad/s. The leading-order perturbations are suppressed in the case of perfect cylindrical symmetry, even in the presence of anharmonicity and other errors. An experimental measurement of one of the perturbation terms is presented.
翻訳日:2023-04-06 21:23:43 公開日:2021-03-25
# 量子力学における非可換性の新しいパラメータ

New parameters of Non-commutativity in Quantum Mechanics ( http://arxiv.org/abs/2105.10034v1 )

ライセンス: Link先を確認
Mostafa Ijavi(参考訳) 本稿では、通常の可換空間とその逆によって非可換空間を定義する方法を見つけると考えられる。 これまで考慮されていない新しいパラメータが表現される。 このパラメータは同値空間を記述する。 また,新しいパラメータの概念を1つの問題で探索した。 全体空間における非可換性は、より多くの概念を説明することができるので重要である。 sw法(seiberg-witten)が非可換性を説明するのを知っていたので、いくつかの条件には適さないことが分かり、最終的には新しい非可換性において自由粒子のハミルトニアンを考え、新しいパラメータの概念を見出した。

At this paper, it is considered to find a way for defining non-commutative spaces by ordinary commutative ones and vice versa. A novel parameter which has not been considered so far is represented. This parameter describes equivalent spaces. Also, we searched concepts of these new parameters with one problem. Noncommutativity in total space is important here because it could explain more concepts. As we knew SW method (Seiberg-Witten) explained noncommutativity so here, we showed that it was not suitable for some conditions.in the end we considered Hamiltonian of free particle in new noncommutativity and we found concepts of new parameters.
翻訳日:2023-04-06 21:17:20 公開日:2021-03-25
# 音声を聴く:音声・視覚的音声分離のための相互親和性学習

Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation ( http://arxiv.org/abs/2104.02775v1 )

ライセンス: Link先を確認
Jiyoung Lee, Soo-Whan Chung, Sunok Kim, Hong-Goo Kang, Kwanghoon Sohn(参考訳) 本稿では,映像から個々の音声信号を分離する問題を視聴覚ニューラル処理を用いて解決する。 従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。 したがって、その性能は、音声-視覚同期の精度と、その表現の有効性に大きく依存する。 送信遅延ミスマッチやジッタによる2つのモード間のフレーム不連続性問題を解決するために,大域的対応と音声ストリームと視覚ストリーム間の局所的な親和性を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。 グローバル項が発話レベルにおける時間列の安定性を提供するので、これは不整合代入によって特徴づけられるラベル置換問題を解く。 複素ネットワーク上で提案するクロスモーダル親和性を拡張することにより、複素スペクトル領域における分離性能をさらに向上する。 実験により,提案手法は様々なデータセット上で従来の手法よりも優れており,実世界のシナリオにおいてその利点が示された。

In this paper, we address the problem of separating individual speech signals from videos using audio-visual neural processing. Most conventional approaches utilize frame-wise matching criteria to extract shared information between co-occurring audio and video. Thus, their performance heavily depends on the accuracy of audio-visual synchronization and the effectiveness of their representations. To overcome the frame discontinuity problem between two modalities due to transmission delay mismatch or jitter, we propose a cross-modal affinity network (CaffNet) that learns global correspondence as well as locally-varying affinities between audio and visual streams. Given that the global term provides stability over a temporal sequence at the utterance-level, this resolves the label permutation problem characterized by inconsistent assignments. By extending the proposed cross-modal affinity on the complex network, we further improve the separation performance in the complex spectral domain. Experimental results verify that the proposed methods outperform conventional ones on various datasets, demonstrating their advantages in real-world scenarios.
翻訳日:2023-04-06 21:16:27 公開日:2021-03-25
# 弱教師付きオーディオ視覚音源検出と分離

Weakly-supervised Audio-visual Sound Source Detection and Separation ( http://arxiv.org/abs/2104.02606v1 )

ライセンス: Link先を確認
Tanzila Rahman, Leonid Sigal(参考訳) ビデオのオーディオチャネルで個々のオブジェクトの音をローカライズし、分離する方法を学ぶのは、難しい作業です。 現在の最先端手法は、Mix-and-Separate frameworkとして知られる人工混合分光器からオーディオマスクを予測する。 そこで本研究では,オブジェクトラベルのみをラベル付けしたビデオから,個々のオブジェクトの見た目と音声の両方を学習する。 最近の視覚誘導型オーディオソース分離フレームワークとは異なり、私たちのアーキテクチャはエンドツーエンドで学習することができ、追加の監督やバウンディングボックスの提案は不要です。 具体的には,音声分離の文脈において,弱教師付き物体分割を導入する。 また,分離を容易にする設計であるオブジェクトセグメンテーションの出力に条件付き係数を併用した,一連の学習マスクベースを用いた分光グラムマスク予測を定式化した。 音楽データセットに関する広範囲な実験により,提案手法は視覚誘導音源分離と音の発声における最先端手法よりも優れていることが示された。

Learning how to localize and separate individual object sounds in the audio channel of the video is a difficult task. Current state-of-the-art methods predict audio masks from artificially mixed spectrograms, known as Mix-and-Separate framework. We propose an audio-visual co-segmentation, where the network learns both what individual objects look and sound like, from videos labeled with only object labels. Unlike other recent visually-guided audio source separation frameworks, our architecture can be learned in an end-to-end manner and requires no additional supervision or bounding box proposals. Specifically, we introduce weakly-supervised object segmentation in the context of sound separation. We also formulate spectrogram mask prediction using a set of learned mask bases, which combine using coefficients conditioned on the output of object segmentation , a design that facilitates separation. Extensive experiments on the MUSIC dataset show that our proposed approach outperforms state-of-the-art methods on visually guided sound source separation and sound denoising.
翻訳日:2023-04-06 21:15:55 公開日:2021-03-25
# 自由空間連続変数量子鍵分布に対する圧縮センシングに基づくパラメータ推定

A compressive sensing based parameter estimation for free space continuous variable quantum key distribution ( http://arxiv.org/abs/2103.14181v1 )

ライセンス: Link先を確認
Xiaowen Liu, Chen Dong, Xingyu Wang, Tianyi Wu(参考訳) 衛星による自由空間連続変動QKD(CV-QKD)では,乱流効果と減衰による大気チャネル変動のパラメータ推定がプロトコル性能の解析と改善に不可欠である。 本稿では,圧縮センシング(CS)理論を自由空間CV-QKDに適用し,計算量が少なく,少ないデータ量でチャネルパラメータ推定を実現する。 CS理論によれば、自由空間チャネルのスパース表現の可能性を分析し、チャネルパラメータのスパース再構成モデルとサブチャネルの安定性を組み合わせた2種類のスパース再構成モデルを構築した。 パラメータ推定のための変数の大部分は、量子信号の変数に依存するモデルを使用して保存されるが、変数の2次統計に依存するモデルを使用することで、すべての変数が秘密鍵を生成するために使用することができる。 これらの手法は,パラメータ推定のために変数を犠牲にしているため,通信時間に制限がある場合によく適応する。 最後に,提案手法の有効性を検証するためのシミュレーション結果を得た。

In satellite-based free-space continuous-variable QKD (CV-QKD), the parameter estimation for the atmospheric channel fluctuations due to the turbulence effects and attenuation is crucial for analyzing and improving the protocol performance. In this paper, compressive sensing (CS) theory is applied to free-space CV-QKD to achieve the channel parameter estimation with low computational complexity and small amount of data. According to CS theory, the possibility of the sparse representation for free-space channel is analyzed and the two types of sparse reconstruction models for the channel parameters are constructed combining with the stability of the sub-channels. The most part of variable for parameter estimation is saved by using the model relying on the variables in the quantum signals, while all the variables can be used to generate the secret key by using the model relying on the second-order statistics of the variables. The methods are well adapted for the cases with the limited communication time since a little or no variable is sacrificed for parameter estimation. Finally, simulation results are given to verify the effectiveness of the proposed methods.
翻訳日:2023-04-06 21:15:40 公開日:2021-03-25
# スピンマッピング変数を持つ非断熱環高分子分子動力学

Non-Adiabatic Ring Polymer Molecular Dynamics with Spin Mapping Variables ( http://arxiv.org/abs/2103.14119v1 )

ライセンス: Link先を確認
Duncan Bossion, Sutirtha N. Chowdhury, and Pengfei Huo(参考訳) スピンマッピング形式に基づく新しい非断熱環高分子分子動力学法(NRPMD)を提案し,スピンマッピング法(SM-NRPMD)アプローチと呼ぶ。 我々は、電子状態のスピンコヒーレント状態基底と核自由度(dofs)の環ポリマー形式を用いた経路積分的分割関数式を導出する。 この分割関数は量子統計量の効率的なサンプリングを提供する。 ストラトノビッチ・ワイル変換の基本的な性質を用いて、結合したスピンマッピング変数と核環ポリマーの動的伝播を提案するハミルトニアンを導出した。 SM-NRPMD法の精度は、非断熱モデル系の核位置と集団自己相関関数の計算によって数値的に証明される。 SM-NRPMDの結果は数値的に正確な結果とよく一致している。 調和振動子マッピング変数上のスピンマッピング変数を使用する主な利点は数値的に示されており、前者は熱平衡下の系で物理観測可能量のほぼ時間に依存しない期待値を提供し、後者は初期量子ボルツマン分布を保存できない。 また、SM-NRPMDは状態依存ポテンシャルと状態依存ポテンシャルを分割する様々な方法で不変ダイナミクスを提供することを示す。

We present a new non-adiabatic ring polymer molecular dynamics (NRPMD) method based on the spin mapping formalism, which we refer to as the spin-mapping NRPMD (SM-NRPMD) approach. We derive the path-integral partition function expression using the spin coherent state basis for the electronic states and the ring polymer formalism for the nuclear degrees of freedom (DOFs). This partition function provides an efficient sampling of the quantum statistics. Using the basic property of the Stratonovich-Weyl transformation, we derive a Hamiltonian which we propose for the dynamical propagation of the coupled spin mapping variables and the nuclear ring polymer. The accuracy of the SM-NRPMD method is numerically demonstrated by computing nuclear position and population auto-correlation functions of non-adiabatic model systems. The results from SM-NRPMD agree very well with the numerically exact results. The main advantage of using the spin mapping variables over the harmonic oscillator mapping variables is numerically demonstrated, where the former provides nearly time-independent expectation values of physical observables for systems under thermal equilibrium, the latter can not preserve the initial quantum Boltzmann distribution. We also explicitly demonstrate that SM-NRPMD provides invariant dynamics upon various ways of partitioning the state-dependent and state-independent potentials.
翻訳日:2023-04-06 21:14:47 公開日:2021-03-25
# クロスイテレーションバッチ正規化

Cross-Iteration Batch Normalization ( http://arxiv.org/abs/2002.05712v3 )

ライセンス: Link先を確認
Zhuliang Yao, Yue Cao, Shuxin Zheng, Gao Huang, Stephen Lin(参考訳) バッチ正規化のよく知られた問題は、小さなミニバッチサイズの場合、その効果が著しく低下することである。 ミニバッチがいくつかの例を含む場合、正規化が定義される統計は、トレーニングイテレーション中にそれから確実に推定することはできない。 この問題に対処するため,複数イテレーションの例を併用して評価品質を向上させるクロスイテレーションバッチ正規化(CBN)を提案する。 複数のイテレーションに対する統計計算の課題は、異なるイテレーションからのネットワークアクティベーションがネットワークの重みの変化によって互いに比較できないことである。 そこで我々はTaylor多項式に基づく提案手法により,ネットワークの重み変化を補償し,統計を正確に推定し,バッチ正規化を効果的に適用する。 小さいミニバッチサイズでの物体検出と画像分類において, cbnは, 従来のバッチ正規化よりも優れており, 提案手法を使わずに統計量を直接計算できることがわかった。 コードはhttps://github.com/Howal/Cross-iterationBatchNormで入手できる。

A well-known issue of Batch Normalization is its significantly reduced effectiveness in the case of small mini-batch sizes. When a mini-batch contains few examples, the statistics upon which the normalization is defined cannot be reliably estimated from it during a training iteration. To address this problem, we present Cross-Iteration Batch Normalization (CBN), in which examples from multiple recent iterations are jointly utilized to enhance estimation quality. A challenge of computing statistics over multiple iterations is that the network activations from different iterations are not comparable to each other due to changes in network weights. We thus compensate for the network weight changes via a proposed technique based on Taylor polynomials, so that the statistics can be accurately estimated and batch normalization can be effectively applied. On object detection and image classification with small mini-batch sizes, CBN is found to outperform the original batch normalization and a direct calculation of statistics over previous iterations without the proposed compensation technique. Code is available at https://github.com/Howal/Cross-iterationBatchNorm .
翻訳日:2023-01-01 09:33:32 公開日:2021-03-25
# SketchGNN: グラフニューラルネットワークによる意味的スケッチセグメンテーション

SketchGNN: Semantic Sketch Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2003.00678v2 )

ライセンス: Link先を確認
Lumin Yang, Jiajie Zhuang, Hongbo Fu, Xiangzhi Wei, Kun Zhou and Youyi Zheng(参考訳) 自由手ベクトルスケッチのセグメンテーションとラベル付けのための畳み込みグラフニューラルネットワークであるSketchGNNを紹介する。 入力ストロークに基づくスケッチをグラフとして、入力ストロークに沿ってサンプリングされた点を表すノードと、ストローク構造情報をエンコードするエッジとで扱う。 ノード単位のラベルを予測するために、sketchgnnはグラフ畳み込みと静的動的分岐ネットワークアーキテクチャを使用して、ポイントレベル、ストロークレベル、スケッチレベルという3つのレベルで特徴を抽出する。 sketchgnnはセマンティックスケッチセグメンテーションの最先端手法(ピクセルベースのメトリックでは11.2%、コンポーネントベースのメトリックでは18.2%)の精度を大幅に向上させ、画像ベースとシーケンスベースの両方の方法よりもパラメータを小さくする。

We introduce SketchGNN, a convolutional graph neural network for semantic segmentation and labeling of freehand vector sketches. We treat an input stroke-based sketch as a graph, with nodes representing the sampled points along input strokes and edges encoding the stroke structure information. To predict the per-node labels, our SketchGNN uses graph convolution and a static-dynamic branching network architecture to extract the features at three levels, i.e., point-level, stroke-level, and sketch-level. SketchGNN significantly improves the accuracy of the state-of-the-art methods for semantic sketch segmentation (by 11.2% in the pixel-based metric and 18.2% in the component-based metric over a large-scale challenging SPG dataset) and has magnitudes fewer parameters than both image-based and sequence-based methods.
翻訳日:2022-12-27 05:14:06 公開日:2021-03-25
# super deep: 機能抽出のための深層学習を用いたロボット組織操作のための手術知覚フレームワーク

SuPer Deep: A Surgical Perception Framework for Robotic Tissue Manipulation using Deep Learning for Feature Extraction ( http://arxiv.org/abs/2003.03472v3 )

ライセンス: Link先を確認
Jingpei Lu, Ambareesh Jayakumari, Florian Richter, Yang Li, Michael C. Yip(参考訳) 手術におけるロボットの自動化には、手術器具の正確な追跡と変形可能な組織のマッピングが必要である。 外科的知覚フレームワークに関するこれまでの研究は、外科的ツールや組織追跡機能の開発に多大な努力を要する。 本研究では,深層学習の手法を応用して外科的知覚を克服する。 我々は,効率的な特徴抽出が可能な深層ニューラルネットワークを組織再構成および計測ポーズ推定プロセスに統合した。 トランスファーラーニングを活用することで、ディープラーニングベースのアプローチでは、手術シーンを完全に認識するために、最小限のトレーニングデータと、機能エンジニアリングの労力を削減できる。 このフレームワークは、da vinci手術システムを使用して包括的分析を行う3つの公開データセットでテストされた。 実験の結果, 深層学習を特徴抽出に活用し, 手術環境下での最先端追跡性能を実現することができた。

Robotic automation in surgery requires precise tracking of surgical tools and mapping of deformable tissue. Previous works on surgical perception frameworks require significant effort in developing features for surgical tool and tissue tracking. In this work, we overcome the challenge by exploiting deep learning methods for surgical perception. We integrated deep neural networks, capable of efficient feature extraction, into the tissue reconstruction and instrument pose estimation processes. By leveraging transfer learning, the deep learning based approach requires minimal training data and reduced feature engineering efforts to fully perceive a surgical scene. The framework was tested on three publicly available datasets, which use the da Vinci Surgical System, for comprehensive analysis. Experimental results show that our framework achieves state-of-the-art tracking performance in a surgical environment by utilizing deep learning for feature extraction.
翻訳日:2022-12-25 19:56:37 公開日:2021-03-25
# 重み付き表現, テキスト極性分類とデータ拡張

Heavy-tailed Representations, Text Polarity Classification & Data Augmentation ( http://arxiv.org/abs/2003.11593v2 )

ライセンス: Link先を確認
Hamid Jalalzai, Pierre Colombo, Chlo\'e Clavel, Eric Gaussier, Giovanna Varni, Emmanuel Vignon, Anne Sabourin(参考訳) 自然言語におけるテキスト表現の主流のアプローチは、構成性や距離保存といった便利な性質を持つ巨大なコーパスへの埋め込み学習に依存している。 本稿では,多変量極値理論の枠組みを用いて分布バルクから遠く離れた地点を解析できる分布的テールについて,所望の正則性を持つ重み付き埋め込みを学習する新しい手法を提案する。 特に、提案する埋め込みの尾部に特化した分類器が得られ、その性能がベースラインを上回る。 この分類器は,ラベル保存データセット拡張のための新しいテキスト生成手法を導入することにより,スケール不変性を示す。 合成および実テキストデータに関する数値実験により,提案手法の妥当性を実証し,肯定的・否定的感情などの制御可能な属性を持つ有意義な文を生成することを確認した。

The dominant approaches to text representation in natural language rely on learning embeddings on massive corpora which have convenient properties such as compositionality and distance preservation. In this paper, we develop a novel method to learn a heavy-tailed embedding with desirable regularity properties regarding the distributional tails, which allows to analyze the points far away from the distribution bulk using the framework of multivariate extreme value theory. In particular, a classifier dedicated to the tails of the proposed embedding is obtained which performance outperforms the baseline. This classifier exhibits a scale invariance property which we leverage by introducing a novel text generation method for label preserving dataset augmentation. Numerical experiments on synthetic and real text data demonstrate the relevance of the proposed framework and confirm that this method generates meaningful sentences with controllable attribute, e.g. positive or negative sentiment.
翻訳日:2022-12-20 02:31:12 公開日:2021-03-25
# 微細チューニングBERTの安定性について:誤解,説明,強塩基性について

On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines ( http://arxiv.org/abs/2006.04884v3 )

ライセンス: Link先を確認
Marius Mosbach, Maksym Andriushchenko, Dietrich Klakow(参考訳) BERTのような微調整済みのトランスフォーマーベースの言語モデルは、様々なNLPベンチマークでリーダーボードを支配する一般的なプラクティスとなっている。 微調整されたモデルの強力な経験的パフォーマンスにもかかわらず、微調整は不安定なプロセスである。 以前の文献(Devlin et al., 2019; Lee et al., 2020; Dodge et al., 2020)では、観測された不安定性の2つの潜在的な理由が明らかになった。 本稿では,両仮説が微調整不安定性を説明できないことを示す。 我々は、GLUEベンチマークからよく使われるデータセットを微調整したBERT、RoBERTa、ALBERTを分析し、観測された不安定性は、勾配の消失につながる最適化困難に起因することを示した。 さらに、ダウンストリームタスク性能の残りのばらつきは、同じトレーニング損失を持つ微調整モデルが顕著に異なるテスト性能を示す一般化の違いに起因していることを示す。 解析結果より,従来の提案手法よりも細調整BERTモデルの方がはるかに安定な,単純だが強力なベースラインを提示する。 結果を再現するコードは、https://github.com/uds-lsv/bert-stable-fine-tuning.com で利用可能です。

Fine-tuning pre-trained transformer-based language models such as BERT has become a common practice dominating leaderboards across various NLP benchmarks. Despite the strong empirical performance of fine-tuned models, fine-tuning is an unstable process: training the same model with multiple random seeds can result in a large variance of the task performance. Previous literature (Devlin et al., 2019; Lee et al., 2020; Dodge et al., 2020) identified two potential reasons for the observed instability: catastrophic forgetting and small size of the fine-tuning datasets. In this paper, we show that both hypotheses fail to explain the fine-tuning instability. We analyze BERT, RoBERTa, and ALBERT, fine-tuned on commonly used datasets from the GLUE benchmark, and show that the observed instability is caused by optimization difficulties that lead to vanishing gradients. Additionally, we show that the remaining variance of the downstream task performance can be attributed to differences in generalization where fine-tuned models with the same training loss exhibit noticeably different test performance. Based on our analysis, we present a simple but strong baseline that makes fine-tuning BERT-based models significantly more stable than the previously proposed approaches. Code to reproduce our results is available online: https://github.com/uds-lsv/bert-stable-fine-tuning.
翻訳日:2022-11-24 00:58:34 公開日:2021-03-25
# 深層学習のためのSketchy Empirical Natural Gradient Methods

Sketchy Empirical Natural Gradient Methods for Deep Learning ( http://arxiv.org/abs/2006.05924v3 )

ライセンス: Link先を確認
Minghan Yang, Dong Xu, Zaiwen Wen, Mengyun Chen and Pengxiang Xu(参考訳) 本稿では,大規模深層学習問題に対する効率的なスケッチ型経験的自然勾配法(SENG)を提案する。 経験的なフィッシャー情報マトリクスは、サンプリングはイテレーション毎に少量のデータしか実行できないため、通常低ランクである。 対応する自然勾配方向は小さな部分空間にあるが、計算コストとメモリ要件はどちらも高次元性のため、まだ引くことができない。 これらの課題を解決するために、異なるニューラルネットワーク構造のためのランダム化手法を設計する。 適度な次元を持つ層に対しては、正則化された最小二乗部分問題でスケッチを行うことができる。 さもなくば、勾配は2つの行列の間の積のベクトル化であるため、これらの行列の低ランク近似にスケッチを適用して最も高価な部分を計算する。 SENGの分散バージョンは、非常に大規模なアプリケーション向けにも開発されている。 静止点への大域収束はいくつかの穏やかな仮定の下で確立され、高速線形収束はneural tangent kernel (ntk) の下で解析される。 畳み込みニューラルネットワークに関する大規模な実験は、最先端の手法と比較してSENGの競争力を示している。 ImageNet-1kのタスクResNet50では、41時間以内に75.9%のTop-1テスト精度を達成した。 分散大規模バッチトレーニング実験では,スケーリング効率が極めて妥当であることが示されている。

In this paper, we develop an efficient sketchy empirical natural gradient method (SENG) for large-scale deep learning problems. The empirical Fisher information matrix is usually low-rank since the sampling is only practical on a small amount of data at each iteration. Although the corresponding natural gradient direction lies in a small subspace, both the computational cost and memory requirement are still not tractable due to the high dimensionality. We design randomized techniques for different neural network structures to resolve these challenges. For layers with a reasonable dimension, sketching can be performed on a regularized least squares subproblem. Otherwise, since the gradient is a vectorization of the product between two matrices, we apply sketching on the low-rank approximations of these matrices to compute the most expensive parts. A distributed version of SENG is also developed for extremely large-scale applications. Global convergence to stationary points is established under some mild assumptions and a fast linear convergence is analyzed under the neural tangent kernel (NTK) case. Extensive experiments on convolutional neural networks show the competitiveness of SENG compared with the state-of-the-art methods. On the task ResNet50 with ImageNet-1k, SENG achieves 75.9\% Top-1 testing accuracy within 41 epochs. Experiments on the distributed large-batch training show that the scaling efficiency is quite reasonable.
翻訳日:2022-11-23 06:08:34 公開日:2021-03-25
# map3d: 登録に基づく3次元連続スライド画像のマルチオブジェクト追跡

Map3D: Registration Based Multi-Object Tracking on 3D Serial Whole Slide Images ( http://arxiv.org/abs/2006.06038v2 )

ライセンス: Link先を確認
Ruining Deng, Haichun Yang, Aadarsh Jha, Yuzhe Lu, Peng Chu, Agnes B. Fogo, Yuankai Huo(参考訳) 腎病理学の正確かつ再現可能な糸球体定量化は、研究と実践の両方を活用するために長い間研究されてきた。 全スライド画像(WSI)を用いて生検組織サンプルをデジタル化する際、同じ組織から連続した一組の断片を、ビデオのフレームに似た画像のスタックとして取得することができる。 放射線学では、画像のスタック(例えばct)は自然に臓器、組織、腫瘍の3dコンテキストを提供するために使用される。 病理学では、同様の3次元評価を行うことが望ましい。 しかし, 腎病理における大規模糸球体の3次元同定と関連性は, 組織変形, 欠損組織, およびWSIの人工物により困難である。 本稿では,3Dオブジェクトの大規模断面を自動的に識別し,関連づける新しい3D(Map3D)手法を提案する。 本手法の革新は,(1) 大規模糸球体アソシエーションを新たな多目的追跡(MOT)視点として形成すること,(2) 親和性評価を提供するだけでなく,登録のための自動腎臓品質保証(QA)を提供すること,(3) 追跡中の大きな変形,欠損組織,アーティファクトに対処するための二重経路アソシエーション法を提案すること,の3つである。 我々の知る限り、Map3D法はWSIを用いた3次元連続断面積の自動的および大規模糸球体アソシエーションを可能にする最初の手法である。 提案手法はMOTA=44.6であり,非ディープラーニングベンチマークよりも12.1%高い。

There has been a long pursuit for precise and reproducible glomerular quantification on renal pathology to leverage both research and practice. When digitizing the biopsy tissue samples using whole slide imaging (WSI), a set of serial sections from the same tissue can be acquired as a stack of images, similar to frames in a video. In radiology, the stack of images (e.g., computed tomography) are naturally used to provide 3D context for organs, tissues, and tumors. In pathology, it is appealing to do a similar 3D assessment. However, the 3D identification and association of large-scale glomeruli on renal pathology is challenging due to large tissue deformation, missing tissues, and artifacts from WSI. In this paper, we propose a novel Multi-object Association for Pathology in 3D (Map3D) method for automatically identifying and associating large-scale cross-sections of 3D objects from routine serial sectioning and WSI. The innovations of the Map3D method are three-fold: (1) the large-scale glomerular association is formed as a new multi-object tracking (MOT) perspective; (2) the quality-aware whole series registration is proposed to not only provide affinity estimation but also offer automatic kidney-wise quality assurance (QA) for registration; (3) a dual-path association method is proposed to tackle the large deformation, missing tissues, and artifacts during tracking. To the best of our knowledge, the Map3D method is the first approach that enables automatic and large-scale glomerular association across 3D serial sectioning using WSI. Our proposed method Map3D achieved MOTA= 44.6, which is 12.1% higher than the non deep learning benchmarks.
翻訳日:2022-11-23 05:59:36 公開日:2021-03-25
# 非構造空間離散化を用いた計算物理データの非線形マニフォールド学習のためのテーラー畳み込みニューラルネットワーク

A Tailored Convolutional Neural Network for Nonlinear Manifold Learning of Computational Physics Data using Unstructured Spatial Discretizations ( http://arxiv.org/abs/2006.06154v3 )

ライセンス: Link先を確認
John Tencer and Kevin Potter(参考訳) 複素幾何学における物理系のモデル次数削減に適した深部畳み込みオートエンコーダに基づく非線形多様体学習手法を提案する。 畳み込みニューラルネットワークは、遅いkolmogorov n-widthを示すシステムから生じるデータ圧縮に非常に有利であることが証明されている。 しかし、これらのネットワークは構造化メッシュのデータに限定される。 非構造メッシュは、複雑な幾何学を持つ実システムの解析にしばしば必要とされる。 与えられた空間的離散化のための利用可能な微分作用素に基づくカスタムグラフ畳み込み演算子は、ディープ畳み込みオートエンコーダの応用空間を、通常非構造メッシュを用いて離散化される任意に複雑な幾何学を持つシステムへと効果的に拡張する。 本研究では,空間的離散化のための空間微分演算子に基づく畳み込み演算子の集合を提案し,この手法は偏微分方程式の解から生じるデータに特に適していることを示す。 本研究では, 熱伝達および流体力学の例を用いて, 線形法よりも精度が大幅に向上したことを示す。

We propose a nonlinear manifold learning technique based on deep convolutional autoencoders that is appropriate for model order reduction of physical systems in complex geometries. Convolutional neural networks have proven to be highly advantageous for compressing data arising from systems demonstrating a slow-decaying Kolmogorov n-width. However, these networks are restricted to data on structured meshes. Unstructured meshes are often required for performing analyses of real systems with complex geometry. Our custom graph convolution operators based on the available differential operators for a given spatial discretization effectively extend the application space of deep convolutional autoencoders to systems with arbitrarily complex geometry that are typically discretized using unstructured meshes. We propose sets of convolution operators based on the spatial derivative operators for the underlying spatial discretization, making the method particularly well suited to data arising from the solution of partial differential equations. We demonstrate the method using examples from heat transfer and fluid mechanics and show better than an order of magnitude improvement in accuracy over linear methods.
翻訳日:2022-11-22 13:21:55 公開日:2021-03-25
# 構造化確率準ニュートン法によるエンハンス曲率情報

Enhance Curvature Information by Structured Stochastic Quasi-Newton Methods ( http://arxiv.org/abs/2006.09606v2 )

ライセンス: Link先を確認
Minghan Yang, Dong Xu, Hongyu Chen, Zaiwen Wen and Mengyun Chen(参考訳) 本稿では,非凸関数の有限和を最小化する確率的二階法を考える。 重要な鍵の1つは、局所曲率情報を組み込む巧妙で安価なスキームを見つけることである。 真のヘッセン行列は、しばしば安価な部分と高価な部分の組み合わせであるため、できるだけ部分的ヘッセン情報を用いて構造化された確率的準ニュートン法を提案する。 準ニュートン近似の低ランク構造またはクローネッカー生成特性を更に活用することにより、準ニュートン方向の計算は安価である。 静止点への大域収束と局所超線型収束速度は、いくつかの軽微な仮定の下で確立される。 ロジスティック回帰,ディープオートエンコーダネットワーク,ディープ畳み込みニューラルネットワークの数値計算結果から,提案手法は最先端の手法と非常に競合することを示した。

In this paper, we consider stochastic second-order methods for minimizing a finite summation of nonconvex functions. One important key is to find an ingenious but cheap scheme to incorporate local curvature information. Since the true Hessian matrix is often a combination of a cheap part and an expensive part, we propose a structured stochastic quasi-Newton method by using partial Hessian information as much as possible. By further exploiting either the low-rank structure or the kronecker-product properties of the quasi-Newton approximations, the computation of the quasi-Newton direction is affordable. Global convergence to stationary point and local superlinear convergence rate are established under some mild assumptions. Numerical results on logistic regression, deep autoencoder networks and deep convolutional neural networks show that our proposed method is quite competitive to the state-of-the-art methods.
翻訳日:2022-11-19 21:11:33 公開日:2021-03-25
# 階層的構成課題と深層畳み込みネットワーク

Hierarchically Compositional Tasks and Deep Convolutional Networks ( http://arxiv.org/abs/2006.13915v3 )

ライセンス: Link先を確認
Arturo Deza, Qianli Liao, Andrzej Banburski, Tomaso Poggio(参考訳) ImageNetから始まるディープラーニングの主な成功例は、ディープ畳み込みネットワークに依存している。これは特定のタスクにおいて、サポートベクタマシンのような従来の浅層分類器よりも大幅にパフォーマンスが良く、また、ディープ完全連結ネットワークよりも優れている。 近似理論の最近の結果は、その構成構造に階層的局所性を持つ近似関数における共有重み付きあるいは非共有重み付き深層畳み込みネットワークの指数関数的優位性を証明した。 より最近では、階層構造はデータから学ぶのが難しいことが証明され、ネットワークのアーキテクチャに埋め込まれた強力な事前処理であることが示唆された。 しかし、これらの数学的結果は、現実のタスクが階層的な局所性を持つ入出力関数に対応するかは述べていない。 これを評価するために,画像の局所的な整理を"決定論的スクランブル"によって中断し,後に構造的に変化した画像に対して,トレーニングやテストと同じように視覚的なタスクを実行する一連のビジュアルタスクを考察する。 オブジェクト認識では、予想通り、畳み込みは畳み込みネットワークのアウトパフォーマンスとは対照的に、浅いあるいは深い完全連結ネットワークの性能に影響を与えない。 ただし、画像に関わるすべてのタスクが影響を受けるわけではない。 テクスチャ知覚とグローバルカラー推定は、これらのタスクに対応する基礎関数が階層的に局所的でないことを示す決定論的スクランブルと、深度(テクスチャ)や畳み込み(カラー)のないネットワークによってこれらのタスクがよりよく近似されていることを示す。 これらの結果は、学習すべきタスクに先立って、ネットワークアーキテクチャと組み込みアーキテクチャとのマッチングの重要性に光を当てた。

The main success stories of deep learning, starting with ImageNet, depend on deep convolutional networks, which on certain tasks perform significantly better than traditional shallow classifiers, such as support vector machines, and also better than deep fully connected networks; but what is so special about deep convolutional networks? Recent results in approximation theory proved an exponential advantage of deep convolutional networks with or without shared weights in approximating functions with hierarchical locality in their compositional structure. More recently, the hierarchical structure was proved to be hard to learn from data, suggesting that it is a powerful prior embedded in the architecture of the network. These mathematical results, however, do not say which real-life tasks correspond to input-output functions with hierarchical locality. To evaluate this, we consider a set of visual tasks where we disrupt the local organization of images via "deterministic scrambling" to later perform a visual task on these images structurally-altered in the same way for training and testing. For object recognition we find, as expected, that scrambling does not affect the performance of shallow or deep fully connected networks contrary to the out-performance of convolutional networks. Not all tasks involving images are however affected. Texture perception and global color estimation are much less sensitive to deterministic scrambling showing that the underlying functions corresponding to these tasks are not hierarchically local; and also counter-intuitively showing that these tasks are better approximated by networks that are not deep (texture) nor convolutional (color). Altogether, these results shed light into the importance of matching a network architecture with its embedded prior of the task to be learned.
翻訳日:2022-11-17 09:58:25 公開日:2021-03-25
# マルチスケールアテンションゲートを用いたスクリブルからのセグメント化への学習

Learning to Segment from Scribbles using Multi-scale Adversarial Attention Gates ( http://arxiv.org/abs/2007.01152v3 )

ライセンス: Link先を確認
Gabriele Valvano, Andrea Leo, Sotirios A. Tsaftaris(参考訳) ピクセルレベルでアノテートされた大きな粒度の画像セグメンテーションデータセットは、特に医用画像では、専門家の知識を必要とするため、取得が困難である。 弱い教師付き学習は、スクリブルのような弱いアノテーション形式に依存してモデルを訓練することができる。 ここでは,対戦ゲームにおいて,スクリブルアノテーションを用いてセグメンテーションを学ぶ。 未ペアのセグメンテーションマスクを用いて、複数の解像度でリアルなセグメンテーションマスクを生成するためにマルチスケールのGANを訓練し、スクリブルを使用して画像中の正しい位置を学習する。 モデルの成功の中心は、新しいアテンションゲーティングメカニズムであり、敵のシグナルを前もって形として振る舞うように条件付けし、複数のスケールでオブジェクトのローカライズを改善する。 逆条件下では、セグメンテータは意味のある注意マップを学習し、オブジェクトの外側のノイズの活性化を抑え、セグメンテータの深い層における消滅する勾配問題を緩和する。 我々は,ACDC,LVSC,CHAOSおよび非医用(PPSS)データセットを用いて本モデルを評価し,完全に注釈付きセグメンテーションマスクを用いてトレーニングしたモデルと同等の性能レベルを報告した。 半教師付き学習、複数のスクリブルソース(クラウドソーシングシナリオ)とマルチタスク学習(スクリブルとマスクの監督を組み合わせたもの)の組み合わせです。 ACDCデータセットと実験に使用されたコードは、https://vios-s.github.io/multiscale-adversarial-attention-gatesでリリースします。

Large, fine-grained image segmentation datasets, annotated at pixel-level, are difficult to obtain, particularly in medical imaging, where annotations also require expert knowledge. Weakly-supervised learning can train models by relying on weaker forms of annotation, such as scribbles. Here, we learn to segment using scribble annotations in an adversarial game. With unpaired segmentation masks, we train a multi-scale GAN to generate realistic segmentation masks at multiple resolutions, while we use scribbles to learn their correct position in the image. Central to the model's success is a novel attention gating mechanism, which we condition with adversarial signals to act as a shape prior, resulting in better object localization at multiple scales. Subject to adversarial conditioning, the segmentor learns attention maps that are semantic, suppress the noisy activations outside the objects, and reduce the vanishing gradient problem in the deeper layers of the segmentor. We evaluated our model on several medical (ACDC, LVSC, CHAOS) and non-medical (PPSS) datasets, and we report performance levels matching those achieved by models trained with fully annotated segmentation masks. We also demonstrate extensions in a variety of settings: semi-supervised learning; combining multiple scribble sources (a crowdsourcing scenario) and multi-task learning (combining scribble and mask supervision). We release expert-made scribble annotations for the ACDC dataset, and the code used for the experiments, at https://vios-s.github.io/multiscale-adversarial-attention-gates
翻訳日:2022-11-14 14:27:50 公開日:2021-03-25
# テキストデータ拡張:スピアフィッシングメールの検出改善に向けて

Text Data Augmentation: Towards better detection of spear-phishing emails ( http://arxiv.org/abs/2007.02033v2 )

ライセンス: Link先を確認
Mehdi Regina and Maxime Meyer and S\'ebastien Goutal(参考訳) テキストデータ拡張、すなわち、既存のテキストから新しいテキストデータを作成することは困難である。 実際、拡張変換は、対象自然言語処理(nlp)タスク(例えば、機械翻訳、テキスト分類)に関連している一方で、言語の複雑さを考慮すべきである。 当初、ビジネスメール妥協(Business Email Compromise, BEC)検出の適用を動機として、企業内の英語テキストを拡大するためのサービスとして使用されるコーパスとタスク非依存拡張フレームワークを提案する。 提案手法は,BERT言語モデル,多段階のバックトランスレーション,ヒューリスティックスを併用する。 本稿では,BEC検出タスクだけでなく,公開されているモデルやコーパスを用いて,テキスト分類タスクの性能向上を図っている。 また、拡張フレームワークの限界に関する包括的な議論も提供します。

Text data augmentation, i.e., the creation of new textual data from an existing text, is challenging. Indeed, augmentation transformations should take into account language complexity while being relevant to the target Natural Language Processing (NLP) task (e.g., Machine Translation, Text Classification). Initially motivated by an application of Business Email Compromise (BEC) detection, we propose a corpus and task agnostic augmentation framework used as a service to augment English texts within our company. Our proposal combines different methods, utilizing BERT language model, multi-step back-translation and heuristics. We show that our augmentation framework improves performances on several text classification tasks using publicly available models and corpora as well as on a BEC detection task. We also provide a comprehensive argumentation about the limitations of our augmentation framework.
翻訳日:2022-11-13 13:09:27 公開日:2021-03-25
# プライベートポストGANブースティング

Private Post-GAN Boosting ( http://arxiv.org/abs/2007.11934v2 )

ライセンス: Link先を確認
Marcel Neunhoeffer, Zhiwei Steven Wu, Cynthia Dwork(参考訳) 個人個人のプライバシーを損なうことなく、現実的な合成データを生成するための有望なアプローチであると証明されている。 トレーニングで導入されるプライバシー保護ノイズのため、gansの収束はさらに分かりやすくなり、トレーニング終了時に出力ジェネレータの実用性が低下することが多い。 本稿では,GAN訓練中に得られたジェネレータの配列から得られたサンプルを組み合わせて高品質な合成データセットを作成する,差分プライベートな手法であるPrivate Post-GAN boosting(Private PGB)を提案する。 そこで本手法では,プライベート乗算重み法(hardt and rothblum, 2010)を用いて,生成したサンプルの重み付けを行う。 2次元トイデータ、MNIST画像、US国勢調査データ、標準機械学習予測タスクに基づいてPrivate PGBを評価する。 実験の結果,Private PGB は標準のプライベート GAN アプローチにより,品質指標の収集によって改善されていることがわかった。 また、標準的なGANトレーニングのデータ品質を改善するPGBの非プライベート版も提供します。

Differentially private GANs have proven to be a promising approach for generating realistic synthetic data without compromising the privacy of individuals. Due to the privacy-protective noise introduced in the training, the convergence of GANs becomes even more elusive, which often leads to poor utility in the output generator at the end of training. We propose Private post-GAN boosting (Private PGB), a differentially private method that combines samples produced by the sequence of generators obtained during GAN training to create a high-quality synthetic dataset. To that end, our method leverages the Private Multiplicative Weights method (Hardt and Rothblum, 2010) to reweight generated samples. We evaluate Private PGB on two dimensional toy data, MNIST images, US Census data and a standard machine learning prediction task. Our experiments show that Private PGB improves upon a standard private GAN approach across a collection of quality measures. We also provide a non-private variant of PGB that improves the data quality of standard GAN training.
翻訳日:2022-11-07 12:13:16 公開日:2021-03-25
# サブスペース技術を用いた脳波におけるタスク非依存人物信号のエビデンス

Evidence of Task-Independent Person-Specific Signatures in EEG using Subspace Techniques ( http://arxiv.org/abs/2007.13517v4 )

ライセンス: Link先を確認
Mari Ganesh Kumar, Shrikanth Narayanan, Mriganka Sur, and Hema A Murthy(参考訳) 電気脳波(EEG)信号は、スプーフィングに対する保護のため、他の生体認証に代わるものとして期待されている。 これまでの研究では、タスク/条件特異的脳波の分析による個人変動の把握に重点を置いてきた。 この研究は、関連する分散を正規化することにより、タスク/条件に依存しないバイオメトリックシグネチャのモデル化を試みる。 この目的に向けて,サブスペースに基づくテキスト非依存話者認識からアイデアを拡張し,マルチチャネル脳波データのモデリングのための新しい修正を提案する。 提案手法は,脳波信号全体に生体情報が存在すると仮定し,高次元空間において時間にわたって統計を蓄積する。 これらの高次元統計は、生体情報が保存される低次元空間に投影される。 提案手法により得られた低次元埋め込みはタスク非依存であることが示されている。 最善のサブスペースシステムは、それぞれ30名と920名からなるデータセットにおいて、86.4%と35.9%の精度を持つ個人を、わずか9つのeegチャネルで識別する。 この論文は、訓練中のタスクや個人を認識できないようなサブスペースモデルのスケーラビリティや、サブスペースモデリングに必要なチャネル数に関する洞察も提供する。

Electroencephalography (EEG) signals are promising as alternatives to other biometrics owing to their protection against spoofing. Previous studies have focused on capturing individual variability by analyzing task/condition-specific EEG. This work attempts to model biometric signatures independent of task/condition by normalizing the associated variance. Toward this goal, the paper extends ideas from subspace-based text-independent speaker recognition and proposes novel modifications for modeling multi-channel EEG data. The proposed techniques assume that biometric information is present in the entire EEG signal and accumulate statistics across time in a high dimensional space. These high dimensional statistics are then projected to a lower dimensional space where the biometric information is preserved. The lower dimensional embeddings obtained using the proposed approach are shown to be task-independent. The best subspace system identifies individuals with accuracies of 86.4% and 35.9% on datasets with 30 and 920 subjects, respectively, using just nine EEG channels. The paper also provides insights into the subspace model's scalability to unseen tasks and individuals during training and the number of channels needed for subspace modeling.
翻訳日:2022-11-06 11:38:28 公開日:2021-03-25
# Facebook100ネットワークにおける学習に基づくリンク予測分析

Learning-based link prediction analysis for Facebook100 network ( http://arxiv.org/abs/2008.00308v2 )

ライセンス: Link先を確認
Tim Po\v{s}tuvan, Semir Salki\'c, Lovro \v{S}ubelj(参考訳) ソーシャルネットワーク科学において、Facebookは最も興味深く広く使われているソーシャルネットワークとメディアプラットフォームの一つである。 そのデータは、リンクマイニングと分析において重要なツールであるソーシャルネットワークの研究とリンク予測技術の進化に寄与した。 本稿では,Facebook100ネットワークにおけるリンク予測の包括的解析を行う。 我々は,異なる特徴集合に基づいて,複数の機械学習アルゴリズムの性能と評価を行った。 特徴を引き出すには、ネットワーク埋め込みや、node2vecや類似度メトリクスのベクトルのようなトポロジベースの技術を使う。 さらに、ノードベースの機能も採用しています。これはFacebook100ネットワークで利用可能ですが、他のデータセットにはほとんどありません。 採用したアプローチが議論され、結果が明らかになる。 最後に、全体的な性能と分類率を示す応用モデルを比較し、レビューする。

In social network science, Facebook is one of the most interesting and widely used social networks and media platforms. Its data contributed to significant evolution of social network research and link prediction techniques, which are important tools in link mining and analysis. This paper gives the first comprehensive analysis of link prediction on the Facebook100 network. We study performance and evaluate multiple machine learning algorithms on different feature sets. To derive features we use network embeddings and topology-based techniques such as node2vec and vectors of similarity metrics. In addition, we also employ node-based features, which are available for Facebook100 network, but rarely found in other datasets. The adopted approaches are discussed and results are clearly presented. Lastly, we compare and review applied models, where overall performance and classification rates are presented.
翻訳日:2022-11-04 01:14:13 公開日:2021-03-25
# 産業用X線基板画像を用いたソルダ継手の深部学習による欠陥検出

Deep Learning Based Defect Detection for Solder Joints on Industrial X-Ray Circuit Board Images ( http://arxiv.org/abs/2008.02604v2 )

ライセンス: Link先を確認
Qianru Zhang, Meng Zhang, Chinthaka Gamanayake, Chau Yuen, Zehao Geng, Hirunima Jayasekara, Xuewen Zhang, Chia-wei Woo, Jenny Low, Xiang Liu(参考訳) 品質管理は電子機器製造において極めて重要である。 電子回路の製造方法が向上するにつれて、プリント回路基板(pcb)を組み立てる際にはんだ欠陥が発生する可能性が高くなる。 x線イメージング、光学イメージング、サーマルイメージングなど、はんだ付けに失敗した検査に多くの技術が組み込まれている。 いくつかの高度なアルゴリズムにより、新しい技術はデジタル画像に基づいて生産品質を制御することが期待されている。 しかし、現在のアルゴリズムは品質管理を満たすほど正確ではないことがある。 専門家はフォローアップチェックを行う必要があります。 自動X線検査では、X線画像に対する関心の結合は、関心領域(ROI)によって位置し、いくつかのアルゴリズムによって検査される。 いくつかの不正なroisは検査アルゴリズムを劣化させる。 x線画像の高次元と画像寸法の大きさも検査アルゴリズムに挑戦している。 一方、近年のディープラーニングの進歩は、画像に基づくタスクに光を当て、人間のレベルと競争している。 本稿では,pcb品質検査におけるx線画像に基づく品質制御にディープラーニングが組み込まれている。 2つの人工知能(AI)に基づくモデルが提案され、関節欠陥検出のために比較される。 ノイズのあるroi問題と、撮像次元問題の様々なサイズに対処する。 提案手法の有効性を実世界の3次元X線データセットを用いて検証した。 提案手法を取り入れることで,専門検査作業負荷を大幅に削減できる。

Quality control is of vital importance during electronics production. As the methods of producing electronic circuits improve, there is an increasing chance of solder defects during assembling the printed circuit board (PCB). Many technologies have been incorporated for inspecting failed soldering, such as X-ray imaging, optical imaging, and thermal imaging. With some advanced algorithms, the new technologies are expected to control the production quality based on the digital images. However, current algorithms sometimes are not accurate enough to meet the quality control. Specialists are needed to do a follow-up checking. For automated X-ray inspection, joint of interest on the X-ray image is located by region of interest (ROI) and inspected by some algorithms. Some incorrect ROIs deteriorate the inspection algorithm. The high dimension of X-ray images and the varying sizes of image dimensions also challenge the inspection algorithms. On the other hand, recent advances on deep learning shed light on image-based tasks and are competitive to human levels. In this paper, deep learning is incorporated in X-ray imaging based quality control during PCB quality inspection. Two artificial intelligence (AI) based models are proposed and compared for joint defect detection. The noised ROI problem and the varying sizes of imaging dimension problem are addressed. The efficacy of the proposed methods are verified through experimenting on a real-world 3D X-ray dataset. By incorporating the proposed methods, specialist inspection workload is largely saved.
翻訳日:2022-11-02 07:45:50 公開日:2021-03-25
# HoliCity: 都市規模の3D構造学習用データプラットフォーム

HoliCity: A City-Scale Data Platform for Learning Holistic 3D Structures ( http://arxiv.org/abs/2008.03286v2 )

ライセンス: Link先を確認
Yichao Zhou, Jingwei Huang, Xili Dai, Shichen Liu, Linjie Luo, Zhili Chen, Yi Ma(参考訳) 都市規模の3DデータセットであるHoliCityについて紹介する。 現在、このデータセットには6,300の現実世界の解像度パノラマがあり、1,3312 \times 6656$であり、これはロンドンのダウンタウンのcadモデルと正確に一致しており、面積は20 km$^2$であり、平均画像のアライメントの中央値の再投影誤差は半分以下である。 このデータセットは、都市規模の再構築、ローカライゼーション、マッピング、拡張現実を含む現実世界のアプリケーションをサポートするという究極の目標を掲げ、コーナー、ライン、ワイヤーフレーム、飛行機、キューブなどの都市CADモデルから導出される、抽象的な高レベルな3D構造を学習するためのオールインワンのデータプラットフォームである。 3D CADモデルとパノラマの正確なアライメントは、以前のLiDARベースのデータセットから抽出された表面正規化はしばしばノイズが多いため、表面正規化のような低レベルな3D視覚タスクにも有効である。 我々は,ホリシティの応用を実証するために実験を行い,表面分断,正規写像,深度マップ,消滅点の予測や,ホリシティやその他の関連するデータセットで訓練された手法の一般化可能性の検証を行う。 HoliCityはhttps://holicity.io.comで入手できる。

We present HoliCity, a city-scale 3D dataset with rich structural information. Currently, this dataset has 6,300 real-world panoramas of resolution $13312 \times 6656$ that are accurately aligned with the CAD model of downtown London with an area of more than 20 km$^2$, in which the median reprojection error of the alignment of an average image is less than half a degree. This dataset aims to be an all-in-one data platform for research of learning abstracted high-level holistic 3D structures that can be derived from city CAD models, e.g., corners, lines, wireframes, planes, and cuboids, with the ultimate goal of supporting real-world applications including city-scale reconstruction, localization, mapping, and augmented reality. The accurate alignment of the 3D CAD models and panoramas also benefits low-level 3D vision tasks such as surface normal estimation, as the surface normal extracted from previous LiDAR-based datasets is often noisy. We conduct experiments to demonstrate the applications of HoliCity, such as predicting surface segmentation, normal maps, depth maps, and vanishing points, as well as test the generalizability of methods trained on HoliCity and other related datasets. HoliCity is available at https://holicity.io.
翻訳日:2022-11-02 01:39:23 公開日:2021-03-25
# GANplifyingイベントサンプル

GANplifying Event Samples ( http://arxiv.org/abs/2008.06545v3 )

ライセンス: Link先を確認
Anja Butter, Sascha Diefenbacher, Gregor Kasieczka, Benjamin Nachman, and Tilman Plehn(参考訳) 素粒子物理学における事象生成に適用される生成ネットワークに関する重要な問題は、生成した事象がトレーニングサンプルを超える統計的精度を付加するかどうかである。 生成ネットワークが実際にトレーニング統計を増幅する方法の次元性を高めるための簡単な例を示す。 サンプルイベントの増幅係数または等価数を用いて、それらの影響を定量化する。

A critical question concerning generative networks applied to event generation in particle physics is if the generated events add statistical precision beyond the training sample. We show for a simple example with increasing dimensionality how generative networks indeed amplify the training statistics. We quantify their impact through an amplification factor or equivalent numbers of sampled events.
翻訳日:2022-10-30 17:57:22 公開日:2021-03-25
# 意味表現を用いた対話生成制御

Controlling Dialogue Generation with Semantic Exemplars ( http://arxiv.org/abs/2008.09075v2 )

ライセンス: Link先を確認
Prakhar Gupta, Jeffrey P. Bigham, Yulia Tsvetkov and Amy Pavel(参考訳) 大きな言語モデルで事前訓練された対話システムは、局所的コヒーレントな応答を生成するが、特定の目標を達成するために必要な応答に対するきめ細かい制御は欠如している。 モデルでは、トレーニングデータから取得した模範応答を編集したり、手書きで談話レベルの目標に対処して、新しい対話コンテキストに適合させたりすることができる。 しかし、現在の模範的なアプローチは、しばしば模範的な反応からの言葉を過剰にコピーし、一貫性のない応答をもたらす。 本稿では,経験的応答に現れる意味的フレームを用いて生成をガイドする,経験的対話生成モデルEDGEを提案する。 本研究は,模範語自体の単語ではなく,模範語のセマンティックフレームに基づく対話生成の制御が,模範応答に存在する意味的意味や会話目標を保ちながら,生成した応答の一貫性を向上させることを示す。

Dialogue systems pretrained with large language models generate locally coherent responses, but lack the fine-grained control over responses necessary to achieve specific goals. A promising method to control response generation is exemplar-based generation, in which models edit exemplar responses that are retrieved from training data, or hand-written to strategically address discourse-level goals, to fit new dialogue contexts. But, current exemplar-based approaches often excessively copy words from the exemplar responses, leading to incoherent replies. We present an Exemplar-based Dialogue Generation model, EDGE, that uses the semantic frames present in exemplar responses to guide generation. We show that controlling dialogue generation based on the semantic frames of exemplars, rather than words in the exemplar itself, improves the coherence of generated responses, while preserving semantic meaning and conversation goals present in exemplar responses.
翻訳日:2022-10-27 02:58:38 公開日:2021-03-25
# 木の分布にまたがる期待値の効率的な計算

Efficient Computation of Expectations under Spanning Tree Distributions ( http://arxiv.org/abs/2008.12988v4 )

ライセンス: Link先を確認
Ran Zmigrod, Tim Vieira, Ryan Cotterell(参考訳) 我々は、ツリーモデルにまたがる推論の一般的なフレームワークを提供する。 本稿では,エッジファクタ付き非射影スパンニングツリーモデルにおける一階期待と二階期待の重要事例に対する統一アルゴリズムを提案する。 我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。 これらのアルゴリズムは自動微分ソフトウェアで容易に実装できる。 我々は,従来の研究のいくつかの「emph{cautionary stories}」を用いて,我々のフレームワークの開発を動機付け,計算期待値とその勾配値に対する非効率なアルゴリズムを多数開発してきた。 提案手法は,アタッチメントスコア,エントロピー,一般化された期待基準など,既知のアルゴリズムで数量を効率的に計算する方法を示す。 ボーナスとして、KLの発散を含む文献に欠けている量のアルゴリズムを与える。 いずれの場合も、我々の手法は既存のアルゴリズムの効率と一致し、いくつかの場合では文長の係数によって実行時の複雑性を減少させる。 ランタイム実験を通じてフレームワークの実装を検証する。 我々のアルゴリズムは、シャノンエントロピーと一般化された期待目標の勾配を計算する前のアルゴリズムの最大15倍と9倍高速であることがわかった。

We give a general framework for inference in spanning tree models. We propose unified algorithms for the important cases of first-order expectations and second-order expectations in edge-factored, non-projective spanning-tree models. Our algorithms exploit a fundamental connection between gradients and expectations, which allows us to derive efficient algorithms. These algorithms are easy to implement with or without automatic differentiation software. We motivate the development of our framework with several \emph{cautionary tales} of previous research, which has developed numerous inefficient algorithms for computing expectations and their gradients. We demonstrate how our framework efficiently computes several quantities with known algorithms, including the expected attachment score, entropy, and generalized expectation criteria. As a bonus, we give algorithms for quantities that are missing in the literature, including the KL divergence. In all cases, our approach matches the efficiency of existing algorithms and, in several cases, reduces the runtime complexity by a factor of the sentence length. We validate the implementation of our framework through runtime experiments. We find our algorithms are up to 15 and 9 times faster than previous algorithms for computing the Shannon entropy and the gradient of the generalized expectation objective, respectively.
翻訳日:2022-10-23 17:22:57 公開日:2021-03-25
# RESA: レーン検出のための繰り返し特徴シフトアグリゲータ

RESA: Recurrent Feature-Shift Aggregator for Lane Detection ( http://arxiv.org/abs/2008.13719v2 )

ライセンス: Link先を確認
Tu Zheng, Hao Fang, Yi Zhang, Wenjian Tang, Zheng Yang, Haifeng Liu, Deng Cai(参考訳) レーン検出は、自動運転における最も重要なタスクの1つだ。 様々な複雑なシナリオ(例えば、重篤な閉塞、曖昧な車線など)と車線アノテーションに固有の疎い監視信号のため、車線検出タスクは依然として困難である。 したがって、通常の畳み込みニューラルネットワーク(cnn)は、生画像から微妙なレーン特徴を捉えるために、一般的なシーンでトレーニングすることが困難である。 本稿では,通常のCNNで予備的特徴抽出を行った後,車線特徴量を高めるためのRecurrent Feature-Shift Aggregator (RESA) というモジュールを提案する。 RESAはレーンの強い形状を生かし、行や列間のピクセルの空間的関係を捉えている。 スライスされた特徴マップを垂直方向と水平方向に繰り返しシフトし、各ピクセルがグローバル情報を収集できるようにする。 RESAは、スライスされた特徴写像を集約することで、外観の弱い難解なシナリオでレーンを正確に予測することができる。 さらに,上り段の粗粒度と細粒度を組み合わせた2つの上りデコーダを提案する。 解像度の低い特徴マップをピクセルワイズ予測に慎重に復元することができる。 この手法は2つの人気のあるレーン検出ベンチマーク(culaneとtusimple)で最先端の結果を得る。 コードはhttps://github.com/ZJULearning/resa.comで公開されている。

Lane detection is one of the most important tasks in self-driving. Due to various complex scenarios (e.g., severe occlusion, ambiguous lanes, etc.) and the sparse supervisory signals inherent in lane annotations, lane detection task is still challenging. Thus, it is difficult for the ordinary convolutional neural network (CNN) to train in general scenes to catch subtle lane feature from the raw image. In this paper, we present a novel module named REcurrent Feature-Shift Aggregator (RESA) to enrich lane feature after preliminary feature extraction with an ordinary CNN. RESA takes advantage of strong shape priors of lanes and captures spatial relationships of pixels across rows and columns. It shifts sliced feature map recurrently in vertical and horizontal directions and enables each pixel to gather global information. RESA can conjecture lanes accurately in challenging scenarios with weak appearance clues by aggregating sliced feature map. Moreover, we propose a Bilateral Up-Sampling Decoder that combines coarse-grained and fine-detailed features in the up-sampling stage. It can recover the low-resolution feature map into pixel-wise prediction meticulously. Our method achieves state-of-the-art results on two popular lane detection benchmarks (CULane and Tusimple). Code has been made available at: https://github.com/ZJULearning/resa.
翻訳日:2022-10-23 07:19:35 公開日:2021-03-25
# 単眼深度推定のための双方向注意ネットワーク

Bidirectional Attention Network for Monocular Depth Estimation ( http://arxiv.org/abs/2009.00743v2 )

ライセンス: Link先を確認
Shubhra Aich, Jean Marie Uwabeza Vianney, Md Amirul Islam, Mannat Kaur, and Bingbing Liu(参考訳) 本稿では,畳み込みニューラルネットワークにおける局所的および大域的情報を効果的に統合する限界に対処する,単眼深度推定(MDE)のエンドツーエンドフレームワークであるBANetを提案する。 このメカニズムの構造は、ニューラルマシン翻訳の強力な概念基盤から派生し、リカレントニューラルネットワークの動的性質に類似した計算の適応制御のための軽量なメカニズムを提供する。 フィードフォワード機能マップを利用した双方向アテンションモジュールを導入し、グローバルコンテキストを組み込んであいまいさを除去する。 広範囲な実験により、この双方向注意モデルがフィードフォワードベースラインや他の2つの挑戦的データセット(kittiとダイオード)の単眼深度推定のための最先端手法よりも高い能力を持つことが判明した。 提案手法は,メモリと計算の複雑さを低減した,最先端の単分子深度推定法と同等以上の性能を示した。

In this paper, we propose a Bidirectional Attention Network (BANet), an end-to-end framework for monocular depth estimation (MDE) that addresses the limitation of effectively integrating local and global information in convolutional neural networks. The structure of this mechanism derives from a strong conceptual foundation of neural machine translation, and presents a light-weight mechanism for adaptive control of computation similar to the dynamic nature of recurrent neural networks. We introduce bidirectional attention modules that utilize the feed-forward feature maps and incorporate the global context to filter out ambiguity. Extensive experiments reveal the high degree of capability of this bidirectional attention model over feed-forward baselines and other state-of-the-art methods for monocular depth estimation on two challenging datasets -- KITTI and DIODE. We show that our proposed approach either outperforms or performs at least on a par with the state-of-the-art monocular depth estimation methods with less memory and computational complexity.
翻訳日:2022-10-23 01:55:08 公開日:2021-03-25
# 競合AI: 競争フィードバックは機械学習にどんな影響を及ぼすか?

Competing AI: How does competition feedback affect machine learning? ( http://arxiv.org/abs/2009.06797v4 )

ライセンス: Link先を確認
Antonio Ginart, Eva Zhang, Yongchan Kwon, James Zou(参考訳) 本稿では,競合が機械学習(ML)予測器に与える影響について検討する。 MLがよりユビキタスになるにつれて、しばしば企業によって顧客と競合するためにデプロイされる。 例えばYelpのようなデジタルプラットフォームでは、MLを使用してユーザの好みを予測し、推奨する。 おそらくユーザーの好みを正確に予測しているため、ユーザーによって質問されることが多いサービスもまた、追加のユーザーデータを取得する可能性が高い(yelpのレビューのような形で)。 このように、競合する予測器は、予測器のパフォーマンスが受信したトレーニングデータに影響を与え、時間とともに予測をバイアスするフィードバックループを引き起こす。 本稿では,高速実験と理論的トラクタビリティの両立を可能にする,競合するML予測器のフレキシブルモデルを提案する。 実証的および数学的分析により, 競争は, 一般人口よりも低いパフォーマンスで, 特定のサブ人口を専門とする。 さらに,予測器の専門化がユーザによる全体的な予測品質に与える影響を解析する。 市場における競合予測器が少なすぎるか多すぎるかは、全体の予測品質を損なう可能性がある。 本理論は,ニューラルネットワークや近距離法といった一般的な学習アルゴリズムを用いた実データ集合実験によって補完される。

This papers studies how competition affects machine learning (ML) predictors. As ML becomes more ubiquitous, it is often deployed by companies to compete over customers. For example, digital platforms like Yelp use ML to predict user preference and make recommendations. A service that is more often queried by users, perhaps because it more accurately anticipates user preferences, is also more likely to obtain additional user data (e.g. in the form of a Yelp review). Thus, competing predictors cause feedback loops whereby a predictor's performance impacts what training data it receives and biases its predictions over time. We introduce a flexible model of competing ML predictors that enables both rapid experimentation and theoretical tractability. We show with empirical and mathematical analysis that competition causes predictors to specialize for specific sub-populations at the cost of worse performance over the general population. We further analyze the impact of predictor specialization on the overall prediction quality experienced by users. We show that having too few or too many competing predictors in a market can hurt the overall prediction quality. Our theory is complemented by experiments on several real datasets using popular learning algorithms, such as neural networks and nearest neighbor methods.
翻訳日:2022-10-18 05:23:06 公開日:2021-03-25
# 質問応答における入力保存最小予測の伝達可能性について

On the Transferability of Minimal Prediction Preserving Inputs in Question Answering ( http://arxiv.org/abs/2009.08070v2 )

ライセンス: Link先を確認
Shayne Longpre, Yi Lu, Christopher DuBois(参考訳) 最近の研究(Feng et al., 2018)は、ニューラルモデルに高い信頼性と精度をもたらす短い、解釈不能な入力フラグメントの存在を確立している。 我々はこれらをMPPI(Minimum Prediction Preserving Inputs)と呼ぶ。 質問応答の文脈では、神経モデルの後方校正不良、事前訓練の欠如、および「データセットバイアス」(訓練データにおいて、モデルが散発的で一般化できないヒントに出席することを学ぶ)を含むmppiの存在の競合仮説を調査した。 ランダムトレーニングシード,モデルアーキテクチャ,事前学習,トレーニングドメインに対するMPPIの難解な不変性を発見した。 MPPIは、短いクエリよりもはるかに高いパフォーマンスを達成するドメイン間で顕著な転送性を示す。 さらに、MPPIに対する過信を罰することは、一般化または敵の堅牢性を改善するのに失敗する。 これらの結果から,MPPIの解釈性は,これらのモデルの一般化能力を特徴づけるには不十分であることが示唆された。 この研究は、人間の解釈可能な例の分布以外のモデル行動のより体系的な分析を促進することを願っている。

Recent work (Feng et al., 2018) establishes the presence of short, uninterpretable input fragments that yield high confidence and accuracy in neural models. We refer to these as Minimal Prediction Preserving Inputs (MPPIs). In the context of question answering, we investigate competing hypotheses for the existence of MPPIs, including poor posterior calibration of neural models, lack of pretraining, and "dataset bias" (where a model learns to attend to spurious, non-generalizable cues in the training data). We discover a perplexing invariance of MPPIs to random training seed, model architecture, pretraining, and training domain. MPPIs demonstrate remarkable transferability across domains achieving significantly higher performance than comparably short queries. Additionally, penalizing over-confidence on MPPIs fails to improve either generalization or adversarial robustness. These results suggest the interpretability of MPPIs is insufficient to characterize generalization capacity of these models. We hope this focused investigation encourages more systematic analysis of model behavior outside of the human interpretable distribution of examples.
翻訳日:2022-10-17 09:10:56 公開日:2021-03-25
# MedCATによる多分野臨床自然言語処理:医療概念アノテーションツールキット

Multi-domain Clinical Natural Language Processing with MedCAT: the Medical Concept Annotation Toolkit ( http://arxiv.org/abs/2010.01165v2 )

ライセンス: Link先を確認
Zeljko Kraljevic, Thomas Searle, Anthony Shek, Lukasz Roguski, Kawsar Noor, Daniel Bean, Aurelie Mascio, Leilei Zhu, Amos A Folarin, Angus Roberts, Rebecca Bendayan, Mark P Richardson, Robert Stewart, Anoop D Shah, Wai Keong Wong, Zina Ibrahim, James T Teo, Richard JB Dobson(参考訳) 電子健康記録(EHR)には大量の非構造化テキストが含まれており、臨床分析を可能にするために情報抽出(IE)技術を適用する必要がある。 オープンソースMedCAT(Messical Concept Annotation Toolkit)を紹介します。 a) umls/snomed-ctを含む概念語彙を用いた概念抽出のための新しい自己教師付き機械学習アルゴリズム b)ieモデルをカスタマイズし、訓練するための機能豊富なアノテーションインターフェース c) ベンダーに依存しないヘルスシステムデプロイメントのための、より広範なCogStackエコシステムとの統合。 オープンデータセット(F1:0.448-0.738対0.429-0.650)からUMLS概念を抽出する際の性能向上を示す。 さらに現実の検証では、SNOMED-CTの抽出がロンドンの3大病院で行われ、約8.8Bの自己指導による訓練が17万件の臨床記録から行われ、さらに6万件の臨床医の注記例による微調整が行われている。 病院, データセット, 概念タイプ間では, 臨床・研究の迅速化のために, クロスドメインEHR非依存ユーティリティを示す強い伝達性(F1 > 0.94)を示す。

Electronic health records (EHR) contain large volumes of unstructured text, requiring the application of Information Extraction (IE) technologies to enable clinical analysis. We present the open-source Medical Concept Annotation Toolkit (MedCAT) that provides: a) a novel self-supervised machine learning algorithm for extracting concepts using any concept vocabulary including UMLS/SNOMED-CT; b) a feature-rich annotation interface for customising and training IE models; and c) integrations to the broader CogStack ecosystem for vendor-agnostic health system deployment. We show improved performance in extracting UMLS concepts from open datasets (F1:0.448-0.738 vs 0.429-0.650). Further real-world validation demonstrates SNOMED-CT extraction at 3 large London hospitals with self-supervised training over ~8.8B words from ~17M clinical records and further fine-tuning with ~6K clinician annotated examples. We show strong transferability (F1 > 0.94) between hospitals, datasets, and concept types indicating cross-domain EHR-agnostic utility for accelerated clinical and research use cases.
翻訳日:2022-10-12 00:13:42 公開日:2021-03-25
# 物体非依存視覚計測のためのワンショット学習に基づく興味抽出ネットワークの輪郭プリミティブ

Contour Primitive of Interest Extraction Network Based on One-Shot Learning for Object-Agnostic Vision Measurement ( http://arxiv.org/abs/2010.03325v2 )

ライセンス: Link先を確認
Fangbo Qin, Jie Qin, Siyu Huang, De Xu(参考訳) 画像輪郭に基づく視覚計測はロボット操作や産業自動化に広く応用されている。 様々な種類の物体に対して便利に再利用できる物体認識型視覚システムを実現するのが魅力である。 本稿では,ワンショット学習の枠組みに基づいて,関心抽出ネットワーク(cpienet)の輪郭プリミティブを提案する。 まず、CPieNetは、特定の対象物に横たわっている指定された正則な輪郭部であるその輪郭プリミティブ(CPI)出力が、視覚計測に不可欠な幾何学的情報を提供するのが特徴である。 第2に、cpienetは、サポートサンプルを利用して、新しいオブジェクトの知覚を支援するワンショット学習能力を有する。 低コストなトレーニングを実現するために、さまざまな対象カテゴリをカバーする未ペアオンライン公開画像からサポートクエリサンプルペアを生成する。 高精度な測定のための単一画素幅輪郭を得るため、ガバーフィルタに基づく非最大抑圧を生輪郭を薄くするように設計する。 新たなCPI抽出タスクのために,オンライン公開画像を用いたObject Contour Primitivesデータセットと,ロボットに搭載されたカメラを用いたRobotic Object Contour Measurementデータセットを構築した。 提案手法の有効性は一連の実験によって検証される。

Image contour based vision measurement is widely applied in robot manipulation and industrial automation. It is appealing to realize object-agnostic vision system, which can be conveniently reused for various types of objects. We propose the contour primitive of interest extraction network (CPieNet) based on the one-shot learning framework. First, CPieNet is featured by that its contour primitive of interest (CPI) output, a designated regular contour part lying on a specified object, provides the essential geometric information for vision measurement. Second, CPieNet has the one-shot learning ability, utilizing a support sample to assist the perception of the novel object. To realize lower-cost training, we generate support-query sample pairs from unpaired online public images, which cover a wide range of object categories. To obtain single-pixel wide contour for precise measurement, the Gabor-filters based non-maximum suppression is designed to thin the raw contour. For the novel CPI extraction task, we built the Object Contour Primitives dataset using online public images, and the Robotic Object Contour Measurement dataset using a camera mounted on a robot. The effectiveness of the proposed methods is validated by a series of experiments.
翻訳日:2022-10-09 23:38:38 公開日:2021-03-25
# 深い変分モンテカルロにおける固定ノード極限への収束

Convergence to the fixed-node limit in deep variational Monte Carlo ( http://arxiv.org/abs/2010.05316v2 )

ライセンス: Link先を確認
Zeno Sch\"atzle, Jan Hermann, Frank No\'e(参考訳) 変分量子モンテカルロ(英: Variational quantum Monte Carlo、QMC)は、原理上は正確に、実際に利用可能なアンサーゼの柔軟性によって制限される電子的シュリンガー方程式の解法である。 最近導入されたディープQMCアプローチ、特に2つのディープニューラルネットワークアンサーゼであるPauliNetとFermiNetは、変分QMCが拡散QMCの精度に達することを可能にするが、そのようなアンサーゼの収束挙動についてはほとんど理解されていない。 ここでは,ネットワークサイズの増加に伴い,QMCが固定ノード制限にどのようにアプローチするかを分析する。 まず、深層ニューラルネットワークが、小さな基底集合の制限を克服し、平均場完全ベイズ集合の限界に達することを実証する。 電子相関に移行し、LiHとH$_4$に対する深いジャストロウ因子の広範なハイパーパラメータースキャンを行い、固定ノード限界における変動エネルギーは十分に大きなネットワークで得られることを示した。 最後に,H$_2$Oの平均場および多体アンサーゼをベンチマークし,単一行列式Slater-Jastrow型アンサーゼの固定ノード相関エネルギーを従来の変分QMC結果に比べて半等級増加させ,単一決定型Slater-Jastrow-バックフローバージョンのアンサーゼが固定ノード制限を克服することを示した。 この分析は、各理論レベルでの従来のトライアル波動関数と比較して、深部変分アンサーゼの超精度を理解するのに役立ち、深部QMCにおけるニューラルネットワークアーキテクチャの将来的な改善を導く。

Variational quantum Monte Carlo (QMC) is an ab-initio method for solving the electronic Schr\"odinger equation that is exact in principle, but limited by the flexibility of the available ansatzes in practice. The recently introduced deep QMC approach, specifically two deep-neural-network ansatzes PauliNet and FermiNet, allows variational QMC to reach the accuracy of diffusion QMC, but little is understood about the convergence behavior of such ansatzes. Here, we analyze how deep variational QMC approaches the fixed-node limit with increasing network size. First, we demonstrate that a deep neural network can overcome the limitations of a small basis set and reach the mean-field complete-basis-set limit. Moving to electron correlation, we then perform an extensive hyperparameter scan of a deep Jastrow factor for LiH and H$_4$ and find that variational energies at the fixed-node limit can be obtained with a sufficiently large network. Finally, we benchmark mean-field and many-body ansatzes on H$_2$O, increasing the fraction of recovered fixed-node correlation energy of single-determinant Slater--Jastrow-type ansatzes by half an order of magnitude compared to previous variational QMC results and demonstrate that a single-determinant Slater--Jastrow--backflow version of the ansatz overcomes the fixed-node limitations. This analysis helps understanding the superb accuracy of deep variational ansatzes in comparison to the traditional trial wavefunctions at the respective level of theory, and will guide future improvements of the neural network architectures in deep QMC.
翻訳日:2022-10-08 13:15:38 公開日:2021-03-25
# 構造予測のためのアンサンブル蒸留:キャリブレーション, 精度, 急速3

Ensemble Distillation for Structured Prediction: Calibrated, Accurate, Fast-Choose Three ( http://arxiv.org/abs/2010.06721v2 )

ライセンス: Link先を確認
Steven Reich, David Mueller, Nicholas Andrews(参考訳) 現代のニューラルネットワークは、クロスエントロピーのような適切なスコアリング関数で訓練しても、必ずしもよく校正された予測を生成するとは限らない。 分類設定では、等調回帰や温度スケーリングといった単純な手法が、モデル出力をキャリブレーションするための保持されたデータセットと併用することができる。 しかし、これらの手法を構造化予測に拡張することは必ずしも単純あるいは効果的であるとは限らない。 本稿では, アンサンブル蒸留を, アンサンブルの予測時間コストを回避しつつ, 構造的予測モデルの構築のための汎用的枠組みとして検討する。 このフレームワークは、名前付き認識と機械翻訳の2つのタスクで検証する。 いずれのタスクにおいても, アンサンブル蒸留では, アンサンブルの性能とキャリブレーションの利点を多く保持し, 時折改善するモデルが生成され, 試験期間中に1つのモデルしか必要としないことがわかった。

Modern neural networks do not always produce well-calibrated predictions, even when trained with a proper scoring function such as cross-entropy. In classification settings, simple methods such as isotonic regression or temperature scaling may be used in conjunction with a held-out dataset to calibrate model outputs. However, extending these methods to structured prediction is not always straightforward or effective; furthermore, a held-out calibration set may not always be available. In this paper, we study ensemble distillation as a general framework for producing well-calibrated structured prediction models while avoiding the prohibitive inference-time cost of ensembles. We validate this framework on two tasks: named-entity recognition and machine translation. We find that, across both tasks, ensemble distillation produces models which retain much of, and occasionally improve upon, the performance and calibration benefits of ensembles, while only requiring a single model during test-time.
翻訳日:2022-10-07 22:26:29 公開日:2021-03-25
# 自己教師付きロボット学習におけるハイパーパラメータ自動チューニング

Hyperparameter Auto-tuning in Self-Supervised Robotic Learning ( http://arxiv.org/abs/2010.08252v4 )

ライセンス: Link先を確認
Jiancong Huang, Juan Rojas, Matthieu Zimmer, Hongmin Wu, Yisheng Guan, and Paul Weng(参考訳) 強化学習におけるポリシー最適化は、異なる環境にまたがる多数のハイパーパラメータの選択を必要とする。 間違った修正は、特に不十分あるいは冗長な学習につながる最適化のパフォーマンスに悪影響を及ぼす可能性がある。 学習不足(ローカルオプティマへの収束による)は、冗長な学習が時間とリソースを浪費している間に、パフォーマンスの低いポリシーをもたらす。 マルチタスク学習問題を解決するために単一のポリシーを使用する場合、さらに効果が増す。 変分オートエンコーダで使用されるエビデンスローバウンド(ELBO)が画像サンプルの多様性と相関していることから,自己教師付き強化学習のためのELBOに基づく自動チューニング手法を提案する。 当社のアプローチでは,リプレイバッファサイズ,各エポック時のポリシ勾配更新数,各エポック時の探索ステップ数という3つのハイパーパラメータを自動調整することが可能です。 我々は,Soft Actor-Critic を用いた最先端の自己教師型ロボット学習フレームワーク (Reinforcement Learning with Imagined Goals (RIG)) をベースラインとして実験検証を行った。 実験の結果,本手法はオンラインで自動チューニングが可能であり,時間と計算資源のごく一部で最高の性能が得られることがわかった。 シミュレーションおよび実ロボット実験のためのコード、ビデオ、付録はプロジェクトページ \url{www.JuanRojas.net/autotune} で見ることができる。

Policy optimization in reinforcement learning requires the selection of numerous hyperparameters across different environments. Fixing them incorrectly may negatively impact optimization performance leading notably to insufficient or redundant learning. Insufficient learning (due to convergence to local optima) results in under-performing policies whilst redundant learning wastes time and resources. The effects are further exacerbated when using single policies to solve multi-task learning problems. Observing that the Evidence Lower Bound (ELBO) used in Variational Auto-Encoders correlates with the diversity of image samples, we propose an auto-tuning technique based on the ELBO for self-supervised reinforcement learning. Our approach can auto-tune three hyperparameters: the replay buffer size, the number of policy gradient updates during each epoch, and the number of exploration steps during each epoch. We use a state-of-the-art self-supervised robot learning framework (Reinforcement Learning with Imagined Goals (RIG) using Soft Actor-Critic) as baseline for experimental verification. Experiments show that our method can auto-tune online and yields the best performance at a fraction of the time and computational resources. Code, video, and appendix for simulated and real-robot experiments can be found at the project page \url{www.JuanRojas.net/autotune}.
翻訳日:2022-10-06 21:41:36 公開日:2021-03-25
# 半教師付きオートエンコーダによる関節生成と呼吸の分類

A semi-supervised autoencoder framework for joint generation and classification of breathing ( http://arxiv.org/abs/2010.15579v2 )

ライセンス: Link先を確認
Oscar Pastor-Serrano, Danny Lathouwers, Zolt\'an Perk\'o(参考訳) バイオメディカルシグナルの主な問題は、患者固有のデータの限られた量と、診断および治療目的に必要な十分なサンプル数を記録するのに必要なかなりの時間である。 本研究では,修正adversarial autoencoder (aae) アルゴリズムと1次元畳み込みに基づく生体医学時系列の同時生成と分類を行う枠組みを提案する。 本研究は,放射線照射肺がん治療中に呼吸運動をとらえる特定の動機を持つ呼吸時系列に基づいている。 まず,変分オートエンコーダ(VAE)とAEアルゴリズムを用いて患者の呼吸をモデル化する可能性を検討する。 AAEアルゴリズムを拡張して、共同で半教師付き分類を行い、異なる種類の信号を生成する。 モデリング作業を簡単にするために,多次元時系列を時間と位置の値を含むベクトルに変換する前処理および後処理圧縮アルゴリズムを導入し,追加のニューラルネットワークを通じて時系列に変換する。 トレーニング中にラベル付きサンプルをいくつか組み込むことで、トレーニングセットとは完全に異なるデータセットから呼吸ベースラインシフトの不規則性を分類する、他の純粋識別ネットワークよりも優れています。 我々の知る限り、提示されたフレームワークは、この種のバイオメディカルデータに対して単一のモデル内で生成と分類を統一する最初のアプローチであり、コンピュータ支援による診断とラベル付きサンプルの増大を可能にする。

One of the main problems with biomedical signals is the limited amount of patient-specific data and the significant amount of time needed to record the sufficient number of samples needed for diagnostic and treatment purposes. In this study, we present a framework to simultaneously generate and classify biomedical time series based on a modified Adversarial Autoencoder (AAE) algorithm and one-dimensional convolutions. Our work is based on breathing time series, with specific motivation to capture breathing motion during radiotherapy lung cancer treatments. First, we explore the potential in using the Variational Autoencoder (VAE) and AAE algorithms to model breathing from individual patients. We extend the AAE algorithm to allow joint semi-supervised classification and generation of different types of signals. To simplify the modeling task, we introduce a pre-processing and post-processing compressing algorithm that transforms the multi-dimensional time series into vectors containing time and position values, which are transformed back into time series through an additional neural network. By incorporating few labeled samples during training, our model outperforms other purely discriminative networks in classifying breathing baseline shift irregularities from a dataset completely different from the training set. To our knowledge, the presented framework is the first approach that unifies generation and classification within a single model for this type of biomedical data, enabling both computer aided diagnosis and augmentation of labeled samples within a single framework.
翻訳日:2022-10-05 23:17:51 公開日:2021-03-25
# カリキュラム学習に関する調査研究

A Survey on Curriculum Learning ( http://arxiv.org/abs/2010.13166v2 )

ライセンス: Link先を確認
Xin Wang, Yudong Chen and Wenwu Zhu(参考訳) カリキュラム学習(Curriculum Learning, CL)は、より簡単なデータからより難しいデータまで、機械学習モデルをトレーニングするトレーニング戦略である。 使いやすいプラグインとして、cl戦略は、コンピュータビジョンや自然言語処理などの幅広いシナリオにおいて、様々なモデルの一般化能力と収束率を向上させる効果を実証した。 本稿では,モチベーション,定義,理論,応用など,さまざまな側面からCLを包括的にレビューする。 汎用的なCLフレームワーク内でのカリキュラム学習について,手作業による事前定義されたカリキュラムや自動カリキュラムの設計方法について論じる。 特に,難易度測定器+訓練スケジューラの一般的な枠組みに基づく既存のcl設計を要約し,自動clの方法論をさらに4つのグループ,すなわち自己ペース学習,転校教師,rl教師,その他の自動clに分類する。 また、実用的な応用に役立つ異なるcl設計を選択するための原則を分析する。 最後に,移動学習,メタラーニング,継続学習,アクティブラーニングなど,CLと他の機械学習概念との関係について考察し,CLにおける課題を指摘するとともに,今後の研究の方向性を示す。

Curriculum learning (CL) is a training strategy that trains a machine learning model from easier data to harder data, which imitates the meaningful learning order in human curricula. As an easy-to-use plug-in, the CL strategy has demonstrated its power in improving the generalization capacity and convergence rate of various models in a wide range of scenarios such as computer vision and natural language processing etc. In this survey article, we comprehensively review CL from various aspects including motivations, definitions, theories, and applications. We discuss works on curriculum learning within a general CL framework, elaborating on how to design a manually predefined curriculum or an automatic curriculum. In particular, we summarize existing CL designs based on the general framework of Difficulty Measurer+Training Scheduler and further categorize the methodologies for automatic CL into four groups, i.e., Self-paced Learning, Transfer Teacher, RL Teacher, and Other Automatic CL. We also analyze principles to select different CL designs that may benefit practical applications. Finally, we present our insights on the relationships connecting CL and other machine learning concepts including transfer learning, meta-learning, continual learning and active learning, etc., then point out challenges in CL as well as potential future research directions deserving further investigations.
翻訳日:2022-10-03 04:22:44 公開日:2021-03-25
# PSF-LO:パラメータ化セマンティック特徴に基づくライダーオドメトリー

PSF-LO: Parameterized Semantic Features Based Lidar Odometry ( http://arxiv.org/abs/2010.13355v3 )

ライセンス: Link先を確認
Guibin Chen, Bosheng Wang, Xiaoliang Wang, Huanjun Deng, Bing Wang, Shuo Zhang(参考訳) ライダーオドメトリ(lidar odometry、lo)は、自動運転の信頼性が高く正確な位置推定とマッピングシステムにおいて重要な技術である。 最先端のLO法は一般に幾何情報を利用してポイントクラウド登録を行う。 さらに、環境をより豊富に記述できるポイントクラウドセマンティック情報を取得することは、登録に役立ちます。 本稿では,自律走行車に対する低自由度エゴモーション推定を実現するために,自己設計型パラメータ化セマンティック特徴(PSF)に基づく新しいセマンティックライダー・オドメトリー法を提案する。 まず,畳み込みニューラルネットワークに基づくアルゴリズムを用いて,入力レーザ点クラウドからポイントワイズ意味情報を取得し,次に意味ラベルを用いて道路,建物,交通標識,極状点クラウドを分離し,それらを分離して対応するpsfを得る。 高速なPSFベースのマッチングにより幾何学的特徴(GeF)の登録を洗練でき、GeFsマッチングの精度に対するぼやけたサブマップ表面の影響を低減できる。 さらに,静的なオブジェクトを意味点クラウドに保持しながら,動的オブジェクトを正確に認識・削除する効率的な手法を設計し,LOの精度をさらに向上させる。 筆者らは,公開データセットであるKITTI Odometry Benchmarkを用いてPSF-LOの評価を行い,テストデータセットの平均翻訳誤差が0.82%であったセマンティックライダー手法の1位にランクインした。

Lidar odometry (LO) is a key technology in numerous reliable and accurate localization and mapping systems of autonomous driving. The state-of-the-art LO methods generally leverage geometric information to perform point cloud registration. Furthermore, obtaining point cloud semantic information which can describe the environment more abundantly will help for the registration. We present a novel semantic lidar odometry method based on self-designed parameterized semantic features (PSFs) to achieve low-drift ego-motion estimation for autonomous vehicle in realtime. We first use a convolutional neural network-based algorithm to obtain point-wise semantics from the input laser point cloud, and then use semantic labels to separate the road, building, traffic sign and pole-like point cloud and fit them separately to obtain corresponding PSFs. A fast PSF-based matching enable us to refine geometric features (GeFs) registration, reducing the impact of blurred submap surface on the accuracy of GeFs matching. Besides, we design an efficient method to accurately recognize and remove the dynamic objects while retaining static ones in the semantic point cloud, which are beneficial to further improve the accuracy of LO. We evaluated our method, namely PSF-LO, on the public dataset KITTI Odometry Benchmark and ranked #1 among semantic lidar methods with an average translation error of 0.82% in the test dataset at the time of writing.
翻訳日:2022-10-02 19:16:09 公開日:2021-03-25
# 深部一級分類における表現の学習と評価

Learning and Evaluating Representations for Deep One-class Classification ( http://arxiv.org/abs/2011.02578v2 )

ライセンス: Link先を確認
Kihyuk Sohn, Chun-Liang Li, Jinsung Yoon, Minho Jin, Tomas Pfister(参考訳) ディープワンクラス分類のための2段階フレームワークを提案する。 まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。 このフレームワークは、より良い表現を学べるだけでなく、ターゲットタスクに忠実な一級分類器を構築することもできる。 生成的あるいは識別的モデルにおける統計的視点から着想を得た分類器は、代理分類器からの正規度スコアのような既存の手法よりも効果的であると主張する。 提案する1クラス分類の枠組みの下で,異なる自己教師付き表現学習アルゴリズムを徹底的に評価する。 さらに,コントラスト表現の均一性を妨げるために,データ拡張を通じてトレーニング分布を拡張する新しい分布提示型コントラスト学習を提案する。 実験では、新規性や異常検出を含む視覚領域の1クラス分類ベンチマークで最先端の性能を示す。 最後に視覚的な説明を行い,深い1クラス分類器の意思決定プロセスが人間にとって直感的であることを確認する。 コードはhttps://github.com/google-research/deep_representation_one_classで入手できる。

We present a two-stage framework for deep one-class classification. We first learn self-supervised representations from one-class data, and then build one-class classifiers on learned representations. The framework not only allows to learn better representations, but also permits building one-class classifiers that are faithful to the target task. We argue that classifiers inspired by the statistical perspective in generative or discriminative models are more effective than existing approaches, such as a normality score from a surrogate classifier. We thoroughly evaluate different self-supervised representation learning algorithms under the proposed framework for one-class classification. Moreover, we present a novel distribution-augmented contrastive learning that extends training distributions via data augmentation to obstruct the uniformity of contrastive representations. In experiments, we demonstrate state-of-the-art performance on visual domain one-class classification benchmarks, including novelty and anomaly detection. Finally, we present visual explanations, confirming that the decision-making process of deep one-class classifiers is intuitive to humans. The code is available at https://github.com/google-research/deep_representation_one_class.
翻訳日:2022-09-29 22:31:15 公開日:2021-03-25
# シーンコンピレント動作予測のための楕円損失

Ellipse Loss for Scene-Compliant Motion Prediction ( http://arxiv.org/abs/2011.03139v2 )

ライセンス: Link先を確認
Henggang Cui, Hoda Shajari, Sai Yalamanchi, Nemanja Djuric(参考訳) 動き予測は自動運転技術の重要な部分であり、自動運転車の周囲における交通機関の将来の行動を推測する責任がある。 安全かつ効率的な操作を保証するため、予測モデルは地図の制約に従う正確な軌跡を出力する必要がある。 本稿では,この課題に対処し,シーンコンプライアンスをよりよく推論し,より現実的な軌跡を予測できる新しい楕円損失を提案する。 楕円損失は、出力軌跡を微分可能な軌跡ラスタライザモジュールを用いてトップダウンマップフレームに投影することにより、直接教師付き方法でオフロード予測を行う。 さらに、アクターの寸法と方向を考慮し、モデルにより直接的なトレーニング信号を提供する。 我々は,最近提案された関節検出予測モデルに楕円損失を適用し,その利点を実証した。 大規模自動運転データの評価は、この手法がより正確で現実的な軌道予測を可能にすることを強く示唆している。

Motion prediction is a critical part of self-driving technology, responsible for inferring future behavior of traffic actors in autonomous vehicle's surroundings. In order to ensure safe and efficient operations, prediction models need to output accurate trajectories that obey the map constraints. In this paper, we address this task and propose a novel ellipse loss that allows the models to better reason about scene compliance and predict more realistic trajectories. Ellipse loss penalizes off-road predictions directly in a supervised manner, by projecting the output trajectories into the top-down map frame using a differentiable trajectory rasterizer module. Moreover, it takes into account actor dimensions and orientation, providing more direct training signals to the model. We applied ellipse loss to a recently proposed state-of-the-art joint detection-prediction model to showcase its benefits. Evaluation on large-scale autonomous driving data strongly indicates that the method allows for more accurate and more realistic trajectory predictions.
翻訳日:2022-09-29 12:15:07 公開日:2021-03-25
# ロボット支援給餌における帯域設定の高速学習のためのポストホックコンテキストの活用

Leveraging Post Hoc Context for Faster Learning in Bandit Settings with Applications in Robot-Assisted Feeding ( http://arxiv.org/abs/2011.02604v2 )

ライセンス: Link先を確認
Ethan K. Gordon, Sumegh Roychowdhury, Tapomayukh Bhattacharjee, Kevin Jamieson, Siddhartha S. Srinivasa(参考訳) 自律的なロボット支援給餌には、さまざまな食品を入手する能力が必要である。 しかし、このような制度が現存するあらゆる種類の食品で訓練されることは不可能である。 したがって、未確認食品の操作戦略を選択することが重要な課題である。 以前の研究では、この問題は視覚的なコンテキストを持った線形バンドとして表現できることを示した。 しかし、食品には、視覚的に区別が難しい操作に関連する様々なマルチモーダル特性がある。 私たちの重要な洞察は、操作中および操作後(つまりポストホック)に収集した触覚コンテキストを利用して、これらの特性を学習し、以前見られなかった食べ物に視覚モデルをより迅速に適応できるということです。 一般に,行動選択後に観察されるポストホックコンテキストを付加した修正線形文脈バンディットフレームワークを提案し,学習速度を経験的に向上させ,累積後悔を低減させる。 合成データに関する実験により、文脈の次元がポストホックな文脈に対して大きい場合やポストホックな文脈モデルが特に学習しやすい場合、この効果はより顕著であることが示される。 最後に、この枠組みを咬合獲得問題に適用し、64回の試行で21%の失敗率で8種類の食品を入手できることを実証した。

Autonomous robot-assisted feeding requires the ability to acquire a wide variety of food items. However, it is impossible for such a system to be trained on all types of food in existence. Therefore, a key challenge is choosing a manipulation strategy for a previously unseen food item. Previous work showed that the problem can be represented as a linear bandit with visual context. However, food has a wide variety of multi-modal properties relevant to manipulation that can be hard to distinguish visually. Our key insight is that we can leverage the haptic context we collect during and after manipulation (i.e., "post hoc") to learn some of these properties and more quickly adapt our visual model to previously unseen food. In general, we propose a modified linear contextual bandit framework augmented with post hoc context observed after action selection to empirically increase learning speed and reduce cumulative regret. Experiments on synthetic data demonstrate that this effect is more pronounced when the dimensionality of the context is large relative to the post hoc context or when the post hoc context model is particularly easy to learn. Finally, we apply this framework to the bite acquisition problem and demonstrate the acquisition of 8 previously unseen types of food with 21% fewer failures across 64 attempts.
翻訳日:2022-09-29 11:39:07 公開日:2021-03-25
# DSIC:マルチスケール物体検出のための動的サンプル分割コネクタ

DSIC: Dynamic Sample-Individualized Connector for Multi-Scale Object Detection ( http://arxiv.org/abs/2011.07774v2 )

ライセンス: Link先を確認
Zekun Li, Yufan Liu, Bing Li, Weiming Hu(参考訳) ディープラーニングの大きな成功のおかげで、オブジェクト検出はマイルストーンに達したが、スケールの変動は依然として重要な課題である。 従来のFeature Pyramid Network(FPN)やその改善といった問題を軽減するために、マルチレベル機能の統合が提案されている。 しかし、これらの方法の特別に設計された機能統合モジュールは、機能融合に最適なアーキテクチャを持っていないかもしれない。 さらに、これらのモデルには、様々なサンプルを投入する際に、固定されたアーキテクチャとデータフローパスがある。 それぞれのデータを調整することはできず、互換性も持たない。 上記の制限を克服するため,マルチスケールオブジェクト検出のための動的サンプル分割コネクタ(DSIC)を提案する。 ネットワーク接続を動的に調整し、異なるサンプルに適合する。 特にDSICは、ISG(Intra-scale Selection Gate)とCSG(Cross-scale Selection Gate)の2つのコンポーネントで構成されている。 ISGは、機能統合の入力としてバックボーンから多レベル特徴を適応的に抽出する。 CSGはマルチレベル機能に基づいて情報伝達経路を自動的に活性化する。 さらに、これら2つのコンポーネントはプラグインとプレイの両方で、任意のバックボーンに埋め込まれる。 実験の結果,提案手法は最先端技術よりも優れていた。

Although object detection has reached a milestone thanks to the great success of deep learning, the scale variation is still the key challenge. Integrating multi-level features is presented to alleviate the problems, like the classic Feature Pyramid Network (FPN) and its improvements. However, the specifically designed feature integration modules of these methods may not have the optimal architecture for feature fusion. Moreover, these models have fixed architectures and data flow paths, when fed with various samples. They cannot adjust and be compatible with each kind of data. To overcome the above limitations, we propose a Dynamic Sample-Individualized Connector (DSIC) for multi-scale object detection. It dynamically adjusts network connections to fit different samples. In particular, DSIC consists of two components: Intra-scale Selection Gate (ISG) and Cross-scale Selection Gate (CSG). ISG adaptively extracts multi-level features from backbone as the input of feature integration. CSG automatically activate informative data flow paths based on the multi-level features. Furthermore, these two components are both plug-and-play and can be embedded in any backbone. Experimental results demonstrate that the proposed method outperforms the state-of-the-arts.
翻訳日:2022-09-25 00:34:31 公開日:2021-03-25
# FixBi: 教師なしドメイン適応のためのドメイン空間のブリッジ

FixBi: Bridging Domain Spaces for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2011.09230v2 )

ライセンス: Link先を確認
Jaemin Na, Heechul Jung, Hyung Jin Chang, Wonjun Hwang(参考訳) unsupervised domain adaptation (uda) method for learning domain invariant representationsは驚くべき進歩を遂げた。 しかし、ほとんどの研究はソースドメインからターゲットドメインへの直接適応に基づいており、大きなドメインの相違に苦しめられている。 本稿では,そのような大域不一致を効果的に処理するUDA法を提案する。 ソースドメインとターゲットドメインの間の複数の中間ドメインを強化するために,固定比率に基づくミックスアップを導入する。 拡張ドメインから、相補的な特性を持つソース支配モデルとターゲット支配モデルを訓練する。 信頼度予測を用いた双方向マッチングや低信頼度予測を用いた自己報酬化など、信頼度に基づく学習手法を用いて、モデルは互いに、あるいはその結果から学習することができる。 提案手法により,モデルは徐々にソースから対象領域へドメイン知識を伝達する。 大規模な実験により,Office-31,Office-Home,VisDA-2017の3つの公開ベンチマークにおいて提案手法の優位性が示された。

Unsupervised domain adaptation (UDA) methods for learning domain invariant representations have achieved remarkable progress. However, most of the studies were based on direct adaptation from the source domain to the target domain and have suffered from large domain discrepancies. In this paper, we propose a UDA method that effectively handles such large domain discrepancies. We introduce a fixed ratio-based mixup to augment multiple intermediate domains between the source and target domain. From the augmented-domains, we train the source-dominant model and the target-dominant model that have complementary characteristics. Using our confidence-based learning methodologies, e.g., bidirectional matching with high-confidence predictions and self-penalization using low-confidence predictions, the models can learn from each other or from its own results. Through our proposed methods, the models gradually transfer domain knowledge from the source to the target domain. Extensive experiments demonstrate the superiority of our proposed method on three public benchmarks: Office-31, Office-Home, and VisDA-2017.
翻訳日:2022-09-24 04:30:35 公開日:2021-03-25
# 集団点滅ラチェットにおけるフィードバック制御のための深層強化学習

Deep reinforcement learning for feedback control in a collective flashing ratchet ( http://arxiv.org/abs/2011.10357v3 )

ライセンス: Link先を確認
Dong-Kyum Kim, Hawoong Jeong(参考訳) 集団点滅ラチェットは、空間周期的、非対称的、時間依存性のオンオフスイッチング電位を用いてブラウン粒子を輸送する。 この系における粒子の純電流は粒子位置に基づくフィードバック制御により著しく増大させることができる。 電流を最大化するためのいくつかのフィードバックポリシーが提案されているが、適度な数の粒子に対して最適なポリシーは発見されていない。 ここでは、最適なニューラルネットワークアーキテクチャで構築されたポリシーが、以前のポリシーより優れていることを示すとともに、最適なポリシーを見つけるために、深層強化学習(RL)を使用します。 さらに、電位のオンオフ切替が遅れた時間遅れフィードバック状況においても、深部RLが提供するポリシが従来の戦略よりも高い電流を提供することを示す。

A collective flashing ratchet transports Brownian particles using a spatially periodic, asymmetric, and time-dependent on-off switchable potential. The net current of the particles in this system can be substantially increased by feedback control based on the particle positions. Several feedback policies for maximizing the current have been proposed, but optimal policies have not been found for a moderate number of particles. Here, we use deep reinforcement learning (RL) to find optimal policies, with results showing that policies built with a suitable neural network architecture outperform the previous policies. Moreover, even in a time-delayed feedback situation where the on-off switching of the potential is delayed, we demonstrate that the policies provided by deep RL provide higher currents than the previous strategies.
翻訳日:2022-09-23 06:32:38 公開日:2021-03-25
# instahide, phase retrieval, およびsparse matrix factorizationについて

On InstaHide, Phase Retrieval, and Sparse Matrix Factorization ( http://arxiv.org/abs/2011.11181v2 )

ライセンス: Link先を確認
Sitan Chen, Xiaoxiao Li, Zhao Song, Danyang Zhuo(参考訳) 本研究では,分散学習の文脈でプライベートデータセットのセキュリティを維持するための,[Huang, Song, Li, Arora, ICML'20] が最近提案した InstaHide のセキュリティについて検討する。 分散学習者間で共有される合成学習例を生成するため、instahideはプライベート特徴ベクトルの凸結合を取り、結果ベクトルの各エントリの符号を確率1/2でランダムに反転させる。 健全な疑問は、このスキームが証明可能な意味で安全であるかどうかであり、おそらくは可算的硬度仮定の下で、パブリックデータとプライベートデータを生成する分布が特定の特性を満たすことを仮定する。 これに対する答えは、位相検索の古典的な問題のマルチタスク、欠落データバージョンにおける平均ケースの複雑さと非常に密接な関係があることが示される。 この関係に動機づけられて,プライベートベクトルとパブリックベクトルが等方性ガウス的であることを前提に,instahide が生成する合成ベクトルと公開ベクトルのみを用いてプライベートベクトルを復元するプロビタブルアルゴリズムを設計した。

In this work, we examine the security of InstaHide, a scheme recently proposed by [Huang, Song, Li and Arora, ICML'20] for preserving the security of private datasets in the context of distributed learning. To generate a synthetic training example to be shared among the distributed learners, InstaHide takes a convex combination of private feature vectors and randomly flips the sign of each entry of the resulting vector with probability 1/2. A salient question is whether this scheme is secure in any provable sense, perhaps under a plausible hardness assumption and assuming the distributions generating the public and private data satisfy certain properties. We show that the answer to this appears to be quite subtle and closely related to the average-case complexity of a new multi-task, missing-data version of the classic problem of phase retrieval. Motivated by this connection, we design a provable algorithm that can recover private vectors using only the public vectors and synthetic vectors generated by InstaHide, under the assumption that the private and public vectors are isotropic Gaussian.
翻訳日:2022-09-22 01:44:11 公開日:2021-03-25
# 自己回帰予測符号化を用いたテキスト依存話者検証のための声道長摂動

Vocal Tract Length Perturbation for Text-Dependent Speaker Verification with Autoregressive Prediction Coding ( http://arxiv.org/abs/2011.12536v2 )

ライセンス: Link先を確認
Achintya kr. Sarkar, Zheng-Hua Tan (Senior Member, IEEE)(参考訳) 本稿では,テキスト依存型話者検証(TD-SV)のための声道長(VTL)摂動法を提案する。 次に,td-svのための自己教師付き目標自己回帰予測符号化(apc)を用いて深層ニューラルネットワークを訓練することにより抽出したボトルネック(bn)の特徴を考察し,よく検討された話者識別型bn機能と比較する。 提案手法は、APCおよび話者識別BN特徴に対して適用される。 最終的に、MFCCで訓練されたVTL摂動システムとスコア領域の2つのBN特徴を組み合わせる。 The RedDots Challenge 2016 database of TD-SVでガウス混合背景モデルとi-vectorを用いた短い発話を用いて実験を行った。 その結果,提案手法はベースラインを大きく上回ることがわかった。

In this letter, we propose a vocal tract length (VTL) perturbation method for text-dependent speaker verification (TD-SV), in which a set of TD-SV systems are trained, one for each VTL factor, and score-level fusion is applied to make a final decision. Next, we explore the bottleneck (BN) feature extracted by training deep neural networks with a self-supervised objective, autoregressive predictive coding (APC), for TD-SV and compare it with the well-studied speaker-discriminant BN feature. The proposed VTL method is then applied to APC and speaker-discriminant BN features. In the end, we combine the VTL perturbation systems trained on MFCC and the two BN features in the score domain. Experiments are performed on the RedDots challenge 2016 database of TD-SV using short utterances with Gaussian mixture model-universal background model and i-vector techniques. Results show the proposed methods significantly outperform the baselines.
翻訳日:2022-09-21 03:32:21 公開日:2021-03-25
# SS-SFDA : 危険環境における道路分割のための自己監督型ソースフリードメイン適応

SS-SFDA : Self-Supervised Source-Free Domain Adaptation for Road Segmentation in Hazardous Environments ( http://arxiv.org/abs/2012.08939v2 )

ライセンス: Link先を確認
Divya Kothandaraman, Rohan Chandra, Dinesh Manocha(参考訳) 本研究では,雨や霧などの悪天候条件下での道路の非監督的区画化に対する新しいアプローチを提案する。 これには、自己教師付き学習を用いたソースフリードメイン適応(SFDA)のための新しいアルゴリズムが含まれている。 さらに,本手法は,SFDAにおける様々な課題に対処し,オンラインの擬似ラベル生成や自己注意,カリキュラム学習,エントロピー最小化,モデル蒸留など,パフォーマンスの向上に活用されている。 実際の悪天候条件と合成悪天候条件に対応するデータセットを6ドルで評価した。 本手法は,教師なし道路セグメンテーションとsfdaの先行研究の少なくとも10.26%を上回り,トレーニング時間を18~180倍向上させる。 さらに, 自己教師付きアルゴリズムは, 従来の教師付き手法と比較して, mIOUスコアと同等の精度を示す。

We present a novel approach for unsupervised road segmentation in adverse weather conditions such as rain or fog. This includes a new algorithm for source-free domain adaptation (SFDA) using self-supervised learning. Moreover, our approach uses several techniques to address various challenges in SFDA and improve performance, including online generation of pseudo-labels and self-attention as well as use of curriculum learning, entropy minimization and model distillation. We have evaluated the performance on $6$ datasets corresponding to real and synthetic adverse weather conditions. Our method outperforms all prior works on unsupervised road segmentation and SFDA by at least 10.26%, and improves the training time by 18-180x. Moreover, our self-supervised algorithm exhibits similar accuracy performance in terms of mIOU score as compared to prior supervised methods.
翻訳日:2022-09-20 02:31:00 公開日:2021-03-25
# Association:GANを忘れないようにします

Association: Remind Your GAN not to Forget ( http://arxiv.org/abs/2011.13553v2 )

ライセンス: Link先を確認
Yi Gu, Jie Li, Yuting Gao, Ruoxin Chen, Chentao Wu, Feiyang Cai, Chao Wang, Zirui Zhang(参考訳) ニューラルネットワークは破滅的な忘れやすい。 新しいタスクに適応する際、事前に獲得した知識を保存できない。 人間の連想記憶系に着想を得て,連想学習プロセスを模倣して連続学習を実現する脳的アプローチを提案する。 我々は,モデルが現在状況に基づいて過去のエピソードを思い出すよう誘導し,連想体験を得るためのヒューリスティックス機構を設計する。 また、新タスクの特徴再構築学習を阻害するシナプス伝達の有効性を抑えるために蒸留手段を付加する。 この枠組みは、シナプスと行動の可塑性を誘導する副次的な役割を担う増強と抑うつ刺激によって媒介される。 元のデータにアクセスする必要はなく、人間の認知プロセスに近い。 画像から画像への翻訳作業における破滅的忘れを緩和する手法の有効性を示す実験を行った。

Neural networks are susceptible to catastrophic forgetting. They fail to preserve previously acquired knowledge when adapting to new tasks. Inspired by human associative memory system, we propose a brain-like approach that imitates the associative learning process to achieve continual learning. We design a heuristics mechanism to potentiatively stimulate the model, which guides the model to recall the historical episodes based on the current circumstance and obtained association experience. Besides, a distillation measure is added to depressively alter the efficacy of synaptic transmission, which dampens the feature reconstruction learning for new task. The framework is mediated by potentiation and depression stimulation that play opposing roles in directing synaptic and behavioral plasticity. It requires no access to the original data and is more similar to human cognitive process. Experiments demonstrate the effectiveness of our method in alleviating catastrophic forgetting on image-to-image translation tasks.
翻訳日:2022-09-20 02:14:00 公開日:2021-03-25
# 半空間のロバストでプライベートな学習

Robust and Private Learning of Halfspaces ( http://arxiv.org/abs/2011.14580v2 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi, Thao Nguyen(参考訳) 本研究では,L2摂動下での差分プライバシーと対向ロバスト性とのトレードオフを,学習ハーフスペースの文脈で検討する。 ハーフスペースのロバストなプライベートラーニングのサンプル複雑性のほぼ厳密な境界をパラメータの大規模な構成で証明する。 私たちの結果のハイライトは、堅牢でプライベートな学習は、堅牢でプライベートな学習よりも難しい、ということです。 MNISTおよびUSPSデータセットの実験結果と理論解析を補完し、差分プライベートかつ対角ロバストな学習アルゴリズムを提案する。

In this work, we study the trade-off between differential privacy and adversarial robustness under L2-perturbations in the context of learning halfspaces. We prove nearly tight bounds on the sample complexity of robust private learning of halfspaces for a large regime of parameters. A highlight of our results is that robust and private learning is harder than robust or private learning alone. We complement our theoretical analysis with experimental results on the MNIST and USPS datasets, for a learning algorithm that is both differentially private and adversarially robust.
翻訳日:2021-06-06 14:55:37 公開日:2021-03-25
# 3次元ポーズ推定のための単眼映像の教師なし学習

Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation ( http://arxiv.org/abs/2012.01511v2 )

ライセンス: Link先を確認
Sina Honari, Victor Constantin, Helge Rhodin, Mathieu Salzmann, Pascal Fua(参考訳) 注釈付きデータが存在する場合、深い人間のポーズ推定ネットワークは印象的なパフォーマンスをもたらす。 それでも、特に現実世界の環境では、新しいデータを注釈付けるのは非常に時間がかかる。 ここでは,コントラスト的自己教師付き(css)学習を利用して,シングルビュービデオからリッチな潜在ベクトルを抽出する。 他のcssアプローチのように、近傍のフレームの潜性特徴を単に正のペアとして扱う代わりに、各潜性ベクトルを時間変化成分と時間不変の要素に明示的に分離する。 次に,cssを時間変化特性のみに適用すると同時に,入力を再構成し,近傍特徴と離れた特徴の段階的な遷移を促すことにより,人間のポーズ推定に適した,豊かな潜在空間が得られることを示す。 提案手法は他の教師なし単一ビュー手法よりも優れており,マルチビュー手法の性能に適合する。

In the presence of annotated data, deep human pose estimation networks yield impressive performance. Nevertheless, annotating new data is extremely time-consuming, particularly in real-world conditions. Here, we address this by leveraging contrastive self-supervised (CSS) learning to extract rich latent vectors from single-view videos. Instead of simply treating the latent features of nearby frames as positive pairs and those of temporally-distant ones as negative pairs as in other CSS approaches, we explicitly disentangle each latent vector into a time-variant component and a time-invariant one. We then show that applying CSS only to the time-variant features, while also reconstructing the input and encouraging a gradual transition between nearby and away features, yields a rich latent space, well-suited for human pose estimation. Our approach outperforms other unsupervised single-view methods and matches the performance of multi-view techniques.
翻訳日:2021-05-25 04:09:13 公開日:2021-03-25
# Graph-SIM:歩行者行動予測のためのグラフベース時空間相互作用モデリング

Graph-SIM: A Graph-based Spatiotemporal Interaction Modelling for Pedestrian Action Prediction ( http://arxiv.org/abs/2012.02148v3 )

ライセンス: Link先を確認
Tiffany Yau, Saber Malekmohammadi, Amir Rasouli, Peter Lakner, Mohsen Rohani, Jun Luo(参考訳) 都市環境における自動運転車にとって最も重要かつ困難な課題の1つは、特に交差点での歩行者の将来の行動を予測することである。 予測行動は多くの社会的・環境要因、特に道路利用者間の相互作用に依存する。 このようなインタラクションをキャプチャするには,3次元空間における道路利用者の状況と動態をグローバルに把握する必要がある。 しかし、この情報は現在の歩行者行動ベンチマークデータセットからは欠落している。 これらの課題により,1)歩行者横断行動を予測する新しいグラフベースモデルを提案する。 本手法は,群集化による歩行者の道路利用者とのインタラクションのモデル化と,鳥眼ビューから得られた特徴を用いた対話の相対的重み付けを行う。 2)既存のnuscenesデータセットに3dバウンディングボックスと歩行者行動アノテーションを提供する新しいデータセットを導入する。 新たなデータでは,既存の手法と比較して,さまざまな指標を15%以上改善することで,最先端のパフォーマンスを実現する。 データセットはhttps://github.com/huawei-noah/datasets/PePScenesで公開されている。

One of the most crucial yet challenging tasks for autonomous vehicles in urban environments is predicting the future behaviour of nearby pedestrians, especially at points of crossing. Predicting behaviour depends on many social and environmental factors, particularly interactions between road users. Capturing such interactions requires a global view of the scene and dynamics of the road users in three-dimensional space. This information, however, is missing from the current pedestrian behaviour benchmark datasets. Motivated by these challenges, we propose 1) a novel graph-based model for predicting pedestrian crossing action. Our method models pedestrians' interactions with nearby road users through clustering and relative importance weighting of interactions using features obtained from the bird's-eye-view. 2) We introduce a new dataset that provides 3D bounding box and pedestrian behavioural annotations for the existing nuScenes dataset. On the new data, our approach achieves state-of-the-art performance by improving on various metrics by more than 15% in comparison to existing methods. The dataset is available at https://github.com/huawei-noah/datasets/PePScenes.
翻訳日:2021-05-23 14:43:43 公開日:2021-03-25
# (参考訳) 不確実性定量化のためのベイズニューラルネットワークの潜在後部符号化

Encoding the latent posterior of Bayesian Neural Networks for uncertainty quantification ( http://arxiv.org/abs/2012.02818v2 )

ライセンス: CC BY 4.0
Gianni Franchi, Andrei Bursuc, Emanuel Aldea, Severine Dubuisson, Isabelle Bloch(参考訳) ベイズニューラルネットワーク(BNN)は、ディープニューラルネットワークの堅牢性と予測の不確実性を改善するために、長年、理想的な、しかしスケールできないソリューションと考えられてきた。 ネットワークパラメータの後方分布をより正確に捉えることができるが、ほとんどのBNNアプローチは小さなネットワークに限定されるか、パラメータ独立のような制約のある仮定に依存している。 これらの欠点により、Deep Ensemblesのような単純だが計算的に重いアプローチが普及し、トレーニングとテストのコストはネットワークの数とともに線形に増加する。 本研究では,複雑なコンピュータビジョンアーキテクチャに適用可能な効率的な深部BNNの実現を目指す。 ResNet50 DeepLabV3+、タスク、例えば。 パラメータの仮定が少ないセマンティックセグメンテーション。 可変オートエンコーダ(VAE)を利用して、各ネットワーク層におけるパラメータの相互作用と潜在分布を学習する。 我々のアプローチであるLatent-Posterior BNN(LP-BNN)は、最近のBatchEnsemble法と互換性があり、高い効率(トレーニングとテストの両方における計算量とメモリ量)のアンサンブルにつながる。 lp-bnn sは、画像分類、意味セグメンテーション、分散検出など、いくつかの困難なベンチマークにおいて、複数のメトリクスで競合結果を得る。

Bayesian neural networks (BNNs) have been long considered an ideal, yet unscalable solution for improving the robustness and the predictive uncertainty of deep neural networks. While they could capture more accurately the posterior distribution of the network parameters, most BNN approaches are either limited to small networks or rely on constraining assumptions such as parameter independence. These drawbacks have enabled prominence of simple, but computationally heavy approaches such as Deep Ensembles, whose training and testing costs increase linearly with the number of networks. In this work we aim for efficient deep BNNs amenable to complex computer vision architectures, e.g. ResNet50 DeepLabV3+, and tasks, e.g. semantic segmentation, with fewer assumptions on the parameters. We achieve this by leveraging variational autoencoders (VAEs) to learn the interaction and the latent distribution of the parameters at each network layer. Our approach, Latent-Posterior BNN (LP-BNN), is compatible with the recent BatchEnsemble method, leading to highly efficient ({in terms of computation and} memory during both training and testing) ensembles. LP-BNN s attain competitive results across multiple metrics in several challenging benchmarks for image classification, semantic segmentation and out-of-distribution detection.
翻訳日:2021-05-22 23:45:58 公開日:2021-03-25
# (参考訳) クラスインクリメンタルセマンティクスセグメンテーションのための自己学習

Self-Training for Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2012.03362v2 )

ライセンス: CC BY 4.0
Lu Yu, Xialei Liu, Joost van de Weijer(参考訳) class-incremental semantic segmentationでは、以前のタスクのラベル付きデータにアクセスできません。 したがって、新しいクラスを徐々に学ぶと、ディープニューラルネットワークは過去の学習した知識を壊滅的に忘れてしまう。 この問題に対処するために,従来の知識のリハーサルに使用されるラベルなしデータを活用した自己学習手法を提案する。 さらに、古いモデルと新しいモデルの両方から生成された擬似ラベルの競合を解決するために競合低減が提案されている。 自己エントロピーの最大化は、過信予測を円滑にすることで、結果をさらに改善できることを示す。 興味深いことに、実験では、補助データがトレーニングデータと異なる可能性があり、汎用的で多様な補助データでさえ大きなパフォーマンス向上をもたらすことが示されている。 実験は最先端の結果を示しており、Pascal-VOC 2012では114%、ADE20Kでは8.5%と、従来の最先端の手法に比べて高い。

In class-incremental semantic segmentation we have no access to the labeled data of previous tasks. Therefore, when incrementally learning new classes, deep neural networks suffer from catastrophic forgetting of previously learned knowledge. To address this problem, we propose to apply a self-training approach that leverages unlabeled data, which is used for rehearsal of previous knowledge. Additionally, conflict reduction is proposed to resolve the conflicts of pseudo labels generated from both the old and new models. We show that maximizing self-entropy can further improve results by smoothing the overconfident predictions. Interestingly, in the experiments we show that the auxiliary data can be different from the training data and that even general-purpose but diverse auxiliary data can lead to large performance gains. The experiments demonstrate state-of-the-art results: obtaining a relative gain of up to 114% on Pascal-VOC 2012 and 8.5% on the more challenging ADE20K compared to previous state-of-the-art methods.
翻訳日:2021-05-22 03:49:22 公開日:2021-03-25
# (参考訳) Adaptive Submodular Meta-Learning

Adaptive Submodular Meta-Learning ( http://arxiv.org/abs/2012.06070v2 )

ライセンス: CC BY 4.0
Shaojie Tang, Jing Yuan(参考訳) メタラーニングは機械学習と人工知能のコミュニティで注目を集めている。 本稿では,適応型サブモジュールメタ学習問題を紹介し,研究する。 問題の入力はアイテムの集合であり、各アイテムは最初は未知のランダムな状態を持つ。 アイテムの状態を見る唯一の方法は、そのアイテムを選択することです。 我々の目標は、タスク群上で最高のパフォーマンスを達成する項目群を適応的に選択することであり、各タスクは、アイテムの集合とその状態を実数にマップする適応サブモジュラー関数として表現される。 今後のタスク毎にパーソナライズしたソリューションを維持しつつ計算コストを削減すべく,まず,先述したタスクに基づいて初期ソリューションセットを選択した上で,新たなタスクが到着した時点で,残りのアイテムを初期ソリューションセットに適応的に追加する。 新しいタスクごとに新しいソリューションが計算されるソリューションと比較して、メタラーニングベースのアプローチは、初期ソリューションセットがトレーニング段階で事前計算されているため、テスト時の計算オーバーヘッドを低減します。 この問題を解決するために,二相欲政策を提案し,単調の場合の近似比が1/2$であることを示す。 非単調の場合、二相ランダム化グリーディポリシーを開発し、1/32$近似比を達成する。

Meta-Learning has gained increasing attention in the machine learning and artificial intelligence communities. In this paper, we introduce and study an adaptive submodular meta-learning problem. The input of our problem is a set of items, where each item has a random state which is initially unknown. The only way to observe an item's state is to select that item. Our objective is to adaptively select a group of items that achieve the best performance over a set of tasks, where each task is represented as an adaptive submodular function that maps sets of items and their states to a real number. To reduce the computational cost while maintaining a personalized solution for each future task, we first select an initial solution set based on previously observed tasks, then adaptively add the remaining items to the initial solution set when a new task arrives. As compared to the solution where a brand new solution is computed for each new task, our meta-learning based approach leads to lower computational overhead at test time since the initial solution set is pre-computed in the training stage. To solve this problem, we propose a two-phase greedy policy and show that it achieves a $1/2$ approximation ratio for the monotone case. For the non-monotone case, we develop a two-phase randomized greedy policy that achieves a $1/32$ approximation ratio.
翻訳日:2021-05-14 10:36:36 公開日:2021-03-25
# FSOCO:コンテキストデータセットにおけるフォーミュラ学生オブジェクト

FSOCO: The Formula Student Objects in Context Dataset ( http://arxiv.org/abs/2012.07139v2 )

ライセンス: Link先を確認
David Dodel, Michael Sch\"otz, Niclas V\"odisch(参考訳) 本稿では,フォーミュラ・スケーラレス競技における視覚に基づくコーン検出システムのための協調的データセットであるFSOCOデータセットを提案する。 それは、境界ボックスとインスタンスワイドセグメンテーションマスクの両方のための人間の注釈付き真実ラベルを含んでいる。 fsocoのデータ購入哲学は、継続的な成長を保証するアクセスが与えられる前に、まず学生チームにデータベースへの貢献を依頼する。 洗練された生画像選択のための明確なラベリングガイドラインとツールを提供することで、新しいアノテーションは望ましい品質を満たすことが保証される。 提案手法の有効性は,FSOCOとその非規制前のネットワークの予測結果を比較することで示される。 FSOCOデータセットはfsoco-dataset.comで見ることができる。

This paper presents the FSOCO dataset, a collaborative dataset for vision-based cone detection systems in Formula Student Driverless competitions. It contains human annotated ground truth labels for both bounding boxes and instance-wise segmentation masks. The data buy-in philosophy of FSOCO asks student teams to contribute to the database first before being granted access ensuring continuous growth. By providing clear labeling guidelines and tools for a sophisticated raw image selection, new annotations are guaranteed to meet the desired quality. The effectiveness of the approach is shown by comparing prediction results of a network trained on FSOCO and its unregulated predecessor. The FSOCO dataset can be found at fsoco-dataset.com.
翻訳日:2021-05-09 12:47:46 公開日:2021-03-25
# 限定サンプルからの自己教師付き特徴学習

Aggregative Self-Supervised Feature Learning from a Limited Sample ( http://arxiv.org/abs/2012.07477v3 )

ライセンス: Link先を確認
Jiuwen Zhu, Yuexiang Li, S. Kevin Zhou(参考訳) 自己教師付き学習(SSL)は、限られたトレーニングデータとアノテーション不足の問題に対処する効率的なアプローチである。 sslの重要な部分は、監視信号を定義し、効果的な特徴表現に向けて学習を駆動するプロキシタスクである。 しかし、ほとんどのSSLアプローチは単一のプロキシタスクに重点を置いており、学習した機能の表現力を大幅に制限しているため、ネットワークの一般化能力は低下する。 そこで本研究では,様々な形態の相補性の観点から,自己教師付き学習特徴の頑健性を高める2つの集約戦略を提案する。 まず,複数タスク間の特徴相補性を活用することを目的とした,限定的なサンプルからの多タスク集約型自己教師型学習の原則的枠組みを提案する。 そして,自己集約型SSLにおいて,線形中心のカーネルアライメントメトリックに基づいて,既存のプロキシタスクを補助的損失関数で自己補完することを提案する。 2次元自然画像および3次元医用画像分類タスクを限定データおよびアノテーションシナリオで広範囲に実験した結果,提案手法が分類精度を向上できることが確認された。

Self-supervised learning (SSL) is an efficient approach that addresses the issue of limited training data and annotation shortage. The key part in SSL is its proxy task that defines the supervisory signals and drives the learning toward effective feature representations. However, most SSL approaches usually focus on a single proxy task, which greatly limits the expressive power of the learned features and therefore deteriorates the network generalization capacity. In this regard, we hereby propose two strategies of aggregation in terms of complementarity of various forms to boost the robustness of self-supervised learned features. We firstly propose a principled framework of multi-task aggregative self-supervised learning from a limited sample to form a unified representation, with an intent of exploiting feature complementarity among different tasks. Then, in self-aggregative SSL, we propose to self-complement an existing proxy task with an auxiliary loss function based on a linear centered kernel alignment metric, which explicitly promotes the exploring of where are uncovered by the features learned from a proxy task at hand to further boost the modeling capability. Our extensive experiments on 2D natural image and 3D medical image classification tasks under limited data and annotation scenarios confirm that the proposed aggregation strategies successfully boost the classification accuracy.
翻訳日:2021-05-08 14:30:39 公開日:2021-03-25
# サロゲートラグランジアン緩和を用いたリトレインフリーディープニューラルネットワークプルーニングの実現

Enabling Retrain-free Deep Neural Network Pruning using Surrogate Lagrangian Relaxation ( http://arxiv.org/abs/2012.10079v2 )

ライセンス: Link先を確認
Deniz Gurevin, Shanglin Zhou, Lynn Pepin, Bingbing Li, Mikhail Bragin, Caiwen Ding, Fei Miao(参考訳) ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。 しかし、典型的な3段階パイプライン、すなわち、訓練、刈り取り、再訓練(微調整)は、トレーニング全体のパスを著しく増加させる。 本稿では,高速収束を確保しつつ,重み付き問題の離散的性質に起因する困難を克服するために調整されたslr(surrogate lagrangian relaxation)に基づく体系的重み付き最適化手法を提案する。 我々はさらに2次罰則を用いてSLRの収束を加速する。 訓練期間中にSLRが取得したモデルパラメータは、他の最先端手法と比較すると、その最適値にかなり近い。 我々は,イメージネットを用いたResNet-18,ResNet-50,CIFAR-10を用いたResNet-50,ResNet-50,VGG-16,COCO 2014を用いたYOLOv3およびYOLOv3-tiny,TuSimpleレーン検出データセットを用いたUltra-Fast-Lane-Detectionなどの画像分類タスクについて評価を行った。 実験結果から,SLRに基づく重み付け最適化手法は,同じ精度で,最先端技術よりも高い圧縮率を実現することが示された。 また、再訓練せずにハードプルーニング段階においても高いモデル精度を達成する(従来の3段プルーニングを2段に還元する)。 再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。

Network pruning is a widely used technique to reduce computation cost and model size for deep neural networks. However, the typical three-stage pipeline, i.e., training, pruning and retraining (fine-tuning) significantly increases the overall training trails. In this paper, we develop a systematic weight-pruning optimization approach based on Surrogate Lagrangian relaxation (SLR), which is tailored to overcome difficulties caused by the discrete nature of the weight-pruning problem while ensuring fast convergence. We further accelerate the convergence of the SLR by using quadratic penalties. Model parameters obtained by SLR during the training phase are much closer to their optimal values as compared to those obtained by other state-of-the-art methods. We evaluate the proposed method on image classification tasks, i.e., ResNet-18 and ResNet-50 using ImageNet, and ResNet-18, ResNet-50 and VGG-16 using CIFAR-10, as well as object detection tasks, i.e., YOLOv3 and YOLOv3-tiny using COCO 2014 and Ultra-Fast-Lane-Detection using TuSimple lane detection dataset. Experimental results demonstrate that our SLR-based weight-pruning optimization approach achieves higher compression rate than state-of-the-arts under the same accuracy requirement. It also achieves a high model accuracy even at the hard-pruning stage without retraining (reduces the traditional three-stage pruning to two-stage). Given a limited budget of retraining epochs, our approach quickly recovers the model accuracy.
翻訳日:2021-05-01 18:22:43 公開日:2021-03-25
# 形式的検証ニューラルネットワークの複雑さの境界:幾何学的アプローチ

Bounding the Complexity of Formally Verifying Neural Networks: A Geometric Approach ( http://arxiv.org/abs/2012.11761v2 )

ライセンス: Link先を確認
James Ferlez and Yasser Shoukry(参考訳) 本稿では,Rectified Linear Unit (ReLU) Neural Networks (NN) の動作を正式に検証する計算複雑性について考察する。 具体的には、浅いNNとTLL(Two-Level Lattice)という2つの異なるNNアーキテクチャに対して、(凸)ポリトピック制約の検証問題は、その検証問題の他の全ての側面が固定されている場合、NN内のニューロン数の多項式であることを示す。 各タイプのアーキテクチャに対して明示的な(しかし類似した)検証アルゴリズムを提示することで、これらの複雑さの成果を達成します。 どちらのアルゴリズムもnnパラメータをハイパープレーンによってnnの入力空間の分割に効率的に変換し、元の検証問題をニューロンの幾何から得られる多項式的に多くのサブ検証問題に分割する効果を持つ。 これらのサブプロブレムはNNが純粋にアフィンであるように選択でき、したがって各サブプロブレムは線形プログラム(LP)を用いて多項式時間で解けることを示す。 これにより、超平面配置領域を列挙する既知のアルゴリズムを用いて、元の検証問題に対する多項式時間アルゴリズムを得ることができる。 最後に、提案アルゴリズムを動的システムの検証に適用し、特にこれらのNNアーキテクチャがLTIシステムの状態フィードバックコントローラとして使用される場合について述べる。 さらに,本手法の有効性を数値的に評価する。

In this paper, we consider the computational complexity of formally verifying the behavior of Rectified Linear Unit (ReLU) Neural Networks (NNs), where verification entails determining whether the NN satisfies convex polytopic specifications. Specifically, we show that for two different NN architectures -- shallow NNs and Two-Level Lattice (TLL) NNs -- the verification problem with (convex) polytopic constraints is polynomial in the number of neurons in the NN to be verified, when all other aspects of the verification problem held fixed. We achieve these complexity results by exhibiting explicit (but similar) verification algorithms for each type of architecture. Both algorithms efficiently translate the NN parameters into a partitioning of the NN's input space by means of hyperplanes; this has the effect of partitioning the original verification problem into polynomially many sub-verification problems derived from the geometry of the neurons. We show that these sub-problems may be chosen so that the NN is purely affine within each, and hence each sub-problem is solvable in polynomial time by means of a Linear Program (LP). Thus, a polynomial-time algorithm for the original verification problem can be obtained using known algorithms for enumerating the regions in a hyperplane arrangement. Finally, we adapt our proposed algorithms to the verification of dynamical systems, specifically when these NN architectures are used as state-feedback controllers for LTI systems. We further evaluate the viability of this approach numerically.
翻訳日:2021-04-26 07:26:58 公開日:2021-03-25
# 物理メール上のプライバシー攻撃に基づくディープラーニングのモデリング

Modeling Deep Learning Based Privacy Attacks on Physical Mail ( http://arxiv.org/abs/2012.11803v2 )

ライセンス: Link先を確認
Bingyao Huang and Ruyi Lian and Dimitris Samaras and Haibin Ling(参考訳) メールのプライバシー保護は、通常の紙封筒ほど安全ではないため、封筒内の隠されたコンテンツへの不正アクセスを防止することを目的としている。 本稿では,高度に設計された深層学習モデルを用いて,エンベロープを開くことなく,隠れたコンテンツを大々的に復元できることを初めて示す。 まず,物理的メールコンテンツに対する深層学習に基づくプライバシー攻撃を,カメラでキャプチャされた表層画像から隠れたコンテンツへのマッピングを学習し,そのマッピングを,ニューラルネットワークneural-ste(see-through-envelope)と呼ばれる深層畳み込みニューラルネットワークを用いた遠近変換,画像デハジング,デノイジングの組み合わせとして明示的にモデル化する。 本研究では,テクスチャや画像構造などの隠された内容の詳細を明らかに復元できることを実験的に示す。 最後に、私たちの定式化とモデルにより、物理的なメールに対するディープラーニングベースのプライバシー攻撃に対抗するエンベロープを設計できます。

Mail privacy protection aims to prevent unauthorized access to hidden content within an envelope since normal paper envelopes are not as safe as we think. In this paper, for the first time, we show that with a well designed deep learning model, the hidden content may be largely recovered without opening the envelope. We start by modeling deep learning-based privacy attacks on physical mail content as learning the mapping from the camera-captured envelope front face image to the hidden content, then we explicitly model the mapping as a combination of perspective transformation, image dehazing and denoising using a deep convolutional neural network, named Neural-STE (See-Through-Envelope). We show experimentally that hidden content details, such as texture and image structure, can be clearly recovered. Finally, our formulation and model allow us to design envelopes that can counter deep learning-based privacy attacks on physical mail.
翻訳日:2021-04-26 07:17:13 公開日:2021-03-25
# soft-introvae:introspective variational autoencoderの分析と改善

Soft-IntroVAE: Analyzing and Improving the Introspective Variational Autoencoder ( http://arxiv.org/abs/2012.13253v2 )

ライセンス: Link先を確認
Tal Daniel and Aviv Tamar(参考訳) 最近導入された IntroVAE (IntroVAE) は、優れた画像生成を示し、画像エンコーダを用いた償却推論を可能にする。 IntroVAEの主なアイデアは、VAEエンコーダを使用して、生成されたデータと実際のデータサンプルを識別して、VAEを逆さまにトレーニングすることだ。 しかし、元々のIntroVAE損失関数は、実際に安定することが非常に難しい特定のヒンジロス定式化に依存し、その理論的収束解析は損失の重要な項を無視した。 本研究では, 導入モデル, 実践的実装, 応用についてより深く理解するための一歩を踏み出す。 我々は,ヒンジロス項をスムーズな指数損失で置き換える改良型IntroVAEであるSoft-IntroVAEを提案する。 この変更はトレーニングの安定性を大幅に改善し、完全なアルゴリズムの理論解析を可能にする。 興味深いことに、IntroVAEはデータ分布とエントロピー項とのKL距離の和を最小化する分布に収束する。 この結果の意義を考察し,競合画像の生成と再構成を誘導することを示す。 最後に,非教師なし画像翻訳と分布外検出に対するsoft-introvaeの2つの応用について述べ,説得力のある結果を示す。 コードと追加情報はプロジェクトのwebサイト -https://taldatech.github.io/soft-intro-vae-webで入手できる。

The recently introduced introspective variational autoencoder (IntroVAE) exhibits outstanding image generations, and allows for amortized inference using an image encoder. The main idea in IntroVAE is to train a VAE adversarially, using the VAE encoder to discriminate between generated and real data samples. However, the original IntroVAE loss function relied on a particular hinge-loss formulation that is very hard to stabilize in practice, and its theoretical convergence analysis ignored important terms in the loss. In this work, we take a step towards better understanding of the IntroVAE model, its practical implementation, and its applications. We propose the Soft-IntroVAE, a modified IntroVAE that replaces the hinge-loss terms with a smooth exponential loss on generated samples. This change significantly improves training stability, and also enables theoretical analysis of the complete algorithm. Interestingly, we show that the IntroVAE converges to a distribution that minimizes a sum of KL distance from the data distribution and an entropy term. We discuss the implications of this result, and demonstrate that it induces competitive image generation and reconstruction. Finally, we describe two applications of Soft-IntroVAE to unsupervised image translation and out-of-distribution detection, and demonstrate compelling results. Code and additional information is available on the project website -- https://taldatech.github.io/soft-intro-vae-web
翻訳日:2021-04-25 08:27:07 公開日:2021-03-25
# REM-Net:Recursive Erasure Memory Network for Commonsense Evidence Refinement

REM-Net: Recursive Erasure Memory Network for Commonsense Evidence Refinement ( http://arxiv.org/abs/2012.13185v3 )

ライセンス: Link先を確認
Yinya Huang, Meng Fang, Xunlin Zhan, Qingxing Cao, Xiaodan Liang, Liang Lin(参考訳) 質問に答えるとき、人々は特定の文脈に加えて、自分の豊かな世界知識を引き出すことが多い。 近年の研究では、共通知識ベースから支援事実・証拠を回収し、各質問に追加情報を提供する一方で、証拠の質を向上する機会は十分にある。 証拠の質は常識的な質問に答える鍵であり、qaシステムのパフォーマンスの上限も決定するので、これは非常に重要です。 本稿では,エビデンスの品質向上に対応するための再帰的消去メモリネットワーク(rem-net)を提案する。 これを解決するため、REM-Netは、質問に答えない低品質な証拠を再帰的に消去することで証拠を洗練するためのモジュールを備えている。 さらに、REM-Netは既存の知識ベースから証拠を取得する代わりに、事前訓練された生成モデルを活用して、質問用にカスタマイズされた候補証拠を生成する。 WIQAとCosmosQAの2つの共通性質問応答データセットについて実験を行った。 その結果、REM-Netの性能を実証し、洗練された証拠が説明可能であることを示した。

When answering a question, people often draw upon their rich world knowledge in addition to the particular context. While recent works retrieve supporting facts/evidence from commonsense knowledge bases to supply additional information to each question, there is still ample opportunity to advance it on the quality of the evidence. It is crucial since the quality of the evidence is the key to answering commonsense questions, and even determines the upper bound on the QA systems performance. In this paper, we propose a recursive erasure memory network (REM-Net) to cope with the quality improvement of evidence. To address this, REM-Net is equipped with a module to refine the evidence by recursively erasing the low-quality evidence that does not explain the question answering. Besides, instead of retrieving evidence from existing knowledge bases, REM-Net leverages a pre-trained generative model to generate candidate evidence customized for the question. We conduct experiments on two commonsense question answering datasets, WIQA and CosmosQA. The results demonstrate the performance of REM-Net and show that the refined evidence is explainable.
翻訳日:2021-04-25 08:26:26 公開日:2021-03-25
# (参考訳) ボトムアップ姿勢推定のためのヒートマップ回帰の再検討

Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation ( http://arxiv.org/abs/2012.15175v4 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Zhicheng Wang, Yan Huang, Tieniu Tan, Erjin Zhou(参考訳) ヒートマップ回帰は、現在人間のポーズ推定法において最も一般的な選択となっている。 基底トラスヒートマップは通常、2Dガウス核によって全ての骨格キーポイントをカバーして構築される。 これらのカーネルの標準偏差は固定されている。 しかし、人間のスケールの大きな分散や曖昧さのラベル付けが必要なボトムアップ手法では、現在のプラクティスは理にかなっているように思える。 これらの問題に対処するために、各キーポイントの標準偏差を適応的に調整できるスケール適応型ヒートマップ回帰法(SAHR)を提案する。 このように、SAHRは様々な人間のスケールに寛容であり、曖昧さをラベル付けする。 しかし、SAHRは背景サンプル間の不均衡を悪化させ、SAHRの改善を損なう可能性がある。 そこで,本研究では,重量適応型ヒートマップ回帰法(WAHR)を導入して,背景試料のバランスをとる。 広汎な実験により,SAHRとWAHRはボトムアップヒトのポーズ推定の精度を大幅に向上させることが示された。 その結果,ほとんどのトップダウン手法の性能と組み合わせたCOCO test-dev2017において,技術モデルの性能を+1.5APで上回り,72.0APを達成した。 ソースコードはhttps://github.com/greatlog/SWAHR-HumanPoseで入手できる。

Heatmap regression has become the most prevalent choice for nowadays human pose estimation methods. The ground-truth heatmaps are usually constructed via covering all skeletal keypoints by 2D gaussian kernels. The standard deviations of these kernels are fixed. However, for bottom-up methods, which need to handle a large variance of human scales and labeling ambiguities, the current practice seems unreasonable. To better cope with these problems, we propose the scale-adaptive heatmap regression (SAHR) method, which can adaptively adjust the standard deviation for each keypoint. In this way, SAHR is more tolerant of various human scales and labeling ambiguities. However, SAHR may aggravate the imbalance between fore-background samples, which potentially hurts the improvement of SAHR. Thus, we further introduce the weight-adaptive heatmap regression (WAHR) to help balance the fore-background samples. Extensive experiments show that SAHR together with WAHR largely improves the accuracy of bottom-up human pose estimation. As a result, we finally outperform the state-of-the-art model by +1.5AP and achieve 72.0AP on COCO test-dev2017, which is com-arable with the performances of most top-down methods. Source codes are available at https://github.com/greatlog/SWAHR-HumanPose.
翻訳日:2021-04-18 13:23:58 公開日:2021-03-25
# グラフニューラルネットワークの説明可能性:分類学的調査

Explainability in Graph Neural Networks: A Taxonomic Survey ( http://arxiv.org/abs/2012.15445v2 )

ライセンス: Link先を確認
Hao Yuan, Haiyang Yu, Shurui Gui, and Shuiwang Ji(参考訳) ディープラーニングの手法は多くの人工知能タスクでますます高いパフォーマンスを達成しています。 深層モデルの大きな制限は、それらが解釈可能でないことである。 この制限は、予測を説明するポストホック技術を開発し、説明可能性の領域を生じさせることによって回避できる。 近年,画像やテキストの深層モデルの説明可能性が大きく進歩している。 グラフデータ領域では、グラフニューラルネットワーク(GNN)とその説明可能性が急速に発展している。 しかし、GNN説明可能性手法の統一的な処理や標準ベンチマークや評価のためのテストベッドは存在しない。 本調査では,現在のGNN説明可能性手法の統一的・分類学的考察を行う。 本研究の統一的・分類学的処理は,既存の方法の共通点と相違点に光を当て,さらなる方法論的発展の舞台を整えた。 評価を容易にするため,GNN説明可能性のためのベンチマークグラフデータセットを作成した。 GNN説明可能性を評価するための現在のデータセットとメトリクスを要約する。 この研究は、GNN説明可能性の統一的な方法論的処理と、評価のための標準化されたテストベッドを提供する。

Deep learning methods are achieving ever-increasing performance on many artificial intelligence tasks. A major limitation of deep models is that they are not amenable to interpretability. This limitation can be circumvented by developing post hoc techniques to explain the predictions, giving rise to the area of explainability. Recently, explainability of deep models on images and texts has achieved significant progress. In the area of graph data, graph neural networks (GNNs) and their explainability are experiencing rapid developments. However, there is neither a unified treatment of GNN explainability methods, nor a standard benchmark and testbed for evaluations. In this survey, we provide a unified and taxonomic view of current GNN explainability methods. Our unified and taxonomic treatments of this subject shed lights on the commonalities and differences of existing methods and set the stage for further methodological developments. To facilitate evaluations, we generate a set of benchmark graph datasets specifically for GNN explainability. We summarize current datasets and metrics for evaluating GNN explainability. Altogether, this work provides a unified methodological treatment of GNN explainability and a standardized testbed for evaluations.
翻訳日:2021-04-17 17:25:00 公開日:2021-03-25
# プロトタイプベースパーソナライズプルーニング

Prototype-based Personalized Pruning ( http://arxiv.org/abs/2103.15564v1 )

ライセンス: Link先を確認
Jangho Kim, Simyung Chang, Sungrack Yun, Nojun Kwak(参考訳) 近年、スマートフォンなどのエッジデバイスの普及に伴い、パーソナライズされたサービスへの需要が高まっている。 しかしながら、従来のパーソナライズ手法は、限られた個人データで再トレーニングや微調整を必要とするため、エッジデバイスには適さない。 また、完全なモデルは限られたリソースを持つエッジデバイスには重すぎるかもしれない。 残念ながら、モデルの複雑さの問題を扱うモデル圧縮メソッドは、再トレーニングフェーズも必要です。 これらの複数のトレーニングフェーズは、デバイス上での学習において大きな計算コストを必要とする。 本研究では,プロトタイプベースパーソナライズプルーニング(PPP)と呼ばれる動的パーソナライズ手法を提案する。 PPPはパーソナライズとモデル効率の両端を考慮する。 ネットワークをトレーニングした後、PPPは個人データの特徴を表すプロトタイプで容易にネットワークを訓練でき、再トレーニングや微調整をすることなく、うまく機能する。 コンピュータビジョンとキーワードスポッティングにおける2つのタスクにおけるPPPの有用性を検証する。

Nowadays, as edge devices such as smartphones become prevalent, there are increasing demands for personalized services. However, traditional personalization methods are not suitable for edge devices because retraining or finetuning is needed with limited personal data. Also, a full model might be too heavy for edge devices with limited resources. Unfortunately, model compression methods which can handle the model complexity issue also require the retraining phase. These multiple training phases generally need huge computational cost during on-device learning which can be a burden to edge devices. In this work, we propose a dynamic personalization method called prototype-based personalized pruning (PPP). PPP considers both ends of personalization and model efficiency. After training a network, PPP can easily prune the network with a prototype representing the characteristics of personal data and it performs well without retraining or finetuning. We verify the usefulness of PPP on a couple of tasks in computer vision and Keyword spotting.
翻訳日:2021-03-30 14:47:37 公開日:2021-03-25
# Edge AIの設計方法論と将来動向:特殊化と共同設計

Enabling Design Methodologies and Future Trends forEdge AI: Specialization and Co-design ( http://arxiv.org/abs/2103.15750v1 )

ライセンス: Link先を確認
Cong Hao, Jordan Dotzel, Jinjun Xiong, Luca Benini, Zhiru Zhang, Deming Chen(参考訳) 近年、人工知能(AI)技術は劇的に進歩し、人々の生活に革命的な変化をもたらした。 エッジコンピューティングを活用して、AIワークロードは、中央集権的なクラウドアーキテクチャから分散エッジシステムへと移行し、エッジAIと呼ばれる新しいパラダイムを導入している。 edge aiは、共通エッジデバイスを通じて日常生活に自律性と知性を大幅に増やすことを約束しているが、特にアルゴリズムの開発や、これらのユニークな課題に対応する新しいデザイン方法論を求めるサービスの展開において、新たな課題を提起している。 本稿では、エッジai開発スタック全体にまたがる最新の設計方法論に関する総合的な調査を行う。 効率的なエッジAI開発のための重要な手法は、単層特殊化とクロス層共同設計である。 オンデバイストレーニング手法,専用ソフトウェア設計,専用ハードウェア設計,ベンチマークと設計自動化,ソフトウェア/ハードウェア共同設計,ソフトウェア/コンパイラ共同設計,コンパイラ/ハードウェア共同設計など,各カテゴリの代表的な方法論について詳細に論じる。 さらに、将来のエッジaiのソリューション品質をさらに向上させ、研究の焦点を増す必要がある将来の方向性や新興分野への洞察を提供する、隠れたクロスレイヤー設計の機会を明らかにすることを試みる。

Artificial intelligence (AI) technologies have dramatically advanced in recent years, resulting in revolutionary changes in people's lives. Empowered by edge computing, AI workloads are migrating from centralized cloud architectures to distributed edge systems, introducing a new paradigm called edge AI. While edge AI has the promise of bringing significant increases in autonomy and intelligence into everyday lives through common edge devices, it also raises new challenges, especially for the development of its algorithms and the deployment of its services, which call for novel design methodologies catered to these unique challenges. In this paper, we provide a comprehensive survey of the latest enabling design methodologies that span the entire edge AI development stack. We suggest that the key methodologies for effective edge AI development are single-layer specialization and cross-layer co-design. We discuss representative methodologies in each category in detail, including on-device training methods, specialized software design, dedicated hardware design, benchmarking and design automation, software/hardware co-design, software/compiler co-design, and compiler/hardware co-design. Moreover, we attempt to reveal hidden cross-layer design opportunities that can further boost the solution quality of future edge AI and provide insights into future directions and emerging areas that require increased research focus.
翻訳日:2021-03-30 14:45:04 公開日:2021-03-25
# (参考訳) 長時間特徴集約による圧縮映像のリアルタイム・高精度物体検出

Real-Time and Accurate Object Detection in Compressed Video by Long Short-term Feature Aggregation ( http://arxiv.org/abs/2103.14529v1 )

ライセンス: CC BY 4.0
Xinggang Wang, Zhaojin Huang, Bencheng Liao, Lichao Huang, Yongchao Gong, Chang Huang(参考訳) ビデオ物体検出はコンピュータビジョンにおける根本的な問題であり、幅広い応用範囲がある。 ディープネットワークに基づいて,検出速度と精度の限界を押し上げるために,映像物体検出が積極的に研究されている。 計算コストを低減させるため,キーフレームをビデオでサンプリングし,残りフレームを非キーフレームとして扱い,大きなディープネットワークをキーフレームの特徴抽出に,小さなネットワークを非キーフレームに使用する。 非鍵フレームの特徴を高めるために、キーフレームの特徴の豊富な情報を高速に非鍵フレームの特徴に伝達する、新しい短期的特徴集約法を提案する。 高速機能アグリゲーションは、圧縮ビデオで自由に利用可能なモーションキューによって実現される。 さらに、光フローに基づいてキーフレームの特徴を集約する。 伝播した深い特徴は、オブジェクト検出のために直接抽出された特徴と統合される。 特徴抽出と機能統合パラメータはエンドツーエンドで最適化される。 提案するビデオオブジェクト検出ネットワークは、大規模なImageNet VIDベンチマークに基づいて評価され、Titan X GPUを用いた30FPSの速度で77.2\% mAPを達成する。 ソースコードは \url{https://github.com/hustvl/LSFA} で入手できる。

Video object detection is a fundamental problem in computer vision and has a wide spectrum of applications. Based on deep networks, video object detection is actively studied for pushing the limits of detection speed and accuracy. To reduce the computation cost, we sparsely sample key frames in video and treat the rest frames are non-key frames; a large and deep network is used to extract features for key frames and a tiny network is used for non-key frames. To enhance the features of non-key frames, we propose a novel short-term feature aggregation method to propagate the rich information in key frame features to non-key frame features in a fast way. The fast feature aggregation is enabled by the freely available motion cues in compressed videos. Further, key frame features are also aggregated based on optical flow. The propagated deep features are then integrated with the directly extracted features for object detection. The feature extraction and feature integration parameters are optimized in an end-to-end manner. The proposed video object detection network is evaluated on the large-scale ImageNet VID benchmark and achieves 77.2\% mAP, which is on-par with state-of-the-art accuracy, at the speed of 30 FPS using a Titan X GPU. The source codes are available at \url{https://github.com/hustvl/LSFA}.
翻訳日:2021-03-30 04:57:06 公開日:2021-03-25
# (参考訳) 因果推論に基づくユーザ指向スマート汎用AIシステム

User-Oriented Smart General AI System under Causal Inference ( http://arxiv.org/abs/2103.14561v1 )

ライセンス: CC BY 4.0
Huimin Peng(参考訳) 一般的なaiシステムは、自動化された方法でハイパフォーマンスで幅広いタスクを解決します。 ある個人が設計した最も一般的なaiアルゴリズムは、他の個人が考案したものとは異なる。 異なるユーザーによって達成される最高のパフォーマンス記録も異なる。 一般的なAIの必然的な構成要素は、ユーザ固有のタスク情報の理解と、ユーザ技術経験に関連する個々のモデル設計の好みに依存する暗黙の知識である。 暗黙の知識はモデルの性能に影響を与えるが、一般的なAIアルゴリズムで自動的に最適化することはできない。 本稿では,UOGASがユーザ指向汎用AIシステムを表し,uCIが因果推論の枠組みの下で意味するUOGASuCIと略される,因果推論に基づくユーザ指向スマート汎用AIシステムを提案する。 外部メモリモジュールにおける多くのユーザのモデルトレーニング経験から,暗黙的知識に大きな影響を与えるユーザ特性を抽出することができる。 因果推論の枠組みの下では,ユーザによって設計された最良のモデル性能と結びついたユーザ特性の最適値を特定することができる。 ユーザ特性の違いがユーザによって達成された最良のモデルパフォーマンスをいかに改善できるか,ユーザに提案する。 個別化された暗黙的知識理解と技術的嗜好に関連するユーザ特性の更新を推奨することにより、UOGASは、より優れたパフォーマンスを持つモデルの設計を支援する。

General AI system solves a wide range of tasks with high performance in an automated fashion. The best general AI algorithm designed by one individual is different from that devised by another. The best performance records achieved by different users are also different. An inevitable component of general AI is tacit knowledge that depends upon user-specific comprehension of task information and individual model design preferences that are related to user technical experiences. Tacit knowledge affects model performance but cannot be automatically optimized in general AI algorithms. In this paper, we propose User-Oriented Smart General AI System under Causal Inference, abbreviated as UOGASuCI, where UOGAS represents User-Oriented General AI System and uCI means under the framework of causal inference. User characteristics that have a significant influence upon tacit knowledge can be extracted from observed model training experiences of many users in external memory modules. Under the framework of causal inference, we manage to identify the optimal value of user characteristics that are connected with the best model performance designed by users. We make suggestions to users about how different user characteristics can improve the best model performance achieved by users. By recommending updating user characteristics associated with individualized tacit knowledge comprehension and technical preferences, UOGAS helps users design models with better performance.
翻訳日:2021-03-30 04:40:43 公開日:2021-03-25
# (参考訳) カルマンアンサンブルを用いたランドマーク測地学の学習

Learning landmark geodesics using Kalman ensembles ( http://arxiv.org/abs/2103.14076v1 )

ライセンス: CC BY 4.0
Andreas Bock, Colin J. Cotter(参考訳) 本研究では, 2 組のランドマーク間の群作用写像を通して微分同相を見つけることを目的とした微分同形測地線ランドマークマッチングの問題について検討する。 ランドマークの運動、すなわち微分同相は、そのようなモーメント上の最適化問題としてランドマークマッチング問題を解けるような定式化につながる初期運動量によって符号化できることはよく知られている。 我々の研究の新規性は、テンプレートとターゲットの間の微分同相写像をコードする最適運動量を学ぶための微分自由ベイズ逆法の適用にある。 私たちが適用する手法は、非線形観測演算子へのカルマンフィルタの拡張であるアンサンブルカルマンフィルタである。 本稿では,アルゴリズムの効率的な実装について述べるとともに,様々な形状の数値的な結果を示す。

We study the problem of diffeomorphometric geodesic landmark matching where the objective is to find a diffeomorphism that via its group action maps between two sets of landmarks. It is well-known that the motion of the landmarks, and thereby the diffeomorphism, can be encoded by an initial momentum leading to a formulation where the landmark matching problem can be solved as an optimisation problem over such momenta. The novelty of our work lies in the application of a derivative-free Bayesian inverse method for learning the optimal momentum encoding the diffeomorphic mapping between the template and the target. The method we apply is the ensemble Kalman filter, an extension of the Kalman filter to nonlinear observation operators. We describe an efficient implementation of the algorithm and show several numerical results for various target shapes.
翻訳日:2021-03-30 04:01:40 公開日:2021-03-25
# (参考訳) 機械学習システムにおけるミスマッチのキャラクタリゼーションと検出

Characterizing and Detecting Mismatch in Machine-Learning-Enabled Systems ( http://arxiv.org/abs/2103.14101v1 )

ライセンス: CC BY 4.0
Grace A. Lewis, Stephany Bellomo, Ipek Ozkaya(参考訳) 機械学習(ML)フレームワークとツールの可用性の向上と、データ駆動による意思決定問題に対するソリューション改善の約束により、ソフトウェアシステムでMLテクニックの使用が人気になった。 しかし、ML対応システムのエンドツーエンド開発と、シームレスなデプロイメントと運用は依然として課題である。 1つの理由は、ML対応システムの開発とデプロイには、データサイエンス、ソフトウェアエンジニアリング、オペレーションを含む3つの異なるワークフロー、視点、役割が含まれるからである。 これら3つの異なる視点は、誤った仮定のために一致しなかった場合、MLミスマッチを引き起こす。 そこで我々は,ML対応システムのエンドツーエンド開発において発生する一般的なミスマッチを収集し,検証した。 我々の分析は、各役割がどのように関連するミスマッチの重要性を優先するかが異なり、これらのミスマッチした仮定に寄与する可能性があることを示している。 さらに、私たちが特定したミスマッチカテゴリは、ML対応システム開発の改善に寄与するマシン可読記述子として指定することができる。 本稿では,エンド・ツー・エンドのML対応システム開発を改善するための知見とその意義について報告する。

Increasing availability of machine learning (ML) frameworks and tools, as well as their promise to improve solutions to data-driven decision problems, has resulted in popularity of using ML techniques in software systems. However, end-to-end development of ML-enabled systems, as well as their seamless deployment and operations, remain a challenge. One reason is that development and deployment of ML-enabled systems involves three distinct workflows, perspectives, and roles, which include data science, software engineering, and operations. These three distinct perspectives, when misaligned due to incorrect assumptions, cause ML mismatches which can result in failed systems. We conducted an interview and survey study where we collected and validated common types of mismatches that occur in end-to-end development of ML-enabled systems. Our analysis shows that how each role prioritizes the importance of relevant mismatches varies, potentially contributing to these mismatched assumptions. In addition, the mismatch categories we identified can be specified as machine readable descriptors contributing to improved ML-enabled system development. In this paper, we report our findings and their implications for improving end-to-end ML-enabled system development.
翻訳日:2021-03-30 03:06:44 公開日:2021-03-25
# (参考訳) クロスモーダル学習のための識別的意味的推移的一貫性

Discriminative Semantic Transitive Consistency for Cross-Modal Learning ( http://arxiv.org/abs/2103.14103v1 )

ライセンス: CC BY 4.0
Kranti Kumar Parida, Gaurav Sharma(参考訳) クロスモーダル検索は通常、2つの異なるモダリティから共有表現空間にデータを投影して整列することによって行われる。 この共有空間は、しばしばモダリティを翻訳するブリッジとしても機能する。 識別的意味的推移的一貫性の特性を提案・活用することで、このような表現空間を学習する問題に対処し、他のモダリティに転送された後もデータポイントが正しく分類されるようにする。 意味的推移的一貫性とともに、表現空間に近付くモダリティから対応するデータポイントの投影を行う従来の距離最小化制約も実施する。 我々は、タスクに対する損失項とそれらの相互作用の両方の寄与を分析し比較する。 さらに,各モダリティに対する意味的サイクル一貫性も取り入れている。 明確なアブレーション研究により,異なるコンポーネントによる性能向上を実証的に実証した。 提案を支持するための質的な結果も提供します。

Cross-modal retrieval is generally performed by projecting and aligning the data from two different modalities onto a shared representation space. This shared space often also acts as a bridge for translating the modalities. We address the problem of learning such representation space by proposing and exploiting the property of Discriminative Semantic Transitive Consistency -- ensuring that the data points are correctly classified even after being transferred to the other modality. Along with semantic transitive consistency, we also enforce the traditional distance minimizing constraint which makes the projections of the corresponding data points from both the modalities to come closer in the representation space. We analyze and compare the contribution of both the loss terms and their interaction, for the task. In addition, we incorporate semantic cycle-consistency for each of the modality. We empirically demonstrate better performance owing to the different components with clear ablation studies. We also provide qualitative results to support the proposals.
翻訳日:2021-03-30 02:53:54 公開日:2021-03-25
# (参考訳) 過パラメータ回帰と対向摂動の幾何学

The Geometry of Over-parameterized Regression and Adversarial Perturbations ( http://arxiv.org/abs/2103.14108v1 )

ライセンス: CC BY 4.0
Jason W. Rocks and Pankaj Mehta(参考訳) 古典的な回帰は、トレーニングラベルをデザイン行列の列空間に投影するという観点で単純な幾何学的記述を持つ。 しかし、適合パラメータの数がトレーニングデータに完全に適合するほど大きい過剰パラメータモデルの場合、この図は非形式的になる。 ここでは,過小パラメータモデルと過大パラメータモデルの両方に適用可能な回帰の幾何学的解釈を提案する。 トレーニングラベルの空間で発生する古典的な絵とは異なり、私たちの新しい絵は入力特徴の空間に存在する。 この新しい特徴に基づく視点は、バイアスと分散の文脈における二重発振現象の自然な幾何学的解釈を提供し、なぜラベルノイズがなくても起こりうるのかを説明する。 さらに,ラベル値に大きな変化をもたらす入力特徴に対する小さな摂動は,下層の幾何学から生じる偏りのあるモデルの一般的な特徴であることを示す。 線形・非線形基底関数(線形・非線形アクティベーション関数を持つ2層ニューラルネットワーク)を非基底関数(入力特性が等しい)と非線形基底関数(入力特性が等しい)の3つの最小モデルの解析により,これらのアイデアを実証する。

Classical regression has a simple geometric description in terms of a projection of the training labels onto the column space of the design matrix. However, for over-parameterized models -- where the number of fit parameters is large enough to perfectly fit the training data -- this picture becomes uninformative. Here, we present an alternative geometric interpretation of regression that applies to both under- and over-parameterized models. Unlike the classical picture which takes place in the space of training labels, our new picture resides in the space of input features. This new feature-based perspective provides a natural geometric interpretation of the double-descent phenomenon in the context of bias and variance, explaining why it can occur even in the absence of label noise. Furthermore, we show that adversarial perturbations -- small perturbations to the input features that result in large changes in label values -- are a generic feature of biased models, arising from the underlying geometry. We demonstrate these ideas by analyzing three minimal models for over-parameterized linear least squares regression: without basis functions (input features equal model features) and with linear or nonlinear basis functions (two-layer neural networks with linear or nonlinear activation functions, respectively).
翻訳日:2021-03-30 02:33:57 公開日:2021-03-25
# (参考訳) gprar: グラフ畳み込みネットワークによるポーズ再構成と行動認識による人間の軌道予測

GPRAR: Graph Convolutional Network based Pose Reconstruction and Action Recognition for Human Trajectory Prediction ( http://arxiv.org/abs/2103.14113v1 )

ライセンス: CC BY 4.0
Manh Huynh, Gita Alaghband(参考訳) 精度の高い予測は、自動運転のような様々な用途に不可欠である。 既存の予測モデルは、観測(例:観測)を行う現実世界の設定でエラーを起こしやすい。 人間のポーズや場所)は騒がしいことが多い。 この問題に対処するために,人間軌道予測のためのポーズ再構成と行動認識に基づくグラフ畳み込みネットワークであるgprarを提案する。 GPRARのキーとなるアイデアは、ノイズの多いシナリオの下で、人間のポーズとアクションという堅牢な機能を生成することだ。 そこで我々は,2つの新しいサブネットワークであるPRAR(Pose Reconstruction and Action Recognition)とFA(Feature Aggregator)を用いてGPRARを設計する。 PRARは人間の骨格の一貫性と構造的特性から人間のポーズと行動の特徴を同時に再構築することを目的としている。 エンコーダと2つのデコーダのネットワークであり、それぞれが時空間グラフ畳み込みネットワークの複数の層で構成されている。 さらに,エンコーダ・デコーダに基づく時間畳み込みニューラルネットワークを用いて,人間のポーズ,行動,位置,カメラの動きをチャネル的に集約し,将来の位置を予測する機能アグリゲータ(FA)を提案する。 一般的なデータセットであるjaad [13]とtitan [19]の広範な実験では、最先端モデルよりもgprarの精度が向上している。 特に、gprarはjaadデータセットとtitanデータセットのノイズ観測において、予測精度を22%と50%向上させる。

Prediction with high accuracy is essential for various applications such as autonomous driving. Existing prediction models are easily prone to errors in real-world settings where observations (e.g. human poses and locations) are often noisy. To address this problem, we introduce GPRAR, a graph convolutional network based pose reconstruction and action recognition for human trajectory prediction. The key idea of GPRAR is to generate robust features: human poses and actions, under noisy scenarios. To this end, we design GPRAR using two novel sub-networks: PRAR (Pose Reconstruction and Action Recognition) and FA (Feature Aggregator). PRAR aims to simultaneously reconstruct human poses and action features from the coherent and structural properties of human skeletons. It is a network of an encoder and two decoders, each of which comprises multiple layers of spatiotemporal graph convolutional networks. Moreover, we propose a Feature Aggregator (FA) to channel-wise aggregate the learned features: human poses, actions, locations, and camera motion using encoder-decoder based temporal convolutional neural networks to predict future locations. Extensive experiments on the commonly used datasets: JAAD [13] and TITAN [19] show accuracy improvements of GPRAR over state-of-theart models. Specifically, GPRAR improves the prediction accuracy up to 22% and 50% under noisy observations on JAAD and TITAN datasets, respectively
翻訳日:2021-03-30 01:51:34 公開日:2021-03-25
# (参考訳) 逆関数に対する負フィードバック特性を用いたニューラルネットワークの学習

Training Neural Networks Using the Property of Negative Feedback to Inverse a Function ( http://arxiv.org/abs/2103.14115v1 )

ライセンス: CC BY 4.0
Md Munir Hasan and Jeremy Holleman(参考訳) 高フォワードゲインでは、負のフィードバックシステムは、フィードバックパスにある線形または非線型関数の逆を実行することができる。 この負のフィードバックシステムの特性は、正確な閉ループ関数を構築するためにアナログ回路で広く用いられている。 本稿では,関数の逆解析を行う負のフィードバックシステムの特性をニューラルネットワークのトレーニングに利用する方法について述べる。 この方法は、コストやアクティベーション関数が微分可能である必要はない。 したがって、微分不可能な関数のクラスを学ぶことができ、勾配降下に基づく手法が失敗する。 また,提案手法の特別な場合として勾配降下が出現することを示した。 本手法をmnistデータセットに適用し,ニューラルネットワークの学習に有効であることを示す結果を得た。 この方法は、私たちの知る限り、機械学習において新しいものです。

With high forward gain, a negative feedback system has the ability to perform the inverse of a linear or non linear function that is in the feedback path. This property of negative feedback systems has been widely used in analog circuits to construct precise closed-loop functions. This paper describes how the property of a negative feedback system to perform inverse of a function can be used for training neural networks. This method does not require that the cost or activation functions be differentiable. Hence, it is able to learn a class of non-differentiable functions as well where a gradient descent-based method fails. We also show that gradient descent emerges as a special case of the proposed method. We have applied this method to the MNIST dataset and obtained results that shows the method is viable for neural network training. This method, to the best of our knowledge, is novel in machine learning.
翻訳日:2021-03-30 01:37:54 公開日:2021-03-25
# (参考訳) 接触グラフネット: クラッタシーンにおける効率的な6-DoFグラフ生成

Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes ( http://arxiv.org/abs/2103.14127v1 )

ライセンス: CC BY 4.0
Martin Sundermeyer, Arsalan Mousavian, Rudolph Triebel, Dieter Fox(参考訳) 無拘束で乱雑な環境で目に見えない物体をつかむことは、自律的なロボット操作に欠かせないスキルである。 完全6自由度学習の最近の進歩にもかかわらず、既存のアプローチは、いくつかの潜在的な障害点と、クローズドループ把握に不適な実行時間を持つ複雑なシーケンシャルパイプラインで構成されることが多い。 そこで本研究では,シーンの深さ記録から直接,6-DoF並列ジャウグリップの分布を効率よく生成するエンドツーエンドネットワークを提案する。 この新しい把握表現は,記録された点雲の3次元点を潜在的な把握接点として扱う。 観測点雲に6-DoFのグリップポーズと幅を根づけることで、グリップ表現の次元を4-DoFに減らし、学習プロセスを大幅に促進することができる。 クラス非依存のアプローチは、1700万のシミュレーションによる把握を訓練し、現実世界のセンサーデータにうまく一般化します。 構造クラッタにおける未知物体のロボット把持実験では, 90%以上の成功率を達成し, 最近の最先端手法と比較して, 故障率を半分に削減した。

Grasping unseen objects in unconstrained, cluttered environments is an essential skill for autonomous robotic manipulation. Despite recent progress in full 6-DoF grasp learning, existing approaches often consist of complex sequential pipelines that possess several potential failure points and run-times unsuitable for closed-loop grasping. Therefore, we propose an end-to-end network that efficiently generates a distribution of 6-DoF parallel-jaw grasps directly from a depth recording of a scene. Our novel grasp representation treats 3D points of the recorded point cloud as potential grasp contacts. By rooting the full 6-DoF grasp pose and width in the observed point cloud, we can reduce the dimensionality of our grasp representation to 4-DoF which greatly facilitates the learning process. Our class-agnostic approach is trained on 17 million simulated grasps and generalizes well to real world sensor data. In a robotic grasping study of unseen objects in structured clutter we achieve over 90% success rate, cutting the failure rate in half compared to a recent state-of-the-art method.
翻訳日:2021-03-30 01:29:43 公開日:2021-03-25
# (参考訳) 3次元点雲解析のための等変点ネットワーク

Equivariant Point Network for 3D Point Cloud Analysis ( http://arxiv.org/abs/2103.14147v1 )

ライセンス: CC BY 4.0
Haiwei Chen and Shichen Liu and Weikai Chen and Hao Li and Randall Hill(参考訳) より大きな対称性群に等しい特徴は、近年の研究においてより差別的で強力であることが示されている。 しかし、高階同値な特徴はしばしば指数関数的に増加する計算コストを伴う。 さらに,3次元形状アライメントタスクに対処するために,回転同変特性をどのように活用できるかは,まだ明らかになっていない。 過去の多くのアプローチは3次元形状を整列する非不変あるいは不変の記述子に基づいているが、そのようなタスクは同変フレームワークから大きな恩恵を受けるかもしれない。 本稿では,両問題に対処するポイントクラウド解析のための有効かつ実用的なse(3)(3次元変換および回転)同変ネットワークを提案する。 まず、6次元畳み込みを2つの分離可能な畳み込み作用素に分解し、3次元ユークリッド空間とso(3)空間で交互に行う新しい枠組みであるse(3) separable point convolutionを提案する。 これにより、性能を損なうことなく計算コストを大幅に削減できる。 第2に,同変特徴の表現性を効果的に活用するアテンション層を導入する。 注意層はネットワークと共同で訓練しながら、特徴空間の固有の局所フレームを暗黙的に導き出し、異なるアライメントタスクに統合可能な注意ベクトルを生成する。 我々は幅広い研究と視覚的解釈を通してアプローチを評価する。 実験結果から,提案モデルが様々なベンチマークにおいて強いベースラインを上回ることを示す。

Features that are equivariant to a larger group of symmetries have been shown to be more discriminative and powerful in recent studies. However, higher-order equivariant features often come with an exponentially-growing computational cost. Furthermore, it remains relatively less explored how rotation-equivariant features can be leveraged to tackle 3D shape alignment tasks. While many past approaches have been based on either non-equivariant or invariant descriptors to align 3D shapes, we argue that such tasks may benefit greatly from an equivariant framework. In this paper, we propose an effective and practical SE(3) (3D translation and rotation) equivariant network for point cloud analysis that addresses both problems. First, we present SE(3) separable point convolution, a novel framework that breaks down the 6D convolution into two separable convolutional operators alternatively performed in the 3D Euclidean and SO(3) spaces. This significantly reduces the computational cost without compromising the performance. Second, we introduce an attention layer to effectively harness the expressiveness of the equivariant features. While jointly trained with the network, the attention layer implicitly derives the intrinsic local frame in the feature space and generates attention vectors that can be integrated into different alignment tasks. We evaluate our approach through extensive studies and visual interpretations. The empirical results demonstrate that our proposed model outperforms strong baselines in a variety of benchmarks
翻訳日:2021-03-30 01:14:34 公開日:2021-03-25
# (参考訳) InversionNet3D:3次元フルウェーブフォームインバージョンのための効率的かつスケーラブルな学習

InversionNet3D: Efficient and Scalable Learning for 3D Full Waveform Inversion ( http://arxiv.org/abs/2103.14158v1 )

ライセンス: CC BY 4.0
Qili Zeng, Shihang Feng, Brendt Wohlberg, Youzuo Lin(参考訳) FWI(Full Waveform Inversion)におけるディープラーニングの利用の最近の進歩は、復元精度と計算効率の観点から、従来の物理に基づくアプローチよりもデータ駆動手法の利点を実証している。 しかし,高い計算複雑性とメモリ消費のため,深層ネットワークによる3次元高分解能速度マップの再構成は依然として大きな課題である。 本稿では,3次元FWIのための効率よくスケーラブルなエンコーダデコーダネットワークInversionNet3Dを提案する。 提案手法では,エンコーダ内のグループ畳み込みを利用して,不要なパラメータや操作を同時に削減しつつ,複数のソースから情報を学ぶための効果的な階層を構築する。 非可逆層の導入は、トレーニング中の中間機能のメモリ消費をさらに減らし、異なるアプリケーションシナリオで要求されるより多くの層と高いキャパシティを持つより深いネットワークの開発を可能にする。 3d kimberlinaデータセットの実験では、inversionnet3dは計算コストとメモリフットプリントをベースラインよりも低くして、最先端の再構築性能を実現している。

Recent progress in the use of deep learning for Full Waveform Inversion (FWI) has demonstrated the advantage of data-driven methods over traditional physics-based approaches in terms of reconstruction accuracy and computational efficiency. However, due to high computational complexity and large memory consumption, the reconstruction of 3D high-resolution velocity maps via deep networks is still a great challenge. In this paper, we present InversionNet3D, an efficient and scalable encoder-decoder network for 3D FWI. The proposed method employs group convolution in the encoder to establish an effective hierarchy for learning information from multiple sources while cutting down unnecessary parameters and operations at the same time. The introduction of invertible layers further reduces the memory consumption of intermediate features during training and thus enables the development of deeper networks with more layers and higher capacity as required by different application scenarios. Experiments on the 3D Kimberlina dataset demonstrate that InversionNet3D achieves state-of-the-art reconstruction performance with lower computational cost and lower memory footprint compared to the baseline.
翻訳日:2021-03-30 00:58:39 公開日:2021-03-25
# (参考訳) 方向統計による微弱監視対象検出

Few-shot Weakly-Supervised Object Detection via Directional Statistics ( http://arxiv.org/abs/2103.14162v1 )

ライセンス: CC BY 4.0
Amirreza Shaban, Amir Rahimi, Thalaiyasingam Ajanthan, Byron Boots, Richard Hartley(参考訳) 少数の例から新しい物体を検出することは、近年コンピュータビジョンにおける新しい話題となっている。 しかし、これらの方法は、フィールドロボティクスのような現実世界のシナリオで適用性を制限する新しいオブジェクトカテゴリを学ぶために、完全に注釈付きトレーニングイメージを必要とする。 本研究では,少数の共通オブジェクトローカライゼーション (COL) と少数のWeakly Supervised Object Detection (WSOD) のための確率論的マルチインスタンス学習手法を提案する。 これらのタスクでは、より安価に取得できる画像レベルのラベルのみが利用可能である。 我々は,事前学習したfaster-rcnnの最終層から抽出した特徴の操作が,前回より効果的であることを示す。 本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。 確率モデルとして,事前学習した埋め込み空間に適用した場合に,ガウス分布よりも意味情報をよりよくキャプチャするvon Mises-Fisher(vMF)分布を用いる。 新たなオブジェクトがローカライズされると、新しいイメージの新しいクラスを検出するリニアな外観モデルを学ぶためにそれらを利用する。 提案手法は, 単純であるにもかかわらず, 少数のCOLやWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。

Detecting novel objects from few examples has become an emerging topic in computer vision recently. However, these methods need fully annotated training images to learn new object categories which limits their applicability in real world scenarios such as field robotics. In this work, we propose a probabilistic multiple instance learning approach for few-shot Common Object Localization (COL) and few-shot Weakly Supervised Object Detection (WSOD). In these tasks, only image-level labels, which are much cheaper to acquire, are available. We find that operating on features extracted from the last layer of a pre-trained Faster-RCNN is more effective compared to previous episodic learning based few-shot COL methods. Our model simultaneously learns the distribution of the novel objects and localizes them via expectation-maximization steps. As a probabilistic model, we employ von Mises-Fisher (vMF) distribution which captures the semantic information better than Gaussian distribution when applied to the pre-trained embedding space. When the novel objects are localized, we utilize them to learn a linear appearance model to detect novel classes in new images. Our extensive experiments show that the proposed method, despite being simple, outperforms strong baselines in few-shot COL and WSOD, as well as large-scale WSOD tasks.
翻訳日:2021-03-30 00:32:15 公開日:2021-03-25
# TCE(Tilted Cross Entropy) : セマンティックセグメンテーションにおけるフェアネスの促進

Tilted Cross Entropy (TCE): Promoting Fairness in Semantic Segmentation ( http://arxiv.org/abs/2103.14051v1 )

ライセンス: Link先を確認
Attila Szabo, Hadi Jamali-Rad, Siva-Datta Mannava(参考訳) セマンティックセグメンテーションのための従来の経験的リスク最小化(erm)は、(不公平だが)全体的なパフォーマンスを改善するために、不釣り合いに有利あるいは特定のターゲットクラスを不利にする可能性がある。 最近導入された傾斜ERM(Tinted ERM)に触発されて、傾斜したクロスエントロピー(TCE)損失を提案し、それをセマンティックセグメンテーション設定に適応させ、ターゲットクラス間の性能格差を最小化し、公平性を促進する。 意味的セグメンテーションのためのStochastic TCEは,定量的かつ定性的な性能解析により,マルチクラスクロスエントロピー(MCCE)で訓練したCityscapesとADE20kデータセットの低パフォーマンスクラスを効率的に改善し,全体的な公平性を向上させることを実証した。

Traditional empirical risk minimization (ERM) for semantic segmentation can disproportionately advantage or disadvantage certain target classes in favor of an (unfair but) improved overall performance. Inspired by the recently introduced tilted ERM (TERM), we propose tilted cross-entropy (TCE) loss and adapt it to the semantic segmentation setting to minimize performance disparity among target classes and promote fairness. Through quantitative and qualitative performance analyses, we demonstrate that the proposed Stochastic TCE for semantic segmentation can efficiently improve the low-performing classes of Cityscapes and ADE20k datasets trained with multi-class cross-entropy (MCCE), and also results in improved overall fairness.
翻訳日:2021-03-29 13:00:43 公開日:2021-03-25
# プライバシー保持密度推定のための微分プライベート正規化フロー

Differentially Private Normalizing Flows for Privacy-Preserving Density Estimation ( http://arxiv.org/abs/2103.14068v1 )

ライセンス: Link先を確認
Chris Waites and Rachel Cummings(参考訳) 正規化フローモデルは密度推定問題に対する一般的な解として上昇し、高品質な合成データ生成と正確な確率密度評価を可能にした。 しかし、個人がトレーニングデータに直接関連している状況では、そのようなモデルのリリースはプライバシの懸念を引き起こす。 本稿では,プライバシ保存密度推定問題に対する新しいアプローチとして,明示的な微分プライバシー保証を提供する正規化フローモデルの利用を提案する。 ベンチマークデータを用いて,提案手法の有効性を実証的に評価し,提案手法が従来の手法よりも優れていることを示す。 さらに,我々のアルゴリズムが,差分プライベートな異常検出にどのように適用できるかを示す。

Normalizing flow models have risen as a popular solution to the problem of density estimation, enabling high-quality synthetic data generation as well as exact probability density evaluation. However, in contexts where individuals are directly associated with the training data, releasing such a model raises privacy concerns. In this work, we propose the use of normalizing flow models that provide explicit differential privacy guarantees as a novel approach to the problem of privacy-preserving density estimation. We evaluate the efficacy of our approach empirically using benchmark datasets, and we demonstrate that our method substantially outperforms previous state-of-the-art approaches. We additionally show how our algorithm can be applied to the task of differentially private anomaly detection.
翻訳日:2021-03-29 12:59:24 公開日:2021-03-25
# 完全エンコーダ:オートエンコーダはPCAのように学習できる

Full Encoder: Make Autoencoders Learn Like PCA ( http://arxiv.org/abs/2103.14082v1 )

ライセンス: Link先を確認
Zhouzheng Li and Kun Feng(参考訳) β-vaeファミリーは,線形領域においてicaが行うことのように,絡み合った表現を見つけ,人間の解釈可能な生成因子を得ることを目標としているが,非線形領域におけるpcaに対応する新しい統一オートエンコーダフレームワークであるフルエンコーダを提案する。 この考え方は、まず1つの潜伏変数でオートエンコーダを訓練し、さらに潜伏変数を徐々に巻き込んで再構成結果を洗練させることである。 完全エンコーダで獲得した潜在変数は、ネットワークの初期状態に関係なく常に同じ表現を学習するため、安定かつ堅牢である。 フルエンコーダは非線形システムの自由度を決定するために使用することができ、データ圧縮や異常検出に有用である。 Full Encoderは、beta-VAEフレームワークと組み合わせて、生成要因の重要性を分類し、非線形システム分析のための洞察を提供することもできる。 我々は、Full Encoderをテストするための非線形システムを備えたおもちゃデータセットを作成し、その結果をVAEとβ-VAEの結果と比較した。

While the beta-VAE family is aiming to find disentangled representations and acquire human-interpretable generative factors, like what an ICA does in the linear domain, we propose Full Encoder: a novel unified autoencoder framework as a correspondence to PCA in the non-linear domain. The idea is to train an autoencoder with one latent variable first, then involve more latent variables progressively to refine the reconstruction results. The latent variables acquired with Full Encoder is stable and robust, as they always learn the same representation regardless the network initial states. Full Encoder can be used to determine the degrees of freedom in a non-linear system, and is useful for data compression or anomaly detection. Full Encoder can also be combined with beta-VAE framework to sort out the importance of the generative factors, providing more insights for non-linear system analysis. We created a toy dataset with a non-linear system to test the Full Encoder and compare its results to VAE and beta-VAE's results.
翻訳日:2021-03-29 12:58:03 公開日:2021-03-25
# deep ehrspotlight: 説明可能な予測のための電子健康記録のイベントをハイライトするフレームワークとメカニズム

Deep EHR Spotlight: a Framework and Mechanism to Highlight Events in Electronic Health Records for Explainable Predictions ( http://arxiv.org/abs/2103.14161v1 )

ライセンス: Link先を確認
Thanh Nguyen-Duc, Natasha Mulligan, Gurdeep S. Mannu, Joao H. Bettencourt-Silva(参考訳) 電子健康記録(ehr)の広範な普及により、大量の臨床データが利用可能になり、サービス提供と臨床情報学研究の推進を約束している。 ディープラーニング技術は、EHRを用いた予測分析タスクのパフォーマンスを示してきたが、一般的にはモデル結果の透明性や説明可能性機能が欠如しており、面倒な前処理タスクを必要としている。 さらに、eersにはテキスト、数字、時系列といった不均一でマルチモーダルなデータポイントが含まれており、さらに可視化や解釈を妨げている。 本稿では,1) EHR から画像への患者経路のエンコード,2) 経路画像内の重要な事象の強調,3) より複雑な予測を可能にするためのディープラーニングフレームワークを提案する。 提案手法は,予測を可視化するための深い注意機構に依存し,複数の逐次結果の予測を可能にする。

The wide adoption of Electronic Health Records (EHR) has resulted in large amounts of clinical data becoming available, which promises to support service delivery and advance clinical and informatics research. Deep learning techniques have demonstrated performance in predictive analytic tasks using EHRs yet they typically lack model result transparency or explainability functionalities and require cumbersome pre-processing tasks. Moreover, EHRs contain heterogeneous and multi-modal data points such as text, numbers and time series which further hinder visualisation and interpretability. This paper proposes a deep learning framework to: 1) encode patient pathways from EHRs into images, 2) highlight important events within pathway images, and 3) enable more complex predictions with additional intelligibility. The proposed method relies on a deep attention mechanism for visualisation of the predictions and allows predicting multiple sequential outcomes.
翻訳日:2021-03-29 12:57:44 公開日:2021-03-25
# 自動車のサイバー物理システムにおける異常検出のためのディープRBFネットワーク

Deep-RBF Networks for Anomaly Detection in Automotive Cyber-Physical Systems ( http://arxiv.org/abs/2103.14172v1 )

ライセンス: Link先を確認
Matthew Burruss, Shreyas Ramakrishna and Abhishek Dubey(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、自動車用サイバー物理システム(CPS)における自律性関連タスクの実装に広く使われている。 しかし、これらのネットワークは異常な入力に対して誤った予測をすることを示しており、これはアウト・オブ・ディストリビューション(OOD)データや敵攻撃によるものである。 これらの異常を検出するために、Asurance Monitorと呼ばれる別のDNNがしばしば訓練され、コントローラDNNと並行して使用される。 リソース要求の削減には,コントローラの予測と異常検出が可能な単一のネットワークが必要であると仮定する。 Deep-Radial Basis Function (RBF)ネットワークは、クラス予測と並行して拒否クラスを提供し、実行時に異常を検出するために使用できる。 しかし、RBFアクティベーション関数の使用は、これらのネットワークの適用性を分類タスクのみに制限する。 本稿では,連続ステアリング予測などのcps回帰タスクにおける異常検出にdeep-rbfネットワークをどのように利用できるかを示す。 さらに,NVIDIA DAVE-II や ResNet20 などの一般的な DNN を用いて深部RBF ネットワークを設計し,物理攻撃やデータ中毒攻撃などの敵攻撃を検出するための拒否クラスを用いた。 最後に、DeepNNCarと呼ばれるハードウェアCPSテストベッドと実際のドイツ交通信号ベンチマーク(GTSB)データセットを用いて、これらの攻撃と訓練されたディープRBFネットワークを評価する。 以上の結果から,深部RBFネットワークは,これらの攻撃を短時間で検出できることがわかった。

Deep Neural Networks (DNNs) are popularly used for implementing autonomy related tasks in automotive Cyber-Physical Systems (CPSs). However, these networks have been shown to make erroneous predictions to anomalous inputs, which manifests either due to Out-of-Distribution (OOD) data or adversarial attacks. To detect these anomalies, a separate DNN called assurance monitor is often trained and used in parallel to the controller DNN, increasing the resource burden and latency. We hypothesize that a single network that can perform controller predictions and anomaly detection is necessary to reduce the resource requirements. Deep-Radial Basis Function (RBF) networks provide a rejection class alongside the class predictions, which can be utilized for detecting anomalies at runtime. However, the use of RBF activation functions limits the applicability of these networks to only classification tasks. In this paper, we show how the deep-RBF network can be used for detecting anomalies in CPS regression tasks such as continuous steering predictions. Further, we design deep-RBF networks using popular DNNs such as NVIDIA DAVE-II, and ResNet20, and then use the resulting rejection class for detecting adversarial attacks such as a physical attack and data poison attack. Finally, we evaluate these attacks and the trained deep-RBF networks using a hardware CPS testbed called DeepNNCar and a real-world German Traffic Sign Benchmark (GTSB) dataset. Our results show that the deep-RBF networks can robustly detect these attacks in a short time without additional resource requirements.
翻訳日:2021-03-29 12:57:29 公開日:2021-03-25
# ほぼ水平自由なオフライン強化学習

Nearly Horizon-Free Offline Reinforcement Learning ( http://arxiv.org/abs/2103.14077v1 )

ライセンス: Link先を確認
Tongzheng Ren, Jialian Li, Bo Dai, Simon S. Du, Sujay Sanghavi(参考訳) S$状態、$A$アクション、計画的地平$H$で、時間的均質な表形式マルコフ決定プロセスのオフライン強化学習を再考する。 Given the collected $N$ episodes data with minimum cumulative reaching probability $d_m$, we obtain the first set of nearly $H$-free sample complexity bounds for evaluation and planning using the empirical MDPs: 1.For the offline evaluation, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}} \right)$ error rate, which matches the lower bound and does not have additional dependency on $\poly\left(S,A\right)$ in higher-order term, that is different from previous works~\citep{yin2020near,yin2020asymptotically}. 2.オフラインポリシー最適化のために、$\tilde{o}\left(\sqrt{\frac{1}{nd_m}} + \frac{s}{nd_m}\right)$ エラーレートを求め、主項に$h$と$s$要素を追加する \cite{cui2020plug} によって最もよく知られた結果を改善する。 さらに、この境界は$\Omega\left(\sqrt {\frac{1}{Nd_m}}\right)$ 対数因子への下界と高次項に近づく。 私たちの知る限りでは、これらはオフライン強化学習における、ほぼ地平線のない境界の最初のセットです。

We revisit offline reinforcement learning on episodic time-homogeneous tabular Markov Decision Processes with $S$ states, $A$ actions and planning horizon $H$. Given the collected $N$ episodes data with minimum cumulative reaching probability $d_m$, we obtain the first set of nearly $H$-free sample complexity bounds for evaluation and planning using the empirical MDPs: 1.For the offline evaluation, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}} \right)$ error rate, which matches the lower bound and does not have additional dependency on $\poly\left(S,A\right)$ in higher-order term, that is different from previous works~\citep{yin2020near,yin2020asymptotically}. 2.For the offline policy optimization, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}} + \frac{S}{Nd_m}\right)$ error rate, improving upon the best known result by \cite{cui2020plug}, which has additional $H$ and $S$ factors in the main term. Furthermore, this bound approaches the $\Omega\left(\sqrt{\frac{1}{Nd_m}}\right)$ lower bound up to logarithmic factors and a high-order term. To the best of our knowledge, these are the first set of nearly horizon-free bounds in offline reinforcement learning.
翻訳日:2021-03-29 12:56:18 公開日:2021-03-25
# エンド・ツー・エンド音声認識のための残エネルギーモデル

Residual Energy-Based Models for End-to-End Speech Recognition ( http://arxiv.org/abs/2103.14152v1 )

ライセンス: Link先を確認
Qiujia Li, Yu Zhang, Bo Li, Liangliang Cao, Philip C. Woodland(参考訳) 自動回帰デコーダを用いたエンドツーエンドモデルでは,自動音声認識(ASR)の優れた結果が得られた。 これらのモデルは、全てのトークンの条件付き確率の積としてシーケンスレベル確率を定式化する。 しかし, 局所正規化モデルの性能は, 露光バイアスなどの要因により準最適である。 その結果、モデル分布は基礎となるデータ分布と異なる。 本稿では, 余剰エネルギーベースモデル(R-EBM)を提案し, 自己回帰型ASRモデルを補完し, 2つの分布間のギャップを埋める。 一方、R-EBMは発話レベルの信頼度推定器とみなすこともできる。 100hr LibriSpeechデータセットの実験では、R-EBMsは単語エラー率(WERs)を8.2%/6.7%削減でき、信頼性スコアの精度-リコール曲線の領域を12.6%/28.4%改善できる。 さらに、自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を著しく改善する。

End-to-end models with auto-regressive decoders have shown impressive results for automatic speech recognition (ASR). These models formulate the sequence-level probability as a product of the conditional probabilities of all individual tokens given their histories. However, the performance of locally normalised models can be sub-optimal because of factors such as exposure bias. Consequently, the model distribution differs from the underlying data distribution. In this paper, the residual energy-based model (R-EBM) is proposed to complement the auto-regressive ASR model to close the gap between the two distributions. Meanwhile, R-EBMs can also be regarded as utterance-level confidence estimators, which may benefit many downstream tasks. Experiments on a 100hr LibriSpeech dataset show that R-EBMs can reduce the word error rates (WERs) by 8.2%/6.7% while improving areas under precision-recall curves of confidence scores by 12.6%/28.4% on test-clean/test-other sets. Furthermore, on a state-of-the-art model using self-supervised learning (wav2vec 2.0), R-EBMs still significantly improves both the WER and confidence estimation performance.
翻訳日:2021-03-29 12:53:09 公開日:2021-03-25
# CGPart:3次元コンピュータグラフィックスモデルに基づく部分分割データセット

CGPart: A Part Segmentation Dataset Based on 3D Computer Graphics Models ( http://arxiv.org/abs/2103.14098v1 )

ライセンス: Link先を確認
Qing Liu, Adam Kortylewski, Zhishuai Zhang, Zizhang Li, Mengqi Guo, Qihao Liu, Xiaoding Yuan, Jiteng Mu, Weichao Qiu, Alan Yuille(参考訳) 部分セグメンテーションは、オブジェクトのリッチで詳細な部分レベルの記述を提供するが、アノテーションには膨大な作業が必要である。 本稿では,3次元CADモデル,合成画像,実画像の詳細なアノテーションを提供する包括的部分分割データセットであるCGPartを紹介する。 CGPartには5ドル(約5,800円)の車種をカバーする21ドルのCADモデルが含まれている。 カテゴリーごとの部品数の平均は24ドルであり、車載オブジェクトの部品セグメンテーションのための既存のデータセットよりも大きい。 レンダリングパラメータを変化させることで,これらのCADモデルから168,000ドルの合成画像を生成する。 また、評価目的で200ドルの実画像に部分セグメンテーションをアノテートします。 cgpart の値を説明するために,unsupervised domain adaptation (uda) による画像部分セグメンテーションに適用する。 関連タスクから部分セグメンテーションへのトップパフォーマンスUDAアルゴリズムの適用により,いくつかのベースライン手法を評価する。 さらに、空間オブジェクト構造を利用して、合成画像から実画像への知識伝達をガイドする、Geometric-Matching Guided Domain adaptation (GMG)と呼ばれる新しい手法を導入する。 実験結果は,新しいアルゴリズムの利点を示し,今後の改善に向けた知見を明らかにする。 データとコードをリリースします。

Part segmentations provide a rich and detailed part-level description of objects, but their annotation requires an enormous amount of work. In this paper, we introduce CGPart, a comprehensive part segmentation dataset that provides detailed annotations on 3D CAD models, synthetic images, and real test images. CGPart includes $21$ 3D CAD models covering $5$ vehicle categories, each with detailed per-mesh part labeling. The average number of parts per category is $24$, which is larger than any existing datasets for part segmentation on vehicle objects. By varying the rendering parameters, we make $168,000$ synthetic images from these CAD models, each with automatically generated part segmentation ground-truth. We also annotate part segmentations on $200$ real images for evaluation purposes. To illustrate the value of CGPart, we apply it to image part segmentation through unsupervised domain adaptation (UDA). We evaluate several baseline methods by adapting top-performing UDA algorithms from related tasks to part segmentation. Moreover, we introduce a new method called Geometric-Matching Guided domain adaptation (GMG), which leverages the spatial object structure to guide the knowledge transfer from the synthetic to the real images. Experimental results demonstrate the advantage of our new algorithm and reveal insights for future improvement. We will release our data and code.
翻訳日:2021-03-29 12:48:55 公開日:2021-03-25
# 軌道予測のためのステップワイズゴール駆動ネットワーク

Stepwise Goal-Driven Networks for Trajectory Prediction ( http://arxiv.org/abs/2103.14107v1 )

ライセンス: Link先を確認
Chuhua Wang, Yuchen Wang, Mingze Xu, David J. Crandall(参考訳) 本稿では,複数の時間スケールで目標を推定,利用することにより,観測対象(歩行者や車両など)の今後の軌跡を予測することを提案する。 移動エージェントのゴールは時間とともに変化し、モデリングのゴールは将来の軌道推定のためにより正確で詳細な情報を提供し続ける。 本稿では,stepwise goal-driven network (sgnet) という,軌道予測のための新しいリカレントネットワークを提案する。 単一の長期的な目標のみをモデル化する以前の作業とは異なり、SGNetは複数の時間スケールで目標を見積もり、使用する。 特に、歴史的情報をキャプチャするエンコーダモジュール、未来への連続的な目標を予測する段階的な目標推定器、将来の軌道を予測するデコーダモジュールが組み込まれている。 我々は,HEV-I,JAAD,PIEの3つの1対1のトラフィックデータセットと2つの鳥の目視データセット(ETH,UCY)を用いて評価を行い,そのモデルが全データセットにおける平均および最終変位誤差の両面で最先端の手法より優れていることを示す。 コードはhttps://github.com/chuhuaw/sgnet.pytorchで利用可能である。

We propose to predict the future trajectories of observed agents (e.g., pedestrians or vehicles) by estimating and using their goals at multiple time scales. We argue that the goal of a moving agent may change over time, and modeling goals continuously provides more accurate and detailed information for future trajectory estimation. In this paper, we present a novel recurrent network for trajectory prediction, called Stepwise Goal-Driven Network (SGNet). Unlike prior work that models only a single, long-term goal, SGNet estimates and uses goals at multiple temporal scales. In particular, the framework incorporates an encoder module that captures historical information, a stepwise goal estimator that predicts successive goals into the future, and a decoder module that predicts future trajectory. We evaluate our model on three first-person traffic datasets (HEV-I, JAAD, and PIE) as well as on two bird's eye view datasets (ETH and UCY), and show that our model outperforms the state-of-the-art methods in terms of both average and final displacement errors on all datasets. Code has been made available at: https://github.com/ChuhuaW/SGNet.pytorch.
翻訳日:2021-03-29 12:48:33 公開日:2021-03-25
# 変圧器による複数変化の記述と位置決め

Describing and Localizing Multiple Changes with Transformers ( http://arxiv.org/abs/2103.14146v1 )

ライセンス: Link先を確認
Yue Qiu and Shintaro Yamamoto and Kodai Nakashima and Ryota Suzuki and Kenji Iwata and Hirokatsu Kataoka and Yutaka Satoh(参考訳) 変更キャプションタスクは、シーン変更前後で観察された画像ペアの変化を検出し、変更の自然言語記述を生成することを目的としている。 現存する変更キャプション研究は主に1つの変更のあるシーンに焦点を当てている。 しかし、複雑なシナリオへの適応性を高めるためには、画像ペアの複数の変更部分の検出と記述が不可欠である。 以上の課題を3つの側面から解決する: (i) CGベースのマルチチェンジキャプションデータセットを提案する; (ii) 複数チェンジキャプションに基づく単一チェンジキャプションの既存手法をベンチマークする; (iii) さらに、画像ペア内の異なる領域を密に関連付け、関連する変更領域を文中の単語で動的に決定するマルチチェンジキャプション変換器(MCCFormers)を提案する。 提案手法は,従来の4つの変更キャプション評価指標の最高スコアを得た。 さらに、既存の方法は複数の変更に対して単一の注意マップを生成し、変更領域を識別する能力がない。 対照的に,提案手法は各変更に対する注意マップを分離し,変化の局所化に関して良好に機能する。 さらに,既存の変更キャプションベンチマークであるclevr-change(bleu-4では+6.1,ciderスコアでは+9.7)では,従来の最先端手法を上回っていた。

Change captioning tasks aim to detect changes in image pairs observed before and after a scene change and generate a natural language description of the changes. Existing change captioning studies have mainly focused on scenes with a single change. However, detecting and describing multiple changed parts in image pairs is essential for enhancing adaptability to complex scenarios. We solve the above issues from three aspects: (i) We propose a CG-based multi-change captioning dataset; (ii) We benchmark existing state-of-the-art methods of single change captioning on multi-change captioning; (iii) We further propose Multi-Change Captioning transformers (MCCFormers) that identify change regions by densely correlating different regions in image pairs and dynamically determines the related change regions with words in sentences. The proposed method obtained the highest scores on four conventional change captioning evaluation metrics for multi-change captioning. In addition, existing methods generate a single attention map for multiple changes and lack the ability to distinguish change regions. In contrast, our proposed method can separate attention maps for each change and performs well with respect to change localization. Moreover, the proposed framework outperformed the previous state-of-the-art methods on an existing change captioning benchmark, CLEVR-Change, by a large margin (+6.1 on BLEU-4 and +9.7 on CIDEr scores), indicating its general ability in change captioning tasks.
翻訳日:2021-03-29 12:48:11 公開日:2021-03-25
# COTR:画像間のマッチングのための対応変換器

COTR: Correspondence Transformer for Matching Across Images ( http://arxiv.org/abs/2103.14167v1 )

ライセンス: Link先を確認
Wei Jiang, Eduard Trulls, Jan Hosang, Andrea Tagliasacchi, Kwang Moo Yi(参考訳) 本研究では,2つの画像と1つの問合せ点が与えられ,他方でその対応を見出す,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。 そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。 重要なのは、ローカルとグローバルの両方のプリエントをキャプチャし、そのプリエントの中で最も関連性の高い画像領域間をモデルで関連付けるために、トランスフォーマを用いてネットワークを実現することである。 推定時に,推定値の周囲を再帰的にズームインし,高精度な対応性を提供できるマルチスケールパイプラインを生成する。 提案手法は,複数のデータセットやタスクにおいて,特定のデータセットに対する再トレーニングを伴わずに,広いベースラインステレオから光学的フローまで,スパースおよび密度の高い対応問題において,技術の現状を著しく上回る。 私たちは、スクラッチからトレーニングし再現性を確保するために必要なデータ、コード、およびすべてのツールをリリースすることを約束します。

We propose a novel framework for finding correspondences in images based on a deep neural network that, given two images and a query point in one of them, finds its correspondence in the other. By doing so, one has the option to query only the points of interest and retrieve sparse correspondences, or to query all points in an image and obtain dense mappings. Importantly, in order to capture both local and global priors, and to let our model relate between image regions using the most relevant among said priors, we realize our network using a transformer. At inference time, we apply our correspondence network by recursively zooming in around the estimates, yielding a multiscale pipeline able to provide highly-accurate correspondences. Our method significantly outperforms the state of the art on both sparse and dense correspondence problems on multiple datasets and tasks, ranging from wide-baseline stereo to optical flow, without any retraining for a specific dataset. We commit to releasing data, code, and all the tools necessary to train from scratch and ensure reproducibility.
翻訳日:2021-03-29 12:47:39 公開日:2021-03-25
# プロセス制御のためのメタ強化学習アプローチ

A Meta-Reinforcement Learning Approach to Process Control ( http://arxiv.org/abs/2103.14060v1 )

ライセンス: Link先を確認
Daniel G. McClement, Nathan P. Lawrence, Philip D. Loewen, Michael G. Forbes, Johan U. Backstr\"om, R. Bhushan Gopaluni(参考訳) メタラーニング(Meta-learning)は、ニューラルネットワークなどのモデルに迅速に適応して、関連するタスク間の基盤構造を学習することで、新しいタスクを実行することを目的とした機械学習の分野である。 本質的に、モデルは単一のタスクをマスターするのではなく、新しいタスクを効果的に学習するように訓練されています。 メタラーニングは、AIコントローラのトレーニングに必要なプロセスに対する摂動は、コストが高く、安全ではないため、プロセス制御アプリケーションにアピールする。 さらに、ダイナミクスと制御の目的は多くの異なるプロセスで類似しているため、メタラーニングによって様々なシステムに迅速に適応できる一般化可能なコントローラを作成することが可能である。 本研究では,drl(deep reinforcement learning)ベースのコントローラを構築し,ニューラルネットワークを分離した潜在コンテキスト変数を用いてコントローラをメタトレーニングする。 我々は、新しいプロセスのダイナミクスに適応する能力と、同じプロセス上の異なる制御目標について、メタアルゴリズムをテストする。 どちらの場合も、私たちのメタ学習アルゴリズムは新しいタスクに非常に早く適応し、スクラッチから訓練された通常のDRLコントローラよりも優れています。 メタラーニングは、よりインテリジェントでサンプル効率の良いコントローラを構築するための有望なアプローチのようだ。

Meta-learning is a branch of machine learning which aims to quickly adapt models, such as neural networks, to perform new tasks by learning an underlying structure across related tasks. In essence, models are being trained to learn new tasks effectively rather than master a single task. Meta-learning is appealing for process control applications because the perturbations to a process required to train an AI controller can be costly and unsafe. Additionally, the dynamics and control objectives are similar across many different processes, so it is feasible to create a generalizable controller through meta-learning capable of quickly adapting to different systems. In this work, we construct a deep reinforcement learning (DRL) based controller and meta-train the controller using a latent context variable through a separate embedding neural network. We test our meta-algorithm on its ability to adapt to new process dynamics as well as different control objectives on the same process. In both cases, our meta-learning algorithm adapts very quickly to new tasks, outperforming a regular DRL controller trained from scratch. Meta-learning appears to be a promising approach for constructing more intelligent and sample-efficient controllers.
翻訳日:2021-03-29 12:38:43 公開日:2021-03-25
# グラフネットワークにおける置換同値の超越

Beyond permutation equivariance in graph networks ( http://arxiv.org/abs/2103.14066v1 )

ライセンス: Link先を確認
Emma Slade, Francesco Farina(参考訳) 我々は,n$-dimensions におけるユークリッド群に同値であり,さらにアフィン変換を扱うことができるグラフネットワークのための新しいアーキテクチャを導入する。 我々のモデルはグラフネットワークを最も一般的な形で扱うように設計されており、特殊ケースとして特定の変種を含む。 その同値性により、提案したモデルは古典的なグラフアーキテクチャに関してよりデータ効率が良くなり、本質的にはより優れた帰納バイアスを持つものと期待する。 予備的な例として、ユークリッド群とアフィン変換の両方の等価性を持つアーキテクチャが、グラフニューラルネットワークの標準データセット上で最良であることを示す。

We introduce a novel architecture for graph networks which is equivariant to the Euclidean group in $n$-dimensions, and is additionally able to deal with affine transformations. Our model is designed to work with graph networks in their most general form, thus including particular variants as special cases. Thanks to its equivariance properties, we expect the proposed model to be more data efficient with respect to classical graph architectures and also intrinsically equipped with a better inductive bias. As a preliminary example, we show that the architecture with both equivariance under the Euclidean group, as well as the affine transformations, performs best on a standard dataset for graph neural networks.
翻訳日:2021-03-29 12:38:24 公開日:2021-03-25
# TEDtalkの永続ホモロジー: 意味埋め込みはトポロジカルな形状を持つか?

Persistence Homology of TEDtalk: Do Sentence Embeddings Have a Topological Shape? ( http://arxiv.org/abs/2103.14131v1 )

ライセンス: Link先を確認
Shouman Das, Syed A. Haque, Md. Iftekhar Tanveer(参考訳) emph{topological data analysis} (tda) は高次元データから有意義な識別特徴を抽出する新しい手法として最近登場した。 本稿では,公衆発話評価の分類精度を向上させるためにTDAを適用する可能性を検討する。 tedtalkデータの文埋め込みに対して \emph{persistence image vectors} を計算し,このベクトルを機械学習モデルへの追加入力として与えた。 この位相情報はモデル精度を著しく改善しないという負の結果が得られた。 場合によっては、元のものよりわずかに精度が悪くなることもある。 以上の結果から,文章埋め込みのトポロジカルな形状が,公用語評価のためのより良いモデルトレーニングに役立つと結論付けることはできなかった。

\emph{Topological data analysis} (TDA) has recently emerged as a new technique to extract meaningful discriminitve features from high dimensional data. In this paper, we investigate the possibility of applying TDA to improve the classification accuracy of public speaking rating. We calculated \emph{persistence image vectors} for the sentence embeddings of TEDtalk data and feed this vectors as additional inputs to our machine learning models. We have found a negative result that this topological information does not improve the model accuracy significantly. In some cases, it makes the accuracy slightly worse than the original one. From our results, we could not conclude that the topological shapes of the sentence embeddings can help us train a better model for public speaking rating.
翻訳日:2021-03-29 12:38:13 公開日:2021-03-25
# グラフアライメントによる完全媒介表現の自己ラベル化

Self-Labeling of Fully Mediating Representations by Graph Alignment ( http://arxiv.org/abs/2103.14133v1 )

ライセンス: Link先を確認
Martijn Oldenhof, Adam Arany, Yves Moreau and Jaak Simm(参考訳) 化合物の2次元画像(U$)が与えられた場合、分子グラフ構造(W$)を予測することは、機械学習において難しい問題である。 u \rightarrow w$ ここで、$f$が$u \rightarrow v \rightarrow w$となるような完全な仲介表現$v$があります。 しかしながら、Vを観察するには詳細なラベルと高価なラベルが必要である。 正規ラベルが$W$のリッチラベルや詳細ラベルを生成するグラフ整合手法を提案する。 本稿では,通常のラベルWのみが利用可能なターゲットドメインに対して,高価なラベル$V$をアクセス可能なソースドメインからのドメイン適応のシナリオについて検討する。 2次元画像から化合物グラフを予測する問題に焦点をあてて, 予測する化学グラフ構造の平面埋め込みを用いて, 完全な中間層を表現する。 完全な仲介層の使用は、基盤となるプロセスのメカニズムに関するいくつかの仮定を意味する。 しかし、仮定が正しければ、機械学習モデルはより解釈可能になり、より一般化され、トレーニング時にデータ効率が向上するはずだ。 実験の結果,4000個のデータポイントのみを用いて,対象領域へのドメイン適応後の性能が,ソース領域のみの事前学習モデルと比較して最大4倍向上したことがわかった。 ドメイン適応後、モデルは元のソースドメインで見たことのない原子タイプを検出できる。 最後に、maybridgeデータセットでは、提案された自己ラベルアプローチは、現在の技術よりも高いパフォーマンスに達した。

To be able to predict a molecular graph structure ($W$) given a 2D image of a chemical compound ($U$) is a challenging problem in machine learning. We are interested to learn $f: U \rightarrow W$ where we have a fully mediating representation $V$ such that $f$ factors into $U \rightarrow V \rightarrow W$. However, observing V requires detailed and expensive labels. We propose graph aligning approach that generates rich or detailed labels given normal labels $W$. In this paper we investigate the scenario of domain adaptation from the source domain where we have access to the expensive labels $V$ to the target domain where only normal labels W are available. Focusing on the problem of predicting chemical compound graphs from 2D images the fully mediating layer is represented using the planar embedding of the chemical graph structure we are predicting. The use of a fully mediating layer implies some assumptions on the mechanism of the underlying process. However if the assumptions are correct it should allow the machine learning model to be more interpretable, generalize better and be more data efficient at training time. The empirical results show that, using only 4000 data points, we obtain up to 4x improvement of performance after domain adaptation to target domain compared to pretrained model only on the source domain. After domain adaptation, the model is even able to detect atom types that were never seen in the original source domain. Finally, on the Maybridge data set the proposed self-labeling approach reached higher performance than the current state of the art.
翻訳日:2021-03-29 12:37:59 公開日:2021-03-25
# 紫外線表面消毒の最適カバレッジ計画

Optimized Coverage Planning for UV Surface Disinfection ( http://arxiv.org/abs/2103.14137v1 )

ライセンス: Link先を確認
Joao Marcos Correia Marques, Ramya Ramalingam, Zherong Pan, and Kris Hauser(参考訳) 紫外線は、広範囲の病原体を消毒する消毒戦略として用いられてきたが、既存の照射戦略は、すべての環境表面の十分な曝露を保証せず、長期間の消毒を必要としている。 移動型紫外線消毒ロボットのための準最適カバープランナを提案する。 この定式化は照射時間効率を最適化し、各表面から十分な放射線量を受け取ることを保証している。 軌道と投薬計画は衝突と光閉塞の制約を考慮して最適化されている。 本稿では,NPハード最適化の解を近似する2段階の手法を提案し,効率よくGPU上で鍵照射および閉塞計算を行う。 実験の結果,既存のUVロボットと同等の露光時間で,UVロボットの設計を比較し,ほぼ最適計画を作成することができることがわかった。 これは元々ICRA2021に寄贈された論文の拡張版である。

UV radiation has been used as a disinfection strategy to deactivate a wide range of pathogens, but existing irradiation strategies do not ensure sufficient exposure of all environmental surfaces and/or require long disinfection times. We present a near-optimal coverage planner for mobile UV disinfection robots. The formulation optimizes the irradiation time efficiency, while ensuring that a sufficient dosage of radiation is received by each surface. The trajectory and dosage plan are optimized taking collision and light occlusion constraints into account. We propose a two-stage scheme to approximate the solution of the induced NP-hard optimization, and, for efficiency, perform key irradiance and occlusion calculations on a GPU. Empirical results show that our technique achieves more coverage for the same exposure time as strategies for existing UV robots, can be used to compare UV robot designs, and produces near-optimal plans. This is an extended version of the paper originally contributed to ICRA2021.
翻訳日:2021-03-29 12:36:26 公開日:2021-03-25
# 実効的差動送電電力フローデータリリース

Realistic Differentially-Private Transmission Power Flow Data Release ( http://arxiv.org/abs/2103.14036v1 )

ライセンス: Link先を確認
David Smith, Frederik Geth, Elliott Vercoe, Andrew Feutrill, Ming Ding, Jonathan Chan, James Foster and Thierry Rakotoarivelo(参考訳) 将来のエネルギー伝達ネットワークのモデリング、設計、計画には、サービス提供者のビジネス機密性のプライバシーを確実に維持しつつ、忠実で有用な電力フローデータにアクセスすることが不可欠である。 この重要な課題は、最近[1]で対処されました。 本論文は既存の研究を大きく拡張する。 まず,プライバシ保護のレベルが向上する電力ディスパッチではなく,グリッド損失の公開情報を用いて,後処理の基本的な方法を提案することにより,潜在的漏洩情報を低減する。 第二に、直列インピーダンス(完全πモデル)に加えて、より敏感なパラメータ、すなわち分岐シャント感受性を保護する。 これは送信高電圧ネットワークの電力フローデータを保護し、最適な電力フローを期待されたモデル動作に整合し、忠実に維持する微分プライベート変換を使用する。 第3に,pglib-opf テストケース [10] を用いて,従来の作業よりも大規模にアプローチをテストした。 この結果、最大4700バスまでの難読化が成功し、パラメータの忠実さとデータアナリストに優れた有用性で解決することができた。 我々のアプローチは、より実現可能で現実的なシナリオに対処し、システムの可解性、忠実性、実現可能性を維持しながら、最先端のプライバシー保証よりも高いものを提供します。

For the modeling, design and planning of future energy transmission networks, it is vital for stakeholders to access faithful and useful power flow data, while provably maintaining the privacy of business confidentiality of service providers. This critical challenge has recently been somewhat addressed in [1]. This paper significantly extends this existing work. First, we reduce the potential leakage information by proposing a fundamentally different post-processing method, using public information of grid losses rather than power dispatch, which achieve a higher level of privacy protection. Second, we protect more sensitive parameters, i.e., branch shunt susceptance in addition to series impedance (complete pi-model). This protects power flow data for the transmission high-voltage networks, using differentially private transformations that maintain the optimal power flow consistent with, and faithful to, expected model behaviour. Third, we tested our approach at a larger scale than previous work, using the PGLib-OPF test cases [10]. This resulted in the successful obfuscation of up to a 4700-bus system, which can be successfully solved with faithfulness of parameters and good utility to data analysts. Our approach addresses a more feasible and realistic scenario, and provides higher than state-of-the-art privacy guarantees, while maintaining solvability, fidelity and feasibility of the system.
翻訳日:2021-03-29 12:35:24 公開日:2021-03-25
# 無線ネットワークにおける反応型ジャマーを欺くための強化学習

Reinforcement Learning for Deceiving Reactive Jammers in Wireless Networks ( http://arxiv.org/abs/2103.14056v1 )

ライセンス: Link先を確認
Ali Pourranjbar, Georges Kaddoum, Aidin Ferdowsi, and Walid Saad(参考訳) 従来のジャミング法は主に周波数ホッピングに頼り、ジャミングから隠れたり逃げたりする。 これらの手法は帯域幅使用率の面では効率的ではなく、妨害の可能性も高い。 既存の作品と異なり,本論文では,ジャンマーを騙して被害者チャネルを攻撃させながら,正当なユーザのコミュニケーションを安全チャネルで維持するという,新たなアンチジャミング戦略を提案する。 ジャマーのチャネル情報はユーザには知られていないため、強化学習(RL)を用いて最適なチャネル選択方式とサブ最適電力割り当てを提案する。 提案手法の性能評価は,全受信電力(TRP)の統計的下限を導出することにより行う。 解析の結果,あるアクセスポイントにおいて,最大到達可能なtrpの50%以上,すなわち50%以上の値が得られた。 ジャマーがない場合は、1人のユーザーと3つの周波数チャネルの場合に達成される。 さらに、この値はユーザ数と利用可能なチャネル数によって増加する。 その結果、既存の2つのRLベースのアンチジャミング手法と、ジャミング攻撃を伴わないランダムチャネル割り当て戦略を比較した。 シミュレーションの結果,提案手法は, 比較したRL法とランダム探索法より優れ, 達成可能なTRPに近い値が得られることがわかった。

Conventional anti-jamming method mostly rely on frequency hopping to hide or escape from jammer. These approaches are not efficient in terms of bandwidth usage and can also result in a high probability of jamming. Different from existing works, in this paper, a novel anti-jamming strategy is proposed based on the idea of deceiving the jammer into attacking a victim channel while maintaining the communications of legitimate users in safe channels. Since the jammer's channel information is not known to the users, an optimal channel selection scheme and a sub optimal power allocation are proposed using reinforcement learning (RL). The performance of the proposed anti-jamming technique is evaluated by deriving the statistical lower bound of the total received power (TRP). Analytical results show that, for a given access point, over 50 % of the highest achievable TRP, i.e. in the absence of jammers, is achieved for the case of a single user and three frequency channels. Moreover, this value increases with the number of users and available channels. The obtained results are compared with two existing RL based anti-jamming techniques, and random channel allocation strategy without any jamming attacks. Simulation results show that the proposed anti-jamming method outperforms the compared RL based anti-jamming methods and random search method, and yields near optimal achievable TRP.
翻訳日:2021-03-29 12:31:15 公開日:2021-03-25
# マルチタスク深層ニューラルネットワークを用いた共重合インフォマティクス

Copolymer Informatics with Multi-Task Deep Neural Networks ( http://arxiv.org/abs/2103.14174v1 )

ライセンス: Link先を確認
Christopher Kuenneth, William Schertzer, Rampi Ramprasad(参考訳) ポリマーインフォマティクスツールは最近、特定のアプリケーションのニーズを満たす新しいポリマーを効率的かつ効果的に開発、設計、発見するための基盤を築いている。 しかしこれまでのところ、これらのデータ駆動の取り組みはホモポリマーに重点を置いている。 本稿では,共重合体の特性予測問題に対処し,高分子情報化フレームワークをホモポリマーを超えて拡張する。 マルチタスク学習とメタ学習を取り入れた高度なポリマーフィンガープリントと深層学習手法を提案する。 2つのモノマーのホモポリマーと共重合体のガラス転移、融解、分解温度の18,000以上のデータを含む大きなデータセットを用いて、共重合予測の有効性を示す。 開発されたモデルは、適切なデータが利用可能になると正確で、高速で、柔軟で、スケーラブルで、より多くの共重合体の性質を持つ。

Polymer informatics tools have been recently gaining ground to efficiently and effectively develop, design, and discover new polymers that meet specific application needs. So far, however, these data-driven efforts have largely focused on homopolymers. Here, we address the property prediction challenge for copolymers, extending the polymer informatics framework beyond homopolymers. Advanced polymer fingerprinting and deep-learning schemes that incorporate multi-task learning and meta-learning are proposed. A large data set containing over 18,000 data points of glass transition, melting, and degradation temperature of homopolymers and copolymers of up to two monomers is used to demonstrate the copolymer prediction efficacy. The developed models are accurate, fast, flexible, and scalable to more copolymer properties when suitable data become available.
翻訳日:2021-03-29 12:30:56 公開日:2021-03-25
# 胸部X線からの肺炎と結核の分類

Classification of Pneumonia and Tuberculosis from Chest X-rays ( http://arxiv.org/abs/2103.14562v1 )

ライセンス: Link先を確認
M. Abubakar, I. Shah, W. Ali, F. bashir(参考訳) 人工知能(AI)、特に機械学習は、多くの分野に進出している。 機械学習は、システムがより効率的に独立してタスクを実行するように、人間をある種のドメインで置き換えたり補完したりする。 ヘルスケアはAIと機械学習を融合して、物事をよりスムーズかつ効率的に働かせるための価値のある分野だ。 X線による胸部関連疾患の検出と分類は, 高品質な放射線技師の少ない現代において必要とされている。 この論文は、胸部X線から肺炎と結核の2つの主要な胸部疾患の分類に焦点を当てている。 このシステムは、患者が病気を患っているかどうかをユーザに意見として提供し、医師や医療スタッフが病気の有無について迅速かつインフォームドな判断を行えるようにする。 これまでの研究と比較して、我々のモデルは2つのタイプの異常を検出できる。 モデルでは、x線が正常か、肺炎や結核の92.97%に異常があるかを正確に検出できる。

Artificial intelligence (AI) and specifically machine learning is making inroads into number of fields. Machine learning is replacing and/or complementing humans in a certain type of domain to make systems perform tasks more efficiently and independently. Healthcare is a worthy domain to merge with AI and Machine learning to get things to work smoother and efficiently. The X-ray based detection and classification of diseases related to chest is much needed in this modern era due to the low number of quality radiologists. This thesis focuses on the classification of Pneumonia and Tuberculosis two major chest diseases from the chest X-rays. This system provides an opinion to the user whether one is having a disease or not, thereby helping doctors and medical staff to make a quick and informed decision about the presence of disease. As compared to previous work our model can detect two types of abnormality. Our model can detect whether X-ray is normal or having abnormality which can be pneumonia and tuberculosis 92.97% accurately.
翻訳日:2021-03-29 12:29:56 公開日:2021-03-25
# Deep-AIR:大都市における大気質モデリングのためのハイブリッドCNN-LSTMフレームワーク

Deep-AIR: A Hybrid CNN-LSTM Framework for Air Quality Modeling in Metropolitan Cities ( http://arxiv.org/abs/2103.14587v1 )

ライセンス: Link先を確認
Yang Han, Qi Zhang, Victor O.K. Li, Jacqueline C.K. Lam(参考訳) 大気汚染は長年にわたって深刻な環境問題であり、特に都市では大気汚染物質濃度が街路キャニオン効果と高い建物密度によって悪化している。 大気汚染の正確な監視と予測は極めて重要であるが、既存のデータ駆動モデルでは、大気汚染と都市ダイナミクスの複雑な相互作用に完全に対処できていない。 畳み込みニューラルネットワークと長期の短期記憶ネットワークを組み合わせた、新しいハイブリッドディープラーニングフレームワークであるour deep-airは、このギャップに対処し、都市全体の大気汚染推定とステーション全体の予測を提供する。 提案手法は,1×1畳み込み層を作成し,大気汚染と都市特性,特に道路密度,建物密度/高層,街路キャニオン効果との空間的相互作用の学習を強化する。 香港と北京をケーススタディとして、Deep-AIRはベースラインモデルよりも高い精度を実現しています。 このモデルは、香港の1時間当たりの微粒度推定では67.6%、77.2%、66.1%、大気汚染予測では1-hr、24-hr、北京では65.0%、75.3%、63.5%の精度を達成している。 香港では, 道路キャニオンと道路密度がNO2の最適推定値であり, 気象はPM2.5の最適推定値であることがわかった。

Air pollution has long been a serious environmental health challenge, especially in metropolitan cities, where air pollutant concentrations are exacerbated by the street canyon effect and high building density. Whilst accurately monitoring and forecasting air pollution are highly crucial, existing data-driven models fail to fully address the complex interaction between air pollution and urban dynamics. Our Deep-AIR, a novel hybrid deep learning framework that combines a convolutional neural network with a long short-term memory network, aims to address this gap to provide fine-grained city-wide air pollution estimation and station-wide forecast. Our proposed framework creates 1x1 convolution layers to strengthen the learning of cross-feature spatial interaction between air pollution and important urban dynamic features, particularly road density, building density/height, and street canyon effect. Using Hong Kong and Beijing as case studies, Deep-AIR achieves a higher accuracy than our baseline models. Our model attains an accuracy of 67.6%, 77.2%, and 66.1% in fine-grained hourly estimation, 1-hr, and 24-hr air pollution forecast for Hong Kong, and an accuracy of 65.0%, 75.3%, and 63.5% for Beijing. Our saliency analysis has revealed that for Hong Kong, street canyon and road density are the best estimators for NO2, while meteorology is the best estimator for PM2.5.
翻訳日:2021-03-29 12:29:43 公開日:2021-03-25
# 全形状に基づく複数のキラルヨードアレンのエナンチオ選択性に関する定量的予測

Quantitative Prediction on the Enantioselectivity of Multiple Chiral Iodoarene Scaffolds Based on Whole Geometry ( http://arxiv.org/abs/2103.14065v1 )

ライセンス: Link先を確認
Prema Dhorma Lama, Surendra Kumar, Kang Kim, Sangjin Ahn, Mi-hyun Kim(参考訳) 原子レベルでの非対称触媒の力学的基盤は、現在の最先端を超えるキラル触媒の潜在的な価値を開発するためのショートカットを提供する。 エナンチオ選択的レドックス変換において、現在の直観的研究は直観的アイデアを支持する体系的なアプローチを必要とする。 おそらく最も体系的なアプローチは、反応に普遍的に適用される最適な特徴空間において、多様で異種なキラルな足場の信頼できる定量的構造-選択性関係に基づいているだろう。 本稿では, 名前反応におけるキラル触媒の反応範囲を拡張するための予測ワークフローを紹介する。 この目的のために、DFT最適化された複数の触媒足場113個の触媒からなる3次元構造から、全幾何学記述子を符号化した。 分子ディスクリプタはキラルヨードアレンの各ディスクリプタから構築されたエナンチオ選択的予測分類モデルの統計的比較により検証された。 さらに、分割された3次元分子指紋の1つのホットエンコーディングを通して分子構造全体を捉えることで、3つの異なる名前反応に対する信頼できるエナンチオ選択的予測回帰モデルが得られた。 このワークフローの潜在的な使用価値とリサイクル性、互換性、一般性の利点は、上記の名前反応以外の名前反応にワークフローを適用することができることを示した(サンプルから)。 さらに、アンサンブルモデルのコンセンサス予測では、この大域的記述子は、ステリモールパラメータや非共有相互作用ベクトルと比較することができる。 本研究は, 有機反応, 特に非対称触媒反応における実験データの疎さを克服する方法を示す一例である。

The mechanistic underpinnings of asymmetric catalysis at atomic levels provide shortcuts for developing the potential value of chiral catalysts beyond the current state-of-the-art. In the enantioselective redox transformations, the present intuition-driven studies require a systematic approach to support their intuitive idea. Arguably, the most systematic approach would be based on the reliable quantitative structure-selectivity relationship of diverse and dissimilar chiral scaffolds in an optimal feature space that is universally applied to reactions. Here, we introduce a predictive workflow for the extension of the reaction scope of chiral catalysts across name reactions. For this purpose, whole geometry descriptors were encoded from DFT optimized 3D structures of multiple catalyst scaffolds, 113 catalysts in 9 clusters. The molecular descriptors were verified by the statistical comparison of the enantioselective predictive classification models built from each descriptors of chiral iodoarenes. More notably, capturing the whole molecular geometry through one hot encoding of split three-dimensional molecular fingerprints presented reliable enantioselective predictive regression models for three different name reactions by recycling the data and metadata obtained across reactions. The potential use value of this workflow and the advantages of recyclability, compatibility, and generality proved that the workflow can be applied for name reactions other than the aforementioned name reactions (out of samples). Furthermore, for the consensus prediction of ensemble models, this global descriptor can be compared with sterimol parameters and noncovalent interaction vectors. This study is one case showing how to overcome the sparsity of experimental data in organic reactions, especially asymmetric catalysis.
翻訳日:2021-03-29 12:28:23 公開日:2021-03-25
# 到達可能性解析を用いたロバストデータ駆動予測制御

Robust Data-Driven Predictive Control using Reachability Analysis ( http://arxiv.org/abs/2103.14110v1 )

ライセンス: Link先を確認
Amr Alanwar and Yvonne St\"urz and Karl Henrik Johansson(参考訳) 有界なプロセスと測定ノイズを有する未知線形システムのロバストなデータ駆動制御方式を提案する。 従来の予測制御のようにシステムモデルに依存する代わりに,データ駆動型リーチブル領域を利用した制御器を提案する。 データ駆動到達可能領域は、行列zonotope再帰に基づいて、システムの軌道のノイズの多い入出力データのみに基づいて算出される。 測定とプロセスノイズが有界集合に含まれると仮定する。 これらの境界について知識を仮定するが、ノイズの統計的性質に関する知識は想定されない。 ノイズフリーの場合、提示された純粋データ駆動制御スキームが、名目モデル予測制御スキームに等価な閉ループ挙動をもたらすことを示す。 測定とプロセスノイズの場合,提案手法は安全クリティカルなアプリケーションにおいて必須となる制約満足度を保証している。 数値実験により,提案するデータ駆動制御系の有効性をモデルベース制御系と比較した。

We present a robust data-driven control scheme for unknown linear systems with a bounded process and measurement noise. Instead of depending on a system model as in traditional predictive control, a controller utilizing data-driven reachable regions is proposed. The data-driven reachable regions are based on a matrix zonotope recursion and are computed based on only noisy input-output data of a trajectory of the system. We assume that measurement and process noise are contained in bounded sets. While we assume knowledge of these bounds, no knowledge about the statistical properties of the noise is assumed. In the noise-free case, we prove that the presented purely data-driven control scheme results in an equivalent closed-loop behavior to a nominal model predictive control scheme. In the case of measurement and process noise, our proposed scheme guarantees robust constraint satisfaction, which is essential in safety-critical applications. Numerical experiments show the effectiveness of the proposed data-driven controller in comparison to model-based control schemes.
翻訳日:2021-03-29 12:28:02 公開日:2021-03-25
# (参考訳) ブラインドフォールディング中の読書と演技--テキストゲームエージェントにおける意味論の必要性

Reading and Acting while Blindfolded: The Need for Semantics in Text Game Agents ( http://arxiv.org/abs/2103.13552v1 )

ライセンス: CC BY 4.0
Shunyu Yao, Karthik Narasimhan, Matthew Hausknecht(参考訳) テキストベースのゲームは世界をシミュレートし、自然言語を使ってプレイヤーと対話する。 言葉や意味論の意味を理解することは、人間がこれらの世界でどのように理解し、理性し、行動するかを理解する上で重要な要素である。 しかし、人工エージェントがテキストの意味的理解をどのように利用するかは、まだ不明である。 そこで本研究では,学習エージェントが利用可能な意味情報量を体系的に削減する実験を行う。 驚いたことに、エージェントは言語意味論の完全な欠如にもかかわらず高いスコアを達成することができ、現在人気のある実験的なセットアップとモデルはゲームテキストを理解して活用するために設計が不十分である可能性がある。 この欠陥を補うために,表現空間の正規化と探索の促進を目的とした逆ダイナミクスデコーダを提案し,Zork Iを含むいくつかのゲームの性能向上を示す。 我々は,より強い意味理解を持つ将来のエージェントを設計するための知見の意義について論じる。

Text-based games simulate worlds and interact with players using natural language. Recent work has used them as a testbed for autonomous language-understanding agents, with the motivation being that understanding the meanings of words or semantics is a key component of how humans understand, reason, and act in these worlds. However, it remains unclear to what extent artificial agents utilize semantic understanding of the text. To this end, we perform experiments to systematically reduce the amount of semantic information available to a learning agent. Surprisingly, we find that an agent is capable of achieving high scores even in the complete absence of language semantics, indicating that the currently popular experimental setup and models may be poorly designed to understand and leverage game texts. To remedy this deficiency, we propose an inverse dynamics decoder to regularize the representation space and encourage exploration, which shows improved performance on several games including Zork I. We discuss the implications of our findings for designing future agents with stronger semantic understanding.
翻訳日:2021-03-27 00:15:57 公開日:2021-03-25
# (参考訳) 識別的および生成的連続学習のための効率的な特徴変換

Efficient Feature Transformations for Discriminative and Generative Continual Learning ( http://arxiv.org/abs/2103.13558v1 )

ライセンス: CC BY 4.0
Vinay Kumar Verma, Kevin J Liang, Nikhil Mehta, Piyush Rai, Lawrence Carin(参考訳) ニューラルネットワークが現実世界のアプリケーションにますます応用されるにつれて、分散シフトとシーケンシャルなタスク学習に、忘れずに対処するメカニズムが重要である。 ネットワーク拡張を組み込んだ手法では,新しいタスクを学習するためのモデルキャパシティを自然に加えながら,破滅的な放棄を回避できることが示されている。 しかし、これらの方法の多くの追加パラメータの数の増加は、大規模で計算的にコストがかかる場合がある。 その代わりに、連続学習のための単純なタスク固有の特徴マップ変換戦略を提案し、これを効率的な特徴変換(EFT)と呼ぶ。 これらのeftは、ベースアーキテクチャに最小限のパラメータを追加することで、新しいタスクを学習するための強力な柔軟性を提供します。 さらに,高コストな生成モデルを必要とすることなく,クラスインクリメンタル設定におけるタスク予測を大幅に改善する特徴距離最大化戦略を提案する。 本手法の有効性と有効性は,識別的(CIFAR-100およびImageNet-1K)および生成的(LSUN,CUB-200,Cats)タスクにおける広範囲な実験によって実証する。 シングル桁パラメータの成長率が低いにもかかわらず、ETFは幅広い設定で他の連続的な学習方法よりも優れている。

As neural networks are increasingly being applied to real-world applications, mechanisms to address distributional shift and sequential task learning without forgetting are critical. Methods incorporating network expansion have shown promise by naturally adding model capacity for learning new tasks while simultaneously avoiding catastrophic forgetting. However, the growth in the number of additional parameters of many of these types of methods can be computationally expensive at larger scales, at times prohibitively so. Instead, we propose a simple task-specific feature map transformation strategy for continual learning, which we call Efficient Feature Transformations (EFTs). These EFTs provide powerful flexibility for learning new tasks, achieved with minimal parameters added to the base architecture. We further propose a feature distance maximization strategy, which significantly improves task prediction in class incremental settings, without needing expensive generative models. We demonstrate the efficacy and efficiency of our method with an extensive set of experiments in discriminative (CIFAR-100 and ImageNet-1K) and generative (LSUN, CUB-200, Cats) sequences of tasks. Even with low single-digit parameter growth rates, EFTs can outperform many other continual learning methods in a wide range of settings.
翻訳日:2021-03-27 00:07:30 公開日:2021-03-25
# (参考訳) ドメイン適応への注目の進展について

On Evolving Attention Towards Domain Adaptation ( http://arxiv.org/abs/2103.13561v1 )

ライセンス: CC0 1.0
Kekai Sheng, Ke Li, Xiawu Zheng, Jian Liang, Weiming Dong, Feiyue Huang, Rongrong Ji, Xing Sun(参考訳) より良い教師なしドメイン適応(UDA)を目指す。 近年,様々なドメイン条件の注意モジュールが提案され,将来性がある。 しかし,注目モジュールの種類や位置が性能に大きく影響を与えることを考えると,任意のUDAシナリオに特化するように自動的に注意設定を最適化することがより一般化されている。 本稿では,人間の介入なしに与えられたUDAタスクの注意設定を進化させる新しいフレームワークであるEvoADAを提案する。 特に,様々な注意配置を含む新しい探索空間を提案する。 そして,注意構成を評価し,UDA指向の探索手順(伝達可能性と識別)を適用するため,1)既成領域適応法を用いて2つの領域にネットワーク重みをトレーニングし,2)対象領域における識別能力のガイドの下で注意構成を進化させるという,シンプルかつ効果的な評価戦略を適用した。 様々なクロスドメインベンチマーク、すなわちoffice-31、office-home、cub-paintings、duke-market-1510の実験では、提案されているevoadaは一貫して複数の最先端のドメイン適応アプローチを促進しており、最適な注意設定はより優れたパフォーマンスを達成するのに役立つ。

Towards better unsupervised domain adaptation (UDA). Recently, researchers propose various domain-conditioned attention modules and make promising progresses. However, considering that the configuration of attention, i.e., the type and the position of attention module, affects the performance significantly, it is more generalized to optimize the attention configuration automatically to be specialized for arbitrary UDA scenario. For the first time, this paper proposes EvoADA: a novel framework to evolve the attention configuration for a given UDA task without human intervention. In particular, we propose a novel search space containing diverse attention configurations. Then, to evaluate the attention configurations and make search procedure UDA-oriented (transferability + discrimination), we apply a simple and effective evaluation strategy: 1) training the network weights on two domains with off-the-shelf domain adaptation methods; 2) evolving the attention configurations under the guide of the discriminative ability on the target domain. Experiments on various kinds of cross-domain benchmarks, i.e., Office-31, Office-Home, CUB-Paintings, and Duke-Market-1510, reveal that the proposed EvoADA consistently boosts multiple state-of-the-art domain adaptation approaches, and the optimal attention configurations help them achieve better performance.
翻訳日:2021-03-26 23:49:37 公開日:2021-03-25
# (参考訳) MetaAlign: 教師なしドメイン適応のためのドメインアライメントと分類の調整

MetaAlign: Coordinating Domain Alignment and Classification for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2103.13575v1 )

ライセンス: CC BY 4.0
Guoqiang Wei, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 非教師なしドメイン適応 (unsupervised domain adaptation, uda) では、ドメインシフトの効果を緩和するために、多くのアプローチが機能空間のソースとターゲットドメインを敵の学習や統計を明示的に整列させることで一致させる。 しかし、そのようなドメインアライメントの最適化の目的は通常、最適化のための降下方向が矛盾する可能性があるように、オブジェクト分類タスク自体と協調しない。 これにより、UDAの性能向上におけるドメインアライメントの有効性が低下する。 本稿では,ドメインアライメントと分類タスクの最適化の不整合問題を研究・軽減することを目的とする。 そこで我々はメタアライメント目標と分類目標をメタトレーニングおよびメタテストタスクとして扱うメタアラインと呼ばれる効果的なメタ最適化ベースの戦略を提案する。 metaalignは、トレーニング中の2つのタスクの勾配の内積を最大化する協調的な方法で、両方のタスクを最適化することを推奨する。 提案手法は,物体分類と物体検出のタスクにおいて,様々なアライメントに基づくベースラインアプローチ上で有効であることを示す。 MetaAlignは最先端のパフォーマンスを達成するのに役立ちます。

For unsupervised domain adaptation (UDA), to alleviate the effect of domain shift, many approaches align the source and target domains in the feature space by adversarial learning or by explicitly aligning their statistics. However, the optimization objective of such domain alignment is generally not coordinated with that of the object classification task itself such that their descent directions for optimization may be inconsistent. This will reduce the effectiveness of domain alignment in improving the performance of UDA. In this paper, we aim to study and alleviate the optimization inconsistency problem between the domain alignment and classification tasks. We address this by proposing an effective meta-optimization based strategy dubbed MetaAlign, where we treat the domain alignment objective and the classification objective as the meta-train and meta-test tasks in a meta-learning scheme. MetaAlign encourages both tasks to be optimized in a coordinated way, which maximizes the inner product of the gradients of the two tasks during training. Experimental results demonstrate the effectiveness of our proposed method on top of various alignment-based baseline approaches, for tasks of object classification and object detection. MetaAlign helps achieve the state-of-the-art performance.
翻訳日:2021-03-26 23:30:50 公開日:2021-03-25
# (参考訳) 変形可能なマルチスケール画像登録のためのテスト時間トレーニング

Test-Time Training for Deformable Multi-Scale Image Registration ( http://arxiv.org/abs/2103.13578v1 )

ライセンス: CC BY 4.0
Wentao Zhu and Yufang Huang and Daguang Xu and Zhen Qian and Wei Fan and Xiaohui Xie(参考訳) 登録は医療ロボットの基本的なタスクであり、動作分析、術中追跡、画像分割など多くの下流タスクにとって重要なステップである。 ANTsやNiftyRegなどの一般的な登録方法は、複雑な変形を伴う3Dおよびシーケンシャルな画像に要する時間である、スクラッチから各画像の目的関数を最適化する。 近年,VoxelMorphのようなディープラーニングベースの登録手法が登場し,競争性能が向上している。 本研究では,従来の学習ベース登録モデルの一般化能力を向上させるために,深い変形可能な画像登録のためのテストタイムトレーニングを構築する。 残留変形を連続的にモデル化するマルチスケールディープネットワークを設計し,高変動変形に有効である。 画像分割と平均二乗誤差(mse, normalized local cross-correlation, nlcc)による組織濃密な追跡課題に対する, dice係数に基づくテストタイムトレーニングによる多スケール深層登録の有効性を検証した。 https://www.youtube.com/watch?v=NvLrCaqCiAE と https://www.youtube.com/watch?v=pEA6ZmtTNuQ

Registration is a fundamental task in medical robotics and is often a crucial step for many downstream tasks such as motion analysis, intra-operative tracking and image segmentation. Popular registration methods such as ANTs and NiftyReg optimize objective functions for each pair of images from scratch, which are time-consuming for 3D and sequential images with complex deformations. Recently, deep learning-based registration approaches such as VoxelMorph have been emerging and achieve competitive performance. In this work, we construct a test-time training for deep deformable image registration to improve the generalization ability of conventional learning-based registration model. We design multi-scale deep networks to consecutively model the residual deformations, which is effective for high variational deformations. Extensive experiments validate the effectiveness of multi-scale deep registration with test-time training based on Dice coefficient for image segmentation and mean square error (MSE), normalized local cross-correlation (NLCC) for tissue dense tracking tasks. Two videos are in https://www.youtube.com/watch?v=NvLrCaqCiAE and https://www.youtube.com/watch?v=pEA6ZmtTNuQ
翻訳日:2021-03-26 23:12:28 公開日:2021-03-25
# (参考訳) ファウショット学習のためのメタフィルタによる動的アライメントの学習

Learning Dynamic Alignment via Meta-filter for Few-shot Learning ( http://arxiv.org/abs/2103.13582v1 )

ライセンス: CC BY 4.0
Chengming Xu, Chen Liu, Li Zhang, Chengjie Wang, Jilin Li, Feiyue Huang, Xiangyang Xue, Yanwei Fu(参考訳) FSL(Few-shot Learning)は、学習知識を極めて限定的な(サポートされた)例で適用することで、新しいクラスを認識することを目的としている。 少数ショット学習における機能アライメントの既存の方法のほとんどは、画像レベルのアライメントや空間レベルのアライメントのみを考慮しつつ、チャネルの差異を省略している。 我々の考えでは、これらの手法は冗長なマッチングによる適応が不十分になり、学習した知識を新しいクラスに適切に適応させる鍵となる。 そこで本稿では,異なるローカルサポート情報に基づいて,クエリ領域とチャネルの両方を効果的にハイライトできる動的アライメントの学習を提案する。 具体的には、まず入力数ショットで条件付けられた特徴位置の近傍を動的にサンプリングし、それに基づいて位置依存とチャネル依存の両方の動的メタフィルタを予測する。 このフィルタは、クエリ機能と位置特化およびチャネル特化知識の整合に使用される。 さらに、より正確なアライメント制御を可能にするために、ニューラル正規微分方程式(ODE)を採用する。 このような意味で、我々のモデルは、少数ショット例のきめ細かいセマンティックコンテキストをより正確に把握することができ、したがって、数ショット学習のための動的知識適応を容易にする。 結果として得られたフレームワークは、miniimagenetやtieredimagenetなど、主要な数少ないビジュアル認識ベンチマークで最新技術を確立している。

Few-shot learning (FSL), which aims to recognise new classes by adapting the learned knowledge with extremely limited few-shot (support) examples, remains an important open problem in computer vision. Most of the existing methods for feature alignment in few-shot learning only consider image-level or spatial-level alignment while omitting the channel disparity. Our insight is that these methods would lead to poor adaptation with redundant matching, and leveraging channel-wise adjustment is the key to well adapting the learned knowledge to new classes. Therefore, in this paper, we propose to learn a dynamic alignment, which can effectively highlight both query regions and channels according to different local support information. Specifically, this is achieved by first dynamically sampling the neighbourhood of the feature position conditioned on the input few shot, based on which we further predict a both position-dependent and channel-dependent Dynamic Meta-filter. The filter is used to align the query feature with position-specific and channel-specific knowledge. Moreover, we adopt Neural Ordinary Differential Equation (ODE) to enable a more accurate control of the alignment. In such a sense our model is able to better capture fine-grained semantic context of the few-shot example and thus facilitates dynamical knowledge adaptation for few-shot learning. The resulting framework establishes the new state-of-the-arts on major few-shot visual recognition benchmarks, including miniImageNet and tieredImageNet.
翻訳日:2021-03-26 22:54:15 公開日:2021-03-25
# (参考訳) 階層型注意ネットワークと畳み込みニューラルネットワークの統合によるオンラインフォーラム要約の改善

Improving Online Forums Summarization via Unifying Hierarchical Attention Networks with Convolutional Neural Networks ( http://arxiv.org/abs/2103.13587v1 )

ライセンス: CC BY 4.0
Sansiri Tarnpradab, Fereshteh Jafariakinabad and Kien A. Hua(参考訳) オンラインディスカッションフォーラムは広く普及しており、簡単にアクセスできるので、議論スレッドにメッセージを投稿することでアイデアや意見を共有できる。 フォーラムスレッドは、参加者にとって、新参者も既存者も、主要なアイデアをつかむことが困難になる可能性がある。 本研究は,この問題を軽減するために,オンラインフォーラム用テキスト要約の自動作成を目的とする。 本稿では,2方向長短期記憶(Bi-LSTM)と畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を結合した階層型注目ネットワークに基づくフレームワークを提案する。 このスキームでは、Bi-LSTMは文全体とスレッド全体の情報を含む表現を導出するが、CNNは文とスレッドコンテキストに関して支配的な単位の高レベルなパターンを認識する。 注意機構はcnnの上に適用され、望ましい要約に寄与する重要なユニットをキャプチャするハイレベルな表現をさらに強調する。 3つのデータセットに基づく広範なパフォーマンス評価、そのうちの2つは実生活オンラインフォーラム、もう1つはニュースデータセットであり、提案モデルがいくつかの競合ベースラインを上回ることを示している。

Online discussion forums are prevalent and easily accessible, thus allowing people to share ideas and opinions by posting messages in the discussion threads. Forum threads that significantly grow in length can become difficult for participants, both newcomers and existing, to grasp main ideas. This study aims to create an automatic text summarizer for online forums to mitigate this problem. We present a framework based on hierarchical attention networks, unifying Bidirectional Long Short-Term Memory (Bi-LSTM) and Convolutional Neural Network (CNN) to build sentence and thread representations for the forum summarization. In this scheme, Bi-LSTM derives a representation that comprises information of the whole sentence and whole thread; whereas, CNN recognizes high-level patterns of dominant units with respect to the sentence and thread context. The attention mechanism is applied on top of CNN to further highlight the high-level representations that capture any important units contributing to a desirable summary. Extensive performance evaluation based on three datasets, two of which are real-life online forums and one is news dataset, reveals that the proposed model outperforms several competitive baselines.
翻訳日:2021-03-26 22:39:43 公開日:2021-03-25
# (参考訳) Mask Attention Networks: Rethinking and Strengthen Transformer

Mask Attention Networks: Rethinking and Strengthen Transformer ( http://arxiv.org/abs/2103.13597v1 )

ライセンス: CC BY 4.0
Zhihao Fan, Yeyun Gong, Dayiheng Liu, Zhongyu Wei, Siyuan Wang, Jian Jiao, Nan Duan, Ruofei Zhang, Xuanjing Huang(参考訳) Transformerは注目に基づくニューラルネットワークで、SAN(Self-Attention Network)とFFN(Feed-Forward Network)という2つのサブレイヤで構成される。 既存の研究は、テキスト表現におけるトランスフォーマーの能力を改善するために、2つのサブレイヤーを別々に拡張することを検討している。 本稿では,san と ffn をマスクアテンションネットワーク (mans) として新たに理解し,静的マスクマトリクスを持つ男の2つの特別なケースであることを示す。 しかし、静的マスク行列は、テキスト表現学習における局所性モデリングの能力を制限する。 そこで我々は,局所性を適応的にモデル化できる学習可能なマスク行列を備えた動的マスキングアテンションネットワーク(DMAN)を導入する。 DMAN, SAN, FFNの利点を取り入れ, 3種類の層を組み合わせるシーケンシャルな層構造を提案する。 ニューラルネットワーク翻訳やテキスト要約など,さまざまなタスクに対する大規模な実験により,我々のモデルがオリジナルのトランスフォーマーより優れていることが示された。

Transformer is an attention-based neural network, which consists of two sublayers, namely, Self-Attention Network (SAN) and Feed-Forward Network (FFN). Existing research explores to enhance the two sublayers separately to improve the capability of Transformer for text representation. In this paper, we present a novel understanding of SAN and FFN as Mask Attention Networks (MANs) and show that they are two special cases of MANs with static mask matrices. However, their static mask matrices limit the capability for localness modeling in text representation learning. We therefore introduce a new layer named dynamic mask attention network (DMAN) with a learnable mask matrix which is able to model localness adaptively. To incorporate advantages of DMAN, SAN, and FFN, we propose a sequential layered structure to combine the three types of layers. Extensive experiments on various tasks, including neural machine translation and text summarization demonstrate that our model outperforms the original Transformer.
翻訳日:2021-03-26 22:18:55 公開日:2021-03-25
# (参考訳) テキストにおける因果関係の方向予測

Predicting Directionality in Causal Relations in Text ( http://arxiv.org/abs/2103.13606v1 )

ライセンス: CC BY 4.0
Pedram Hosseini, David A. Broniatowski, Mona Diab(参考訳) 本研究では,2つの双方向トランスフォーマーベース言語モデルであるBERTとSpanBERTの性能試験を行い,テキストコンテンツ中の因果対の方向性を予測する。 予備的な結果は,相互関係と暗黙的因果関係の方向予測がより困難であることを示している。 また、SpanBERTは長さが長い因果検体ではBERTより優れている。 また,因果関係の散在したデータセットの集合を統一するフレームワークである crest についても紹介する。

In this work, we test the performance of two bidirectional transformer-based language models, BERT and SpanBERT, on predicting directionality in causal pairs in the textual content. Our preliminary results show that predicting direction for inter-sentence and implicit causal relations is more challenging. And, SpanBERT performs better than BERT on causal samples with longer span length. We also introduce CREST which is a framework for unifying a collection of scattered datasets of causal relations.
翻訳日:2021-03-26 22:05:44 公開日:2021-03-25
# (参考訳) THAT: 大規模ロバストネス向上のための2つの頭部対向訓練

THAT: Two Head Adversarial Training for Improving Robustness at Scale ( http://arxiv.org/abs/2103.13612v1 )

ライセンス: CC BY 4.0
Zuxuan Wu, Tom Goldstein, Larry S. Davis, Ser-Nam Lim(参考訳) 逆行訓練の多くの変種が提案されており、ほとんどの研究は比較的少数のクラスの問題に焦点を当てている。 本稿では,大規模な多クラス画像Netデータセットを扱うために設計された2ストリーム逆学習ネットワークであるTwo Head Adversarial Training (THAT)を提案する。 提案手法では,2つのヘッドと2つの損失関数を持つネットワークを訓練する。1つは自然画像と逆画像間の特徴空間領域シフトを最小化し,もう1つは高い分類精度を促進する。 この組み合わせは、ImageNet上で高い自然な精度を維持しながら、最先端の精度を実現する、強化されたネットワークを提供する。 広範にわたる実験により,提案手法は,標準および「自由」な学習条件下での代替手法よりも優れていることを示した。

Many variants of adversarial training have been proposed, with most research focusing on problems with relatively few classes. In this paper, we propose Two Head Adversarial Training (THAT), a two-stream adversarial learning network that is designed to handle the large-scale many-class ImageNet dataset. The proposed method trains a network with two heads and two loss functions; one to minimize feature-space domain shift between natural and adversarial images, and one to promote high classification accuracy. This combination delivers a hardened network that achieves state of the art robust accuracy while maintaining high natural accuracy on ImageNet. Through extensive experiments, we demonstrate that the proposed framework outperforms alternative methods under both standard and "free" adversarial training settings.
翻訳日:2021-03-26 21:49:48 公開日:2021-03-25
# (参考訳) カラーファンドス画像における網膜血管セグメンテーションのためのコンテキスト情報強化畳み込みニューラルネットワーク

Contextual Information Enhanced Convolutional Neural Networks for Retinal Vessel Segmentation in Color Fundus Images ( http://arxiv.org/abs/2103.13622v1 )

ライセンス: CC BY 4.0
Muyi Sun, Guanhong Zhang(参考訳) 正確な網膜血管セグメンテーションは、色眼底画像解析において難しい問題である。 自動網膜血管セグメンテーションシステムは、臨床診断及び眼科研究を効果的に促進することができる。 技術的には、この問題は様々な容器の厚さ、詳細の知覚、文脈的特徴の融合に苦しむ。 これらの課題に対処するため、深層学習に基づく手法が提案され、広く知られたエンコーダ・デコーダアーキテクチャであるu-netにいくつかのカスタマイズされたモジュールが組み込まれている。 構造的には、カスケード拡張畳み込みモジュールが中間層に統合され、より大きな受容場を獲得し、より密に符号化された特徴写像を生成する。 また, 空間連続性を持つピラミッドモジュールの利点として, マルチタイクネス知覚, 詳細精細化, 文脈的特徴融合があげられる。 さらに、特定の特性を持つ異なるデータセットに対するネットワークトレーニングにおいて、異なる正規化アプローチの有効性が議論されている。 実験的に、十分な比較実験が3つの網膜血管セグメンテーションデータセット、drive、 chasedb1、および不健全データセット stareで実施されている。 その結果,提案手法は先行技術よりも優れ,感性/リコール,F1スコア,MCCの最先端性能を実現している。

Accurate retinal vessel segmentation is a challenging problem in color fundus image analysis. An automatic retinal vessel segmentation system can effectively facilitate clinical diagnosis and ophthalmological research. Technically, this problem suffers from various degrees of vessel thickness, perception of details, and contextual feature fusion. For addressing these challenges, a deep learning based method has been proposed and several customized modules have been integrated into the well-known encoder-decoder architecture U-net, which is mainly employed in medical image segmentation. Structurally, cascaded dilated convolutional modules have been integrated into the intermediate layers, for obtaining larger receptive field and generating denser encoded feature maps. Also, the advantages of the pyramid module with spatial continuity have been taken, for multi-thickness perception, detail refinement, and contextual feature fusion. Additionally, the effectiveness of different normalization approaches has been discussed in network training for different datasets with specific properties. Experimentally, sufficient comparative experiments have been enforced on three retinal vessel segmentation datasets, DRIVE, CHASEDB1, and the unhealthy dataset STARE. As a result, the proposed method outperforms the work of predecessors and achieves state-of-the-art performance in Sensitivity/Recall, F1-score and MCC.
翻訳日:2021-03-26 21:36:42 公開日:2021-03-25
# (参考訳) ループを閉じる:不連続画像翻訳による共同雨の発生と除去

Closing the Loop: Joint Rain Generation and Removal via Disentangled Image Translation ( http://arxiv.org/abs/2103.13660v1 )

ライセンス: CC BY 4.0
Yuntong Ye, Yi Chang, Hanyu Zhou, Luxin Yan(参考訳) 既存のディープラーニングに基づく画像デライニング手法は、合成雨画像に対して有望な性能を達成しており、通常は鋭い画像と模擬雨画像のペアに依存している。 しかし, 簡易合成雨と複雑な実雨との間には大きなギャップがあるため, 実際の雨に面した際の性能低下に悩まされている。 本研究では,雨の発生と除去は同じ硬貨の両側面であり,密結合すべきであると主張する。 このループを閉じるために, 統一された画像翻訳フレームワークにおいて, 雨の発生・除去手順を共同学習することを提案する。 具体的には, 実雨画像と合成雨画像の両方に対して, 各一方向ネットワークが2つの共同雨発生ループと除去ループを含む双方向不等角化翻訳ネットワークを提案する。 一方,雨像をクリーンな背景層とレイン層(レイン除去層)に分解し,サイクル整合性損失と対向性損失を両立させ,実際の雨像と合成雨像の間を通した雨層を緩和するため,雨像をクリーンな背景層とレイン除去層に分解する。 この絡み合い戦略と相反する組成物は、雨の発生に対称的に適用される。 人工雨と実世界の降雨データセットに関する広範な実験は、最先端雨と比較して提案手法が優れていることを示している。

Existing deep learning-based image deraining methods have achieved promising performance for synthetic rainy images, typically rely on the pairs of sharp images and simulated rainy counterparts. However, these methods suffer from significant performance drop when facing the real rain, because of the huge gap between the simplified synthetic rain and the complex real rain. In this work, we argue that the rain generation and removal are the two sides of the same coin and should be tightly coupled. To close the loop, we propose to jointly learn real rain generation and removal procedure within a unified disentangled image translation framework. Specifically, we propose a bidirectional disentangled translation network, in which each unidirectional network contains two loops of joint rain generation and removal for both the real and synthetic rain image, respectively. Meanwhile, we enforce the disentanglement strategy by decomposing the rainy image into a clean background and rain layer (rain removal), in order to better preserve the identity background via both the cycle-consistency loss and adversarial loss, and ease the rain layer translating between the real and synthetic rainy image. A counterpart composition with the entanglement strategy is symmetrically applied for rain generation. Extensive experiments on synthetic and real-world rain datasets show the superiority of proposed method compared to state-of-the-arts.
翻訳日:2021-03-26 21:20:03 公開日:2021-03-25
# (参考訳) ニューラルネットワーク翻訳の領域適応のためのpruning-then-expandingモデル

Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation ( http://arxiv.org/abs/2103.13678v1 )

ライセンス: CC BY 4.0
Shuhao Gu, Yang Feng, Wanying Xie(参考訳) ドメイン適応は、一般ドメインとインドメインの両方で優れたパフォーマンスを達成することを目的として、ニューラルマシン翻訳の実用的な応用で広く使われている。 しかし、既存のドメイン適応法は通常、破滅的な忘れ、ドメインのばらつき、モデル爆発に悩まされる。 これら3つの問題に対処するために、翻訳モデルにおけるニューロンやパラメータの重要性に基づく「分割と征服」の手法を提案する。 提案手法では,まずモデルをpruneし,重要なニューロンやパラメータのみを保持し,一般ドメインおよびドメイン内翻訳の責任を負う。 次に, 知識蒸留法を用いて, 原型未熟モデルに監督されたプルーンモデルをさらに訓練する。 最後に、モデルを元のサイズに拡張し、ドメイン内翻訳のための追加パラメータを微調整します。 我々は,異なる言語とドメインについて実験を行い,本手法がいくつかの強力なベースラインと比較して有意な改善を得られることを示した。

Domain Adaptation is widely used in practical applications of neural machine translation, which aims to achieve good performance on both the general-domain and in-domain. However, the existing methods for domain adaptation usually suffer from catastrophic forgetting, domain divergence, and model explosion. To address these three problems, we propose a method of "divide and conquer" which is based on the importance of neurons or parameters in the translation model. In our method, we first prune the model and only keep the important neurons or parameters, making them responsible for both general-domain and in-domain translation. Then we further train the pruned model supervised by the original unpruned model with the knowledge distillation method. Last we expand the model to the original size and fine-tune the added parameters for the in-domain translation. We conduct experiments on different languages and domains and the results show that our method can achieve significant improvements compared with several strong baselines.
翻訳日:2021-03-26 21:05:35 公開日:2021-03-25
# (参考訳) MBA-VO:視覚オドメトリーを意識したモーションブラインド

MBA-VO: Motion Blur Aware Visual Odometry ( http://arxiv.org/abs/2103.13684v1 )

ライセンス: CC BY 4.0
Peidong Liu, Xingxing Zuo, Viktor Larsson and Marc Pollefeys(参考訳) 運動のぼかしは視覚計測法に残る主要な課題の1つである。 長時間露光が必要な低照度環境では、比較的遅いカメラの動きであっても動きのぼかしが現れる。 本稿では,露光時間内にカメラの局所軌跡を明示的にモデル化し,推定する,直接的アプローチのハイブリッドなビジュアルオドメトリーパイプラインを提案する。 これにより、カメラの動きによって生じる動きのぼやけを積極的に補うことができます。 また,動きのぼかしを意識した視覚計測のための新しいベンチマークデータセットも提案する。 実験では、画像形成過程を直接モデル化することにより、動きのぼやけのない画像と同等の精度を保ちながら、視覚計測の堅牢性を向上させることができることを示す。

Motion blur is one of the major challenges remaining for visual odometry methods. In low-light conditions where longer exposure times are necessary, motion blur can appear even for relatively slow camera motions. In this paper we present a novel hybrid visual odometry pipeline with direct approach that explicitly models and estimates the camera's local trajectory within the exposure time. This allows us to actively compensate for any motion blur that occurs due to the camera motion. In addition, we also contribute a novel benchmarking dataset for motion blur aware visual odometry. In experiments we show that by directly modeling the image formation process, we are able to improve robustness of the visual odometry, while keeping comparable accuracy as that for images without motion blur.
翻訳日:2021-03-26 20:51:10 公開日:2021-03-25
# (参考訳) 記述論理オントロジー学習の複雑さについて

On the Complexity of Learning Description Logic Ontologies ( http://arxiv.org/abs/2103.13694v1 )

ライセンス: CC BY 4.0
Ana Ozaki(参考訳) オントロジーはドメイン知識、特に生命科学に関連する領域における知識を表現する一般的な方法である。 (半)オントロジーを構築する過程の自動化は、異なるコミュニティの研究者を「オントロジー学習」という分野に引き寄せている。 計算学習理論から得られた正確かつほぼ正しい学習モデルの正式な仕様を提供する。 そして、これらのモデルにおける軽量記述論理(DL)オントロジーを学習するための文献複雑性結果から記憶する。 最後に,DLオントロジーの学習における文献的アプローチについて述べる。

Ontologies are a popular way of representing domain knowledge, in particular, knowledge in domains related to life sciences. (Semi-)automating the process of building an ontology has attracted researchers from different communities into a field called "Ontology Learning". We provide a formal specification of the exact and the probably approximately correct learning models from computational learning theory. Then, we recall from the literature complexity results for learning lightweight description logic (DL) ontologies in these models. Finally, we highlight other approaches proposed in the literature for learning DL ontologies.
翻訳日:2021-03-26 20:37:56 公開日:2021-03-25
# (参考訳) ベクトル化とラスタ化: スケッチと手書きのための自己監督学習

Vectorization and Rasterization: Self-Supervised Learning for Sketch and Handwriting ( http://arxiv.org/abs/2103.13716v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Yongxin Yang, Timothy M. Hospedales, Tao Xiang, Yi-Zhe Song(参考訳) 自己教師付き学習は、多くの困難な下流タスクにおいて優れたパフォーマンスを達成する未学習データから強力な表現を学習する効果により、注目を集めている。 しかし、監督不要のプレテキストタスクは設計が困難であり、通常はモダリティに特化している。 空間的(画像など)または時間的データ(音やテキスト)のモダリティについては、自己管理手法の豊富な文献があるが、両方のモダリティの恩恵を受ける共通のプレテキストタスクが欠落している。 本稿では、スケッチと手書きデータのための自己教師付き事前テキストタスクの定義に興味がある。 このデータはラスタ化画像とベクトル座標列の双対モダリティの存在によって一意的に特徴付けられる。 我々は,この二重表現を,自己教師付き特徴学習のための2つの新しいクロスモーダル翻訳プリテキストタスクであるベクトル化とラスタライズを提案することで解決し,活用する。 ベクトル化は画像空間をベクトル座標にマッピングすることを学び、ラスタ化はベクトル座標を画像空間にマッピングする。 学習したエンコーダモジュールはラスタベースとベクトルベースの両方の下流アプローチによる手書きデータの解析に有用であることを示す。 実験的な証拠は、我々の新しいプレテキストタスクが既存の単一およびマルチモーダルなセルフスーパービジョンメソッドを超えていることを示している。

Self-supervised learning has gained prominence due to its efficacy at learning powerful representations from unlabelled data that achieve excellent performance on many challenging downstream tasks. However supervision-free pre-text tasks are challenging to design and usually modality specific. Although there is a rich literature of self-supervised methods for either spatial (such as images) or temporal data (sound or text) modalities, a common pre-text task that benefits both modalities is largely missing. In this paper, we are interested in defining a self-supervised pre-text task for sketches and handwriting data. This data is uniquely characterised by its existence in dual modalities of rasterized images and vector coordinate sequences. We address and exploit this dual representation by proposing two novel cross-modal translation pre-text tasks for self-supervised feature learning: Vectorization and Rasterization. Vectorization learns to map image space to vector coordinates and rasterization maps vector coordinates to image space. We show that the our learned encoder modules benefit both raster-based and vector-based downstream approaches to analysing hand-drawn data. Empirical evidence shows that our novel pre-text tasks surpass existing single and multi-modal self-supervision methods.
翻訳日:2021-03-26 20:20:19 公開日:2021-03-25
# (参考訳) スポーツチームランキングにおける深い類似性学習

Deep Similarity Learning for Sports Team Ranking ( http://arxiv.org/abs/2103.13736v1 )

ライセンス: CC BY-SA 4.0
Daniel Yazbek, Jonathan Sandile Sibindi, Terence L. Van Zyl(参考訳) スポーツデータはより容易に入手でき、その結果、文学におけるスポーツ分析、予測、ランキングの量が増加している。 スポーツはそれぞれの確率的性質においてユニークであり、分析を行い、スポーツに関わる人々にとって価値のある正確な予測を行う。 そこで本研究では,LightGBMモデルとXGBoostモデルとを併用したSiamese Neural Networks(SNN)に着目し,試合の重要性を予測し,ラグビーとバスケットボールのチームをランク付けする。 6つのモデル、LightGBM、XGBoost、LightGBM(Contrastive Loss)、LightGBM(Triplet Loss)、XGBoost(Contrastive Loss)、XGBoost(Triplet Loss)が開発された。 Triplet損失関数を利用するモデルは、Contrastive lossを使用するモデルよりも優れている。 LightGBM (Triplet Los) はNBAのランキングにおいて最も効果的なモデルであり、それぞれ、最先端(SOTA) mAP (0.867) と NDCG (0.98) を生成する。 SNNは最も効果的にスーパー15ラグビーを予測し、SOTA mAP (0.921)、NDCG (0.983)、および$r_s$ (0.793)を得た。 トリプレットロスは、スポーツの予測とランキングのための学習表現/エンベディングの価値を示す最高の総合結果を生成する。 総合的には、他のランキングモデルが将来検討されるべきであることを示す2つのスポーツ全体で一貫した最高のパフォーマンスモデルはない。

Sports data is more readily available and consequently, there has been an increase in the amount of sports analysis, predictions and rankings in the literature. Sports are unique in their respective stochastic nature, making analysis, and accurate predictions valuable to those involved in the sport. In response, we focus on Siamese Neural Networks (SNN) in unison with LightGBM and XGBoost models, to predict the importance of matches and to rank teams in Rugby and Basketball. Six models were developed and compared, a LightGBM, a XGBoost, a LightGBM (Contrastive Loss), LightGBM (Triplet Loss), a XGBoost (Contrastive Loss), XGBoost (Triplet Loss). The models that utilise a Triplet loss function perform better than those using Contrastive loss. It is clear LightGBM (Triplet loss) is the most effective model in ranking the NBA, producing a state of the art (SOTA) mAP (0.867) and NDCG (0.98) respectively. The SNN (Triplet loss) most effectively predicted the Super 15 Rugby, yielding the SOTA mAP (0.921), NDCG (0.983), and $r_s$ (0.793). Triplet loss produces the best overall results displaying the value of learning representations/embeddings for prediction and ranking of sports. Overall there is not a single consistent best performing model across the two sports indicating that other Ranking models should be considered in the future.
翻訳日:2021-03-26 20:03:44 公開日:2021-03-25
# (参考訳) KiloNeRF:何千ものティニーMLPによるニューラルラジアンスフィールドの高速化

KiloNeRF: Speeding up Neural Radiance Fields with Thousands of Tiny MLPs ( http://arxiv.org/abs/2103.13744v1 )

ライセンス: CC BY-SA 4.0
Christian Reiser and Songyou Peng and Yiyi Liao and Andreas Geiger(参考訳) NeRFは、RGB画像にニューラルラディアンス場を合わせることにより、前例のない品質のシーンの新たなビューを合成する。 しかし、nerfは数百万回ものmlp(deep multi-layer perceptron)クエリを必要とするため、現在のgpuでもレンダリング時間が遅くなる。 本稿では,1つの大きなMLPではなく,何千もの小さなMLPを活用することで,大幅な高速化が可能であることを実証する。 我々の設定では、個々のMLPはシーンの一部だけを表現する必要があるため、より小さく、より高速にMDPを使用できる。 この分割・対数戦略とさらなる最適化を組み合わせることで、高ストレージコストを伴わずに、元のNeRFモデルと比較して2桁のレンダリングを高速化する。 さらに, 教師・生徒の蒸留を訓練に利用することで, このスピードアップが視覚品質を犠牲にすることなく実現できることを示す。

NeRF synthesizes novel views of a scene with unprecedented quality by fitting a neural radiance field to RGB images. However, NeRF requires querying a deep Multi-Layer Perceptron (MLP) millions of times, leading to slow rendering times, even on modern GPUs. In this paper, we demonstrate that significant speed-ups are possible by utilizing thousands of tiny MLPs instead of one single large MLP. In our setting, each individual MLP only needs to represent parts of the scene, thus smaller and faster-to-evaluate MLPs can be used. By combining this divide-and-conquer strategy with further optimizations, rendering is accelerated by two orders of magnitude compared to the original NeRF model without incurring high storage costs. Further, using teacher-student distillation for training, we show that this speed-up can be achieved without sacrificing visual quality.
翻訳日:2021-03-26 19:51:40 公開日:2021-03-25
# (参考訳) 非線形力学系に対するクープマン作用素の推定:非パラメトリックアプローチ

Estimating Koopman operators for nonlinear dynamical systems: a nonparametric approach ( http://arxiv.org/abs/2103.13752v1 )

ライセンス: CC BY 4.0
Francesco Zanini and Alessandro Chiuso(参考訳) クープマン作用素(koopman operator)は、非線形系の線型記述を可能にする数学的ツールであるが、無限次元空間で動作する。 動的モード分解と拡張動的モード分解は最も人気のある有限次元近似の一つである。 本稿では,その核となる部分を同一フレームワークのデュアルバージョンとして捉え,それらをカーネルフレームワークに組み込む。 そのために、RKHSは、データによって形成される本質的な有限次元の性質のおかげで、クープマン力学を学ぶのに適した空間として活用する。 最終的にカーネルメソッドとクープマン演算子との強いリンクを確立し、カーネル関数を通して後者を推定する。 また,標準手順との比較のためのシミュレーションも提供する。

The Koopman operator is a mathematical tool that allows for a linear description of non-linear systems, but working in infinite dimensional spaces. Dynamic Mode Decomposition and Extended Dynamic Mode Decomposition are amongst the most popular finite dimensional approximation. In this paper we capture their core essence as a dual version of the same framework, incorporating them into the Kernel framework. To do so, we leverage the RKHS as a suitable space for learning the Koopman dynamics, thanks to its intrinsic finite-dimensional nature, shaped by data. We finally establish a strong link between kernel methods and Koopman operators, leading to the estimation of the latter through Kernel functions. We provide also simulations for comparison with standard procedures.
翻訳日:2021-03-26 19:37:41 公開日:2021-03-25
# (参考訳) 雑音データによるマルチフレーム超解像

Multi-frame Super-resolution from Noisy Data ( http://arxiv.org/abs/2103.13778v1 )

ライセンス: CC BY 4.0
Kireeti Bodduna and Joachim Weickert(参考訳) 低解像度データからクリッピングノイズで高解像度画像を取得することは、問題の性質の悪さからアルゴリズム的に困難である。 これまでのところこのような問題はほとんど解決されておらず、既存のアプローチでは単純正則法がほとんど使われていない。 異方性拡散の概念に基づく2つの適応正規化器の有用性を示す: 古典的エッジエンハンス異方性拡散正規化器を別として, 片面差と優れた性能を有する新しい非局所拡散正規化器を提案する。 セクタ拡散と呼ばれる。 従来のスーパーレゾリューション観測モデルの6つの変種すべてと組み合わせることで、3つの演算子が乱れ、ぼやけ、ダウンサンプリングのために置換される。 意外なことに、実際に関係のあるノイズシナリオの評価は、これまでの作業(SSVM 2017)のノイズフリー設定と異なるランキングを生み出します。

Obtaining high resolution images from low resolution data with clipped noise is algorithmically challenging due to the ill-posed nature of the problem. So far such problems have hardly been tackled, and the few existing approaches use simplistic regularisers. We show the usefulness of two adaptive regularisers based on anisotropic diffusion ideas: Apart from evaluating the classical edge-enhancing anisotropic diffusion regulariser, we introduce a novel non-local one with one-sided differences and superior performance. It is termed sector diffusion. We combine it with all six variants of the classical super-resolution observational model that arise from permutations of its three operators for warping, blurring, and downsampling. Surprisingly, the evaluation in a practically relevant noisy scenario produces a different ranking than the one in the noise-free setting in our previous work (SSVM 2017).
翻訳日:2021-03-26 19:27:25 公開日:2021-03-25
# (参考訳) モデル予測アクター批判:深層強化学習によるロボットスキル獲得の加速

Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.13842v1 )

ライセンス: CC BY 4.0
Andrew S. Morgan, Daljeet Nandha, Georgia Chalvatzaki, Carlo D'Eramo, Aaron M. Dollar, and Jan Peters(参考訳) モデルに基づく強化学習アルゴリズムの実質的な進歩は、収集されたデータによって誘導されるモデルバイアスによって妨げられ、一般にパフォーマンスを損なう。 一方、本質的なサンプル効率は、ほとんどのロボットアプリケーションに実用性を保証し、トレーニング中のロボットとその環境への潜在的なダメージを制限する。 情報理論モデル予測制御と深層強化学習の進歩にインスパイアされたモデル予測アクタ批判(MoPAC)は,モデル予測ロールアウトとモデルバイアスを軽減するためのポリシー最適化を組み合わせたハイブリッドモデルベース/モデルフリー手法である。 mopacは、ポリシー学習のガイドに最適な軌道を利用するが、そのモデルフリーな手法で探索し、より表現力のあるダイナミクスモデルを学ぶことができる。 この組み合わせは、近似誤差まで最適なスキル学習を保証し、環境との必要な物理的相互作用を低減し、実際のロボットの訓練に適している。 提案手法が現在最先端の手法よりも優れており,バルブ回転と指の出動を行う物理ロボットハンドで学習するためのMoPACを評価することで,物体の把握,操作,再認識を必要とするタスクを評価できることを示す。

Substantial advancements to model-based reinforcement learning algorithms have been impeded by the model-bias induced by the collected data, which generally hurts performance. Meanwhile, their inherent sample efficiency warrants utility for most robot applications, limiting potential damage to the robot and its environment during training. Inspired by information theoretic model predictive control and advances in deep reinforcement learning, we introduce Model Predictive Actor-Critic (MoPAC), a hybrid model-based/model-free method that combines model predictive rollouts with policy optimization as to mitigate model bias. MoPAC leverages optimal trajectories to guide policy learning, but explores via its model-free method, allowing the algorithm to learn more expressive dynamics models. This combination guarantees optimal skill learning up to an approximation error and reduces necessary physical interaction with the environment, making it suitable for real-robot training. We provide extensive results showcasing how our proposed method generally outperforms current state-of-the-art and conclude by evaluating MoPAC for learning on a physical robotic hand performing valve rotation and finger gaiting--a task that requires grasping, manipulation, and then regrasping of an object.
翻訳日:2021-03-26 19:18:30 公開日:2021-03-25
# (参考訳) 識別的脳サブネットワークを用いた自閉症スペクトラム障害スクリーニング : エントロピーアプローチ

Autism Spectrum Disorder Screening Using Discriminative Brain Sub-Networks: An Entropic Approach ( http://arxiv.org/abs/2103.13850v1 )

ライセンス: CC BY 4.0
Mohammad Amin, Farshad Safaei(参考訳) 自閉症は、人の社会的相互作用に問題を引き起こす最も重要な神経障害の1つである。 脳のイメージング技術と技術の改善は、脳の構造的および機能的ネットワークの構築に役立つ。 各グループ(自閉症と健康管理)におけるネットワークトポロジーパターンの発見は、自閉症障害スクリーニングモデルの実現に役立つ。 本研究では,遺伝的アルゴリズムを用いて2つのグループ間の差異をよりよく表現する識別サブネットワークを抽出した。 適合度評価フェーズでは、サブネットワーク毎に、サブネットワークの様々なエントロピー特性を用いて機械学習モデルを訓練し、その性能を測定した。 優れたモデル性能は、優れた識別サブネットワークの抽出を意味する。 ネットワークエントロピーはネットワークトポロジカル記述子として使用できる。 評価結果は,抽出した識別サブネットワークに基づくスクリーニング手法の許容性能と,UCLAデータセットの構造ネットワークの最大精度73.1%,UCLAデータセットの関数ネットワークの82.2%,ABIDEデータセットの関数ネットワークの66.1%を達成できた機械学習モデルを示す。

Autism is one of the most important neurological disorders which leads to problems in a person's social interactions. Improvement of brain imaging technologies and techniques help us to build brain structural and functional networks. Finding networks topology pattern in each of the groups (autism and healthy control) can aid us to achieve an autism disorder screening model. In the present study, we have utilized the genetic algorithm to extract a discriminative sub-network that represents differences between two groups better. In the fitness evaluation phase, for each sub-network, a machine learning model was trained using various entropy features of the sub-network and its performance was measured. Proper model performance implies extracting a good discriminative sub-network. Network entropies can be used as network topological descriptors. The evaluation results indicate the acceptable performance of the proposed screening method based on extracted discriminative sub-networks and the machine learning models succeeded in obtaining a maximum accuracy of 73.1% in structural networks of the UCLA dataset, 82.2% in functional networks of the UCLA dataset, and 66.1% in functional networks of ABIDE datasets.
翻訳日:2021-03-26 18:58:50 公開日:2021-03-25
# (参考訳) ジェネレーティブ・ディバイサル・ネットワークスに基づくゴースト認識

Generative-Adversarial-Networks-based Ghost Recognition ( http://arxiv.org/abs/2103.13858v1 )

ライセンス: CC BY 4.0
Yuchen He, Yibing Chen, Hui Chen, Huaibin Zheng, Jianbin Liu, Shitao Zhu and Zhuo Xu(参考訳) 近年,多くの分野においてターゲット認識技術が重要な役割を担っている。 しかし,既存の画像情報に基づく手法は,画像品質の影響を受けやすい。 さらに、いくつかのメソッドには画像再構成が必要で、追加の時間コストがかかる。 本稿では,ゴーストイメージング(GI)とGAN(Generative Adversarial Network)を組み合わせた新しい同時認識手法を提案する。 GIのメカニズムに基づいて、ターゲットを照らすために一連のランダムスペックルシーケンスを使用し、解像度のないバケット検出器を用いてエコー信号を受信する。 連続検出後に形成されたバケット信号シーケンスは、GANのサンプルと見なされるバケット信号アレイに構成される。 次に、条件付きGANを使用して、バケット信号アレイとターゲットカテゴリをマッピングする。 実際の応用では、目標を照らすために訓練段階のスペックルシーケンスを使用し、認識のためにバケット信号アレイを入力GANとする。 提案手法は,画像情報に基づく既存の認識手法による問題を改善し,一定の乱れのない能力を提供する。 実験により,提案手法が有望な性能を達成することを示す。

Nowadays, target recognition technique plays an important role in many fields. However, the existing image information based methods suffer from the influence of target image quality. In addition, some methods also need image reconstruction, which will bring additional time cost. In this paper, we propose a novel coincidence recognition method combining ghost imaging (GI) and generative adversarial networks (GAN). Based on the mechanism of GI, a set of random speckles sequence is employed to illuminate target, and a bucket detector without resolution is utilized to receive echo signal. The bucket signal sequence formed after continuous detections is constructed into a bucket signal array, which is regarded as the sample of GAN. Then, conditional GAN is used to map bucket signal array and target category. In practical application, the speckles sequence in training step is still employed to illuminate target, and the bucket signal array is input GAN for recognition. The proposed method can improve the problems caused by existing recognition methods that based on image information, and provide a certain turbulence-free ability. Extensive experiments are show that the proposed method achieves promising performance.
翻訳日:2021-03-26 18:47:20 公開日:2021-03-25
# (参考訳) Group-CAM:Deep Convolutional Networksのためのグループスコア重み付きビジュアル説明

Group-CAM: Group Score-Weighted Visual Explanations for Deep Convolutional Networks ( http://arxiv.org/abs/2103.13859v1 )

ライセンス: CC BY 4.0
Qinglong Zhang and Yubin Yang(参考訳) 本稿では,グループスコア強調型クラス活性化マッピング (group-cam) と呼ばれる,"split-transform-merge" 戦略を応用して塩分マップを生成する効率的な塩分マップ生成手法を提案する。 具体的には、入力画像の場合、クラスアクティベーションはまずグループに分割される。 各グループでは、サブアクティベーションは初期マスクとしてまとめてデノーズされる。 その後、最初のマスクは意味のある摂動で変換され、入力のサブピクセル(つまりマスクされた入力)を保存するために適用される。 最後に、初期マスクを重み付けして最終サリエンシマップを形成し、重み付けはマスク入力によって生成される信頼スコアである。 Group-CAMは効率的だが有効であり、ターゲット関連サリエンシマップを作成しながら、ネットワークに数十のクエリしか必要としない。 その結果、Group-CAMはネットワークを微調整するための効果的なデータ拡張トリックとして機能する。 我々は、imagenet-1kの削除と挿入テスト、coco2017でのゲームテストの指摘を含む、共通使用ベンチマークにおけるグループカメラの性能を総合的に評価する。 広汎な実験結果から,Group-CAMは現在の最先端の説明手法よりも視覚性能が向上することが示された。 コードはhttps://github.com/wofmanaf/Group-CAMで公開されている。

In this paper, we propose an efficient saliency map generation method, called Group score-weighted Class Activation Mapping (Group-CAM), which adopts the "split-transform-merge" strategy to generate saliency maps. Specifically, for an input image, the class activations are firstly split into groups. In each group, the sub-activations are summed and de-noised as an initial mask. After that, the initial masks are transformed with meaningful perturbations and then applied to preserve sub-pixels of the input (i.e., masked inputs), which are then fed into the network to calculate the confidence scores. Finally, the initial masks are weighted summed to form the final saliency map, where the weights are confidence scores produced by the masked inputs. Group-CAM is efficient yet effective, which only requires dozens of queries to the network while producing target-related saliency maps. As a result, Group-CAM can be served as an effective data augment trick for fine-tuning the networks. We comprehensively evaluate the performance of Group-CAM on common-used benchmarks, including deletion and insertion tests on ImageNet-1k, and pointing game tests on COCO2017. Extensive experimental results demonstrate that Group-CAM achieves better visual performance than the current state-of-the-art explanation approaches. The code is available at https://github.com/wofmanaf/Group-CAM.
翻訳日:2021-03-26 18:33:40 公開日:2021-03-25
# (参考訳) 大型PMDPにおけるアクティブツリー探索

Active Tree Search in Large POMDPs ( http://arxiv.org/abs/2103.13860v1 )

ライセンス: CC BY 4.0
Domenico Maisto, Francesco Gregoretti, Karl Friston, Giovanni Pezzulo(参考訳) モデルに基づく計画と展望は認知神経科学と人工知能(ai)の両方で広く研究されているが、異なる視点から、和解が困難である異なるデシデラタ(生物学的リアリズムとスケーラビリティ)を念頭に置いている。 本稿では,脳神経科学(Active Inference)における主要な計画理論の規範的性格と生物学的リアリズムと,AIにおけるモンテカルロ法の拡張性を組み合わせた,大規模POMDP(Active Tree Search)の計画手法を提案する。 この統一はどちらのアプローチにも有益である。 一方、モンテカルロ計画を用いることで、大規模問題に対する活性推論の生物学的基盤的なアプローチのスケールアップが可能になる。 一方、アクティブ推論の理論は、モンテカルロ法でしばしばヒューリスティックに扱われる探索と搾取のバランスの原理的な解を提供する。 シミュレーションの結果,アクティブツリー探索は,サンプリングベース手法や適応的探索を必要とする問題,大規模pomdp問題に挑戦する二分木をうまくナビゲートできることが判明した。 さらに,大規模計画問題を含むヒトおよび他の動物の神経生理学的反応(海馬および前頭前皮質など)をシミュレートするために,活性樹探索をどのように利用できるかを示す。 これらのシミュレーションは、アクティブツリーサーチが、生物学的リアリズムと拡張性の両方を提供する計画の神経科学およびAI理論の原則的実現であることを示している。

Model-based planning and prospection are widely studied in both cognitive neuroscience and artificial intelligence (AI), but from different perspectives - and with different desiderata in mind (biological realism versus scalability) that are difficult to reconcile. Here, we introduce a novel method to plan in large POMDPs - Active Tree Search - that combines the normative character and biological realism of a leading planning theory in neuroscience (Active Inference) and the scalability of Monte-Carlo methods in AI. This unification is beneficial for both approaches. On the one hand, using Monte-Carlo planning permits scaling up the biologically grounded approach of Active Inference to large-scale problems. On the other hand, the theory of Active Inference provides a principled solution to the balance of exploration and exploitation, which is often addressed heuristically in Monte-Carlo methods. Our simulations show that Active Tree Search successfully navigates binary trees that are challenging for sampling-based methods, problems that require adaptive exploration, and the large POMDP problem Rocksample. Furthermore, we illustrate how Active Tree Search can be used to simulate neurophysiological responses (e.g., in the hippocampus and prefrontal cortex) of humans and other animals that contain large planning problems. These simulations show that Active Tree Search is a principled realisation of neuroscientific and AI theories of planning, which offers both biological realism and scalability.
翻訳日:2021-03-26 18:19:30 公開日:2021-03-25
# (参考訳) 自動運転のための階層型プログラムトリガー強化学習エージェント

Hierarchical Program-Triggered Reinforcement Learning Agents For Automated Driving ( http://arxiv.org/abs/2103.13861v1 )

ライセンス: CC BY 4.0
Briti Gangopadhyay, Harshit Soora, Pallab Dasgupta(参考訳) 近年の強化学習 (RL) とディープラーニング (DL) の併用により, 自律運転を含む複雑なタスクにおいて, 顕著な性能が示された。 自律運転におけるRLエージェントの使用は、スムーズな人間のような運転経験をもたらすが、Deep Reinforcement Learning(DRL)の限定的な解釈可能性によって、検証と認定のボトルネックが生じる。 複雑なタスクを学習するためにRLエージェントに頼る代わりに、複数のRLエージェントとともに構造化プログラムからなる階層構造を用いて、比較的単純なタスクを実行するように訓練されたHPRL-hierarchical Program-Triggered Reinforcement Learningを提案する。 検証の焦点はRLエージェントからの単純な保証の下でマスタープログラムにシフトし、複雑なRLエージェントよりも解釈可能で検証可能な実装となる。 このフレームワークの評価は、オープンソースの動的都市シミュレーション環境carlaを用いて、異なる運転タスクとnhtsaプリクラッシュシナリオで実証されている。

Recent advances in Reinforcement Learning (RL) combined with Deep Learning (DL) have demonstrated impressive performance in complex tasks, including autonomous driving. The use of RL agents in autonomous driving leads to a smooth human-like driving experience, but the limited interpretability of Deep Reinforcement Learning (DRL) creates a verification and certification bottleneck. Instead of relying on RL agents to learn complex tasks, we propose HPRL - Hierarchical Program-triggered Reinforcement Learning, which uses a hierarchy consisting of a structured program along with multiple RL agents, each trained to perform a relatively simple task. The focus of verification shifts to the master program under simple guarantees from the RL agents, leading to a significantly more interpretable and verifiable implementation as compared to a complex RL agent. The evaluation of the framework is demonstrated on different driving tasks, and NHTSA precrash scenarios using CARLA, an open-source dynamic urban simulation environment.
翻訳日:2021-03-26 18:18:19 公開日:2021-03-25
# (参考訳) 小売商品分類データセット

A Retail Product Categorisation Dataset ( http://arxiv.org/abs/2103.13864v1 )

ライセンス: CC0 1.0
Febin Sebastian Elayanithottathil and Janis Keuper(参考訳) ウェブショップのようなほとんどのeコマースアプリケーションには何百万もの製品がある。 この文脈では、類似商品の識別は一般的なサブタスクであり、レコメンデーションシステム、製品検索エンジン、内部供給物流の実装に利用することができる。 このデータセットを提供することで、画像と説明のタプルから小売商品のカテゴリーを予測するための機械学習手法の評価を促進することを目指している。

Most eCommerce applications, like web-shops have millions of products. In this context, the identification of similar products is a common sub-task, which can be utilized in the implementation of recommendation systems, product search engines and internal supply logistics. Providing this data set, our goal is to boost the evaluation of machine learning methods for the prediction of the category of the retail products from tuples of images and descriptions.
翻訳日:2021-03-26 17:58:51 公開日:2021-03-25
# (参考訳) 雑音ラベルを用いた学習のための変換整合性

Transform consistency for learning with noisy labels ( http://arxiv.org/abs/2103.13872v1 )

ライセンス: CC BY 4.0
Rumeng Yi, Yaping Huang(参考訳) 騒がしいラベルを扱うために誤記されたサンプルを区別することが重要である。 CoteachingやJoCoRといった従来の手法では、2つの異なるネットワークを導入して、ノイズの多いものからクリーンなサンプルを選択し、これらクリーンなものを使って深層モデルのトレーニングを行っている。 2つのネットワークを同時に訓練するこれらの方法とは違って、1つのネットワークのみを用いてクリーンサンプルを識別する簡易かつ効率的な手法を提案する。 清潔なサンプルは元の画像と変換された画像の一貫した予測に到達するのが好ましいが、ノイズの多いサンプルは通常一貫性のない予測に苦しむ。 本研究の目的は,ネットワークトレーニングにおいて,元の画像と変換された画像との変換一貫性を制約し,ネットワークのパラメータを更新するために小さなサンプルを選択することである。 さらに,ノイズラベルの悪影響を軽減するために,オフラインハードラベルとオンラインソフトラベルを用いて分類損失を設計し,ロバストモデルをトレーニングするためのより信頼性の高い監督を提供する。 CIFAR-10, CIFAR-100, Clothing1Mデータセットに関する総合的な実験を行った。 ベースラインと比較して、最先端のパフォーマンスを実現します。 特に,ほとんどの場合,提案手法はベースラインよりも大きなマージンで性能が向上する。

It is crucial to distinguish mislabeled samples for dealing with noisy labels. Previous methods such as Coteaching and JoCoR introduce two different networks to select clean samples out of the noisy ones and only use these clean ones to train the deep models. Different from these methods which require to train two networks simultaneously, we propose a simple and effective method to identify clean samples only using one single network. We discover that the clean samples prefer to reach consistent predictions for the original images and the transformed images while noisy samples usually suffer from inconsistent predictions. Motivated by this observation, we introduce to constrain the transform consistency between the original images and the transformed images for network training, and then select small-loss samples to update the parameters of the network. Furthermore, in order to mitigate the negative influence of noisy labels, we design a classification loss by using the off-line hard labels and on-line soft labels to provide more reliable supervisions for training a robust model. We conduct comprehensive experiments on CIFAR-10, CIFAR-100 and Clothing1M datasets. Compared with the baselines, we achieve the state-of-the-art performance. Especially, in most cases, our proposed method outperforms the baselines by a large margin.
翻訳日:2021-03-26 17:56:38 公開日:2021-03-25
# (参考訳) Progressive-X+: Consensus Spaceにおけるクラスタリング

Progressive-X+: Clustering in the Consensus Space ( http://arxiv.org/abs/2103.13875v1 )

ライセンス: CC BY 4.0
Daniel Barath, Denys Rozumny, Ivan Eichhardt, Levente Hajder, Jiri Matas(参考訳) 本稿では,未知数の幾何モデル,例えばホモグラフを求める新しいアルゴリズムであるprogressive-x+を提案する。 この問題は、spash point-to-model代入を形成することなく、支配的なモデルインスタンスを段階的に見つけることで形式化される。 支配的なインスタンスは、前述したインスタンスを考慮したモデル品質関数によって駆動されるransacライクなサンプリングと統合プロセスを通じて見つかる。 新しいものは、コンセンサス空間におけるクラスタリングによって見つかる。 この新たな定式化は、多くの視覚問題に対してリアルタイムに実行しながら、最先端の精度で単純な反復アルゴリズムをもたらす。 また,実世界のデータが空間的コヒーレントな構造を形成する傾向があることを反映したサンプル手法を提案する。 サンプルは、徐々に成長する近傍グラフで接続されたコンポーネントを返す。 複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。 これには、グローバルなSfMに対する相対的なポーズを推定するための複数のホモグラフの使用、一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。

We propose Progressive-X+, a new algorithm for finding an unknown number of geometric models, e.g., homographies. The problem is formalized as finding dominant model instances progressively without forming crisp point-to-model assignments. Dominant instances are found via RANSAC-like sampling and a consolidation process driven by a model quality function considering previously proposed instances. New ones are found by clustering in the consensus space. This new formulation leads to a simple iterative algorithm with state-of-the-art accuracy while running in real-time on a number of vision problems. Also, we propose a sampler reflecting the fact that real-world data tend to form spatially coherent structures. The sampler returns connected components in a progressively growing neighborhood-graph. We present a number of applications where the use of multiple geometric models improves accuracy. These include using multiple homographies to estimate relative poses for global SfM; pose estimation from generalized homographies; and trajectory estimation of fast-moving objects.
翻訳日:2021-03-26 17:42:35 公開日:2021-03-25
# (参考訳) 軌道拡大と補正による対向的模倣学習

Adversarial Imitation Learning with Trajectorial Augmentation and Correction ( http://arxiv.org/abs/2103.13887v1 )

ライセンス: CC BY 4.0
Dafni Antotsiou, Carlo Ciliberto and Tae-Kyun Kim(参考訳) 深い模倣学習は、多くの専門家によるデモンストレーションを必要とするが、特に複雑なタスクでは、必ずしも取得が容易ではない。 このラベル不足を克服する方法は、データ拡張である。 しかし,問題の本質が逐次的であるため,制御タスクには容易に適用できない。 本研究では,拡張軌道の成功を保った新しい拡張手法を提案する。 そこで本研究では,歪んだ専門家行動の修正を目的とした半教師付き補正ネットワークを提案する。 補正ネットワークの能力を適切にテストするために, 合成専門家を用いて模倣エージェントを訓練するための逆データ拡張模倣アーキテクチャを開発した。 さらに,トラジェクトリデータセットの多様性を測定する指標も導入する。 実験の結果,データ拡張戦略は,生成した軌跡と実際の軌跡の多様性を保ちながら,逆模倣の精度と収束時間を向上できることがわかった。

Deep Imitation Learning requires a large number of expert demonstrations, which are not always easy to obtain, especially for complex tasks. A way to overcome this shortage of labels is through data augmentation. However, this cannot be easily applied to control tasks due to the sequential nature of the problem. In this work, we introduce a novel augmentation method which preserves the success of the augmented trajectories. To achieve this, we introduce a semi-supervised correction network that aims to correct distorted expert actions. To adequately test the abilities of the correction network, we develop an adversarial data augmented imitation architecture to train an imitation agent using synthetic experts. Additionally, we introduce a metric to measure diversity in trajectory datasets. Experiments show that our data augmentation strategy can improve accuracy and convergence time of adversarial imitation while preserving the diversity between the generated and real trajectories.
翻訳日:2021-03-26 17:25:33 公開日:2021-03-25
# (参考訳) 理論的重み付きモデル統合の測定

Measure Theoretic Weighted Model Integration ( http://arxiv.org/abs/2103.13901v1 )

ライセンス: CC BY 4.0
Ivan Miosic, Pedro Zuidberg Dos Martires(参考訳) 重み付きモデルカウント(WMC)は、離散確率変数を用いて確率的推論を行う一般的なフレームワークである。 近年、WMCは連続変数の追加処理のために重み付けモデル統合(WMI)に拡張されている。 中心となるWMI問題は計算積分と重み付き論理式上の和からなる。 理論的な観点から WMI は、既に WMC に存在している重み付き公式の和にリーマン積分を加えて定式化されている。 測度理論に根ざした積分に対するより原理的なアプローチはルベーグ積分である。 ルベーグ積分(Lebesgue integration)は、離散変数と連続変数を原理的に同じ足場で扱うことを可能にする。 本稿では,重み付きモデル積分の理論的定式化を提案し,連続変数が存在しない場合の重み付きモデル数に自然に還元する。 重み付きモデル積分を重み付きモデルカウントの拡張として扱う代わりに、WMCは我々の定式化におけるWMIの特別な場合として現れる。

Weighted model counting (WMC) is a popular framework to perform probabilistic inference with discrete random variables. Recently, WMC has been extended to weighted model integration (WMI) in order to additionally handle continuous variables. At their core, WMI problems consist of computing integrals and sums over weighted logical formulas. From a theoretical standpoint, WMI has been formulated by patching the sum over weighted formulas, which is already present in WMC, with Riemann integration. A more principled approach to integration, which is rooted in measure theory, is Lebesgue integration. Lebesgue integration allows one to treat discrete and continuous variables on equal footing in a principled fashion. We propose a theoretically sound measure theoretic formulation of weighted model integration, which naturally reduces to weighted model counting in the absence of continuous variables. Instead of regarding weighted model integration as an extension of weighted model counting, WMC emerges as a special case of WMI in our formulation.
翻訳日:2021-03-26 17:12:28 公開日:2021-03-25
# (参考訳) 条件付きWGANにおける判別器の正則性について

About the regularity of the discriminator in conditional WGANs ( http://arxiv.org/abs/2103.13906v1 )

ライセンス: CC BY 4.0
J\"org Martin(参考訳) 条件付きWGANの訓練は通常、条件上の損失を平均化することによって行われる。 この方法によって、判別器のリプシッツ連続性に対する異なる制約が生じる。 しかし、正規性に対するより弱い要求に対して、使用済み損失関数の数学的に完全な正当化は存在しない。 この短い数学的ノートは、このギャップを埋めようとしており、このアプローチが適切または成功した場合に対して部分的にリプシッツ-1のみである判別者に対して数学的根拠を提供する。

Training of conditional WGANs is usually done by averaging the underlying loss over the condition. Depending on the way this is motivated different constraints on the Lipschitz continuity of the discriminator arise. For the weaker requirement on the regularity there is however so far no mathematically complete justification for the used loss function. This short mathematical note intends to fill this gap and provides the mathematical rationale for discriminators that are only partially Lipschitz-1 for cases where this approach is more appropriate or successful.
翻訳日:2021-03-26 16:53:51 公開日:2021-03-25
# (参考訳) 効果的な教師なしドメイン適応型人物再識別のためのアンタングルメントに基づくクロスドメイン機能拡張

Disentanglement-based Cross-Domain Feature Augmentation for Effective Unsupervised Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2103.13917v1 )

ライセンス: CC BY 4.0
Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Quanzeng You, Zicheng Liu, Kecheng Zheng, Zhibo Chen(参考訳) Unsupervised Domain Adaptive (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインからラベル付きターゲットドメインへ知識を転送することを目的としている。 ひとつの課題は、トレーニング用に信頼できるラベルでターゲットドメインサンプルを生成する方法だ。 この問題を解決するために,DCDFA(Disentanglement-based Cross-Domain Feature Augmentation)戦略を提案する。 特に,各サンプル特徴を頑健なドメイン不変/共有特徴とドメイン固有特徴に分割し,クロスドメイン特徴の再構成を行い,クロスドメインレイド損失とドメイン分類損失の制約を伴い,トレーニングで使用するサンプルの多様性を高める。 ドメイン不変性(アイデンティティの信頼性の高い継承を可能にする)とドメイン固有性(実際の分布の近似を可能にする)の強化に基づいて得られた各再合成機能は、"理想的な"拡張である。 その結果,本手法の有効性が実証され,最新性能が得られた。

Unsupervised domain adaptive (UDA) person re-identification (ReID) aims to transfer the knowledge from the labeled source domain to the unlabeled target domain for person matching. One challenge is how to generate target domain samples with reliable labels for training. To address this problem, we propose a Disentanglement-based Cross-Domain Feature Augmentation (DCDFA) strategy, where the augmented features characterize well the target and source domain data distributions while inheriting reliable identity labels. Particularly, we disentangle each sample feature into a robust domain-invariant/shared feature and a domain-specific feature, and perform cross-domain feature recomposition to enhance the diversity of samples used in the training, with the constraints of cross-domain ReID loss and domain classification loss. Each recomposed feature, obtained based on the domain-invariant feature (which enables a reliable inheritance of identity) and an enhancement from a domain specific feature (which enables the approximation of real distributions), is thus an "ideal" augmentation. Extensive experimental results demonstrate the effectiveness of our method, which achieves the state-of-the-art performance.
翻訳日:2021-03-26 16:48:49 公開日:2021-03-25
# (参考訳) 保存、促進、または攻撃? 位相摂動によるGNN説明

Preserve, Promote, or Attack? GNN Explanation via Topology Perturbation ( http://arxiv.org/abs/2103.13944v1 )

ライセンス: CC BY 4.0
Yi Sun, Abel Valente, Sijia Liu, Dakuo Wang(参考訳) グラフニューラルネットワーク(gnn)の説明を形式化する作業は、重要なエッジとノードを特定することによって予測結果を保存するために、1つのユースケースに焦点を当てている。 本稿では,入力グラフのトポロジ摂動を示すマスクを取得することで,多目的解釈フレームワークを開発する。 フレームワークを対話型可視化システム(GNNViz)に詰め込み、保存、プロモテ、アタックGNNの予測といった複数の目的を達成する。 We illustrate our approach's novelty and effectiveness with three case studies: First, GNNViz can assist non expert users to easily explore the relationship between graph topology and GNN's decision (Preserve), or to manipulate the prediction (Promote or Attack) for an image classification task on MS-COCO; Second, on the Pokec social network dataset, our framework can uncover unfairness and demographic biases; Lastly, it compares with state-of-the-art GNN explainer baseline on a synthetic dataset.

Prior works on formalizing explanations of a graph neural network (GNN) focus on a single use case - to preserve the prediction results through identifying important edges and nodes. In this paper, we develop a multi-purpose interpretation framework by acquiring a mask that indicates topology perturbations of the input graphs. We pack the framework into an interactive visualization system (GNNViz) which can fulfill multiple purposes: Preserve,Promote, or Attack GNN's predictions. We illustrate our approach's novelty and effectiveness with three case studies: First, GNNViz can assist non expert users to easily explore the relationship between graph topology and GNN's decision (Preserve), or to manipulate the prediction (Promote or Attack) for an image classification task on MS-COCO; Second, on the Pokec social network dataset, our framework can uncover unfairness and demographic biases; Lastly, it compares with state-of-the-art GNN explainer baseline on a synthetic dataset.
翻訳日:2021-03-26 16:34:33 公開日:2021-03-25
# (参考訳) 美しいスケッチをベースとした画像検索のための半教師付き学習

More Photos are All You Need: Semi-Supervised Learning for Fine-Grained Sketch Based Image Retrieval ( http://arxiv.org/abs/2103.13990v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Yongxin Yang, Tao Xiang, Yi-Zhe Song(参考訳) 既存のFIN-Grained Sketch-Based Image Retrieval(FG-SBIR)モデルが直面している根本的な課題は、データの不足である。 写真の数は簡単にスケールできるが、それぞれのスケッチは個別に作成する必要がある。 本稿では,このようなスケッチデータに対する上限を緩和し,ラベルなしの写真のみ(枚数が多い)がパフォーマンス向上のために栽培可能かどうかを検討する。 特に,データ不足を考慮に入れた大規模アンラベリング画像を利用したクロスモーダル検索のための新しい半教師付きフレームワークを提案する。 半スーパービジョンデザインの中心にあるのは、連続した写真からスケッチを生成するモデルです。 さらに, 不適切な生成を誘導する判別器誘導機構と, 蒸留損失に基づく正則化器を導入して, 騒音トレーニング試料に対する耐性を提供する。 最後に,2つの共役問題として生成と検索を扱い,各モジュールが相互に利益を得るための共同学習手順を考案する。 FG-SBIRの非標識写真を利用する既存の手法と同様に、我々の半教師付きモデルは最先端の教師付き代替品よりも大幅に性能が向上することを示した。

A fundamental challenge faced by existing Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) models is the data scarcity -- model performances are largely bottlenecked by the lack of sketch-photo pairs. Whilst the number of photos can be easily scaled, each corresponding sketch still needs to be individually produced. In this paper, we aim to mitigate such an upper-bound on sketch data, and study whether unlabelled photos alone (of which they are many) can be cultivated for performances gain. In particular, we introduce a novel semi-supervised framework for cross-modal retrieval that can additionally leverage large-scale unlabelled photos to account for data scarcity. At the centre of our semi-supervision design is a sequential photo-to-sketch generation model that aims to generate paired sketches for unlabelled photos. Importantly, we further introduce a discriminator guided mechanism to guide against unfaithful generation, together with a distillation loss based regularizer to provide tolerance against noisy training samples. Last but not least, we treat generation and retrieval as two conjugate problems, where a joint learning procedure is devised for each module to mutually benefit from each other. Extensive experiments show that our semi-supervised model yields significant performance boost over the state-of-the-art supervised alternatives, as well as existing methods that can exploit unlabelled photos for FG-SBIR.
翻訳日:2021-03-26 16:13:49 公開日:2021-03-25
# (参考訳) エッジデバイスにおける実時間低リソース音素認識

Real-time low-resource phoneme recognition on edge devices ( http://arxiv.org/abs/2103.13997v1 )

ライセンス: CC BY 4.0
Yonatan Alon(参考訳) 音声認識は過去10年間で関心や研究が急増しているが、音声認識のための機械学習モデルは、大規模なトレーニングデータセットか、大量のストレージとメモリを必要とする。 音声データが利用できる第1の言語としての英語の隆盛と相まって、現在ほとんどの言語は優れた音声認識モデルを持っていない。 本稿では, 従来のモデルと比較して, 精度が高いだけでなく, 記憶量, 記憶量, 訓練データをほとんど必要としない言語において, 音声認識のためのモデルを作成し, 訓練する方法を示す。 これにより、トレーニングモデルが任意の言語を認識し、携帯電話や車載ディスプレイなどのエッジデバイスにデプロイすることで、高速なリアルタイム音声認識が可能になる。

While speech recognition has seen a surge in interest and research over the last decade, most machine learning models for speech recognition either require large training datasets or lots of storage and memory. Combined with the prominence of English as the number one language in which audio data is available, this means most other languages currently lack good speech recognition models. The method presented in this paper shows how to create and train models for speech recognition in any language which are not only highly accurate, but also require very little storage, memory and training data when compared with traditional models. This allows training models to recognize any language and deploying them on edge devices such as mobile phones or car displays for fast real-time speech recognition.
翻訳日:2021-03-26 15:54:37 公開日:2021-03-25
# (参考訳) 直交射影損失

Orthogonal Projection Loss ( http://arxiv.org/abs/2103.14021v1 )

ライセンス: CC BY 4.0
Kanchana Ranasinghe, Muzammal Naseer, Munawar Hayat, Salman Khan, Fahad Shahbaz Khan(参考訳) ディープニューラルネットワークは、デファクト目的関数としてソフトマックスクロスエントロピー(CE)損失が出現し、様々な分類タスクにおいて顕著なパフォーマンスを達成した。 CE損失は、負のクラスに比べて真のクラスベクターのプロジェクションスコアが高いクラスの特徴を奨励する。 しかし、これは相対的な制約であり、明確に異なるクラス機能を適切に分離させません。 CE損失の基底構造クラス表現が直交(一ホット符号化ベクトル)であることに感銘を受けて,特徴空間に直交性を与える「直交射影損失(Orthogonal Projection Loss)」と呼ばれる新しい損失関数を開発した。 OPLはCE損失の特性を強化し、ミニバッチレベルの直交制約を通じて、機能空間内のクラス内クラスタリングと並行してクラス間分離を直接実施する。 CEの他の代替品と比較して、OPLは独自の利点、例えば、学習可能なパラメータを追加せず、慎重な負のマイニングを必要とせず、バッチサイズに敏感ではない。 OPLのプラグ・アンド・プレイの性質から,画像認識(CIFAR-100),大規模分類(イメージネット),ドメイン一般化(PACS),少数ショット学習(mini ImageNet, CIFAR-FS, tiered-ImageNet, Meta-dataset)など,さまざまなタスクで評価を行い,その有効性を示した。 さらに、OPLは、敵攻撃やラベルノイズなどの実用上の問題に対して、より堅牢性を提供する。 コードはhttps://github.com/kahnchana/opl。

Deep neural networks have achieved remarkable performance on a range of classification tasks, with softmax cross-entropy (CE) loss emerging as the de-facto objective function. The CE loss encourages features of a class to have a higher projection score on the true class-vector compared to the negative classes. However, this is a relative constraint and does not explicitly force different class features to be well-separated. Motivated by the observation that ground-truth class representations in CE loss are orthogonal (one-hot encoded vectors), we develop a novel loss function termed `Orthogonal Projection Loss' (OPL) which imposes orthogonality in the feature space. OPL augments the properties of CE loss and directly enforces inter-class separation alongside intra-class clustering in the feature space through orthogonality constraints on the mini-batch level. As compared to other alternatives of CE, OPL offers unique advantages e.g., no additional learnable parameters, does not require careful negative mining and is not sensitive to the batch size. Given the plug-and-play nature of OPL, we evaluate it on a diverse range of tasks including image recognition (CIFAR-100), large-scale classification (ImageNet), domain generalization (PACS) and few-shot learning (miniImageNet, CIFAR-FS, tiered-ImageNet and Meta-dataset) and demonstrate its effectiveness across the board. Furthermore, OPL offers better robustness against practical nuisances such as adversarial attacks and label noise. Code is available at: https://github.com/kahnchana/opl.
翻訳日:2021-03-26 15:41:57 公開日:2021-03-25
# (参考訳) ニューラルネットワークのリアルタイムレンダリングのためのPlenOctrees

PlenOctrees for Real-time Rendering of Neural Radiance Fields ( http://arxiv.org/abs/2103.14024v1 )

ライセンス: CC BY 4.0
Alex Yu, Ruilong Li, Matthew Tancik, Hao Li, Ren Ng, Angjoo Kanazawa(参考訳) ビュー依存効果をサポートするオクツリーベースの3D表現であるPlenOctreesを用いて,NeRFをリアルタイムに描画する手法を提案する。 提案手法では,従来のNeRFの3000倍以上の速度で,150FPS以上の800×800画像をレンダリングすることができる。 我々は、任意の幾何学とビュー依存効果を持つシーンの自由視点レンダリングを行うNeRFの能力を保ちながら、品質を犠牲にすることなく行う。 リアルタイム性能は、NeRFをPlenOctreeにプリタブすることで達成される。 スペキュラリティなどのビュー依存効果を保存するため、閉じた形状の球面基底関数によって外観を分解する。 具体的には、NeRFをトレーニングして放射率の球面調和表現を予測できることを示し、ニューラルネットワークへの入力として観測方向を除去する。 さらに, plenoctrees は, コンストラクション損失を最小化するために, 直接的に最適化できることを示した。 さらに、このオクツリー最適化ステップは、NeRFトレーニングが完全に収束するまで待つ必要がなくなるため、トレーニング時間を短縮するために使用することができます。 当社のリアルタイムニューラルネットワークレンダリングアプローチは、6-DOF産業用や製品視覚化、次世代のAR/VRシステムといった新しいアプリケーションを可能にする可能性がある。 PlenOctreesはブラウザ内レンダリングにも適しており、インタラクティブなオンラインデモやビデオやコードのプロジェクトページを参照してほしい。

We introduce a method to render Neural Radiance Fields (NeRFs) in real time using PlenOctrees, an octree-based 3D representation which supports view-dependent effects. Our method can render 800x800 images at more than 150 FPS, which is over 3000 times faster than conventional NeRFs. We do so without sacrificing quality while preserving the ability of NeRFs to perform free-viewpoint rendering of scenes with arbitrary geometry and view-dependent effects. Real-time performance is achieved by pre-tabulating the NeRF into a PlenOctree. In order to preserve view-dependent effects such as specularities, we factorize the appearance via closed-form spherical basis functions. Specifically, we show that it is possible to train NeRFs to predict a spherical harmonic representation of radiance, removing the viewing direction as an input to the neural network. Furthermore, we show that PlenOctrees can be directly optimized to further minimize the reconstruction loss, which leads to equal or better quality compared to competing methods. Moreover, this octree optimization step can be used to reduce the training time, as we no longer need to wait for the NeRF training to converge fully. Our real-time neural rendering approach may potentially enable new applications such as 6-DOF industrial and product visualizations, as well as next generation AR/VR systems. PlenOctrees are amenable to in-browser rendering as well; please visit the project page for the interactive online demo, as well as video and code: https://alexyu.net/plenoctrees
翻訳日:2021-03-26 15:21:33 公開日:2021-03-25
# (参考訳) 3DWorld Transport Challenge: 物理的に現実的な身体的AIのための視覚ガイド付きタスク・アンド・モビリティ・プランニングベンチマーク

The ThreeDWorld Transport Challenge: A Visually Guided Task-and-Motion Planning Benchmark for Physically Realistic Embodied AI ( http://arxiv.org/abs/2103.14025v1 )

ライセンス: CC BY 4.0
Chuang Gan, Siyuan Zhou, Jeremy Schwartz, Seth Alter, Abhishek Bhandwaldar, Dan Gutfreund, Daniel L.K. Yamins, James J DiCarlo, Josh McDermott, Antonio Torralba, Joshua B. Tenenbaum(参考訳) 本稿では,3DWorld Transport Challengeと呼ばれる,視覚誘導・物理駆動型タスク・アンド・モーション計画ベンチマークを紹介する。 この課題では、シミュレーションされた実家環境において、2つの9-DOF関節アームを備えたエンボディエージェントをランダムに生成する。 エージェントは、家の周りに散らばっている小さな物体を見つけ、それらを拾い上げ、望ましい最終場所に運ぶ必要がある。 また,オブジェクトを効率的に輸送するためのツールとして使用できるコンテナを家の周りに配置する。 タスクを完了させるために、具体化エージェントは、現実的な物理的制約に直面して多数のオブジェクトの状態を変更するための一連のアクションを計画しなければならない。 我々は3DWorldシミュレーションを用いて、全ての物体が物理に反応し、物理駆動のナビゲーションとインタラクションAPIで制御できる仮想3D環境を用いて、このベンチマーク課題を構築した。 このベンチマークでいくつかの既存エージェントを評価した。 1) 純粋なrlモデルはこの課題に苦慮している。2) 階層的計画に基づくエージェントはいくつかのオブジェクトを輸送できるが、この課題の解決には程遠い。 このベンチマークによって、物理世界のためのよりインテリジェントな物理駆動ロボットの開発が期待できる。

We introduce a visually-guided and physics-driven task-and-motion planning benchmark, which we call the ThreeDWorld Transport Challenge. In this challenge, an embodied agent equipped with two 9-DOF articulated arms is spawned randomly in a simulated physical home environment. The agent is required to find a small set of objects scattered around the house, pick them up, and transport them to a desired final location. We also position containers around the house that can be used as tools to assist with transporting objects efficiently. To complete the task, an embodied agent must plan a sequence of actions to change the state of a large number of objects in the face of realistic physical constraints. We build this benchmark challenge using the ThreeDWorld simulation: a virtual 3D environment where all objects respond to physics, and where can be controlled using fully physics-driven navigation and interaction API. We evaluate several existing agents on this benchmark. Experimental results suggest that: 1) a pure RL model struggles on this challenge; 2) hierarchical planning-based agents can transport some objects but still far from solving this task. We anticipate that this benchmark will empower researchers to develop more intelligent physics-driven robots for the physical world.
翻訳日:2021-03-26 15:02:09 公開日:2021-03-25
# (参考訳) Swin Transformer: シフトWindowsを使った階層型ビジョントランス

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows ( http://arxiv.org/abs/2103.14030v1 )

ライセンス: CC BY 4.0
Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo(参考訳) 本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。 言語から視覚へのトランスフォーマーの適応の課題は、視覚的実体のスケールの大きな変化や、テキストの単語と比較して画像中のピクセルの高解像度化といった2つの領域の違いから生じる。 これらの違いに対処するため、シフトウィンドウを用いて表現を計算した階層変換器を提案する。 シフトウィンドウ方式は、オーバーラップしないローカルウィンドウに自己アテンション計算を制限し、クロスウィンドウ接続を可能にすることにより、より効率が向上する。 この階層アーキテクチャは様々なスケールでモデル化する柔軟性があり、画像サイズに関して線形計算の複雑さがある。 Swin Transformerのこれらの特性は、画像分類(ImageNet-1Kの86.4トップ-1精度)やオブジェクト検出(COCOテストデブの58.7ボックスAPと51.1マスクAP)やセマンティックセグメンテーション(ADE20K valの53.5 mIoU)といった密集した予測タスクを含む幅広い視覚タスクと互換性がある。 その性能は、COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2 mIoUで、トランスフォーマーベースのモデルがビジョンバックボーンとしての可能性を示している。 コードとモデルは、~\url{https://github.com/microsoft/Swin-Transformer}で公開される。

This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with shifted windows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (86.4 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO test-dev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-the-art by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The code and models will be made publicly available at~\url{https://github.com/microsoft/Swin-Transformer}.
翻訳日:2021-03-26 14:43:42 公開日:2021-03-25
# 信頼ラベルと射影損失関数を用いた機械学習におけるクラス類似性の利用

Exploiting Class Similarity for Machine Learning with Confidence Labels and Projective Loss Functions ( http://arxiv.org/abs/2103.13607v1 )

ライセンス: Link先を確認
Gautam Rajendrakumar Gare and John Michael Galeotti(参考訳) 機械学習に使用されるクラスラベルは相互に関連付けられており、特定のクラスラベルは他と類似している(例)。 猫と犬のイメージは、猫と車の画像よりも似ています)。 このようなクラス間の類似性は、モデル間の混乱によるモデルパフォーマンスの低下の原因となることが多い。 現在のラベリング技術では、このような類似情報を明示的に捉えられていない。 本稿では,クラス間の類似性を利用して,新たな信頼ラベルとの類似性情報を取得する。 信頼ラベルは、クラス間の類似性または信頼可能性を示す確率的ラベルである。 モデルが特徴空間のクラスを区別するように訓練されても、同様のクラスの潜在空間は依然としてクラスタ化されている。 この種のクラスタリングを貴重な情報と考え,新しい投影損失関数を用いて活用する。 我々の射影損失関数は、類似のクラスを混乱させるエラーに対して損失ペナルティを緩和する機能を持つ信頼ラベルと連携するように設計されている。 ノイズラベルは、クラス類似性から生じる難易度の結果であると考えるので、ノイズラベルを用いたニューラルネットワークのトレーニングに使用しています。 標準損失関数と比較して性能が向上することを示す。 CIFAR-10データセットを用いて詳細な分析を行い、ImageNetやFood-101Nといった大規模データセットに提案手法の適用性を示す。

Class labels used for machine learning are relatable to each other, with certain class labels being more similar to each other than others (e.g. images of cats and dogs are more similar to each other than those of cats and cars). Such similarity among classes is often the cause of poor model performance due to the models confusing between them. Current labeling techniques fail to explicitly capture such similarity information. In this paper, we instead exploit the similarity between classes by capturing the similarity information with our novel confidence labels. Confidence labels are probabilistic labels denoting the likelihood of similarity, or confusability, between the classes. Often even after models are trained to differentiate between classes in the feature space, the similar classes' latent space still remains clustered. We view this type of clustering as valuable information and exploit it with our novel projective loss functions. Our projective loss functions are designed to work with confidence labels with an ability to relax the loss penalty for errors that confuse similar classes. We use our approach to train neural networks with noisy labels, as we believe noisy labels are partly a result of confusability arising from class similarity. We show improved performance compared to the use of standard loss functions. We conduct a detailed analysis using the CIFAR-10 dataset and show our proposed methods' applicability to larger datasets, such as ImageNet and Food-101N.
翻訳日:2021-03-26 13:59:04 公開日:2021-03-25
# 法前の平等--公正のための法的判断整合性分析

Equality before the Law: Legal Judgment Consistency Analysis for Fairness ( http://arxiv.org/abs/2103.13868v1 )

ライセンス: Link先を確認
Yuzhong Wang, Chaojun Xiao, Shirong Ma, Haoxi Zhong, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun(参考訳) 法体系では、判断の一貫性は公平さの最も重要な顕現の1つと見なされる。 しかしながら、実世界のシナリオにおける感性に影響を与える事実的要素の複雑さのため、実世界のデータに対する判断一貫性を定量的に測定する研究はほとんど行われていない。 本稿では, 特定の特徴(性別, 地域, 人種など)によって分割されたデータ群間の不整合を評価することを目的とした, 不整合判断のための評価指標LInCoを提案する。 本稿では,異なる集団の裁判官を法的な判断予測(LJP)モデルでシミュレートし,異なる集団で訓練されたLJPモデルによる判断結果の不一致を判断する。 合成データの実験的結果はLInCoの有効性を検証した。 我々はさらに,リンコを用いて実例の不整合を探究し,(1)法体系には男女不一致が存在しているが,男女不一致は地域不一致よりもはるかに少ない,(2)地域不一貫性のレベルは時代によって異なる,(3)司法不一貫性は刑事訴追の重大度と負の相関がある,といった観察を行った。 さらに,lincoを用いて逆行学習など複数のデバイアス法の性能評価を行い,これらのメカニズムがljpモデルにデータバイアスの回避を効果的に支援できることを見出した。

In a legal system, judgment consistency is regarded as one of the most important manifestations of fairness. However, due to the complexity of factual elements that impact sentencing in real-world scenarios, few works have been done on quantitatively measuring judgment consistency towards real-world data. In this paper, we propose an evaluation metric for judgment inconsistency, Legal Inconsistency Coefficient (LInCo), which aims to evaluate inconsistency between data groups divided by specific features (e.g., gender, region, race). We propose to simulate judges from different groups with legal judgment prediction (LJP) models and measure the judicial inconsistency with the disagreement of the judgment results given by LJP models trained on different groups. Experimental results on the synthetic data verify the effectiveness of LInCo. We further employ LInCo to explore the inconsistency in real cases and come to the following observations: (1) Both regional and gender inconsistency exist in the legal system, but gender inconsistency is much less than regional inconsistency; (2) The level of regional inconsistency varies little across different time periods; (3) In general, judicial inconsistency is negatively correlated with the severity of the criminal charges. Besides, we use LInCo to evaluate the performance of several de-bias methods, such as adversarial learning, and find that these mechanisms can effectively help LJP models to avoid suffering from data bias.
翻訳日:2021-03-26 13:58:45 公開日:2021-03-25
# 複数の予測課題における異種学生の行動と相互作用の連成モデル

Jointly Modeling Heterogeneous Student Behaviors and Interactions Among Multiple Prediction Tasks ( http://arxiv.org/abs/2103.13565v1 )

ライセンス: Link先を確認
Haobing Liu, Yanmin Zhu, Tianzi Zang, Yanan Xu, Jiadi Yu, Feilong Tang(参考訳) 学生の予測課題は学生と大学生の両方にとって実用的な意味を持つ。 学生について複数の予測を行うことは、スマートキャンパスの重要な部分だ。 例えば、学生が卒業に失敗した場合の予測は、生徒の学業成績を改善するための予測措置を取るよう学生事務室に警告することができる。 大学における情報技術の発展により,不均質な行動を連続的にエンコードするデジタルフットプリントを収集できる。 本稿では,不均質な振る舞いをモデル化し,複数の予測を一緒に行うことに焦点を当てる。 そこで我々はLSTMの変種とソフトアテンション機構を提案する。 提案したLSTMは異種行動系列から学生のプロファイル認識表現を学習することができる。 提案するソフトアテンション機構は,生徒毎に異なる日数の重要性を動的に学習することができる。 このように、不均一な振る舞いをうまくモデル化することができる。 複数の予測タスク間のインタラクションをモデル化するために,コアテンション機構に基づくユニットを提案する。 積み重ねられたユニットの助けを借りて、複数のタスク間の知識伝達を明示的に制御できる。 大学から収集した実世界のデータセットに基づいて,モチベーション行動予測タスクを3つ設計する。 3つの予測課題に関する定性的および定量的実験により,本モデルの有効性を実証した。

Prediction tasks about students have practical significance for both student and college. Making multiple predictions about students is an important part of a smart campus. For instance, predicting whether a student will fail to graduate can alert the student affairs office to take predictive measures to help the student improve his/her academic performance. With the development of information technology in colleges, we can collect digital footprints which encode heterogeneous behaviors continuously. In this paper, we focus on modeling heterogeneous behaviors and making multiple predictions together, since some prediction tasks are related and learning the model for a specific task may have the data sparsity problem. To this end, we propose a variant of LSTM and a soft-attention mechanism. The proposed LSTM is able to learn the student profile-aware representation from heterogeneous behavior sequences. The proposed soft-attention mechanism can dynamically learn different importance degrees of different days for every student. In this way, heterogeneous behaviors can be well modeled. In order to model interactions among multiple prediction tasks, we propose a co-attention mechanism based unit. With the help of the stacked units, we can explicitly control the knowledge transfer among multiple tasks. We design three motivating behavior prediction tasks based on a real-world dataset collected from a college. Qualitative and quantitative experiments on the three prediction tasks have demonstrated the effectiveness of our model.
翻訳日:2021-03-26 13:58:20 公開日:2021-03-25
# ロバスト部分群発見

Robust subgroup discovery ( http://arxiv.org/abs/2103.13686v1 )

ライセンス: Link先を確認
Hugo Manuel Proen\c{c}a, Thomas B\"ack, Matthijs van Leeuwen(参考訳) 本稿では, 1 つ以上の対象属性について,1) が統計的にロバストである,3) が冗長でない部分群の解釈可能な記述の集合を見つけるという,ロバスト部分群発見の問題を紹介する。 局所的にロバストなサブグループを採掘するか、パターン爆発に取り組むために多くの試みがなされてきたが、我々は、グローバルな視点から両方の課題に同時に対処する最初の試みである。 まず、単変量および多変量ターゲットの順序付き部分群リストの広いモデルクラス、すなわち、名目変数または数値変数からなることができる順序付き部分群を定式化する。 この新しいモデルクラスにより、最小記述長(MDL)原理を用いて最適なロバストな部分群発見の問題を定式化することができる。 特に,問題定義は情報理論的品質尺度と複雑性のペナルティでトップ1サブグループをマイニングするのと同等であることを示す。 第二に、最適部分群リストの発見はNP-hardであるとして、良い部分群リストを見つけ、MDL基準に従って発見された最も重要な部分群が各イテレーションに付加されることを保証する、強欲なヒューリスティックであるRSDを提案する。 我々は,rsdが従来のサブグループ集合発見法を上回っている54のデータセットを,品質とサブグループリストサイズの観点から実証的に示す。

We introduce the problem of robust subgroup discovery, i.e., finding a set of interpretable descriptions of subsets that 1) stand out with respect to one or more target attributes, 2) are statistically robust, and 3) non-redundant. Many attempts have been made to mine either locally robust subgroups or to tackle the pattern explosion, but we are the first to address both challenges at the same time from a global perspective. First, we formulate a broad model class of subgroup lists, i.e., ordered sets of subgroups, for univariate and multivariate targets that can consist of nominal or numeric variables. This novel model class allows us to formalize the problem of optimal robust subgroup discovery using the Minimum Description Length (MDL) principle, where we resort to optimal Normalized Maximum Likelihood and Bayesian encodings for nominal and numeric targets, respectively. Notably, we show that our problem definition is equal to mining the top-1 subgroup with an information-theoretic quality measure plus a penalty for complexity. Second, as finding optimal subgroup lists is NP-hard, we propose RSD, a greedy heuristic that finds good subgroup lists and guarantees that the most significant subgroup found according to the MDL criterion is added in each iteration, which is shown to be equivalent to a Bayesian one-sample proportions, multinomial, or t-test between the subgroup and dataset marginal target distributions plus a multiple hypothesis testing penalty. We empirically show on 54 datasets that RSD outperforms previous subgroup set discovery methods in terms of quality and subgroup list size.
翻訳日:2021-03-26 13:58:03 公開日:2021-03-25
# バッチ強化学習におけるリスク境界とラデマッハ複雑性

Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning ( http://arxiv.org/abs/2103.13883v1 )

ライセンス: Link先を確認
Yaqi Duan, Chi Jin, Zhiyuan Li(参考訳) 本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。 本研究では,ベルマン誤差を確実に推定・最小化するための最小仮定について検討し,一般関数クラスの(局所)ラデマッハ複素量による一般化性能を特徴付けるとともに,統計的学習理論とバッチRLのギャップを埋める最初のステップとなる。 具体的には,ベルマン誤差を最適性ギャップのサロゲート損失とみなし,(1)二重サンプリング方式では,経験的リスク最小化器(ERM)の過剰リスクは関数クラスのラドマチャー複雑性によって制限される。 2) 単一サンプリング方式では, アルゴリズムによらず, さらなる仮定がなければ, サンプル効率のよいリスク最小化は不可能である。 しかし完全性仮定では、FQI の余剰リスクとミニマックススタイルのアルゴリズムは、対応する関数クラスのラデマッハ複雑性によって再び有界となる。 (3) 局所ラデマッハ複雑性のツールを用いて, 高速な統計率が得られる。 私たちの分析では、有限クラス、線形空間、カーネル空間、疎線型特徴など、幅広い関数クラスをカバーしています。

This paper considers batch Reinforcement Learning (RL) with general value function approximation. Our study investigates the minimal assumptions to reliably estimate/minimize Bellman error, and characterizes the generalization performance by (local) Rademacher complexities of general function classes, which makes initial steps in bridging the gap between statistical learning theory and batch RL. Concretely, we view the Bellman error as a surrogate loss for the optimality gap, and prove the followings: (1) In double sampling regime, the excess risk of Empirical Risk Minimizer (ERM) is bounded by the Rademacher complexity of the function class. (2) In the single sampling regime, sample-efficient risk minimization is not possible without further assumptions, regardless of algorithms. However, with completeness assumptions, the excess risk of FQI and a minimax style algorithm can be again bounded by the Rademacher complexity of the corresponding function classes. (3) Fast statistical rates can be achieved by using tools of local Rademacher complexity. Our analysis covers a wide range of function classes, including finite classes, linear spaces, kernel spaces, sparse linear features, etc.
翻訳日:2021-03-26 13:56:56 公開日:2021-03-25
# スピリット蒸留:不十分なデータによる高精度リアルタイム予測

Spirit Distillation: Precise Real-time Prediction with Insufficient Data ( http://arxiv.org/abs/2103.13733v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Hong Qi, Yu Jiang, Chupeng Cui, Zongmin Yang, Xinhui Xue(参考訳) 最近の傾向は、自律運転システムにおける環境認識におけるディープニューラルネットワーク(DNN)の有効性を示している。 大規模で完全なデータは優れたDNNをトレーニングすることができるが、収集は常に困難で高価で時間を要する。 また,リアルタイム認識の必要性から,精度と効率の両面での重要性を強調できない。 DNNの弱いデータと高い計算消費の対立を軽減するため、我々はスピリット蒸留(SD)と呼ばれる新しいトレーニングフレームワークを提案する。 微細チューニングに基づく伝達学習(FTT)と特徴に基づく知識蒸留の考え方を拡張している。 教師に特徴抽出を模倣させることにより、教師と生徒のネットワーク間の一般的な特徴のギャップを橋渡しする。 様々な領域から画像をシャッフルし,ランダムに数個をミニバッチとして選択するイメージパーティ蒸留促進法(ip法)も提案されている。 このアプローチにより、教師ネットワークの一般的な特徴に対する学生ネットワークの過度な適合を回避できる。 CityScapesではCOCO2017とKITTIの推進による説得的な実験と議論が行われている。 その結果、セグメンテーションにおける高速化性能(mIOUと高精度精度)は、それぞれ1.4%と8.2%向上し、78.2%の出力分散が得られた。 1). 本稿では,少人数学習に応用する知識蒸留の先駆的研究である。 提案手法は,DNNのトレーニングデータへの依存を著しく低減し,DNNが稀な状況に直面した際の堅牢性を向上させる。 自動運転のためのシーン認識技術の進歩に重要な技術支援を提供する。

Recent trend demonstrates the effectiveness of deep neural networks (DNNs) apply on the task of environment perception in autonomous driving system. While large-scale and complete data can train out fine DNNs, collecting it is always difficult, expensive, and time-consuming. Also, the significance of both accuracy and efficiency cannot be over-emphasized due to the requirement of real-time recognition. To alleviate the conflicts between weak data and high computational consumption of DNNs, we propose a new training framework named Spirit Distillation(SD). It extends the ideas of fine-tuning-based transfer learning(FTT) and feature-based knowledge distillation. By allowing the student to mimic its teacher in feature extraction, the gap of general features between the teacher-student networks is bridged. The Image Party distillation enhancement method(IP) is also proposed, which shuffling images from various domains, and randomly selecting a few as mini-batch. With this approach, the overfitting that the student network to the general features of the teacher network can be easily avoided. Persuasive experiments and discussions are conducted on CityScapes with the prompt of COCO2017 and KITTI. Results demonstrate the boosting performance in segmentation(mIOU and high-precision accuracy boost by 1.4% and 8.2% respectively, with 78.2% output variance), and can gain a precise compact network with only 41.8\% FLOPs(see Fig. 1). This paper is a pioneering work on knowledge distillation applied to few-shot learning. The proposed methods significantly reduce the dependence on data of DNNs training, and improves the robustness of DNNs when facing rare situations, with real-time requirement satisfied. We provide important technical support for the advancement of scene perception technology for autonomous driving.
翻訳日:2021-03-26 13:55:54 公開日:2021-03-25
# otce: クロスドメインクロスタスク表現のための転送可能性メトリクス

OTCE: A Transferability Metric for Cross-Domain Cross-Task Representations ( http://arxiv.org/abs/2103.13843v1 )

ライセンス: Link先を確認
Yang Tan, Yang Li, Shao-Lun Huang(参考訳) 異種データ分布間の転送学習(a.k.a.) ドメイン)と異なるタスクは、ドメインまたはタスクが同じと仮定される従来の転送学習よりも一般的で難しい問題である。 ニューラルネットワークに基づく機能伝達は、転送学習アプリケーションで広く使われているが、最適な転送戦略を見つけるには、依然として時間を要する実験とドメイン知識が必要である。 クロスドメインおよびクロスタスクの特徴伝達設定における教師付き分類タスクの転送性能を解析的に予測する,OTCE(Optimal Transport Based Conditional Entropy)と呼ばれる転送可能性指標を提案する。 我々のOTCEスコアは、ドメイン差とタスク差の組み合わせとしてトランスファービリティを特徴付け、それらを統一されたフレームワークでデータから明確に評価する。 具体的には,対象タスクの条件エントロピー(タスク差)を導出するために,領域差とソース分布とターゲット分布の最適結合を推定するために最適なトランスポートを用いる。 最大のクロスドメインデータセットであるDomainNetとOffice31の実験では、OTCEは最先端の手法と比較して、地上の真実転送精度と相関して平均21%の利得を示している。 また、ソースモデル選択とマルチソース特徴融合を含むOTCEスコアの2つの応用についても検討する。

Transfer learning across heterogeneous data distributions (a.k.a. domains) and distinct tasks is a more general and challenging problem than conventional transfer learning, where either domains or tasks are assumed to be the same. While neural network based feature transfer is widely used in transfer learning applications, finding the optimal transfer strategy still requires time-consuming experiments and domain knowledge. We propose a transferability metric called Optimal Transport based Conditional Entropy (OTCE), to analytically predict the transfer performance for supervised classification tasks in such cross-domain and cross-task feature transfer settings. Our OTCE score characterizes transferability as a combination of domain difference and task difference, and explicitly evaluates them from data in a unified framework. Specifically, we use optimal transport to estimate domain difference and the optimal coupling between source and target distributions, which is then used to derive the conditional entropy of the target task (task difference). Experiments on the largest cross-domain dataset DomainNet and Office31 demonstrate that OTCE shows an average of 21% gain in the correlation with the ground truth transfer accuracy compared to state-of-the-art methods. We also investigate two applications of the OTCE score including source model selection and multi-source feature fusion.
翻訳日:2021-03-26 13:55:27 公開日:2021-03-25
# AgentFormer: ソシオテンポラルマルチエージェント予測のためのエージェント認識変換器

AgentFormer: Agent-Aware Transformers for Socio-Temporal Multi-Agent Forecasting ( http://arxiv.org/abs/2103.14023v1 )

ライセンス: Link先を確認
Ye Yuan, Xinshuo Weng, Yanglan Ou, Kris Kitani(参考訳) 複数のエージェントの正確な将来の軌跡を予測することは自律システムには不可欠であるが、複雑なエージェントの相互作用と各エージェントの将来の行動の不確実性のために困難である。 マルチエージェントトラジェクタの予測には,(1)過去のエージェント状態が将来の状態に与える影響をモデル化する時間次元,(2)各エージェントの状態が他人にどう影響するかをモデル化する社会的次元,の2つの重要な次元のモデル化が必要である。 例えば、まず、時間的モデルを使って各エージェントの時間的特徴を個別に要約し、次に、要約された特徴と社会モデルとの相互作用をモデル化する。 このアプローチは、時間または社会的次元にまたがる独立した特徴符号化が情報の損失をもたらすため、準最適である。 代わりに、ある時点におけるエージェントの状態が、他のエージェントの状態に直接影響を与えることを、将来的に可能にする方法を好む。 そこで我々は,時間と社会的次元を共同でモデル化する新しいトランスフォーマー,AgentFormerを提案する。 このモデルは、時間とエージェント間の軌道特徴をフラットにすることで、マルチエージェント軌道のシーケンス表現を利用する。 標準的なアテンション操作はシーケンス内の各要素のエージェントアイデンティティを無視するため、AgentFormerはエージェントの同一性を保持する新しいエージェント対応アテンション機構を使用して、同じエージェントの要素に他のエージェントの要素とは異なる形で参加する。 エージェントフォーマに基づいて,エージェントの将来の位置を推測する際に,任意のエージェントの特徴に任意の時間ステップで対応できる確率的マルチエージェント軌道予測モデルを提案する。 すべてのエージェントの潜在意図も共同でモデル化され、あるエージェントの振る舞いの確率性は他のエージェントに影響を与える。 提案手法は,歩行者および自律運転用データセットにおける技術状況を大幅に改善する。

Predicting accurate future trajectories of multiple agents is essential for autonomous systems, but is challenging due to the complex agent interaction and the uncertainty in each agent's future behavior. Forecasting multi-agent trajectories requires modeling two key dimensions: (1) time dimension, where we model the influence of past agent states over future states; (2) social dimension, where we model how the state of each agent affects others. Most prior methods model these two dimensions separately; e.g., first using a temporal model to summarize features over time for each agent independently and then modeling the interaction of the summarized features with a social model. This approach is suboptimal since independent feature encoding over either the time or social dimension can result in a loss of information. Instead, we would prefer a method that allows an agent's state at one time to directly affect another agent's state at a future time. To this end, we propose a new Transformer, AgentFormer, that jointly models the time and social dimensions. The model leverages a sequence representation of multi-agent trajectories by flattening trajectory features across time and agents. Since standard attention operations disregard the agent identity of each element in the sequence, AgentFormer uses a novel agent-aware attention mechanism that preserves agent identities by attending to elements of the same agent differently than elements of other agents. Based on AgentFormer, we propose a stochastic multi-agent trajectory prediction model that can attend to features of any agent at any previous timestep when inferring an agent's future position. The latent intent of all agents is also jointly modeled, allowing the stochasticity in one agent's behavior to affect other agents. Our method significantly improves the state of the art on well-established pedestrian and autonomous driving datasets.
翻訳日:2021-03-26 13:55:07 公開日:2021-03-25
# セマンティックセグメンテーションのためのエビデンシャル完全畳み込みネットワーク

Evidential fully convolutional network for semantic segmentation ( http://arxiv.org/abs/2103.13544v1 )

ライセンス: Link先を確認
Zheng Tong, Philippe Xu, Thierry Den{\oe}ux(参考訳) 本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。 いわゆる顕在的FCN(E-FCN)では、エンコーダデコーダアーキテクチャがまず入力画像から画素単位の特徴写像を抽出する。 Dempster-Shafer層は、プロトタイプまでの距離に基づいて各ピクセル位置の質量関数を計算する。 最後に、ユーティリティ層がマス関数からセマンティックセグメンテーションを行い、不明瞭な画素と外れ値の不正確な分類を可能にする。 本稿では,ソフト(不正確な)ラベルを活用できるネットワークパラメータを共同で更新するためのエンドツーエンド学習戦略を提案する。 3つのデータベース(pascal voc 2011, mit-scene parsing, sift flow)を用いた実験により,提案手法は,混乱する画素を多クラス集合に割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善した。

We propose a hybrid architecture composed of a fully convolutional network (FCN) and a Dempster-Shafer layer for image semantic segmentation. In the so-called evidential FCN (E-FCN), an encoder-decoder architecture first extracts pixel-wise feature maps from an input image. A Dempster-Shafer layer then computes mass functions at each pixel location based on distances to prototypes. Finally, a utility layer performs semantic segmentation from mass functions and allows for imprecise classification of ambiguous pixels and outliers. We propose an end-to-end learning strategy for jointly updating the network parameters, which can make use of soft (imprecise) labels. Experiments using three databases (Pascal VOC 2011, MIT-scene Parsing and SIFT Flow) show that the proposed combination improves the accuracy and calibration of semantic segmentation by assigning confusing pixels to multi-class sets.
翻訳日:2021-03-26 13:54:37 公開日:2021-03-25
# 統合勾配における対称性保存経路

Symmetry-Preserving Paths in Integrated Gradients ( http://arxiv.org/abs/2103.13533v1 )

ライセンス: Link先を確認
Miguel Lerma and Mirtha Lucas(参考訳) 深層ネットワークに対する統合勾配(ig)帰属法が完全性と対称性保存特性を満たすことを厳密に証明する。 また、対称性を保つ経路法としてIGの特異性についても検討する。

We provide rigorous proofs that the Integrated Gradients (IG) attribution method for deep networks satisfies completeness and symmetry-preserving properties. We also study the uniqueness of IG as a path method preserving symmetry.
翻訳日:2021-03-26 13:53:54 公開日:2021-03-25
# Dempster-Shafer理論とディープラーニングに基づく明確な分類器

An evidential classifier based on Dempster-Shafer theory and deep learning ( http://arxiv.org/abs/2103.13549v1 )

ライセンス: Link先を確認
Zheng Tong, Philippe Xu, Thierry Den{\oe}ux(参考訳) 本稿では,Dempster-Shafer(DS)理論に基づく新しい分類器と,集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 この分類器は明快なディープラーニング分類器と呼ばれ、畳み込み層とプール層はまず入力データから高次元の特徴を抽出する。 これらの特徴は質量関数に変換され、DS層にデンプスターの規則によって集約される。 最後に、期待されるユーティリティ層は、質量関数に基づくセット値分類を行う。 ネットワークパラメータを協調的に更新するためのエンドツーエンド学習戦略を提案する。 さらに,部分的多クラス行為を選択する手法を提案する。 画像認識, 信号処理, 意味関係分類タスクの実験により, 深層cnn, ds層, 期待されるユーティリティ層の組み合わせにより, 分類精度の向上と, 混乱するパターンを多クラス集合に割り当てることによる慎重な判断が可能となった。

We propose a new classifier based on Dempster-Shafer (DS) theory and a convolutional neural network (CNN) architecture for set-valued classification. In this classifier, called the evidential deep-learning classifier, convolutional and pooling layers first extract high-dimensional features from input data. The features are then converted into mass functions and aggregated by Dempster's rule in a DS layer. Finally, an expected utility layer performs set-valued classification based on mass functions. We propose an end-to-end learning strategy for jointly updating the network parameters. Additionally, an approach for selecting partial multi-class acts is proposed. Experiments on image recognition, signal processing, and semantic-relationship classification tasks demonstrate that the proposed combination of deep CNN, DS layer, and expected utility layer makes it possible to improve classification accuracy and to make cautious decisions by assigning confusing patterns to multi-class sets.
翻訳日:2021-03-26 13:53:49 公開日:2021-03-25
# ECG-TCN : 経時的畳み込みネットワークを用いたウェアラブル心不整脈検出

ECG-TCN: Wearable Cardiac Arrhythmia Detection with a Temporal Convolutional Network ( http://arxiv.org/abs/2103.13740v1 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Xiaying Wang, Michael Hersche, Alessio Burrello, Lukas Cavigelli, Luca Benini(参考訳) パーソナライズされたユビキタス医療ソリューションは、バイオシグナルの正確な分類を提供するエネルギー効率の高いウェアラブルプラットフォームを必要とする。 シングルリード心電図(ECG)信号は、心不整脈を検出し、分類し、予測する能力を提供する。 本稿では,ウェアラブルプラットフォームでの利用が可能でありながら,高い精度を実現する新しい時間畳み込みネットワーク(TCN)を提案する。 ECG5000データセットの実験結果から、TCNは最新技術(SoA)ネットワークと同等の精度(94.2%)を示し、バランスの取れた精度スコアは16.5%向上した。 この正確な分類は、27倍のパラメータと37倍の累積演算で行われる。 我々は、ARM Cortex M4FをベースとしたSTM32L475と、1+8 RISC-V CV32E40PコアをベースとしたGAPuinoボード上のGreenWaves Technologies GAP8という2つの公開プラットフォーム上で実装をテストした。 測定によると、GAP8の実装はリアルタイムの制約を尊重し、推論毎に0.10mJを消費している。 9.91 GMAC/s/Wでは、ARM Cortex M4F (0.43 GMAC/s/W)の実装よりも23.0倍エネルギー効率が良く46.85倍速い。 全体としては、以前のsoa組み込み実装に比べて19.6倍のエネルギー消費と35.1倍の速さで、8.1%の精度が得られる。

Personalized ubiquitous healthcare solutions require energy-efficient wearable platforms that provide an accurate classification of bio-signals while consuming low average power for long-term battery-operated use. Single lead electrocardiogram (ECG) signals provide the ability to detect, classify, and even predict cardiac arrhythmia. In this paper, we propose a novel temporal convolutional network (TCN) that achieves high accuracy while still being feasible for wearable platform use. Experimental results on the ECG5000 dataset show that the TCN has a similar accuracy (94.2%) score as the state-of-the-art (SoA) network while achieving an improvement of 16.5% in the balanced accuracy score. This accurate classification is done with 27 times fewer parameters and 37 times less multiply-accumulate operations. We test our implementation on two publicly available platforms, the STM32L475, which is based on ARM Cortex M4F, and the GreenWaves Technologies GAP8 on the GAPuino board, based on 1+8 RISC-V CV32E40P cores. Measurements show that the GAP8 implementation respects the real-time constraints while consuming 0.10 mJ per inference. With 9.91 GMAC/s/W, it is 23.0 times more energy-efficient and 46.85 times faster than an implementation on the ARM Cortex M4F (0.43 GMAC/s/W). Overall, we obtain 8.1% higher accuracy while consuming 19.6 times less energy and being 35.1 times faster compared to a previous SoA embedded implementation.
翻訳日:2021-03-26 13:53:34 公開日:2021-03-25
# 応答依存的欠落ラベルの存在下での予測

Prediction in the presence of response-dependent missing labels ( http://arxiv.org/abs/2103.13555v1 )

ライセンス: Link先を確認
Hyebin Song, Garvesh Raskutti, Rebecca Willett(参考訳) 様々な設定において、センシング技術やその他のサンプリング機構の制限は、トレーニングセットに欠落しているラベルがデータの未知の機能である可能性のあるラベルを欠落させる結果となる。 例えば、森林火災を検出するために使用される衛星は、一定の大きさの閾値以下では火災を感知できない。 このような場合、トレーニングデータセットは、偽陰性観測が真の負か、小さな大きさの未検出正のどちらかである、正と偽の負の観測からなる。 我々は,検出機構の事前知識を利用して,正試料の発生と検出の可能性を共同で推定する手法と非凸アルゴリズムP(ositive) U(nlabeled) - O(ccurrence) M(ixture)を開発した。 提案手法では,事象の規模と発生を共同で推定する正の未ラベル学習(PU)モデルとゼロインフレモデルを用いている。 モデルが同定可能な条件を提供し、我々のアプローチが凸でない目的をもたらすとしても、任意の局所最小化器は最適統計誤差(対数項まで)を持ち、投影勾配降下は幾何収束率を持つことを示す。 合成データとカリフォルニアの山火事データセットの両方で、我々の手法は既存の最先端のアプローチよりも優れています。

In a variety of settings, limitations of sensing technologies or other sampling mechanisms result in missing labels, where the likelihood of a missing label in the training set is an unknown function of the data. For example, satellites used to detect forest fires cannot sense fires below a certain size threshold. In such cases, training datasets consist of positive and pseudo-negative observations where pseudo-negative observations can be either true negatives or undetected positives with small magnitudes. We develop a new methodology and non-convex algorithm P(ositive) U(nlabeled) - O(ccurrence) M(agnitude) M(ixture) which jointly estimates the occurrence and detection likelihood of positive samples, utilizing prior knowledge of the detection mechanism. Our approach uses ideas from positive-unlabeled (PU)-learning and zero-inflated models that jointly estimate the magnitude and occurrence of events. We provide conditions under which our model is identifiable and prove that even though our approach leads to a non-convex objective, any local minimizer has optimal statistical error (up to a log term) and projected gradient descent has geometric convergence rates. We demonstrate on both synthetic data and a California wildfire dataset that our method out-performs existing state-of-the-art approaches.
翻訳日:2021-03-26 13:52:49 公開日:2021-03-25
# インスタンス信頼埋め込みによるインスタンス依存ノイズの近似

Approximating Instance-Dependent Noise via Instance-Confidence Embedding ( http://arxiv.org/abs/2103.13569v1 )

ライセンス: Link先を確認
Yivan Zhang, Masashi Sugiyama(参考訳) 多クラス分類におけるラベルノイズは,学習システムの展開において大きな障害となる。 しかし、実世界のデータセットのラベルノイズは個々のインスタンスに大きく依存するので、広く使われているクラス条件ノイズ(CCN)の仮定とは異なり、ノイズラベルは真のラベルが与えられた入力特徴とは独立である。 本稿では,インスタンス依存ノイズ(idn)モデルを調査し,インスタンス固有のラベル破壊を捉えるためのidnの効率的な近似を提案する。 具体的には,idn遷移行列のほとんどの列がクラス後推定に限られた影響しか与えていないことを指摘し,単一スカラー信頼度パラメータを用いた変分近似を提案する。 隣接する2つのインスタンスに対して、各インスタンスからその信頼性値へのマッピングが著しく異なる状況に対処するため、各インスタンスにトレーニング可能なパラメータを割り当てるインスタンス埋め込みを提案する。 結果として生じるインスタンス信頼埋め込み(ICE)法はラベルノイズ下では良好に機能するだけでなく、あいまいなインスタンスや誤ラベルされたインスタンスを効果的に検出することができる。 様々な画像やテキストの分類タスクで有効性を検証する。

Label noise in multiclass classification is a major obstacle to the deployment of learning systems. However, unlike the widely used class-conditional noise (CCN) assumption that the noisy label is independent of the input feature given the true label, label noise in real-world datasets can be aleatory and heavily dependent on individual instances. In this work, we investigate the instance-dependent noise (IDN) model and propose an efficient approximation of IDN to capture the instance-specific label corruption. Concretely, noting the fact that most columns of the IDN transition matrix have only limited influence on the class-posterior estimation, we propose a variational approximation that uses a single-scalar confidence parameter. To cope with the situation where the mapping from the instance to its confidence value could vary significantly for two adjacent instances, we suggest using instance embedding that assigns a trainable parameter to each instance. The resulting instance-confidence embedding (ICE) method not only performs well under label noise but also can effectively detect ambiguous or mislabeled instances. We validate its utility on various image and text classification tasks.
翻訳日:2021-03-26 13:52:26 公開日:2021-03-25
# マニフォールドサンプリングと幾何学的VAEを用いた低サンプルサイズデータ生成

Data Generation in Low Sample Size Setting Using Manifold Sampling and a Geometry-Aware VAE ( http://arxiv.org/abs/2103.13751v1 )

ライセンス: Link先を確認
Cl\'ement Chadebec and St\'ephanie Allassonni\`ere(参考訳) よりリッチな後方分布と事前分布による変分オートコーダの改善に多くの努力が注がれているが、データ生成の仕方を改善することにはほとんど関心が示されていない。 本稿では、リーマン多様体として見なされる潜在空間の幾何に基づく2つの非非emph{prior-dependent}生成手順を考案する。 1つ目は潜在空間を探索する自然な方法である測地路に沿ってサンプリングすること、もう1つは実際の使用が容易な計量体積要素の逆からサンプリングすることである。 どちらの手法も様々なデータセット上の \emph{prior-based} メソッドと比較され、限られたデータレジームに適しているように見える。 最後に、後者の方法は、小さなサンプルサイズ設定でデータ拡張を実行するために使われ、様々な標準および \emph{real-life}データセットで検証される。 特に,本手法では,本手法で生成した合成データのみを用いて学習した場合,平均精度が80.7%から89.1%に向上したoasisデータベースの分類結果を大幅に改善することができる。 この結果は4つの標準データセットでも観測された。

While much efforts have been focused on improving Variational Autoencoders through richer posterior and prior distributions, little interest was shown in amending the way we generate the data. In this paper, we develop two non \emph{prior-dependent} generation procedures based on the geometry of the latent space seen as a Riemannian manifold. The first one consists in sampling along geodesic paths which is a natural way to explore the latent space while the second one consists in sampling from the inverse of the metric volume element which is easier to use in practice. Both methods are then compared to \emph{prior-based} methods on various data sets and appear well suited for a limited data regime. Finally, the latter method is used to perform data augmentation in a small sample size setting and is validated across various standard and \emph{real-life} data sets. In particular, this scheme allows to greatly improve classification results on the OASIS database where balanced accuracy jumps from 80.7% for a classifier trained with the raw data to 89.1% when trained only with the synthetic data generated by our method. Such results were also observed on 4 standard data sets.
翻訳日:2021-03-26 13:52:07 公開日:2021-03-25
# ベイズネットワークの観測環境におけるアクティブな構造学習

Active Structure Learning of Bayesian Networks in an Observational Setting ( http://arxiv.org/abs/2103.13796v1 )

ライセンス: Link先を確認
Noa Ben-David and Sivan Sabato(参考訳) 本研究では,同一試料から観測できる可変値の数に外部制約がある観測条件下でのベイズネットワークの能動的構造学習について検討する。 ランダムサンプルはネットワーク変数のジョイント分布から引き出され、アルゴリズムは次のサンプルで観察すべき変数を反復的に選択する。 そこで本研究では, 最適なスコアに近い$\epsilon$のスコアを持つ構造を高い確率で求める, 新たなアクティブラーニングアルゴリズムを提案する。 安定と呼ぶ分布のクラスに対して、$d$ がネットワーク変数の数であるような$\widetilde{\omega}(d^3)$ までのサンプル複雑性の低減が得られることを示す。 さらに, 最悪の場合, アクティブアルゴリズムのサンプル複雑性は, 平均ベースラインアルゴリズムとほぼ同一であることが保証されることを示した。 理論的な結果を補うため,新しい能動アルゴリズムの性能とナイーブなベースラインを比較し,サンプルの複雑さの改善を実証する実験を報告する。 アルゴリズムと実験のためのコードはhttps://github.com/noabdavid/activeBNSLで提供されている。

We study active structure learning of Bayesian networks in an observational setting, in which there are external limitations on the number of variable values that can be observed from the same sample. Random samples are drawn from the joint distribution of the network variables, and the algorithm iteratively selects which variables to observe in the next sample. We propose a new active learning algorithm for this setting, that finds with a high probability a structure with a score that is $\epsilon$-close to the optimal score. We show that for a class of distributions that we term stable, a sample complexity reduction of up to a factor of $\widetilde{\Omega}(d^3)$ can be obtained, where $d$ is the number of network variables. We further show that in the worst case, the sample complexity of the active algorithm is guaranteed to be almost the same as that of a naive baseline algorithm. To supplement the theoretical results, we report experiments that compare the performance of the new active algorithm to the naive baseline and demonstrate the sample complexity improvements. Code for the algorithm and for the experiments is provided at https://github.com/noabdavid/activeBNSL.
翻訳日:2021-03-26 13:51:47 公開日:2021-03-25
# 多項ロジットコンテキスト帯域:確率的最適性と実用性

Multinomial Logit Contextual Bandits: Provable Optimality and Practicality ( http://arxiv.org/abs/2103.13929v1 )

ライセンス: Link先を確認
Min-hwan Oh, Garud Iyengar(参考訳) パラメータが不明なマルチノードロジット選択モデル(MNL)によってユーザ選択が与えられる逐次アソート選択問題を考える。 各期間において、学習エージェントは、ユーザに関する$d$−dのコンテキスト情報と、利用可能な$n$のアイテムを観察し、ユーザに対して、サイズ$k$のソートを提供し、ソートから選択したアイテムのバンディットフィードバックを観察する。 本稿では,このMNLコンテキスト帯域に対する高信頼境界ベースアルゴリズムを提案する。 最初のアルゴリズムは単純で実用的な手法で、$t$のラウンドに対して$\tilde{\mathcal{o}}(d\sqrt{t})$を後悔する。 次に, $\tilde{\mathcal{O}}(\sqrt{dT})$ regret を達成する2番目のアルゴリズムを提案する。 これはMNLのバンドイト問題に対する下界と対数項まで一致し、最もよく知られた結果は$\sqrt{d}$ factorによって改善される。 このよりシャープな後悔境界を確立するために、MNLモデルの最大極大推定値に対する漸近的でない信頼度を示す。 次に、より単純でより実用的な第1のアルゴリズムを再検討し、アルゴリズムの単純な変種が、幅広い重要なアプリケーションに最適な後悔をもたらすことを示す。

We consider a sequential assortment selection problem where the user choice is given by a multinomial logit (MNL) choice model whose parameters are unknown. In each period, the learning agent observes a $d$-dimensional contextual information about the user and the $N$ available items, and offers an assortment of size $K$ to the user, and observes the bandit feedback of the item chosen from the assortment. We propose upper confidence bound based algorithms for this MNL contextual bandit. The first algorithm is a simple and practical method which achieves an $\tilde{\mathcal{O}}(d\sqrt{T})$ regret over $T$ rounds. Next, we propose a second algorithm which achieves a $\tilde{\mathcal{O}}(\sqrt{dT})$ regret. This matches the lower bound for the MNL bandit problem, up to logarithmic terms, and improves on the best known result by a $\sqrt{d}$ factor. To establish this sharper regret bound, we present a non-asymptotic confidence bound for the maximum likelihood estimator of the MNL model that may be of independent interest as its own theoretical contribution. We then revisit the simpler, significantly more practical, first algorithm and show that a simple variant of the algorithm achieves the optimal regret for a broad class of important applications.
翻訳日:2021-03-26 13:51:28 公開日:2021-03-25
# 自己監督型学習を再考する: 小さくて美しい

Rethinking Self-Supervised Learning: Small is Beautiful ( http://arxiv.org/abs/2103.13559v1 )

ライセンス: Link先を確認
Yun-Hao Cao and Jianxin Wu(参考訳) 自己教師付き学習(SSL)、特に対照的な学習は近年大きな進歩を遂げている。 しかし,これらの手法の共通のテーマは,教師付きディープラーニングシナリオから学習パラダイムを継承することである。 現在のSSLメソッドは、高解像度の画像を使用して大規模なデータセット上で多くのエポックに対して事前訓練されることが多い。 本稿では,ssl の学習パラダイムが教師あり学習と異なることを実証し,クロスエントロピー損失による教師あり学習においてラベルにエンコードされる情報よりも,コントラスト的損失で符号化された情報の方がはるかに少ないことを期待する。 そこで我々は,小型化,小型化,小型化,小型化という3つの部分を含む,スケールダウン型自己教師学習(S3L)を提案する。 さまざまなデータセット、SSLメソッド、バックボーンアーキテクチャに基づいて、S3Lは、以前のSSL学習パラダイムと比較して、トレーニングコストを大幅に削減して、一貫性の高い精度を実現している。 さらに,大規模な事前学習データセットがなくても,s3lは小さなデータだけで素晴らしい結果が得られることを示す。 私たちのコードはhttps://github.com/CupidJay/Scaled-down-down-supervised-learningで公開されています。

Self-supervised learning (SSL), in particular contrastive learning, has made great progress in recent years. However, a common theme in these methods is that they inherit the learning paradigm from the supervised deep learning scenario. Current SSL methods are often pretrained for many epochs on large-scale datasets using high resolution images, which brings heavy computational cost and lacks flexibility. In this paper, we demonstrate that the learning paradigm for SSL should be different from supervised learning and the information encoded by the contrastive loss is expected to be much less than that encoded in the labels in supervised learning via the cross entropy loss. Hence, we propose scaled-down self-supervised learning (S3L), which include 3 parts: small resolution, small architecture and small data. On a diverse set of datasets, SSL methods and backbone architectures, S3L achieves higher accuracy consistently with much less training cost when compared to previous SSL learning paradigm. Furthermore, we show that even without a large pretraining dataset, S3L can achieve impressive results on small data alone. Our code has been made publically available at https://github.com/CupidJay/Scaled-down-self-supervised-learning.
翻訳日:2021-03-26 13:51:03 公開日:2021-03-25
# 不確実性認識回帰のための確率的順序付け学習

Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware Regression ( http://arxiv.org/abs/2103.13629v1 )

ライセンス: Link先を確認
Wanhua Li, Xiaoke Huang, Jiwen Lu, Jianjiang Feng, Jie Zhou(参考訳) 不確かさが唯一の確実性である。 データの不確かさのモデリングは回帰、特に制約のない設定には不可欠である。 伝統的に、直接回帰定式化は考慮され、不確実性は出力空間をある確率分布の族に変更することでモデル化される。 一方,直接回帰法は性能の制限に苦しむ一方で,分類に基づく回帰とランキングに基づく解は実際より一般的である。 現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。 本稿では,各データを潜在空間における決定論的点ではなく,多変量ガウス分布として表現する確率的順序埋め込みを学習する。 回帰の順序性を利用するために順序分布制約が提案されている。 我々の確率的順序埋め込みは、一般的な回帰アプローチに統合され、不確実性推定の能力でそれらを強化することができる。 実験の結果,本手法は競争性能を発揮できることがわかった。 コードはhttps://github.com/Li-Wanhua/POEsで入手できる。

Uncertainty is the only certainty there is. Modeling data uncertainty is essential for regression, especially in unconstrained settings. Traditionally the direct regression formulation is considered and the uncertainty is modeled by modifying the output space to a certain family of probabilistic distributions. On the other hand, classification based regression and ranking based solutions are more popular in practice while the direct regression methods suffer from the limited performance. How to model the uncertainty within the present-day technologies for regression remains an open issue. In this paper, we propose to learn probabilistic ordinal embeddings which represent each data as a multivariate Gaussian distribution rather than a deterministic point in the latent space. An ordinal distribution constraint is proposed to exploit the ordinal nature of regression. Our probabilistic ordinal embeddings can be integrated into popular regression approaches and empower them with the ability of uncertainty estimation. Experimental results show that our approach achieves competitive performance. Code is available at https://github.com/Li-Wanhua/POEs.
翻訳日:2021-03-26 13:50:42 公開日:2021-03-25
# contrast to divide: self-supervised pre-training for learning with noise labels

Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy Labels ( http://arxiv.org/abs/2103.13646v1 )

ライセンス: Link先を確認
Evgenii Zheltonozhskii, Chaim Baskin, Avi Mendelson, Alex M. Bronstein, Or Litany(参考訳) ノイズラベル(LNL)法による学習の成功は、標準的な教師付きトレーニングがフル(ノイズ)トレーニングセットを使用して実行されるウォームアップステージの成功に大きく依存する。 本稿では,高品質な特徴抽出器を訓練するための標準的なウォームアップステージの欠如と,ノイズラベルの暗記を回避する「ウォームアップ障害」を特定する。 本稿では,特徴抽出器を自己指導型で事前学習することで,この問題を解決するためのシンプルなフレームワークである"Contrast to Divide"(C2D)を提案する。 自己教師付き事前学習を用いることで、ウォームアップステージのノイズレベルへの感受性を大幅に低減し、その持続時間を短縮し、抽出された特徴量を増やすことで、既存のLNLアプローチの性能を高めることができる。 c2dは既存の手法で最初から動作し、特に高ノイズ環境ではパフォーマンスが著しく向上しており、cifar-100では27%以上向上し、以前の技術では90%のノイズが発生している。 実生活のノイズ設定では、mini-WebVisionでトレーニングされたC2Dは、WebVisionとImageNetバリデーションセットの両方において、3%のトップ1精度で過去の作業より優れています。 このフレームワークの詳細な分析を行い、様々な事前学習手法の性能を調査し、半教師付き学習を用いてLNL性能の有効上限を推定する。 実験を再現するためのコードはhttps://github.com/ContrastToDivide/C2Dで公開されている。

The success of learning with noisy labels (LNL) methods relies heavily on the success of a warm-up stage where standard supervised training is performed using the full (noisy) training set. In this paper, we identify a "warm-up obstacle": the inability of standard warm-up stages to train high quality feature extractors and avert memorization of noisy labels. We propose "Contrast to Divide" (C2D), a simple framework that solves this problem by pre-training the feature extractor in a self-supervised fashion. Using self-supervised pre-training boosts the performance of existing LNL approaches by drastically reducing the warm-up stage's susceptibility to noise level, shortening its duration, and increasing extracted feature quality. C2D works out of the box with existing methods and demonstrates markedly improved performance, especially in the high noise regime, where we get a boost of more than 27% for CIFAR-100 with 90% noise over the previous state of the art. In real-life noise settings, C2D trained on mini-WebVision outperforms previous works both in WebVision and ImageNet validation sets by 3% top-1 accuracy. We perform an in-depth analysis of the framework, including investigating the performance of different pre-training approaches and estimating the effective upper bound of the LNL performance with semi-supervised learning. Code for reproducing our experiments is available at https://github.com/ContrastToDivide/C2D
翻訳日:2021-03-26 13:50:28 公開日:2021-03-25
# SSLayout360: 360$^{\circ}$ Panoramaによる半監督屋内レイアウト推定

SSLayout360: Semi-Supervised Indoor Layout Estimation from 360$^{\circ}$ Panorama ( http://arxiv.org/abs/2103.13696v1 )

ライセンス: Link先を確認
Phi Vu Tran(参考訳) 近年,半教師付き学習と3次元部屋レイアウト再構築の研究が盛んに行われている。 本研究では,より少ないラベルデータでより正確な3次元室内シーンモデリングを実現するための研究目標を進めるために,これらの2分野の交点を探索する。 360$^{\circ}$パノラマシーンにおけるレイアウト推定を改善するためにラベル付きデータとラベルなしデータの組み合わせを用いて、部屋の隅と境界の表現を学ぶための最初のアプローチを提案する。 大規模な比較実験を通じて,20個のラベル付き例を用いて,複雑な屋内シーンのレイアウト推定を推し進めることができることを示す。 合成データに事前学習したレイアウト予測器と組み合わせると, ラベルの12%のみを用いて, 半教師付き手法が完全に教師付き手法に適合する。 私たちの研究は、制限されたラベル付きデータで3d知覚の多くのアプリケーションを可能にする、ロバストな半教師付きレイアウト推定に向けて、重要な第一歩を踏み出しています。

Recent years have seen flourishing research on both semi-supervised learning and 3D room layout reconstruction. In this work, we explore the intersection of these two fields to advance the research objective of enabling more accurate 3D indoor scene modeling with less labeled data. We propose the first approach to learn representations of room corners and boundaries by using a combination of labeled and unlabeled data for improved layout estimation in a 360$^{\circ}$ panoramic scene. Through extensive comparative experiments, we demonstrate that our approach can advance layout estimation of complex indoor scenes using as few as 20 labeled examples. When coupled with a layout predictor pre-trained on synthetic data, our semi-supervised method matches the fully supervised counterpart using only 12% of the labels. Our work takes an important first step towards robust semi-supervised layout estimation that can enable many applications in 3D perception with limited labeled data.
翻訳日:2021-03-26 13:50:03 公開日:2021-03-25
# ECINN: 倒立型ニューラルネットワークの効率的対効果

ECINN: Efficient Counterfactuals from Invertible Neural Networks ( http://arxiv.org/abs/2103.13701v1 )

ライセンス: Link先を確認
Frederik Hvilsh{\o}j, Alexandros Iosifidis, and Ira Assent(参考訳) 対実例では、入力をどのように変更して分類器の予測クラスを変更するかを特定し、例えばディープニューラルネットワークのブラックボックスの性質を開放する。 本稿では, 画像分類における可逆ニューラルネットワークの生成能力を利用して, 対実例を効率的に生成する手法ECINNを提案する。 数千以上の評価を必要とする競合する手法とは対照的に、ECINNはクローズドフォーム表現を持ち、たった2つの評価の時点で反事実を生成する。 反実例を生成する主な課題は、予測結果、すなわちクラス依存的な特徴に影響を及ぼす入力特徴だけを変更することである。 実験では,ECINNがクラス依存の画像領域を変更して,その知覚的・予測的クラスを変更する方法を示した。 さらに、ECINNを拡張してヒートマップ(ECINNh)を生成し、例えば、生成した反ファクト例のペア単位のクラス依存的な変更を簡単に検査する。 実験により,ECINNhは熱マップに基づく説明を生成する手法よりも優れていることがわかった。

Counterfactual examples identify how inputs can be altered to change the predicted class of a classifier, thus opening up the black-box nature of, e.g., deep neural networks. We propose a method, ECINN, that utilizes the generative capacities of invertible neural networks for image classification to generate counterfactual examples efficiently. In contrast to competing methods that sometimes need a thousand evaluations or more of the classifier, ECINN has a closed-form expression and generates a counterfactual in the time of only two evaluations. Arguably, the main challenge of generating counterfactual examples is to alter only input features that affect the predicted outcome, i.e., class-dependent features. Our experiments demonstrate how ECINN alters class-dependent image regions to change the perceptual and predicted class of the counterfactuals. Additionally, we extend ECINN to also produce heatmaps (ECINNh) for easy inspection of, e.g., pairwise class-dependent changes in the generated counterfactual examples. Experimentally, we find that ECINNh outperforms established methods that generate heatmap-based explanations.
翻訳日:2021-03-26 13:49:45 公開日:2021-03-25
# ディープニューラルネットワークを用いた無人航空機の視覚検出と追跡:性能ベンチマーク

Unmanned Aerial Vehicle Visual Detection and Tracking using Deep Neural Networks: A Performance Benchmark ( http://arxiv.org/abs/2103.13933v1 )

ライセンス: Link先を確認
Brian K. S. Isaac-Medina, Matt Poyser, Daniel Organisciak, Chris G. Willcocks, Toby P. Breckon, Hubert P. H. Shum(参考訳) 無人航空機(UAV)は、悪用と悪用の両方により、航空安全に大きなリスクをもたらす可能性がある。 このため、uavの自動検出と追跡は、航空セキュリティシステムにおける基本的なタスクである。 uav検出の一般的な技術は可視帯および熱赤外イメージング、電波、レーダーである。 画像に基づく物体検出のためのディープニューラルネットワーク(DNN)の最近の進歩は、この検出と追跡タスクに視覚情報を使用する可能性を開く。 さらに、これらの検出アーキテクチャは、視覚追跡システムのバックボーンとして実装することができ、UAV侵入の永続的な追跡を可能にする。 現在、UAV検出と追跡のための可視帯域画像にDNNを適用する包括的なパフォーマンスベンチマークは存在しない。 この目的のために、4つの検知アーキテクチャと3つのトラッキングフレームワークを用いて、合計241の動画(331,486画像)を含む、UAV検知および追跡のための環境条件の異なる3つのデータセットを評価した。 最高の動作検出アーキテクチャは98.6%のmAPを取得し、最高の動作追跡フレームワークは96.3%のMOTAを取得する。 可視スペクトルと赤外線スペクトルの相互モダリティ評価を行い、赤外線モダリティのトレーニング時に可視画像の最大82.8%の地図を作成する。 これらの結果は、最先端のディープラーニングベースの手法のための最初の公開マルチアパッチベンチマークを提供し、UAVドメインにおける検出および追跡アーキテクチャの有効性に関する洞察を与える。

Unmanned Aerial Vehicles (UAV) can pose a major risk for aviation safety, due to both negligent and malicious use. For this reason, the automated detection and tracking of UAV is a fundamental task in aerial security systems. Common technologies for UAV detection include visible-band and thermal infrared imaging, radio frequency and radar. Recent advances in deep neural networks (DNNs) for image-based object detection open the possibility to use visual information for this detection and tracking task. Furthermore, these detection architectures can be implemented as backbones for visual tracking systems, thereby enabling persistent tracking of UAV incursions. To date, no comprehensive performance benchmark exists that applies DNNs to visible-band imagery for UAV detection and tracking. To this end, three datasets with varied environmental conditions for UAV detection and tracking, comprising a total of 241 videos (331,486 images), are assessed using four detection architectures and three tracking frameworks. The best performing detector architecture obtains an mAP of 98.6% and the best performing tracking framework obtains a MOTA of 96.3%. Cross-modality evaluation is carried out between visible and infrared spectrums, achieving a maximal 82.8% mAP on visible images when training in the infrared modality. These results provide the first public multi-approach benchmark for state-of-the-art deep learning-based methods and give insight into which detection and tracking architectures are effective in the UAV domain.
翻訳日:2021-03-26 13:49:06 公開日:2021-03-25
# 対照的な自己監督型表現学習モデル

Contrasting Contrastive Self-Supervised Representation Learning Models ( http://arxiv.org/abs/2103.14005v1 )

ライセンス: Link先を確認
Klemen Kotar, Gabriel Ilharco, Ludwig Schmidt, Kiana Ehsani, Roozbeh Mottaghi(参考訳) ここ数年,自己指導型表現学習の目覚ましいブレークスルーを目の当たりにしてきた。 このパラダイムを通じて学んだ表現の成功と採用にもかかわらず、異なるトレーニング方法とデータセットが下流タスクのパフォーマンスにどのように影響するかについては、まだ分かっていない。 本稿では,自己指導型表現学習の最も成功し,普及している変種の一つであるコントラッシブアプローチを分析する。 我々は、トレーニングアルゴリズム、データセットの事前トレーニング、およびエンドタスクの観点から、この分析を行う。 エンコーダ30台,プリトレーニングデータセット4台,ダウンストリームタスク20台を含む,700以上のトレーニング実験を行った。 実験では,自己教師付きモデルの性能について,教師付きモデルとの比較,評価に用いる現在のベンチマーク,最終タスク性能に対する事前学習データの影響について,様々な疑問を呈する。 この研究によって得られた洞察と実証的な証拠が、将来の視覚的表現の学習に役立つことを期待している。

In the past few years, we have witnessed remarkable breakthroughs in self-supervised representation learning. Despite the success and adoption of representations learned through this paradigm, much is yet to be understood about how different training methods and datasets influence performance on downstream tasks. In this paper, we analyze contrastive approaches as one of the most successful and popular variants of self-supervised representation learning. We perform this analysis from the perspective of the training algorithms, pre-training datasets and end tasks. We examine over 700 training experiments including 30 encoders, 4 pre-training datasets and 20 diverse downstream tasks. Our experiments address various questions regarding the performance of self-supervised models compared to their supervised counterparts, current benchmarks used for evaluation, and the effect of the pre-training data on end task performance. We hope the insights and empirical evidence provided by this work will help future research in learning better visual representations.
翻訳日:2021-03-26 13:48:41 公開日:2021-03-25
# 画像翻訳のためのスケールアップ・アンタングルメント

Scaling-up Disentanglement for Image Translation ( http://arxiv.org/abs/2103.14017v1 )

ライセンス: Link先を確認
Aviv Gabbay and Yedid Hoshen(参考訳) 画像翻訳手法は通常、ラベル付き属性のセット(例えばトレーニング時間に監督として登録される)を操作することを目的としている。 ドメインラベル) ラベルのない属性をそのまま残しながら。 現在の方法では: (i)不等角性(disentanglement)は低い視覚的忠実度を示し、属性が完全に無関係な場合にのみ満足できる。 (ii)視認可能な翻訳は、明らかに乱れていない。 本稿では,ラベル付き属性とラベル付き属性を分離する単一フレームワークであるoverlordと,2段階からなる高忠実度画像の合成を提案する。 以前のアプローチとは異なり、私たちは敵のトレーニングやアーキテクチャ上の偏見に依存していません。 (ii)合成:学習属性を推論し、知覚品質を高めるために逆向きに生成器を調整するためのフィードフォワードエンコーダを訓練する。 ラベル付き属性とラベルなし属性が相関している場合、相関属性を考慮し、歪みを改善する追加表現をモデル化する。 当社のフレキシブルフレームワークでは,複数の画像翻訳設定を対象としています。 属性操作、ポーズ-外観変換、セグメント化誘導合成、形状-テクスチャ転送。 大規模な評価では,最先端手法よりも翻訳品質が高く,出力の多様性も優れている。

Image translation methods typically aim to manipulate a set of labeled attributes (given as supervision at training time e.g. domain label) while leaving the unlabeled attributes intact. Current methods achieve either: (i) disentanglement, which exhibits low visual fidelity and can only be satisfied where the attributes are perfectly uncorrelated. (ii) visually-plausible translations, which are clearly not disentangled. In this work, we propose OverLORD, a single framework for disentangling labeled and unlabeled attributes as well as synthesizing high-fidelity images, which is composed of two stages; (i) Disentanglement: Learning disentangled representations with latent optimization. Differently from previous approaches, we do not rely on adversarial training or any architectural biases. (ii) Synthesis: Training feed-forward encoders for inferring the learned attributes and tuning the generator in an adversarial manner to increase the perceptual quality. When the labeled and unlabeled attributes are correlated, we model an additional representation that accounts for the correlated attributes and improves disentanglement. We highlight that our flexible framework covers multiple image translation settings e.g. attribute manipulation, pose-appearance translation, segmentation-guided synthesis and shape-texture transfer. In an extensive evaluation, we present significantly better disentanglement with higher translation quality and greater output diversity than state-of-the-art methods.
翻訳日:2021-03-26 13:48:28 公開日:2021-03-25
# 時空間特徴学習のための畳み込みニューラルネットワークを用いたフレームレートアップコンバージョン検出

Frame-rate Up-conversion Detection Based on Convolutional Neural Network for Learning Spatiotemporal Features ( http://arxiv.org/abs/2103.13674v1 )

ライセンス: Link先を確認
Minseok Yoon, Seung-Hun Nam, In-Jae Yu, Wonhyuk Ahn, Myung-Joon Kwon, Heung-Kyu Lee(参考訳) ユーザーフレンドリーで強力なビデオ編集ツールの進歩により、誰でも目立った視覚的痕跡を残すことなく簡単にビデオを操作できる。 フレームレートアップ・コンバージョン(FRUC)は、時間領域の代表的な操作であり、低フレームレートでの動画の動作継続性を高め、偽フレームレートビデオの生成などのビデオ改ざんに悪意のある偽造者によって使用される。 FRUCはフレーム補間スキームに基づいており、補間フレームに残る微妙なアーティファクトは区別が難しいことが多い。 したがって、このような偽造跡の検出は、ビデオ鑑識において重大な問題である。 本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。 提案するネットワークは,連続するフレームのスタックを入力とし,ネットワークブロックを用いて補間アーティファクトを効果的に学習し,時空間の特徴を学習する。 この研究は、FRUCの検出にニューラルネットワークを適用する最初の試みである。 さらに、近接補間、双線形補間、動き補償補間という3種類のフレーム補間スキームをカバーできる。 完全性を検証するためにすべてのフレームを利用する既存の手法とは対照的に,提案手法は6フレームしか観測できないため,高い検出速度を実現する。 従来の法医学的手法とニューラルネットワークを用いて大規模な実験を行い,本研究の検証を行った。 提案したネットワークは、FRUCの補間されたアーティファクトを検出することで最先端の性能を達成した。 実験結果は、トレーニングされたモデルが、未知のデータセット、未学習のフレームレート、未学習の品質ファクターに対して堅牢であることを示す。

With the advance in user-friendly and powerful video editing tools, anyone can easily manipulate videos without leaving prominent visual traces. Frame-rate up-conversion (FRUC), a representative temporal-domain operation, increases the motion continuity of videos with a lower frame-rate and is used by malicious counterfeiters in video tampering such as generating fake frame-rate video without improving the quality or mixing temporally spliced videos. FRUC is based on frame interpolation schemes and subtle artifacts that remain in interpolated frames are often difficult to distinguish. Hence, detecting such forgery traces is a critical issue in video forensics. This paper proposes a frame-rate conversion detection network (FCDNet) that learns forensic features caused by FRUC in an end-to-end fashion. The proposed network uses a stack of consecutive frames as the input and effectively learns interpolation artifacts using network blocks to learn spatiotemporal features. This study is the first attempt to apply a neural network to the detection of FRUC. Moreover, it can cover the following three types of frame interpolation schemes: nearest neighbor interpolation, bilinear interpolation, and motion-compensated interpolation. In contrast to existing methods that exploit all frames to verify integrity, the proposed approach achieves a high detection speed because it observes only six frames to test its authenticity. Extensive experiments were conducted with conventional forensic methods and neural networks for video forensic tasks to validate our research. The proposed network achieved state-of-the-art performance in terms of detecting the interpolated artifacts of FRUC. The experimental results also demonstrate that our trained model is robust for an unseen dataset, unlearned frame-rate, and unlearned quality factor.
翻訳日:2021-03-26 13:48:07 公開日:2021-03-25
# 高次元データの解釈可能な近似

Interpretable Approximation of High-Dimensional Data ( http://arxiv.org/abs/2103.13787v1 )

ライセンス: Link先を確認
Daniel Potts and Michael Schmischke(参考訳) 本稿では,前述したanova分解と群変換に基づく近似法を合成データおよび実データに適用する。 この方法の利点は近似の解釈可能性、すなわち属性相互作用や変数結合の重要性をランク付けする能力である。 さらに、重要でない変数を識別し、問題の次元を減少させる属性ランキングを生成することができる。 この手法を,公開ベンチマークデータセットにおける他の手法と比較する。

In this paper we apply the previously introduced approximation method based on the ANOVA (analysis of variance) decomposition and Grouped Transformations to synthetic and real data. The advantage of this method is the interpretability of the approximation, i.e., the ability to rank the importance of the attribute interactions or the variable couplings. Moreover, we are able to generate an attribute ranking to identify unimportant variables and reduce the dimensionality of the problem. We compare the method to other approaches on publicly available benchmark datasets.
翻訳日:2021-03-26 13:47:09 公開日:2021-03-25
# 深層学習による5G以上のミリ波ビーム予測の逆攻撃

Adversarial Attacks on Deep Learning Based mmWave Beam Prediction in 5G and Beyond ( http://arxiv.org/abs/2103.13989v1 )

ライセンス: Link先を確認
Brian Kim and Yalin E. Sagduyu and Tugba Erpek and Sennur Ulukus(参考訳) ディープラーニングは、スペクトルデータから学習し、mWave通信における初期アクセスのためのビーム選択(IA)のような5Gおよびそれ以上の複雑なタスクを解決する強力な手段を提供する。 指向性伝送のための基地局(例えばgNodeB)とユーザ機器(UE)との間のIAを確立するため、ディープニューラルネットワーク(DNN)は、受信信号強度(RSS)を用いて各UEに最も傾斜したビームを、可能な狭いビームのサブセットから予測することができる。 全てのビームを網羅する従来のIAと比較して、ビーム選択のレイテンシと信頼性は向上するが、DNN自身は敵攻撃の影響を受けやすい。 DNNの入力として、対向的摂動を発生させ、対向的攻撃を行い、対向的攻撃を行う。 この攻撃によりIA性能は大幅に低下し、DNNはガウスノイズや均一ノイズによる妨害攻撃と比較して、小さなRSSでビームを選択する。

Deep learning provides powerful means to learn from spectrum data and solve complex tasks in 5G and beyond such as beam selection for initial access (IA) in mmWave communications. To establish the IA between the base station (e.g., gNodeB) and user equipment (UE) for directional transmissions, a deep neural network (DNN) can predict the beam that is best slanted to each UE by using the received signal strengths (RSSs) from a subset of possible narrow beams. While improving the latency and reliability of beam selection compared to the conventional IA that sweeps all beams, the DNN itself is susceptible to adversarial attacks. We present an adversarial attack by generating adversarial perturbations to manipulate the over-the-air captured RSSs as the input to the DNN. This attack reduces the IA performance significantly and fools the DNN into choosing the beams with small RSSs compared to jamming attacks with Gaussian or uniform noise.
翻訳日:2021-03-26 13:47:02 公開日:2021-03-25
# 負の制御による不測値の因果推論:ミニマックス学習アプローチ

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach ( http://arxiv.org/abs/2103.14029v1 )

ライセンス: Link先を確認
Nathan Kallus, Xiaojie Mao, Masatoshi Uehara(参考訳) 我々は,すべての共同創設者が観察されるのではなく,負の制御が利用できる場合に,因果パラメータの推定を行う。 最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。 本稿では,これらの橋梁関数の同定と推定という,負の制御を用いた因果推論における主な課題に取り組む。 それまでの研究は、これらの関数の特異性と完全性の仮定に頼っていたが、実際は理解できないかもしれないし、パラメトリック推定にも焦点が当てられている。 代わりに、ユニークさと完全性の両方を避ける新しい識別戦略を提供する。 そして,ミニマックス学習の定式化に基づくこれらの関数の新しい推定器を提案する。 これらの推定器はヒルベルト空間やニューラルネットワークの再現のような一般関数クラスに対応している。 橋梁関数自体の推定と因果パラメータの最終的な推定について有限サンプル収束結果について検討した。 我々はこれを、ミニマックス推定器で用いられる仮説と批判クラスにおける実現可能性や閉化条件を含む様々な仮定の組み合わせの下で行う。 どれだけの確率を想定するかによって異なる収束率が得られる。 いくつかのケースでは、橋梁関数推定器が有効な橋梁関数に収束しない場合でも、因果パラメータの推定値が収束する可能性がある。 また,他の場合においても半パラメトリック効率が得られることを示す。

We study the estimation of causal parameters when not all confounders are observed and instead negative controls are available. Recent work has shown how these can enable identification and efficient estimation via two so-called bridge functions. In this paper, we tackle the primary challenge to causal inference using negative controls: the identification and estimation of these bridge functions. Previous work has relied on uniqueness and completeness assumptions on these functions that may be implausible in practice and also focused on their parametric estimation. Instead, we provide a new identification strategy that avoids both uniqueness and completeness. And, we provide a new estimators for these functions based on minimax learning formulations. These estimators accommodate general function classes such as reproducing Hilbert spaces and neural networks. We study finite-sample convergence results both for estimating bridge function themselves and for the final estimation of the causal parameter. We do this under a variety of combinations of assumptions that include realizability and closedness conditions on the hypothesis and critic classes employed in the minimax estimator. Depending on how much we are willing to assume, we obtain different convergence rates. In some cases, we show the estimate for the causal parameter may converge even when our bridge function estimators do not converge to any valid bridge function. And, in other cases, we show we can obtain semiparametric efficiency.
翻訳日:2021-03-26 13:46:44 公開日:2021-03-25
# 逆ゲームによるディープフェイク鑑定

Deepfake Forensics via An Adversarial Game ( http://arxiv.org/abs/2103.13567v1 )

ライセンス: Link先を確認
Zhi Wang, Yiwen Guo, Wangmeng Zuo(参考訳) AIベースの顔偽造(ディープフェイク)の進展に伴い、人々はその虐待をますます心配している。 このような偽造品を認識するための訓練分類(ディープフェイク検出)モデルの努力が続けられているが、既存のモデルは、目に見えない偽造品技術への一般化が貧弱で、画像や映像の品質の変化に対する感度が高い。 本稿では,顔偽造と画像・映像品質の両面での一般化能力向上のための対人訓練を提唱する。 分類モデルに逆らうように作られたサンプルによるトレーニングは、一般化能力を大幅に向上させると信じている。 AIベースの顔操作は、しばしば、一般化が難しいモデルで容易に発見できる高周波アーティファクトにつながることを考慮し、画素ワイドガウスのぼかしモデルを導入して、これらの特定のアーティファクトを曖昧にしようとする新たな逆トレーニング手法を提案する。 敵対的訓練では,分類モデルはより識別的かつ一般化可能な特徴を学習せざるを得ず,その効果は数多くの実証的証拠によって検証できる。 私たちのコードは公開されます。

With the progress in AI-based facial forgery (i.e., deepfake), people are increasingly concerned about its abuse. Albeit effort has been made for training classification (also known as deepfake detection) models to recognize such forgeries, existing models suffer from poor generalization to unseen forgery technologies and high sensitivity to changes in image/video quality. In this paper, we advocate adversarial training for improving the generalization ability to both unseen facial forgeries and unseen image/video qualities. We believe training with samples that are adversarially crafted to attack the classification models improves the generalization ability considerably. Considering that AI-based face manipulation often leads to high-frequency artifacts that can be easily spotted by models yet difficult to generalize, we further propose a new adversarial training method that attempts to blur out these specific artifacts, by introducing pixel-wise Gaussian blurring models. With adversarial training, the classification models are forced to learn more discriminative and generalizable features, and the effectiveness of our method can be verified by plenty of empirical evidence. Our code will be made publicly available.
翻訳日:2021-03-26 13:46:23 公開日:2021-03-25
# 大規模マージン学習の最近の進歩

Recent Advances in Large Margin Learning ( http://arxiv.org/abs/2103.13598v1 )

ライセンス: Link先を確認
Yiwen Guo, Changshui Zhang(参考訳) この論文は、大規模なマージントレーニングの最近の進歩とその理論的基盤に関する調査であり、主に(非線形)ディープニューラルネットワーク(DNN)のためのものであり、おそらくこの10年でコミュニティで大規模データのための最も顕著な機械学習モデルである。 古典研究から最新のDNNへの分類マージンの定式化を一般化し、マージン、ネットワークの一般化、ロバストネスの理論的関係を要約し、DNNのマージンを包括的に拡大する最近の取り組みを紹介する。 異なる手法の視点は相違するので,本論文では,比較や議論の容易さのためにグループに分類する。 今後,DNNの性能向上をめざしたコミュニティにおける新たな研究成果が期待でき,また,DNNの一定の正規化が実際にどのように機能するかを理論的根拠として,大きなマージン原理を検証できる方向も指している。 我々は、大きなマージン学習と関連する手法の重要精神がより強調されるように、論文の短縮に成功しました。

This paper serves as a survey of recent advances in large margin training and its theoretical foundations, mostly for (nonlinear) deep neural networks (DNNs) that are probably the most prominent machine learning models for large-scale data in the community over the past decade. We generalize the formulation of classification margins from classical research to latest DNNs, summarize theoretical connections between the margin, network generalization, and robustness, and introduce recent efforts in enlarging the margins for DNNs comprehensively. Since the viewpoint of different methods is discrepant, we categorize them into groups for ease of comparison and discussion in the paper. Hopefully, our discussions and overview inspire new research work in the community that aim to improve the performance of DNNs, and we also point to directions where the large margin principle can be verified to provide theoretical evidence why certain regularizations for DNNs function well in practice. We managed to shorten the paper such that the crucial spirit of large margin learning and related methods are better emphasized.
翻訳日:2021-03-26 13:46:02 公開日:2021-03-25
# 説明可能性誘導型多地点型covid-19ct分類

Explainability Guided Multi-Site COVID-19 CT Classification ( http://arxiv.org/abs/2103.13677v1 )

ライセンス: Link先を確認
Ameen Ali, Tal Shaharabany, Lior Wolf(参考訳) 胸部CTの放射線検査は、新型コロナウイルス患者のスクリーニングに有効な方法である。 本研究は,このプロセスの自動化における3つの課題を克服する。 (i) 監督された陽性事例の限られた数, (ii) 地域ベースの監督の欠如, (iii) 買収サイト間の多様性。 これらの課題は、SnapMixと呼ばれる最近の拡張ソリューション、新しいパッチ埋め込み技術、テスト時の安定性分析の実行によって解決される。 これら3つの手法は相補的であり,CAM(Class Activation Mapping)説明可能性法によって生成されたヒートマップを利用する。 現状と比較すると,比較的多くの症例を抱えるサイトにおいてF1スコアが5%増加し,訓練画像が少ないサイトでは2倍の差がみられた。

Radiologist examination of chest CT is an effective way for screening COVID-19 cases. In this work, we overcome three challenges in the automation of this process: (i) the limited number of supervised positive cases, (ii) the lack of region-based supervision, and (iii) the variability across acquisition sites. These challenges are met by incorporating a recent augmentation solution called SnapMix, by a new patch embedding technique, and by performing a test-time stability analysis. The three techniques are complementary and are all based on utilizing the heatmaps produced by the Class Activation Mapping (CAM) explainability method. Compared to the current state of the art, we obtain an increase of five percent in the F1 score on a site with a relatively high number of cases, and a gap twice as large for a site with much fewer training images.
翻訳日:2021-03-26 13:45:43 公開日:2021-03-25
# MCTSteg: モンテカルロ木探索に基づく非付加的ステレオグラフィのための強化学習フレームワーク

MCTSteg: A Monte Carlo Tree Search-based Reinforcement Learning Framework for Universal Non-additive Steganography ( http://arxiv.org/abs/2103.13689v1 )

ライセンス: Link先を確認
Xianbo Mo and Shunquan Tan and Bin Li and Jiwu Huang(参考訳) 近年の研究では、非加法的な画像ステガノグラフィーフレームワークが歪み分布の調整により、セキュリティ性能を効果的に向上することが示されている。 しかし、我々が知る限り、既存の非加法的提案はすべて手作りのポリシーに基づいており、特定の画像ドメインにのみ適用することができ、非加法的ステガノグラフィーが完全な可能性を解放することを防ぐことができる。 本稿では,mctsteg と呼ばれる非加法的歪み学習フレームワークを提案し,上記の制約を解消する。 強化学習パラダイムに導かれ,モンテカルロ木探索 (mcts) とステガナライザー環境モデルを組み合わせたmctstegを構築する。 mctsは、人間の介入なしに歪み分布を調整するために順次決定する。 提案する環境モデルを用いて,各意思決定からフィードバックを得る。 自己学習の特徴とドメインに依存しない報酬関数のため、mctstegは空間領域とjpeg領域の両方で機能する初の普遍的非加法ステガノグラフィーフレームワークとなった。 MCTStegは手作りの特徴ベースと深層学習ベースの両方のステガナライザーの検出に効果的であることを示す。 空間領域とJPEG領域の両方において、MCTStegのセキュリティ性能は、異なるシナリオ下で明確なマージンで、着実に向上している。

Recent research has shown that non-additive image steganographic frameworks effectively improve security performance through adjusting distortion distribution. However, as far as we know, all of the existing non-additive proposals are based on handcrafted policies, and can only be applied to a specific image domain, which heavily prevent non-additive steganography from releasing its full potentiality. In this paper, we propose an automatic non-additive steganographic distortion learning framework called MCTSteg to remove the above restrictions. Guided by the reinforcement learning paradigm, we combine Monte Carlo Tree Search (MCTS) and steganalyzer-based environmental model to build MCTSteg. MCTS makes sequential decisions to adjust distortion distribution without human intervention. Our proposed environmental model is used to obtain feedbacks from each decision. Due to its self-learning characteristic and domain-independent reward function, MCTSteg has become the first reported universal non-additive steganographic framework which can work in both spatial and JPEG domains. Extensive experimental results show that MCTSteg can effectively withstand the detection of both hand-crafted feature-based and deep-learning-based steganalyzers. In both spatial and JPEG domains, the security performance of MCTSteg steadily outperforms the state of the art by a clear margin under different scenarios.
翻訳日:2021-03-26 13:45:29 公開日:2021-03-25
# 内視鏡用ダウンサンプリングカーネルを用いたゼロショット超解像

Zero-shot super-resolution with a physically-motivated downsampling kernel for endomicroscopy ( http://arxiv.org/abs/2103.14015v1 )

ライセンス: Link先を確認
Agnieszka Barbara Szczotka, Dzhoshkun Ismail Shakir, Matthew J. Clarkson, Stephen P. Pereira, Tom Vercauteren(参考訳) 超解像(SR)法は畳み込みニューラルネットワーク(CNN)の開発によって大きな進歩を遂げている。 CNNは内視鏡画像の品質向上に成功している。 しかし、内視鏡検査におけるSR研究の固有の限界は、教師付きトレーニングと参照ベース画像品質評価(IQA)の両方に一般的に使用される、基底真理高解像度画像の欠如である。 そのため、教師なしSRのような代替手法が検討されている。 非参照画像品質改善の必要性に対処するため,我々は,ゼロショット・スーパーレゾリューション(zssr, zero-shot super- resolution)アプローチを考案した。 提案したパイプラインを,内視鏡の不規則な繊維を用いたサンプリングパターンと現実的なノイズパターンを考慮した物理的に動機付けられたボロノイダウンスケーリングカーネルの導入により,内視鏡の慣用性に合わせた。 また,ビデオシーケンスを利用して,自己教師付きゼロショット画像品質改善のための画像列を活用した。 我々は,ダウンスケーリングカーネルとノイズシミュレーションにおける貢献度を評価するため,アブレーション研究を行っている。 我々は合成データと原データの両方で方法論を検証する。 比較実験はIQAを用いて行ったが,本研究は専門家と非専門家の両方で実施したユーザスタディで評価した。 その結果,ZSSR再構成画像の画質はベースライン法と比較して優れていた。 ZSSRは、監督された単一像SRと比較しても競争力があり、特に専門家が好む復元技術である。

Super-resolution (SR) methods have seen significant advances thanks to the development of convolutional neural networks (CNNs). CNNs have been successfully employed to improve the quality of endomicroscopy imaging. Yet, the inherent limitation of research on SR in endomicroscopy remains the lack of ground truth high-resolution (HR) images, commonly used for both supervised training and reference-based image quality assessment (IQA). Therefore, alternative methods, such as unsupervised SR are being explored. To address the need for non-reference image quality improvement, we designed a novel zero-shot super-resolution (ZSSR) approach that relies only on the endomicroscopy data to be processed in a self-supervised manner without the need for ground-truth HR images. We tailored the proposed pipeline to the idiosyncrasies of endomicroscopy by introducing both: a physically-motivated Voronoi downscaling kernel accounting for the endomicroscope's irregular fibre-based sampling pattern, and realistic noise patterns. We also took advantage of video sequences to exploit a sequence of images for self-supervised zero-shot image quality improvement. We run ablation studies to assess our contribution in regards to the downscaling kernel and noise simulation. We validate our methodology on both synthetic and original data. Synthetic experiments were assessed with reference-based IQA, while our results for original images were evaluated in a user study conducted with both expert and non-expert observers. The results demonstrated superior performance in image quality of ZSSR reconstructions in comparison to the baseline method. The ZSSR is also competitive when compared to supervised single-image SR, especially being the preferred reconstruction technique by experts.
翻訳日:2021-03-26 13:44:33 公開日:2021-03-25
# フリーテキスト健康記録識別のための最新のエンティティ認識手法のベンチマーク

Benchmarking Modern Named Entity Recognition Techniques for Free-text Health Record De-identification ( http://arxiv.org/abs/2103.13546v1 )

ライセンス: Link先を確認
Abdullah Ahmed, Adeel Abbasi, Carsten Eickhoff(参考訳) 電子健康記録(ehrs)は、アメリカ合衆国における医療データ保存の主要な形態となっている。 連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。 すべてのPHIを識別し、除去するプロセスである脱同定は、科学研究のためにEHRデータを公開するために重要である。 本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどの手法が優れているかを決定する。 i2b2トレーニングデータセットでモデルをトレーニング,テストし,局所病院から収集したEHRデータを用いて定性的に評価した。 1) BiLSTM-CRFは, 最適なエンコーダ/デコーダの組み合わせであり, 2) 文字埋め込みとCRFはリコール価格で精度を向上する傾向があり, 3) コンテクストエンコーダとしての性能が低いトランスフォーマーのみであることがわかった。 医用テキストの構造化に焦点をあてた今後の研究は、EHRの特定のために意味情報や構文情報の抽出を改善する可能性がある。

Electronic Health Records (EHRs) have become the primary form of medical data-keeping across the United States. Federal law restricts the sharing of any EHR data that contains protected health information (PHI). De-identification, the process of identifying and removing all PHI, is crucial for making EHR data publicly available for scientific research. This project explores several deep learning-based named entity recognition (NER) methods to determine which method(s) perform better on the de-identification task. We trained and tested our models on the i2b2 training dataset, and qualitatively assessed their performance using EHR data collected from a local hospital. We found that 1) BiLSTM-CRF represents the best-performing encoder/decoder combination, 2) character-embeddings and CRFs tend to improve precision at the price of recall, and 3) transformers alone under-perform as context encoders. Future work focused on structuring medical text may improve the extraction of semantic and syntactic information for the purposes of EHR de-identification.
翻訳日:2021-03-26 13:43:34 公開日:2021-03-25
# 可変分解能を用いた用語コミュニティに基づく話題検出

Term-community-based topic detection with variable resolution ( http://arxiv.org/abs/2103.13550v1 )

ライセンス: Link先を確認
Andreas Hamm and Simon Odrowski (German Aerospace Center DLR)(参考訳) 巨大なテキストコレクションにおけるトピック検出のためのネットワークベースの手順は、確率的トピックモデルの直感的な代替手段を提供する。 我々は、特にドメインエキスパートの要求を念頭に置いて設計された手法を詳細に提示する。 類似の手法と同様に、項共起グラフにおけるコミュニティ検出を用いるが、対象トピックの粒度を変更するために使用できる解決パラメータを含むことで拡張される。 また, 用語ランキングを確立し, 意味的単語埋め込みを用いて, 用語コミュニティの解釈を容易にする手法を提案する。 本手法を一般ニュース記事のコーパスとして広く活用し,様々な解像度で検出された話題の詳細な社会科学専門家による評価結果を示す。 Latent Dirichlet Allocationによって検出されたトピックとの比較も含んでいる。 最後に,話題の解釈に影響を与える要因について論じる。

Network-based procedures for topic detection in huge text collections offer an intuitive alternative to probabilistic topic models. We present in detail a method that is especially designed with the requirements of domain experts in mind. Like similar methods, it employs community detection in term co-occurrence graphs, but it is enhanced by including a resolution parameter that can be used for changing the targeted topic granularity. We also establish a term ranking and use semantic word-embedding for presenting term communities in a way that facilitates their interpretation. We demonstrate the application of our method with a widely used corpus of general news articles and show the results of detailed social-sciences expert evaluations of detected topics at various resolutions. A comparison with topics detected by Latent Dirichlet Allocation is also included. Finally, we discuss factors that influence topic interpretation.
翻訳日:2021-03-26 13:43:14 公開日:2021-03-25
# BERT4SO:微調整BERTによるニューラル文順序付け

BERT4SO: Neural Sentence Ordering by Fine-tuning BERT ( http://arxiv.org/abs/2103.13584v1 )

ライセンス: Link先を確認
Yutao Zhu, Jian-Yun Nie, Kun Zhou, Shengchao Liu, Pan Du(参考訳) 文順序付けは、与えられたテキストの文を正しい順序で並べることを目的としている。 最近の研究は、それをランキング問題として位置づけ、ディープニューラルネットワークを適用している。 本研究では,文の順序付けを微調整することで,BERT4SOという新しい手法を提案する。 すべての文を結合し、それらの表現を複数の特別なトークンと注意深く設計されたセグメント(インターバル)埋め込みを使って計算します。 複数の文にまたがるトークンは互いに参加でき、相互作用を大幅に強化する。 また,最適化プロセスを容易にするために,listmleに基づくマージンベースのリストワイズランキングロスを提案する。 5つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。

Sentence ordering aims to arrange the sentences of a given text in the correct order. Recent work frames it as a ranking problem and applies deep neural networks to it. In this work, we propose a new method, named BERT4SO, by fine-tuning BERT for sentence ordering. We concatenate all sentences and compute their representations by using multiple special tokens and carefully designed segment (interval) embeddings. The tokens across multiple sentences can attend to each other which greatly enhances their interactions. We also propose a margin-based listwise ranking loss based on ListMLE to facilitate the optimization process. Experimental results on five benchmark datasets demonstrate the effectiveness of our proposed method.
翻訳日:2021-03-26 13:43:02 公開日:2021-03-25
# ASRエラーに対するNLPシステムのロバスト性向上の一手法

An Approach to Improve Robustness of NLP Systems against ASR Errors ( http://arxiv.org/abs/2103.13610v1 )

ライセンス: Link先を確認
Tong Cui, Jinghui Xiao, Liangyou Li, Xin Jiang, Qun Liu(参考訳) 音声対応システムは、まず自動音声認識(asr)モデルを通じて音声をテキストに変換し、次に下流自然言語処理(nlp)モジュールにテキストを供給する。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。 したがって、これらをASRエラーに対して堅牢にすることが不可欠である。 これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。 本稿では,ASR-plausible noiseを用いたトレーニングサンプルを生成するために,事前学習言語モデルを利用する。 従来の手法と比較して,本手法は実世界の誤差分布に適合するASRノイズを生成する。 音声言語翻訳(SLT)と音声言語理解(SLU)に関する実験結果から,本手法はASRの誤りに対するシステムの堅牢性を効果的に向上し,両課題における最先端の結果が得られた。

Speech-enabled systems typically first convert audio to text through an automatic speech recognition (ASR) model and then feed the text to downstream natural language processing (NLP) modules. The errors of the ASR system can seriously downgrade the performance of the NLP modules. Therefore, it is essential to make them robust to the ASR errors. Previous work has shown it is effective to employ data augmentation methods to solve this problem by injecting ASR noise during the training process. In this paper, we utilize the prevalent pre-trained language model to generate training samples with ASR-plausible noise. Compare to the previous methods, our approach generates ASR noise that better fits the real-world error distribution. Experimental results on spoken language translation(SLT) and spoken language understanding (SLU) show that our approach effectively improves the system robustness against the ASR errors and achieves state-of-the-art results on both tasks.
翻訳日:2021-03-26 13:42:53 公開日:2021-03-25
# Bertinho: Galician BERT の表現

Bertinho: Galician BERT Representations ( http://arxiv.org/abs/2103.13799v1 )

ライセンス: Link先を確認
David Vilares and Marcos Garcia and Carlos G\'omez-Rodr\'iguez(参考訳) 本稿ではガリシア語に対する単言語BERTモデルを提案する。 比較的低リソースな言語であっても、堅牢なモノリンガルBERTモデルを構築することは可能であり、また、よく知られた公式のマルチリンガルBERT(mBERT)よりも高性能であることを示す最近の傾向に従う。 さらに、我々は6層と12層からなる2つの単言語alician bertモデルをリリースし、限られたリソース(24gbのシングルgpu上で約4500万トークン)でトレーニングしました。 次に,posタグ,依存性解析,名前付きエンティティ認識などのタスクを徹底的に評価する。 この目的のために、これらのタスクはすべて、BERTを実行するために純粋なシーケンスラベリング設定でキャストされ、その上に追加のレイヤを含める必要がない(予測されたラベルにコンテキスト化された表現をマッピングするために出力分類層のみを使用する)。 実験の結果,我々のモデル,特に12層モデルでは,ほとんどのタスクにおいてmBERTよりも優れていた。

This paper presents a monolingual BERT model for Galician. We follow the recent trend that shows that it is feasible to build robust monolingual BERT models even for relatively low-resource languages, while performing better than the well-known official multilingual BERT (mBERT). More particularly, we release two monolingual Galician BERT models, built using 6 and 12 transformer layers, respectively; trained with limited resources (~45 million tokens on a single GPU of 24GB). We then provide an exhaustive evaluation on a number of tasks such as POS-tagging, dependency parsing and named entity recognition. For this purpose, all these tasks are cast in a pure sequence labeling setup in order to run BERT without the need to include any additional layers on top of it (we only use an output classification layer to map the contextualized representations into the predicted label). The experiments show that our models, especially the 12-layer one, outperform the results of mBERT in most tasks.
翻訳日:2021-03-26 13:42:35 公開日:2021-03-25
# テキストのみの自然言語処理のための視覚的接地戦略

Visual Grounding Strategies for Text-Only Natural Language Processing ( http://arxiv.org/abs/2103.13942v1 )

ライセンス: Link先を確認
Damien Sileo(参考訳) ビジュアルグラウンドティングは、より堅牢で正確な自然言語処理(NLP)モデルへの有望な道である。 BERTの多くのマルチモーダル拡張(例えば、VideoBERT、LXMERT、VL-BERT)は、ビジュアル質問回答のようなマルチモーダルタスクにおける最先端の結果につながるテキストと画像の合同モデリングを可能にする。 本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスク(言語モデリングと分類)にマルチモーダルモデリングを利用する。 我々はこの点で可能な戦略を提案する。 最初のタイプの戦略は {\it transfer grounding} と呼ばれ、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。 2つ目は、画像検索を利用して、事前学習とテキストのみの下流タスクの両方で、関連する画像とテキストをマッチングする。 両戦略をさらに区別し、言語モデリングとコモンセンス関連下流タスクへの影響に基づいて比較し、テキストのみのベースラインよりも改善したことを示す。

Visual grounding is a promising path toward more robust and accurate Natural Language Processing (NLP) models. Many multimodal extensions of BERT (e.g., VideoBERT, LXMERT, VL-BERT) allow a joint modeling of texts and images that lead to state-of-the-art results on multimodal tasks such as Visual Question Answering. Here, we leverage multimodal modeling for purely textual tasks (language modeling and classification) with the expectation that the multimodal pretraining provides a grounding that can improve text processing accuracy. We propose possible strategies in this respect. A first type of strategy, referred to as {\it transferred grounding} consists in applying multimodal models to text-only tasks using a placeholder to replace image input. The second one, which we call {\it associative grounding}, harnesses image retrieval to match texts with related images during both pretraining and text-only downstream tasks. We draw further distinctions into both strategies and then compare them according to their impact on language modeling and commonsense-related downstream tasks, showing improvement over text-only baselines.
翻訳日:2021-03-26 13:42:17 公開日:2021-03-25
# 階層的プロキシに基づく深層学習の損失

Hierarchical Proxy-based Loss for Deep Metric Learning ( http://arxiv.org/abs/2103.13538v1 )

ライセンス: Link先を確認
Zhibo Yang, Muhammet Bastan, Xinliang Zhu, Doug Gray, Dimitris Samaras(参考訳) プロキシベースのメトリック学習損失は、高速収束と低トレーニングの複雑さのため、ペアベースの損失よりも優れている。 しかし、既存のプロキシベースの損失は、クラス識別機能を学習し、クラス間で共有される共通性を見落としながら、サンプルの記述とマッチングに有用である。 さらに、同様の従属クラスをグループ化できる実世界のデータセットにおけるカテゴリの暗黙的な階層を無視する。 本稿では,この暗黙の階層を,プロキシに階層構造を課すことで活用し,既存のプロキシベースの損失に対して使用可能なフレームワークを提案する。 これにより、暗黙のデータ階層を壊すことなく、クラス識別特徴とクラス共有特徴の両方をキャプチャできる。 本手法は,in-shop や sop などの確立した5つの画像検索データセットについて評価する。 その結果、階層型プロキシベースの損失フレームワークは、既存のプロキシベースの損失、特に強力な階層構造を示す大規模データセットのパフォーマンスを向上させることが示されました。

Proxy-based metric learning losses are superior to pair-based losses due to their fast convergence and low training complexity. However, existing proxy-based losses focus on learning class-discriminative features while overlooking the commonalities shared across classes which are potentially useful in describing and matching samples. Moreover, they ignore the implicit hierarchy of categories in real-world datasets, where similar subordinate classes can be grouped together. In this paper, we present a framework that leverages this implicit hierarchy by imposing a hierarchical structure on the proxies and can be used with any existing proxy-based loss. This allows our model to capture both class-discriminative features and class-shared characteristics without breaking the implicit data hierarchy. We evaluate our method on five established image retrieval datasets such as In-Shop and SOP. Results demonstrate that our hierarchical proxy-based loss framework improves the performance of existing proxy-based losses, especially on large datasets which exhibit strong hierarchical structure.
翻訳日:2021-03-26 13:40:27 公開日:2021-03-25
# Gaussian Guided IoU: オブジェクト検出におけるバランス学習のためのより良いメトリクス

Gaussian Guided IoU: A Better Metric for Balanced Learning on Object Detection ( http://arxiv.org/abs/2103.13613v1 )

ライセンス: Link先を確認
Shengkai Wu, Jinrong Yang, Hangcheng Yu, Lijun Gou, Xiaoping Li(参考訳) 多くのアンカーベースの検出器では、IoU(Intersection over Union)が訓練中にアンカーの目標を割り当てるために広く利用されている。 しかし、イオウは真理箱の中央へのアンカーの中央の近さに十分注意を払っている。 その結果,(1) 訓練中の細い物体の監視情報不足につながる細い物体のほとんどに1つのアンカーが割り当てられること,(2) 細い物体の性能が損なわれること,(2) IoU は、アンカーの中心にある特徴の受容場と物体とのアライメント度を正確に表現できないこと,の2つの問題が発生した。 したがって、トレーニング中は、受容野がオブジェクトに合致するいくつかの特徴が欠落し、受容野がオブジェクトに合致するいくつかの特徴が採用される。 これはモデルのローカライズ精度を損なう。 これらの問題を解決するため,まずガウシアンガイドiou(ggiou)をデザインし,アンカーの中心と真理箱の中心との密接性に着目した。 そして,GIoU誘導型代入戦略とGIoU誘導型局所化損失を含むGIoUバランス学習手法を提案する。 このメソッドは、各細いオブジェクトに複数のアンカーを割り当て、トレーニングプロセスをオブジェクトに適切に整合した機能に偏らせることができる。 PASCAL VOCやMS COCOのような一般的なベンチマークでの大規模な実験により、GGIoUバランス学習は上記の問題を解くことができ、特に局所化精度においてオブジェクト検出モデルの性能を大幅に向上させることができる。

For most of the anchor-based detectors, Intersection over Union(IoU) is widely utilized to assign targets for the anchors during training. However, IoU pays insufficient attention to the closeness of the anchor's center to the truth box's center. This results in two problems: (1) only one anchor is assigned to most of the slender objects which leads to insufficient supervision information for the slender objects during training and the performance on the slender objects is hurt; (2) IoU can not accurately represent the alignment degree between the receptive field of the feature at the anchor's center and the object. Thus during training, some features whose receptive field aligns better with objects are missing while some features whose receptive field aligns worse with objects are adopted. This hurts the localization accuracy of models. To solve these problems, we firstly design Gaussian Guided IoU(GGIoU) which focuses more attention on the closeness of the anchor's center to the truth box's center. Then we propose GGIoU-balanced learning method including GGIoU-guided assignment strategy and GGIoU-balanced localization loss. The method can assign multiple anchors for each slender object and bias the training process to the features well-aligned with objects. Extensive experiments on the popular benchmarks such as PASCAL VOC and MS COCO demonstrate GGIoU-balanced learning can solve the above problems and substantially improve the performance of the object detection model, especially in the localization accuracy.
翻訳日:2021-03-26 13:40:13 公開日:2021-03-25
# 効率的なニューラルネットワーク推論のための量子化法の検討

A Survey of Quantization Methods for Efficient Neural Network Inference ( http://arxiv.org/abs/2103.13630v1 )

ライセンス: Link先を確認
Amir Gholami, Sehoon Kim, Zhen Dong, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer(参考訳) デジタルコンピュータ上での計算に抽象数学的計算が適応されると、それらの計算における数値の効率的な表現、操作、およびコミュニケーションの問題が生じた。 数値表現の問題は量子化の問題である:どんな方法で連続実数値数の集合を固定離散数の集合上に分散させ、必要なビット数を最小化し、それに付随する計算の精度を最大化するべきか。 量子化のこの長年の問題は、メモリや計算資源が厳しく制限されるたびに特に重要であり、コンピュータビジョン、自然言語処理、および関連分野におけるニューラルネットワークモデルの顕著な性能により、近年は最前線に現れている。 浮動小数点表現から4ビット以下で表される低精度の整数値への移行は、メモリフットプリントとレイテンシを16倍に削減する可能性を秘めている。 このように量子化が近年、ニューラルネットワークに関連する計算の効率的な実装において重要かつ非常に活発な研究領域として出現したことは驚くにあたらない。 本稿では,ディープニューラルネット計算における数値の定量化の問題に対して,現在の手法の長所・短所を概説する。 この調査とその組織は、ニューラルネットワークの量子化における現在の研究の有用なスナップショットを提示し、この分野における将来の研究評価を容易にするインテリジェントな組織を提供したいと思っています。

As soon as abstract mathematical computations were adapted to computation on digital computers, the problem of efficient representation, manipulation, and communication of the numerical values in those computations arose. Strongly related to the problem of numerical representation is the problem of quantization: in what manner should a set of continuous real-valued numbers be distributed over a fixed discrete set of numbers to minimize the number of bits required and also to maximize the accuracy of the attendant computations? This perennial problem of quantization is particularly relevant whenever memory and/or computational resources are severely restricted, and it has come to the forefront in recent years due to the remarkable performance of Neural Network models in computer vision, natural language processing, and related areas. Moving from floating-point representations to low-precision fixed integer values represented in four bits or less holds the potential to reduce the memory footprint and latency by a factor of 16x; and, in fact, reductions of 4x to 8x are often realized in practice in these applications. Thus, it is not surprising that quantization has emerged recently as an important and very active sub-area of research in the efficient implementation of computations associated with Neural Networks. In this article, we survey approaches to the problem of quantizing the numerical values in deep Neural Network computations, covering the advantages/disadvantages of current methods. With this survey and its organization, we hope to have presented a useful snapshot of the current research in quantization for Neural Networks and to have given an intelligent organization to ease the evaluation of future research in this area.
翻訳日:2021-03-26 13:39:44 公開日:2021-03-25
# 画像超解像のための非対称CNN

Asymmetric CNN for image super-resolution ( http://arxiv.org/abs/2103.13634v1 )

ライセンス: Link先を確認
Chunwei Tian, Yong Xu, Wangmeng Zuo, Chia-Wen Lin and David Zhang(参考訳) 深層畳み込みニューラルネットワーク(cnns)は、過去5年間、低レベルのビジョンに広く適用されてきた。 異なるアプリケーションの性質に従って、適切なcnnアーキテクチャを設計する。 しかし、カスタマイズされたアーキテクチャは、任意のアプリケーションの性能を向上させるために、すべてのピクセルポイントを平等に扱うことで異なる特徴を収集し、ローカルパワーピクセルポイントの影響を無視し、トレーニング効率を低下させる。 本稿では,非対称ブロック(ab),mem/ory拡張ブロック(meb),高周波特徴強調ブロック(hffeb)からなる画像超解像のための非対称cnn(acnet)を提案する。 ABは1次元の非対称畳み込みを利用して正方形の畳み込み核を水平方向と垂直方向に強化し、SISRの局所的な塩分特性の影響を促進する。 MEBは、長期依存問題を解決するために残差学習(RL)技術を介して、ABの階層的な低周波特徴をすべて融合し、低周波特性を高周波特徴に変換する。 HFFEBは低周波・高周波特性を利用して、より堅牢な超解像特性と過剰な特徴強調問題に対処する。 また、高解像度(hr)画像を再構築する役割も担っている。 広範な実験により,我々のacnetは単一画像スーパーレゾリューション(sisr),ブラインドsisr,ブラインドノイズ問題のブラインドsisrに対して効果的に対処できることを示した。 ACNetのコードはhttps://github.com/hellloxiaotian/ACNetで示されている。

Deep convolutional neural networks (CNNs) have been widely applied for low-level vision over the past five years. According to nature of different applications, designing appropriate CNN architectures is developed. However, customized architectures gather different features via treating all pixel points as equal to improve the performance of given application, which ignores the effects of local power pixel points and results in low training efficiency. In this paper, we propose an asymmetric CNN (ACNet) comprising an asymmetric block (AB), a mem?ory enhancement block (MEB) and a high-frequency feature enhancement block (HFFEB) for image super-resolution. The AB utilizes one-dimensional asymmetric convolutions to intensify the square convolution kernels in horizontal and vertical directions for promoting the influences of local salient features for SISR. The MEB fuses all hierarchical low-frequency features from the AB via residual learning (RL) technique to resolve the long-term dependency problem and transforms obtained low-frequency fea?tures into high-frequency features. The HFFEB exploits low- and high-frequency features to obtain more robust super-resolution features and address excessive feature enhancement problem. Ad?ditionally, it also takes charge of reconstructing a high-resolution (HR) image. Extensive experiments show that our ACNet can effectively address single image super-resolution (SISR), blind SISR and blind SISR of blind noise problems. The code of the ACNet is shown at https://github.com/hellloxiaotian/ACNet.
翻訳日:2021-03-26 13:39:18 公開日:2021-03-25
# マルチランダムアンカーグラフアンサンブル学習による空間スペクトル超スペクトル画像分類

Spatial-spectral Hyperspectral Image Classification via Multiple Random Anchor Graphs Ensemble Learning ( http://arxiv.org/abs/2103.13710v1 )

ライセンス: Link先を確認
Yanling Miao, Qi Wang, Mulin Chen, Xuelong Li(参考訳) ラベル付きデータの限られた状況に対処するグラフベースの半教師付き学習手法は,実用的応用において優位な性能を示している。 しかし、ハイパースペクトル画像(HSI)の高次元性は、ペアの隣接グラフの構築を困難にしている。 さらに、モデルの識別性を改善するための細かな空間的特徴はしばしば見過ごされる。 本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。 まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。 次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。 最後に、複数のアンカーグラフを利用してアンサンブルモデルを構築し、HSIの多様性を学習する。 大規模な実験により、RAGEは最先端のアプローチと競合していることが示された。

Graph-based semi-supervised learning methods, which deal well with the situation of limited labeled data, have shown dominant performance in practical applications. However, the high dimensionality of hyperspectral images (HSI) makes it hard to construct the pairwise adjacent graph. Besides, the fine spatial features that help improve the discriminability of the model are often overlooked. To handle the problems, this paper proposes a novel spatial-spectral HSI classification method via multiple random anchor graphs ensemble learning (RAGE). Firstly, the local binary pattern is adopted to extract the more descriptive features on each selected band, which preserves local structures and subtle changes of a region. Secondly, the adaptive neighbors assignment is introduced in the construction of anchor graph, to reduce the computational complexity. Finally, an ensemble model is built by utilizing multiple anchor graphs, such that the diversity of HSI is learned. Extensive experiments show that RAGE is competitive against the state-of-the-art approaches.
翻訳日:2021-03-26 13:38:53 公開日:2021-03-25
# AttrLostGAN:再構成可能なレイアウトとスタイルからの属性制御画像合成

AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable Layout and Style ( http://arxiv.org/abs/2103.13722v1 )

ライセンス: Link先を確認
Stanislav Frolov, Avneesh Sharma, J\"orn Hees, Tushar Karayil, Federico Raue, Andreas Dengel(参考訳) 近年,レイアウトからの条件付き画像合成が注目されている。 以前のアプローチでは、ジェネレータはオブジェクトの位置とクラスラベルを条件にしていたが、個々のオブジェクトの様々な外観の側面をきめ細かい制御ができない。 ユーザフレンドリーなインターフェースで実用的なアプリケーションを構築するためには、画像生成プロセスのゲイン制御が不可欠である。 本稿では,画像の他の部分に影響を与えることなく,個々のオブジェクトの出現を指定できるレイアウトからの属性制御画像合成手法を提案する。 レイアウト・ツー・イメージ生成のための最先端のアプローチを拡張し、属性に個々のオブジェクトを条件付けする。 私たちは、視覚ゲノムデータセットだけでなく、合成も実験しています。 質的・定量的な結果から,複雑なシーンを複数のオブジェクトでモデリングする場合,個々のオブジェクトの細粒度を制御できることがわかった。

Conditional image synthesis from layout has recently attracted much interest. Previous approaches condition the generator on object locations as well as class labels but lack fine-grained control over the diverse appearance aspects of individual objects. Gaining control over the image generation process is fundamental to build practical applications with a user-friendly interface. In this paper, we propose a method for attribute controlled image synthesis from layout which allows to specify the appearance of individual objects without affecting the rest of the image. We extend a state-of-the-art approach for layout-to-image generation to additionally condition individual objects on attributes. We create and experiment on a synthetic, as well as the challenging Visual Genome dataset. Our qualitative and quantitative results show that our method can successfully control the fine-grained details of individual objects when modelling complex scenes with multiple objects.
翻訳日:2021-03-26 13:38:38 公開日:2021-03-25
# GyroFlow:ジャイロスコープによる教師なし光学フロー学習

GyroFlow: Gyroscope-Guided Unsupervised Optical Flow Learning ( http://arxiv.org/abs/2103.13725v1 )

ライセンス: Link先を確認
Haipeng Li and Kunming Luo and Shuaicheng Liu(参考訳) 既存の光学フロー法は、明るさや勾配定数などの基本的な光学フローの仮定が壊れているため、霧、雨、夜などの困難な場面では誤りである。 そこで本研究では,ジャイロスコープを光学フロー学習に融合させる教師なし学習手法を提案する。 具体的には、まずジャイロスコープの読みをジャイロフィールドと呼ばれる動き場に変換する。 そして,ジャイロ場から抽出した背景運動と光流を融合させる自己誘導核融合モジュールを設計し,移動の詳細に集中するようネットワークに誘導する。 私たちの知る限りでは、光フロー学習のためのジャイロスコープデータと画像コンテンツを融合する初めてのディープラーニングベースのフレームワークである。 提案手法を検証するために,規則的かつ困難な場面をカバーする新しいデータセットを提案する。 実験により,本手法は,通常シーンと挑戦シーンの両方において,最先端の手法よりも優れていた。

Existing optical flow methods are erroneous in challenging scenes, such as fog, rain, and night because the basic optical flow assumptions such as brightness and gradient constancy are broken. To address this problem, we present an unsupervised learning approach that fuses gyroscope into optical flow learning. Specifically, we first convert gyroscope readings into motion fields named gyro field. Then, we design a self-guided fusion module to fuse the background motion extracted from the gyro field with the optical flow and guide the network to focus on motion details. To the best of our knowledge, this is the first deep learning-based framework that fuses gyroscope data and image content for optical flow learning. To validate our method, we propose a new dataset that covers regular and challenging scenes. Experiments show that our method outperforms the state-of-art methods in both regular and challenging scenes.
翻訳日:2021-03-26 13:38:24 公開日:2021-03-25
# Propose-Reduce Paradigmを用いたビデオインスタンスセグメンテーション

Video Instance Segmentation with a Propose-Reduce Paradigm ( http://arxiv.org/abs/2103.13746v1 )

ライセンス: Link先を確認
Huaijia Lin, Ruizheng Wu, Shu Liu, Jiangbo Lu, Jiaya Jia(参考訳) ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的としている。 従来の方法は、まずフレームやクリップのセグメンテーションを取得し、その後追跡やマッチングによって不完全な結果をマージする。 これらのメソッドはマージステップでエラー蓄積を引き起こす可能性がある。 本稿では,入力ビデオの完全なシーケンスを生成するための新しいパラダイムであるPropose-Reduceを提案する。 さらに,画像レベルのインスタンス分割ネットワーク上に,長期的伝搬のためのシーケンス伝搬ヘッドを構築する。 提案するフレームワークの堅牢性と高いリコールを保証するため,同じインスタンスの冗長なシーケンスを減らした複数のシーケンスを提案する。 DAVIS-UVOS検証セットでは、YouTube-VIS検証セットではAPが47.6%、J&Fは70.4%である。

Video instance segmentation (VIS) aims to segment and associate all instances of predefined classes for each frame in videos. Prior methods usually obtain segmentation for a frame or clip first, and then merge the incomplete results by tracking or matching. These methods may cause error accumulation in the merging step. Contrarily, we propose a new paradigm -- Propose-Reduce, to generate complete sequences for input videos by a single step. We further build a sequence propagation head on the existing image-level instance segmentation network for long-term propagation. To ensure robustness and high recall of our proposed framework, multiple sequences are proposed where redundant sequences of the same instance are reduced. We achieve state-of-the-art performance on two representative benchmark datasets -- we obtain 47.6% in terms of AP on YouTube-VIS validation set and 70.4% for J&F on DAVIS-UVOS validation set.
翻訳日:2021-03-26 13:38:08 公開日:2021-03-25
# I^3Net: 1段階オブジェクト検出器適応のためのインスタンス不変ネットワーク

I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage Object Detectors ( http://arxiv.org/abs/2103.13757v1 )

ライセンス: Link先を確認
Chaoqi Chen, Zebiao Zheng, Yue Huang, Xinghao Ding, Yizhou Yu(参考訳) 2段階クロスドメイン検出に関する最近の研究は、より正確な適応結果を得るために、局所的な特徴パターンを広く研究している。 これらのメソッドは、フォアグラウンドオブジェクトに対してきめ細かい機能アライメントモジュールを設計するために、リージョンの提案機構とROIベースのインスタンスレベル機能に大きく依存しています。 しかし、一段階の検出器では、検出パイプラインで明示的なインスタンスレベルの特徴を得ることは困難または不可能である。 そこで本研究では,各層における深部特徴の自然特性を利用して,一段検出器の適応に適したインプリシットインスタンス不変ネットワーク(I^3Net)を提案する。 Specifically, we facilitate the adaptation from three aspects: (1) Dynamic and Class-Balanced Reweighting (DCBR) strategy, which considers the coexistence of intra-domain and intra-class variations to assign larger weights to those sample-scarce categories and easy-to-adapt samples; (2) Category-aware Object Pattern Matching (COPM) module, which boosts the cross-domain foreground objects matching guided by the categorical information and suppresses the uninformative background features; (3) Regularized Joint Category Alignment (RJCA) module, which jointly enforces the category alignment at different domain-specific layers with a consistency regularization. 実験の結果、I^3Netはベンチマークデータセットの最先端のパフォーマンスを上回ることがわかった。

Recent works on two-stage cross-domain detection have widely explored the local feature patterns to achieve more accurate adaptation results. These methods heavily rely on the region proposal mechanisms and ROI-based instance-level features to design fine-grained feature alignment modules with respect to the foreground objects. However, for one-stage detectors, it is hard or even impossible to obtain explicit instance-level features in the detection pipelines. Motivated by this, we propose an Implicit Instance-Invariant Network (I^3Net), which is tailored for adapting one-stage detectors and implicitly learns instance-invariant features via exploiting the natural characteristics of deep features in different layers. Specifically, we facilitate the adaptation from three aspects: (1) Dynamic and Class-Balanced Reweighting (DCBR) strategy, which considers the coexistence of intra-domain and intra-class variations to assign larger weights to those sample-scarce categories and easy-to-adapt samples; (2) Category-aware Object Pattern Matching (COPM) module, which boosts the cross-domain foreground objects matching guided by the categorical information and suppresses the uninformative background features; (3) Regularized Joint Category Alignment (RJCA) module, which jointly enforces the category alignment at different domain-specific layers with a consistency regularization. Experiments reveal that I^3Net exceeds the state-of-the-art performance on benchmark datasets.
翻訳日:2021-03-26 13:37:52 公開日:2021-03-25
# patch craft: 深いモデリングとパッチマッチングによるビデオデノイジング

Patch Craft: Video Denoising by Deep Modeling and Patch Matching ( http://arxiv.org/abs/2103.13767v1 )

ライセンス: Link先を確認
Gregory Vaksman, Michael Elad and Peyman Milanfar(参考訳) 自然画像の非局所的自己相似性は、様々な画像処理問題を解決するために広く利用されている。 ビデオのシーケンスに関しては、時間的冗長性により、この力を利用する方がさらに有益である。 画像とビデオのデノイジングでは、多くの古典的指向のアルゴリズムが自己相似性を採用し、データを重複するパッチに分割する。 畳み込みニューラルネットワーク(CNN)の出現により、パッチベースのフレームワークは放棄された。 ほとんどのcnnデノイザーはイメージ全体を操作し、非局所的な関係を暗黙的にのみ活用する。 本研究は,通常の畳み込み型アーキテクチャにも依存しながら,映像デノイジングの文脈で自己相似性を活用するための新しいアプローチを提案する。 我々はパッチクラフトフレームの概念 - 実際のフレームと類似した人工フレーム - を紹介し、マッチしたパッチをタイル化することで構築する。 当社のアルゴリズムは,パッチクラフトフレームで映像シーケンスを拡大し,CNNに配信する。 提案手法により得られたノイズ除去性能の大幅な向上を示す。

The non-local self-similarity property of natural images has been exploited extensively for solving various image processing problems. When it comes to video sequences, harnessing this force is even more beneficial due to the temporal redundancy. In the context of image and video denoising, many classically-oriented algorithms employ self-similarity, splitting the data into overlapping patches, gathering groups of similar ones and processing these together somehow. With the emergence of convolutional neural networks (CNN), the patch-based framework has been abandoned. Most CNN denoisers operate on the whole image, leveraging non-local relations only implicitly by using a large receptive field. This work proposes a novel approach for leveraging self-similarity in the context of video denoising, while still relying on a regular convolutional architecture. We introduce a concept of patch-craft frames - artificial frames that are similar to the real ones, built by tiling matched patches. Our algorithm augments video sequences with patch-craft frames and feeds them to a CNN. We demonstrate the substantial boost in denoising performance obtained with the proposed approach.
翻訳日:2021-03-26 13:37:30 公開日:2021-03-25
# ファウショット分類のための複数領域からの普遍表現学習

Universal Representation Learning from Multiple Domains for Few-shot Classification ( http://arxiv.org/abs/2103.13841v1 )

ライセンス: Link先を確認
Wei-Hong Li, Xialei Liu, Hakan Bilen(参考訳) 本稿では,ラベル付きサンプルから未発見のクラスとドメインの分類法を学ぶことを目的とした,マイトショット分類の問題点について考察する。 近年の手法では,特徴を新しいドメインにアライメントしたり,複数のドメイン固有の特徴抽出器から関連する特徴を選択できる。 本研究では,アダプタとカーネルアライメントの助けを借りて,複数の個別に訓練されたネットワークの知識を抽出し,一組の普遍的な深層表現を学習することを提案する。 距離学習法に類似した手法を用いて, 従来見ていなかった領域に対する普遍表現をさらに洗練することができることを示す。 最近のMeta-Datasetベンチマークで、我々のモデルを厳格に評価し、より効率的でありながら、以前の手法よりも大幅に優れていることを示した。 私たちのコードはhttps://github.com/VICO-UoE/URLで公開されます。

In this paper, we look at the problem of few-shot classification that aims to learn a classifier for previously unseen classes and domains from few labeled samples. Recent methods use adaptation networks for aligning their features to new domains or select the relevant features from multiple domain-specific feature extractors. In this work, we propose to learn a single set of universal deep representations by distilling knowledge of multiple separately trained networks after co-aligning their features with the help of adapters and centered kernel alignment. We show that the universal representations can be further refined for previously unseen domains by an efficient adaptation step in a similar spirit to distance learning methods. We rigorously evaluate our model in the recent Meta-Dataset benchmark and demonstrate that it significantly outperforms the previous methods while being more efficient. Our code will be available at https://github.com/VICO-UoE/URL.
翻訳日:2021-03-26 13:37:12 公開日:2021-03-25
# 階層型深部CNN特徴量ベース表現学習によるロバストなクロスリゾリューション顔認識

Hierarchical Deep CNN Feature Set-Based Representation Learning for Robust Cross-Resolution Face Recognition ( http://arxiv.org/abs/2103.13851v1 )

ライセンス: Link先を確認
Guangwei Gao, Yi Yu, Jian Yang, Guo-Jun Qi, Meng Yang(参考訳) クロスレゾリューション顔認識(CRFR)は、インテリジェントな監視と生体法医学において重要であり、低解像度(LR)プローブ顔画像と高解像度(HR)ギャラリー顔画像とのマッチングの問題を指す。 既存の浅層学習と深層学習に基づく手法は、HR-LRの対を、解像度の差が緩和された共同特徴空間にマッピングすることに焦点を当てている。 しかし、ノイズの多いLRクエリー面から中間的識別特徴を抽出し、利用して、分解能制限による分解能の差を緩和する方法はほとんど検討されていない。 本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。 特に、私たちの貢献は3倍です。 (i)より堅牢で識別的な特徴を学ぶために、異なる層から文脈的特徴を適応的に融合させたい。 (II)これらの文脈的特徴を完全に活用するために、より正確な認識のために階層的特徴を協調的に表現する特徴集合ベース表現学習(FSRL)を設計する。 さらに、FSRLは特徴写像の原始的な形式を利用して、特に雑音の場合に潜伏構造情報を保持している。 (iii) 認識性能をさらに高めるため、異なる段階の階層認識出力を融合させたい。 一方、異なるスケールからの判別可能性も完全に統合できる。 これらの利点を活用することで,提案手法の効率性を実現することができる。 複数の顔データセットにおける実験結果から,提案アルゴリズムの他の競合crfr手法に対する優位性が検証された。

Cross-resolution face recognition (CRFR), which is important in intelligent surveillance and biometric forensics, refers to the problem of matching a low-resolution (LR) probe face image against high-resolution (HR) gallery face images. Existing shallow learning-based and deep learning-based methods focus on mapping the HR-LR face pairs into a joint feature space where the resolution discrepancy is mitigated. However, little works consider how to extract and utilize the intermediate discriminative features from the noisy LR query faces to further mitigate the resolution discrepancy due to the resolution limitations. In this study, we desire to fully exploit the multi-level deep convolutional neural network (CNN) feature set for robust CRFR. In particular, our contributions are threefold. (i) To learn more robust and discriminative features, we desire to adaptively fuse the contextual features from different layers. (ii) To fully exploit these contextual features, we design a feature set-based representation learning (FSRL) scheme to collaboratively represent the hierarchical features for more accurate recognition. Moreover, FSRL utilizes the primitive form of feature maps to keep the latent structural information, especially in noisy cases. (iii) To further promote the recognition performance, we desire to fuse the hierarchical recognition outputs from different stages. Meanwhile, the discriminability from different scales can also be fully integrated. By exploiting these advantages, the efficiency of the proposed method can be delivered. Experimental results on several face datasets have verified the superiority of the presented algorithm to the other competitive CRFR approaches.
翻訳日:2021-03-26 13:36:58 公開日:2021-03-25
# 教師なし深部ドメイン適応のための潜在ドメインの推論

Inferring Latent Domains for Unsupervised Deep Domain Adaptation ( http://arxiv.org/abs/2103.13873v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Lorenzo Porzi, Samuel Rota Bul\`o, Barbara Caputo and Elisa Ricci(参考訳) Unsupervised Domain Adaptation (UDA)は、ソースドメインのアノテーション付きデータからの情報を活用することでラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。 ほとんどの深いUDAアプローチは、単一ソースの単一ターゲットシナリオ、すなわち、運用されている。 ソースとターゲットのサンプルは 単一の分布から生じると仮定します しかし実際には、ほとんどのデータセットは複数のドメインの混合と見なすことができる。 このような場合、分類モデルを学習するために従来の単一ソースの単一ターゲット手法を利用すると、結果が低下する可能性がある。 さらに、すべてのデータポイント、すなわち、ドメインラベルを提供することは、しばしば困難である。 潜伏ドメインは 自動的に発見される 本稿では,視覚データセット内の潜在ドメインを自動的に発見し,この情報を利用してロバストな対象分類器を学習することにより,udaの問題を解決する新しい深層アーキテクチャを提案する。 具体的には、アーキテクチャは2つの主要なコンポーネントに基づいている。 CNNの内部特徴表現の分布を参照分布に適切に整合させるために、各サンプルの潜在ドメインへの割り当てを自動的に計算するサイドブランチと、ドメインメンバーシップ情報を利用する新しいレイヤ。 提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。

Unsupervised Domain Adaptation (UDA) refers to the problem of learning a model in a target domain where labeled data are not available by leveraging information from annotated data in a source domain. Most deep UDA approaches operate in a single-source, single-target scenario, i.e. they assume that the source and the target samples arise from a single distribution. However, in practice most datasets can be regarded as mixtures of multiple domains. In these cases, exploiting traditional single-source, single-target methods for learning classification models may lead to poor results. Furthermore, it is often difficult to provide the domain labels for all data points, i.e. latent domains should be automatically discovered. This paper introduces a novel deep architecture which addresses the problem of UDA by automatically discovering latent domains in visual datasets and exploiting this information to learn robust target classifiers. Specifically, our architecture is based on two main components, i.e. a side branch that automatically computes the assignment of each sample to its latent domain and novel layers that exploit domain membership information to appropriately align the distribution of the CNN internal feature representations to a reference distribution. We evaluate our approach on publicly available benchmarks, showing that it outperforms state-of-the-art domain adaptation methods.
翻訳日:2021-03-26 13:36:29 公開日:2021-03-25
# アフィン変換によるマルチドメイン学習のための二項マスクの強化

Boosting Binary Masks for Multi-Domain Learning through Affine Transformations ( http://arxiv.org/abs/2103.13894v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Elisa Ricci, Barbara Caputo and Samuel Rota Bul\'o(参考訳) 本研究では,マルチドメイン学習のための新しいアルゴリズムを提案する。 事前学習されたアーキテクチャと一連の視覚ドメインが順次受け取られると、マルチドメイン学習の目標は、すべてのドメインでタスクを実行する単一のモデルを作ることである。 最近の研究は、学習されたバイナリ変数を通して、与えられた元のconv-netの内部重みをマスキングすることでこの問題に対処できることを示した。 本研究では、元のネットワークパラメータのアフィン変換によるマルチドメイン学習のためのバイナリマスクベースモデルの一般化を提供する。 提案方式では,新たなドメインへの適応レベルが大幅に向上し,ネットワークパラメータ1個につき1ビット以上必要としつつ,ドメイン固有のモデルに匹敵する性能を実現する。 2つの人気のあるベンチマークの実験は、私たちのアプローチのパワーを示し、Visual Decathlon Challengeの最先端メソッドに近いパフォーマンスを実現しています。

In this work, we present a new, algorithm for multi-domain learning. Given a pretrained architecture and a set of visual domains received sequentially, the goal of multi-domain learning is to produce a single model performing a task in all the domains together. Recent works showed how we can address this problem by masking the internal weights of a given original conv-net through learned binary variables. In this work, we provide a general formulation of binary mask based models for multi-domain learning by affine transformations of the original network parameters. Our formulation obtains significantly higher levels of adaptation to new domains, achieving performances comparable to domain-specific models while requiring slightly more than 1 bit per network parameter per additional domain. Experiments on two popular benchmarks showcase the power of our approach, achieving performances close to state-of-the-art methods on the Visual Decathlon Challenge.
翻訳日:2021-03-26 13:36:09 公開日:2021-03-25
# StyleLessレイヤ: 現実の運転における堅牢性向上

StyleLess layer: Improving robustness for real-world driving ( http://arxiv.org/abs/2103.13905v1 )

ライセンス: Link先を確認
Julien Rebut, Andrei Bursuc, and Patrick P\'erez(参考訳) ディープニューラルネットワーク(DNN)は、自動運転車にとって重要なコンポーネントである。 大量のラベル付きデータから情報を取得することで、印象的なパフォーマンスを実現する。 しかし、データセットがどれだけ大きくても、現実世界の完全な複雑さをトレーニングデータにカプセル化することはできず、dnnは目に見えない条件に一般化することがほとんどない。 気象条件の変化やセンサーの劣化や老朽化によって引き起こされる様々な画像破損に対する堅牢性は、現実世界に車両を配備する場合の安全性に不可欠である。 この問題はStyleLessと呼ばれる新しいタイプのレイヤによって解決され、DNNは様々な外部条件に対処できる堅牢で情報的な特徴を学習することができる。 我々は、この層を多くのアーキテクチャに統合し、メインタスクと共同でトレーニングできる複数のバリエーションを提案する。 我々は、典型的な自律走行タスク(検出、セマンティックセグメンテーション)への貢献を検証し、ほとんどの場合、この手法は目に見えない状況(霧、雨)における予測性能を向上し、観察された状況や対象に対する性能を保っていることを示す。

Deep Neural Networks (DNNs) are a critical component for self-driving vehicles. They achieve impressive performance by reaping information from high amounts of labeled data. Yet, the full complexity of the real world cannot be encapsulated in the training data, no matter how big the dataset, and DNNs can hardly generalize to unseen conditions. Robustness to various image corruptions, caused by changing weather conditions or sensor degradation and aging, is crucial for safety when such vehicles are deployed in the real world. We address this problem through a novel type of layer, dubbed StyleLess, which enables DNNs to learn robust and informative features that can cope with varying external conditions. We propose multiple variations of this layer that can be integrated in most of the architectures and trained jointly with the main task. We validate our contribution on typical autonomous-driving tasks (detection, semantic segmentation), showing that in most cases, this approach improves predictive performance on unseen conditions (fog, rain), while preserving performance on seen conditions and objects.
翻訳日:2021-03-26 13:35:55 公開日:2021-03-25
# 画像は16×16ワード、ビデオの価値は?

An Image is Worth 16x16 Words, What is a Video Worth? ( http://arxiv.org/abs/2103.13915v1 )

ライセンス: Link先を確認
Gilad Sharir, Asaf Noy, Lihi Zelnik-Manor(参考訳) 動作認識領域におけるリード手法は、入力ビデオの空間的次元と時間的次元の両方から情報を抽出しようとする。 State of the Art (SotA) の精度に達する方法は通常、ビデオフレームから時間情報を抽象化する手段として3D畳み込み層を利用する。 このような畳み込みを利用するには、入力されたビデオから短いクリップをサンプリングする必要がある。 各ショートクリップは入力ビデオのごく一部をカバーするため、ビデオの全時間長をカバーするために複数のクリップを推論時にサンプリングする。 これにより計算負荷が増大し、実世界のアプリケーションでは実用的でない。 推論に必要なフレーム数を著しく削減することで計算ボトルネックに対処する。 提案手法は,ビデオフレームにグローバルな注意を向けた時間変換器に頼り,各フレームの健全な情報をよりよく活用する。 したがって、このアプローチは非常に入力効率が高く、データ(ビデオあたりのフレーム)、計算、レイテンシーのごく一部でsoma結果(kinetics dataset上で)を実現できるのです。 特にkinetics-400では、78.8のtop-1精度に達し、1ビデオにつき$\times 30$のフレーム数と$\times 40$の予測が現在のリードメソッドより速い。 コードは、https://github.com/Alibaba-MIIL/STAMで入手できる。

Leading methods in the domain of action recognition try to distill information from both the spatial and temporal dimensions of an input video. Methods that reach State of the Art (SotA) accuracy, usually make use of 3D convolution layers as a way to abstract the temporal information from video frames. The use of such convolutions requires sampling short clips from the input video, where each clip is a collection of closely sampled frames. Since each short clip covers a small fraction of an input video, multiple clips are sampled at inference in order to cover the whole temporal length of the video. This leads to increased computational load and is impractical for real-world applications. We address the computational bottleneck by significantly reducing the number of frames required for inference. Our approach relies on a temporal transformer that applies global attention over video frames, and thus better exploits the salient information in each frame. Therefore our approach is very input efficient, and can achieve SotA results (on Kinetics dataset) with a fraction of the data (frames per video), computation and latency. Specifically on Kinetics-400, we reach 78.8 top-1 accuracy with $\times 30$ less frames per video, and $\times 40$ faster inference than the current leading method. Code is available at: https://github.com/Alibaba-MIIL/STAM
翻訳日:2021-03-26 13:35:35 公開日:2021-03-25
# 気象不変物体検出のための教師なし領域分類によるマルチターゲット領域適応

Multi-Target Domain Adaptation via Unsupervised Domain Classification for Weather Invariant Object Detection ( http://arxiv.org/abs/2103.13970v1 )

ライセンス: Link先を確認
Ting Sun and Jinlin Chen and Francis Ng(参考訳) 物体検出は自動運転に不可欠な技術である。 被検体検出器の性能は、訓練画像の天候が試験画像と異なる場合、著しく低下する。 ドメイン適応は、オブジェクト検出器のロバスト性を改善するために、ドメインシフト問題に対処するために使用できる。 しかし、既存のドメイン適応メソッドのほとんどは単一のターゲットドメインを扱うか、ドメインラベルを必要とする。 本稿では,マルチターゲットドメインへの単一ターゲットドメイン適応手法の一般化と,それに基づく気象不変物体検出訓練フレームワークの設計に使用可能な,教師なし領域分類手法を提案する。 本研究では,Cityscapesデータセットとその合成変種について実験を行った。 霧、雨、夜。 実験の結果,提案手法で学習した物体検出器は,異なる気象条件下で頑健な物体検出を実現することがわかった。

Object detection is an essential technique for autonomous driving. The performance of an object detector significantly degrades if the weather of the training images is different from that of test images. Domain adaptation can be used to address the domain shift problem so as to improve the robustness of an object detector. However, most existing domain adaptation methods either handle single target domain or require domain labels. We propose a novel unsupervised domain classification method which can be used to generalize single-target domain adaptation methods to multi-target domains, and design a weather-invariant object detector training framework based on it. We conduct the experiments on Cityscapes dataset and its synthetic variants, i.e. foggy, rainy, and night. The experimental results show that the object detector trained by our proposed method realizes robust object detection under different weather conditions.
翻訳日:2021-03-26 13:35:11 公開日:2021-03-25
# GridDehazeNet+:シングルイメージデハジングのためのタスク内知識伝達機能を備えたマルチスケールネットワーク

GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task Knowledge Transfer for Single Image Dehazing ( http://arxiv.org/abs/2103.13998v1 )

ライセンス: Link先を確認
Xiaohong Liu, Zhihao Shi, Zijun Wu, Jun Chen(参考訳) 本稿では,GridDehazeNet+と呼ばれる拡張マルチスケールネットワークを提案する。 プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。 学習可能な事前処理モジュールは、手選択前処理によって生成された派生入力と比較して、より多様性と関連する特徴を持つ学習入力を生成することができる。 バックボーンモジュールは,1)異なるスケールにわたる密接な接続によるボトルネック問題を効果的に緩和する新しいグリッド構造,2)デハジング関連機能の統合による適応的融合を促進する空間チャネルアテンションブロック,の2つの拡張により,マルチスケール推定を実装した。 後処理モジュールは、最終出力のアーティファクトを減らすのに役立つ。 ネットワークトレーニングとテストのドメインシフトを軽減するため,合成データを,実際のデータと一致する形状の分布を持ついわゆる翻訳データに変換する。 さらに,実世界のシナリオにおけるデハージング性能をさらに向上するために,合成データから抽出した知識を活用して学習プロセスを支援する,新しいタスク内知識伝達機構を提案する。 実験の結果,提案したGridDehazeNet+は,いくつかのデハジングベンチマークにおいて最先端の手法よりも優れていた。 提案手法は, 大気散乱モデルに依存せず, 合成画像のデハジング結果のみを考慮に置きながら, 本モデルが提供する次元縮小を利用した方が必ずしも有益でない理由を説明することができる。

We propose an enhanced multi-scale network, dubbed GridDehazeNet+, for single image dehazing. It consists of three modules: pre-processing, backbone, and post-processing. The trainable pre-processing module can generate learned inputs with better diversity and more pertinent features as compared to those derived inputs produced by hand-selected pre-processing methods. The backbone module implements multi-scale estimation with two major enhancements: 1) a novel grid structure that effectively alleviates the bottleneck issue via dense connections across different scales; 2) a spatial-channel attention block that can facilitate adaptive fusion by consolidating dehazing-relevant features. The post-processing module helps to reduce the artifacts in the final output. To alleviate domain shift between network training and testing, we convert synthetic data to so-called translated data with the distribution shaped to match that of real data. Moreover, to further improve the dehazing performance in real-world scenarios, we propose a novel intra-task knowledge transfer mechanism that leverages the distilled knowledge from synthetic data to assist the learning process on translated data. Experimental results indicate that the proposed GridDehazeNet+ outperforms the state-of-the-art methods on several dehazing benchmarks. The proposed dehazing method does not rely on the atmosphere scattering model, and we provide a possible explanation as to why it is not necessarily beneficial to take advantage of the dimension reduction offered by this model, even if only the dehazing results on synthetic images are concerned.
翻訳日:2021-03-26 13:34:57 公開日:2021-03-25
# 自己監督型トレーニングはオンライン継続的学習を促進する

Self-Supervised Training Enhances Online Continual Learning ( http://arxiv.org/abs/2103.14010v1 )

ライセンス: Link先を確認
Jhair Gallardo, Tyler L. Hayes, Christopher Kanan(参考訳) 連続学習では、システムは破滅的な忘れをせずに、非定常データストリームから漸進的に学習する必要がある。 近年,画像ネットなどの大規模画像分類タスクにおいて,段階的に学習する複数の手法が考案されている。 最先端の継続学習手法は、初期教師付き事前学習フェーズを使用し、データセットの最初の10%から50%は、新しいクラスの連続学習が始まる前にオフラインで表現を学習するために使用される。 自己指導型事前学習は、特に事前学習に使用するサンプルの数が少なければ、教師付き学習よりもより一般化した特徴をもたらす可能性があると仮定する。 この仮説をmoco-v2アルゴリズムとswavアルゴリズムを用いて検証する。 ImageNetでは、オンライン連続学習において、教師付き事前学習がかなり優れており、サンプルが少ないと利益が大きくなる。 この結果は3つの連続学習アルゴリズムで一致している。 我々の最善のシステムは、オンライン連続学習の最先端技術よりも、クラスインクリメンタルイメージネットにおいて、トップ1の精度を14.95%向上させる。

In continual learning, a system must incrementally learn from a non-stationary data stream without catastrophic forgetting. Recently, multiple methods have been devised for incrementally learning classes on large-scale image classification tasks, such as ImageNet. State-of-the-art continual learning methods use an initial supervised pre-training phase, in which the first 10% - 50% of the classes in a dataset are used to learn representations in an offline manner before continual learning of new classes begins. We hypothesize that self-supervised pre-training could yield features that generalize better than supervised learning, especially when the number of samples used for pre-training is small. We test this hypothesis using the self-supervised MoCo-V2 and SwAV algorithms. On ImageNet, we find that both outperform supervised pre-training considerably for online continual learning, and the gains are larger when fewer samples are available. Our findings are consistent across three continual learning algorithms. Our best system achieves a 14.95% relative increase in top-1 accuracy on class incremental ImageNet over the prior state of the art for online continual learning.
翻訳日:2021-03-26 13:34:32 公開日:2021-03-25
# AutoLoss-Zero: ジェネリックタスクのスクラッチからロス関数を探す

AutoLoss-Zero: Searching Loss Functions from Scratch for Generic Tasks ( http://arxiv.org/abs/2103.14026v1 )

ライセンス: Link先を確認
Hao Li, Tianwen Fu, Jifeng Dai, Hongsheng Li, Gao Huang, Xizhou Zhu(参考訳) ディープネットワークにおける様々なコンポーネント設計の自動化において、重要な進歩が達成されている。 しかし,様々な評価指標を用いた汎用タスクの損失関数の自動設計は未検討のままである。 ハンドクラフトの損失機能に関する以前の研究は、人間の専門知識に大きく依存しており、拡張性に制限がある。 一方、損失関数を検索する既存の取り組みは、タスク固有のヒューリスティックを持つ特定のタスクと特定のメトリクスに重点を置いている。 そのような作業がジェネリックタスクに拡張できるかどうかは検証されておらず、疑わしい。 本稿では,一般的なタスクのスクラッチから損失関数を探索する最初の汎用フレームワークであるAutoLoss-Zeroを提案する。 具体的には,不均質なタスクと評価指標に対応するために,原始数学的演算子のみからなる基本探索空間を設計する。 基本探索空間における損失関数を発見するために進化アルゴリズムの変種が用いられる。 一般的なタスクに適用可能な探索効率を向上させるために、損失低減プロトコルと勾配等価性チェック戦略を開発する。 様々なコンピュータビジョンタスクに関する広範囲な実験により、検索された損失関数は、既存の損失関数と同等かそれ以上であるかが証明された。 コードは解放される。

Significant progress has been achieved in automating the design of various components in deep networks. However, the automatic design of loss functions for generic tasks with various evaluation metrics remains under-investigated. Previous works on handcrafting loss functions heavily rely on human expertise, which limits their extendibility. Meanwhile, existing efforts on searching loss functions mainly focus on specific tasks and particular metrics, with task-specific heuristics. Whether such works can be extended to generic tasks is not verified and questionable. In this paper, we propose AutoLoss-Zero, the first general framework for searching loss functions from scratch for generic tasks. Specifically, we design an elementary search space composed only of primitive mathematical operators to accommodate the heterogeneous tasks and evaluation metrics. A variant of the evolutionary algorithm is employed to discover loss functions in the elementary search space. A loss-rejection protocol and a gradient-equivalence-check strategy are developed so as to improve the search efficiency, which are applicable to generic tasks. Extensive experiments on various computer vision tasks demonstrate that our searched loss functions are on par with or superior to existing loss functions, which generalize well to different datasets and networks. Code shall be released.
翻訳日:2021-03-26 13:34:14 公開日:2021-03-25
# USB: ユニバーサルスケールオブジェクト検出ベンチマーク

USB: Universal-Scale Object Detection Benchmark ( http://arxiv.org/abs/2103.14027v1 )

ライセンス: Link先を確認
Yosuke Shinya(参考訳) COCOなどのベンチマークは、オブジェクト検出において重要な役割を果たす。 しかし、既存のベンチマークはスケールのばらつきに乏しく、それらのプロトコルは公正な比較には不十分である。 本稿では,Universal-Scale Object Detection Benchmark (USB)を紹介する。 USBは、最近提案されたWaymo Open DatasetとManga109-sデータセットにCOCOを組み込むことによって、オブジェクトスケールとイメージドメインのバリエーションがある。 公平な比較を可能にするために,複数のしきい値を定義し,画像の解像度を評価することで,USBプロトコルを提案する。 提案するベンチマークの手法を解析することにより,USB上のすべてのベースラインを超越し,既存のベンチマークの最先端結果を達成した,高速かつ正確なオブジェクト検出器であるUniverseNetsを設計した。 具体的には、UniverseNetsはCOCOテストデブで54.1%のAPを達成し、20のエポックトレーニング、Waymo Open Dataset Challenge 2020 2D検出における単一ステージ検出器の最高結果、NightOwls Detection Challenge 2020の初回で全てのオブジェクトが追跡された。 コードはhttps://github.com/shinya7y/UniverseNetで入手できる。

Benchmarks, such as COCO, play a crucial role in object detection. However, existing benchmarks are insufficient in scale variation, and their protocols are inadequate for fair comparison. In this paper, we introduce the Universal-Scale object detection Benchmark (USB). USB has variations in object scales and image domains by incorporating COCO with the recently proposed Waymo Open Dataset and Manga109-s dataset. To enable fair comparison, we propose USB protocols by defining multiple thresholds for training epochs and evaluation image resolutions. By analyzing methods on the proposed benchmark, we designed fast and accurate object detectors called UniverseNets, which surpassed all baselines on USB and achieved state-of-the-art results on existing benchmarks. Specifically, UniverseNets achieved 54.1% AP on COCO test-dev with 20 epochs training, the top result among single-stage detectors on the Waymo Open Dataset Challenge 2020 2D detection, and the first place in the NightOwls Detection Challenge 2020 all objects track. The code is available at https://github.com/shinya7y/UniverseNet .
翻訳日:2021-03-26 13:33:56 公開日:2021-03-25
# 可変遅延空間を用いた変分オートエンコーダに基づく車両軌道予測

Variational Autoencoder-Based Vehicle Trajectory Prediction with an Interpretable Latent Space ( http://arxiv.org/abs/2103.13726v1 )

ライセンス: Link先を確認
Marion Neumeier, Andreas Tollk\"uhn, Thomas Berberich and Michael Botsch(参考訳) 本稿では,車両軌道予測のための教師なし・エンドツーエンド学習可能なニューラルネットワークであるdescriptive variational autoencoder (dvae)について述べる。 この新しいアプローチは、共通の変分オートエンコーダのアーキテクチャと目的に基づいている。 オートエンコーダのデコーダ部に専門家の知識を導入することにより、エンコーダは人間の言葉で把握可能な意味を提供する潜在パラメータを抽出する。 このような解釈可能な潜在空間は、専門家定義規則セットによる検証を可能にする。 DVAEの評価は、ハイウェイ交通シナリオのための公開高Dデータセットを用いて行われる。 従来の変分オートエンコーダと同等の複雑性を比較すれば、提案モデルは同様の予測精度を提供するが、解釈可能な潜在空間を持つことの利点がある。 重要な意思決定と予測の信頼性を評価するためには、この性質が非常に望ましい。

This paper introduces the Descriptive Variational Autoencoder (DVAE), an unsupervised and end-to-end trainable neural network for predicting vehicle trajectories that provides partial interpretability. The novel approach is based on the architecture and objective of common variational autoencoders. By introducing expert knowledge within the decoder part of the autoencoder, the encoder learns to extract latent parameters that provide a graspable meaning in human terms. Such an interpretable latent space enables the validation by expert defined rule sets. The evaluation of the DVAE is performed using the publicly available highD dataset for highway traffic scenarios. In comparison to a conventional variational autoencoder with equivalent complexity, the proposed model provides a similar prediction accuracy but with the great advantage of having an interpretable latent space. For crucial decision making and assessing trustworthiness of a prediction this property is highly desirable.
翻訳日:2021-03-26 13:33:07 公開日:2021-03-25
# 好奇心駆動強化学習エージェントによるプレイテストカバレッジの改善

Improving Playtesting Coverage via Curiosity Driven Reinforcement Learning Agents ( http://arxiv.org/abs/2103.13798v1 )

ライセンス: Link先を確認
Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar, Linus Gissl\'en(参考訳) 現代ゲームはサイズと複雑さの両方で成長を続けており、関連するすべてのコンテンツがテストされ、潜在的な問題が適切に特定され、修正されることを保証することはより困難になっている。 しかし、人間の参加者だけを使ってテストカバレッジを最大化しようとすると、通常は開発サイクルを遅くするプロセスを調整するのが面倒で難しくなります。 自律的なエージェントによるプレイテストの補完は、このプロセスを加速し、単純化する大きな約束を示している。 本稿では,ゲーム状態カバレッジを最大化するためにトレーニングされた強化学習エージェントを用いて,与えられたシナリオを自動的に探索し,テストする問題に対処する。 それぞれのエージェントは、その行動の新規性に基づいて報酬を受け、これまで提案された探索手法が不十分であった複雑な3Dシナリオにおいて、好奇的で探索的な振る舞いを奨励する。 好奇心をそそるエージェントは、地図の異なる領域に到達するのに必要な複雑なナビゲーションメカニズムを学習することができ、潜在的な問題を特定するために必要なデータを提供することができる。 さらに、さまざまな視覚化戦略を探求し、収集したデータをよりよく活用して設計決定を推し進め、考えられる問題や見落としを認識させる方法について評価する。

As modern games continue growing both in size and complexity, it has become more challenging to ensure that all the relevant content is tested and that any potential issue is properly identified and fixed. Attempting to maximize testing coverage using only human participants, however, results in a tedious and hard to orchestrate process which normally slows down the development cycle. Complementing playtesting via autonomous agents has shown great promise accelerating and simplifying this process. This paper addresses the problem of automatically exploring and testing a given scenario using reinforcement learning agents trained to maximize game state coverage. Each of these agents is rewarded based on the novelty of its actions, thus encouraging a curious and exploratory behaviour on a complex 3D scenario where previously proposed exploration techniques perform poorly. The curious agents are able to learn the complex navigation mechanics required to reach the different areas around the map, thus providing the necessary data to identify potential issues. Moreover, the paper also explores different visualization strategies and evaluates how to make better use of the collected data to drive design decisions and to recognize possible problems and oversights.
翻訳日:2021-03-26 13:32:53 公開日:2021-03-25
# 異なるアーキテクチャ探索による人間の情報処理の定量的モデル復元

Recovering Quantitative Models of Human Information Processing with Differentiable Architecture Search ( http://arxiv.org/abs/2103.13939v1 )

ライセンス: Link先を確認
Sebastian Musslick(参考訳) 認知機能の力学モデルへの行動現象の統合は認知科学の基本的な基礎である。 しかし研究者たちは、これらのデータを科学的理論に統合するための時間的資源や金銭的資源を必要とせずに、大量のデータを蓄積し始めている。 我々は、既存の機械学習技術をオープンソースのパイプラインに組み込むことで、これらの制限を克服し、定量的モデルの自動構築を目指している。 このパイプラインは、解釈可能なモデルアーキテクチャの発見を自動化し、モデルパラメータをデータに適合させる自動微分を自動化するために、ニューラルネットワーク検索を利用する。 合成データから人間の情報処理の定量的モデルを復元する能力に基づいて,これらの手法の有用性を評価する。 これらの手法は、心理物理学、学習、意思決定のモデルから基本的な定量的モチーフを回復することができる。 また,このフレームワークの弱点を浮き彫りにして,今後の方向性について論じる。

The integration of behavioral phenomena into mechanistic models of cognitive function is a fundamental staple of cognitive science. Yet, researchers are beginning to accumulate increasing amounts of data without having the temporal or monetary resources to integrate these data into scientific theories. We seek to overcome these limitations by incorporating existing machine learning techniques into an open-source pipeline for the automated construction of quantitative models. This pipeline leverages the use of neural architecture search to automate the discovery of interpretable model architectures, and automatic differentiation to automate the fitting of model parameters to data. We evaluate the utility of these methods based on their ability to recover quantitative models of human information processing from synthetic data. We find that these methods are capable of recovering basic quantitative motifs from models of psychophysics, learning and decision making. We also highlight weaknesses of this framework, and discuss future directions for their mitigation.
翻訳日:2021-03-26 13:31:47 公開日:2021-03-25
# SMILE: 効率的なトランスファーリーニングのための自己蒸留ミキサップ

SMILE: Self-Distilled MIxup for Efficient Transfer LEarning ( http://arxiv.org/abs/2103.13941v1 )

ライセンス: Link先を確認
Xingjian Li, Haoyi Xiong, Chengzhong Xu, Dejing Dou(参考訳) ディープラーニングの性能を向上させるために、トレーニングサンプル間の単純な線形動作を好むニューラルネットワークを強制するためにmixupが提案されている。 しかし、事前訓練されたモデルによるトランスファーラーニングのミックスアップはそれほど単純ではなく、大規模な完全連結(FC)層を持つ高容量事前訓練モデルでは、サンプルとラベルを混合しても、ターゲットデータセットに容易に適合する。 本研究では, SMILE-Self-Distilled Mixup for Efficient Transfer LEarningを提案する。 混合画像を入力として、SMILEはCNN特徴抽出器の出力を正規化し、混合ラベルに加えて入力の混合特徴ベクトル(サンプル-機能混合)から学習する。 具体的には、事前学習されたモデルから受け継いだ平均教師を取り入れ、自己蒸留方式で入力サンプルの特徴ベクトルを提供し、新規な三重項正則化器を介して特徴ベクトルを混合する。 トリプル正則化器は特徴空間とラベル空間の両方における混合効果をバランスさせ、事前学習タスクのサンプル間の線形性を制限する。 SMILE が行った性能改善を,微調整,L2-SP,DELTA,RIFLE など,多種多様な移動学習アルゴリズムと比較し,総合的に検証した。 アブレーション研究では、バニラサンプル-ラベル混合戦略はトレーニングサンプル間の線形性をわずかに向上するが、一般化性の欠如が示され、SMILEはトレーニングデータセットとテストデータセットの両方でラベル空間と特徴空間の混合効果を著しく改善する。 経験的な観察はデザインの直感と目的をバックアップします。

To improve the performance of deep learning, mixup has been proposed to force the neural networks favoring simple linear behaviors in-between training samples. Performing mixup for transfer learning with pre-trained models however is not that simple, a high capacity pre-trained model with a large fully-connected (FC) layer could easily overfit to the target dataset even with samples-to-labels mixed up. In this work, we propose SMILE - Self-Distilled Mixup for EffIcient Transfer LEarning. With mixed images as inputs, SMILE regularizes the outputs of CNN feature extractors to learn from the mixed feature vectors of inputs (sample-to-feature mixup), in addition to the mixed labels. Specifically, SMILE incorporates a mean teacher, inherited from the pre-trained model, to provide the feature vectors of input samples in a self-distilling fashion, and mixes up the feature vectors accordingly via a novel triplet regularizer. The triple regularizer balances the mixup effects in both feature and label spaces while bounding the linearity in-between samples for pre-training tasks. Extensive experiments have been done to verify the performance improvement made by SMILE, in comparisons with a wide spectrum of transfer learning algorithms, including fine-tuning, L2-SP, DELTA, and RIFLE, even with mixup strategies combined. Ablation studies show that the vanilla sample-to-label mixup strategies could marginally increase the linearity in-between training samples but lack of generalizability, while SMILE significantly improve the mixup effects in both label and feature spaces with both training and testing datasets. The empirical observations backup our design intuition and purposes.
翻訳日:2021-03-26 13:31:35 公開日:2021-03-25
# efficienttdnn: 野生の話者認識のための効率的なアーキテクチャ探索

EfficientTDNN: Efficient Architecture Search for Speaker Recognition in the Wild ( http://arxiv.org/abs/2103.13581v1 )

ライセンス: Link先を確認
Rui Wang, Zhihua Wei, Shouling Ji, and Zhen Hong(参考訳) 話者認識は、自動話者認識に音響特性を利用するオーディオバイオメトリックスを指す。 これらのシステムは、スマートホーム、一般的なビジネスインタラクション、eコマースアプリケーション、法医学など、さまざまなシナリオにおけるアイデンティティを検証する重要な手段として現れています。 しかし、トレーニングと実世界のデータとのミスマッチは話者埋め込み空間のシフトを引き起こし、認識性能を著しく低下させる。 様々な複雑なニューラルネットワークアーキテクチャは、野生の話者認識に対処するが、記憶と計算の要求を無視する。 本稿では,認識精度を維持しつつ推論効率を向上させるために,効率的な時間遅延ニューラルネットワーク(efficianttdnn)を提案する。 提案するEfficientTDNNは3つのフェーズを含む。 第一に、スーパーネットの設計は、シーケンシャルセルで構成され、ネットワークプルーニングを可能にする動的ニューラルネットワークアーキテクチャを構築することである。 第二に、プログレッシブトレーニングは、スーパーネットの重みを継承するランダムサンプリングサブネットを最適化することである。 第3に,手動グリッド探索,ランダム探索,モデル予測進化探索という3つの探索手法を導入し,精度と効率のトレードオフを見いだした。 VoxCelebデータセットの実験の結果、EfficientTDNNは、約10^{13}$サブネットを含む巨大な検索スペースを提供し、1.66% EERと0.156 DCF$_{0.01}$を565MMACで達成している。 総合的な調査により、訓練されたスーパーネットは、訓練中の細胞を一般化し、正確性と効率の許容可能なバランスを得ることが示唆される。

Speaker recognition refers to audio biometrics that utilizes acoustic characteristics for automatic speaker recognition. These systems have emerged as an essential means of verifying identity in various scenarios, such as smart homes, general business interactions, e-commerce applications, and forensics. However, the mismatch between training and real-world data causes a shift of speaker embedding space and severely degrades the recognition performance. Various complicated neural architectures are presented to address speaker recognition in the wild but neglect the requirements of storage and computation. To address this issue, we propose a neural architecture search-based efficient time-delay neural network (EfficientTDNN) to improve inference efficiency while maintaining recognition accuracy. The proposed EfficientTDNN contains three phases. First, supernet design is to construct a dynamic neural architecture that consists of sequential cells and enables network pruning. Second, progressive training is to optimize randomly sampled subnets that inherit the weights of the supernet. Third, three search methods, including manual grid search, random search, and model predictive evolutionary search, are introduced to find a trade-off between accuracy and efficiency. Results of experiments on the VoxCeleb dataset show EfficientTDNN provides a huge search space including approximately $10^{13}$ subnets and achieves 1.66% EER and 0.156 DCF$_{0.01}$ with 565M MACs. Comprehensive investigation suggests that the trained supernet generalizes cells unseen during training and obtains an acceptable balance between accuracy and efficiency.
翻訳日:2021-03-26 13:31:03 公開日:2021-03-25
# ニューラルオーディオデータ処理のためのサブスペクトル正規化

SubSpectral Normalization for Neural Audio Data Processing ( http://arxiv.org/abs/2103.13620v1 )

ライセンス: Link先を確認
Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack Yun, Kyuwoong Hwang(参考訳) 畳み込みニューラルネットワークは様々な機械学習領域で広く使われている。 画像処理では、入力のすべての空間次元に2次元畳み込みを適用することで特徴を得ることができる。 しかし、音声の場合、Mel-Spectrogramのような周波数領域入力は周波数次元の異なるユニークな特性を持つ。 したがって、2次元畳み込み層が周波数次元を異なる方法で扱うことができる方法が必要となる。 本研究では,入力周波数次元を複数のグループ(サブバンド)に分割し,各グループに対して異なる正規化を行うサブスペクトル正規化(SSN)を提案する。 SSNはまた、各群に適用できるアフィン変換を含む。 本手法は周波数認識特性を学習中に周波数間偏向を除去する。 音声データを用いた実験では,SSNがネットワークの性能を効率的に向上できることがわかった。

Convolutional Neural Networks are widely used in various machine learning domains. In image processing, the features can be obtained by applying 2D convolution to all spatial dimensions of the input. However, in the audio case, frequency domain input like Mel-Spectrogram has different and unique characteristics in the frequency dimension. Thus, there is a need for a method that allows the 2D convolution layer to handle the frequency dimension differently. In this work, we introduce SubSpectral Normalization (SSN), which splits the input frequency dimension into several groups (sub-bands) and performs a different normalization for each group. SSN also includes an affine transformation that can be applied to each group. Our method removes the inter-frequency deflection while the network learns a frequency-aware characteristic. In the experiments with audio data, we observed that SSN can efficiently improve the network's performance.
翻訳日:2021-03-26 13:30:34 公開日:2021-03-25
# hufunet: 左側を透かしとして埋め込み、所有権確認のための正しいピースをディープニューラルネットワークに保持する

HufuNet: Embedding the Left Piece as Watermark and Keeping the Right Piece for Ownership Verification in Deep Neural Networks ( http://arxiv.org/abs/2103.13628v1 )

ライセンス: Link先を確認
Peizhuo Lv, Pan Li, Shengzhi Zhang, Kai Chen, Ruigang Liang, Yue Zhao, Yingjiu Li(参考訳) 高価値かつ大規模のディープニューラルネットワーク(DNN)の普及により、紛争や盗まれたDNNの所有権を検証できるように、DNNの知的財産権を保護することが重要となる。 既存のソリューションのほとんどは、DNNモデルのトレーニングにバックドアを埋め込んでおり、DNNのオーナシップは、秘密の入力セットで識別可能なモデル動作をトリガーすることで検証することができる。 しかし、そのようなソリューションは微調整や刈り取りのモデル化に弱い。 彼らはまた、攻撃者が敵のサンプルを発見し、それらを秘密の入力として使用して、盗まれたモデルから識別可能な行動を引き起こすという不正な所有権主張に悩まされている。 そこで本研究では,DNNモデルのオーナシップを保護するために,HufuNetという新しいDNN透かし方式を提案する。 我々は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を含む5つのDNNモデルを用いた4つのベンチマークデータセットを厳格に評価した。 実験では、HufuNetがモデルファインチューニング/プルーニング、カーネルのカットオフ/サプリメント、機能等価アタック、不正なオーナシップのクレームに対して非常に堅牢であることを示し、現実世界の大規模なDNNモデルを保護することを約束している。

Due to the wide use of highly-valuable and large-scale deep neural networks (DNNs), it becomes crucial to protect the intellectual property of DNNs so that the ownership of disputed or stolen DNNs can be verified. Most existing solutions embed backdoors in DNN model training such that DNN ownership can be verified by triggering distinguishable model behaviors with a set of secret inputs. However, such solutions are vulnerable to model fine-tuning and pruning. They also suffer from fraudulent ownership claim as attackers can discover adversarial samples and use them as secret inputs to trigger distinguishable behaviors from stolen models. To address these problems, we propose a novel DNN watermarking solution, named HufuNet, for protecting the ownership of DNN models. We evaluate HufuNet rigorously on four benchmark datasets with five popular DNN models, including convolutional neural network (CNN) and recurrent neural network (RNN). The experiments demonstrate HufuNet is highly robust against model fine-tuning/pruning, kernels cutoff/supplement, functionality-equivalent attack, and fraudulent ownership claims, thus highly promising to protect large-scale DNN models in the real-world.
翻訳日:2021-03-26 13:30:23 公開日:2021-03-25
# 計画による自発的学習

Self-Imitation Learning by Planning ( http://arxiv.org/abs/2103.13834v1 )

ライセンス: Link先を確認
Sha Luo, Hamidreza Kasaei, Lambert Schomaker(参考訳) イミテーションラーニング(IL)は、ロボットが専門家の知識を伝達することで、素早くスキルを習得することを可能にする。 しかし、長期移動計画タスクでは、IL法とRL法をデプロイする際の課題は、これらの手法が効果的に一般化できるように、大規模に分散したデータを生成・収集する方法である。 本研究では,提案手法であるSILP(Self-imitation Learning by Planning)を用いて,現在の政策から訪問した状態を計画することで,実演データを自動的に収集する手法を提案する。 SILPは,初期の強化学習段階の来訪状態がグラフ検索に基づく運動プランナの衝突のないノードであることから着想を得たものであり,政策学習の実証として,ロボット自身の試行を計画・実行することができる。 これらの自己生成デモにより、複雑な動作計画タスクの解決において、IL法やRL法が必要とする手間のかかるデータ準備プロセスから人間のオペレーターを解放する。 評価の結果,silp法は選択したベースラインよりも高い成功率を達成でき,サンプル効率が向上し,シミュレーションで学習したポリシーは,目標や障害が変化する実世界の配置課題において良好に機能することが示された。

Imitation learning (IL) enables robots to acquire skills quickly by transferring expert knowledge, which is widely adopted in reinforcement learning (RL) to initialize exploration. However, in long-horizon motion planning tasks, a challenging problem in deploying IL and RL methods is how to generate and collect massive, broadly distributed data such that these methods can generalize effectively. In this work, we solve this problem using our proposed approach called {self-imitation learning by planning (SILP)}, where demonstration data are collected automatically by planning on the visited states from the current policy. SILP is inspired by the observation that successfully visited states in the early reinforcement learning stage are collision-free nodes in the graph-search based motion planner, so we can plan and relabel robot's own trials as demonstrations for policy learning. Due to these self-generated demonstrations, we relieve the human operator from the laborious data preparation process required by IL and RL methods in solving complex motion planning tasks. The evaluation results show that our SILP method achieves higher success rates and enhances sample efficiency compared to selected baselines, and the policy learned in simulation performs well in a real-world placement task with changing goals and obstacles.
翻訳日:2021-03-26 13:29:21 公開日:2021-03-25
# 精神病コミュニティ治療の効果の計算機構 : 神経生物学から社会的相互作用へ

Computational Mechanism for the Effect of Psychosis Community Treatment: A Conceptual Review from Neurobiology to Social Interaction ( http://arxiv.org/abs/2103.13924v1 )

ライセンス: Link先を確認
David Benrimoh, Ely Sibarium, Andrew Sheldon, Albert Powers(参考訳) ポジティブな精神病症状の計算基盤が近年注目されている。 候補機構には、不適応優先のいくつかの組み合わせと、知覚中のこれらの先行の更新の削減が含まれる。 このようなメカニズムを持つモデルの潜在的な利点は、複数のレベルの説明をリンクする能力である。 これは精神病の経験を理解する方法を改善するための鍵です。 さらに, 第一原理からの新たな治療法の創出を可能にするメカニズムを提供することにより, より包括的な治療研究への道筋を示唆する。 これを実証するために,本稿では,従来の計算モデルから得られた知見を,早期精神病の専門病院やアサーティブ・コミュニティ治療など,強力な社会的要素を持つ重要かつ複雑なエビデンスベースの臨床介入に応用することについて論じる。 これらの介入は精神薬理学だけでなく、精神病を患う患者に構造と予測可能性を提供することも含んでいる。 この構造と予測可能性は、精神病の感覚情報に与えられる比較的低い精度と直接的に対応し、また、患者が提供者やプログラム自体の構造の形で外部認知リソースにアクセスできるようにする。 本稿では,患者の症状の減少を計算モデルがどのように説明するか,また,患者の症状に対する潜在的な反応や異なる介入に対する予測について論じる。 また,計算モデルの枠組み,患者の経験,神経生物学への介入に対する反応を結びつけた。

The computational underpinnings of positive psychotic symptoms have recently received significant attention. Candidate mechanisms include some combination of maladaptive priors and reduced updating of these priors during perception. A potential benefit of models with such mechanisms is their ability to link multiple levels of explanation. This is key to improving how we understand the experience of psychosis. Moreover, it points us towards more comprehensive avenues for therapeutic research by providing a putative mechanism that could allow for the generation of new treatments from first principles. In order to demonstrate this, our conceptual paper will discuss the application of the insights from previous computational models to an important and complex set of evidence-based clinical interventions with strong social elements, such as coordinated specialty care clinics in early psychosis and assertive community treatment. These interventions may include but also go beyond psychopharmacology, providing, we argue, structure and predictability for patients experiencing psychosis. We develop the argument that this structure and predictability directly counteract the relatively low precision afforded to sensory information in psychosis, while also providing the patient more access to external cognitive resources in the form of providers and the structure of the programs themselves. We discuss how computational models explain the resulting reduction in symptoms, as well as the predictions these models make about potential responses of patients to modifications or to different variations of these interventions. We also link, via the framework of computational models, the experiences of patients and response to interventions to putative neurobiology.
翻訳日:2021-03-26 13:29:00 公開日:2021-03-25
# タスク指向低線量ct画像のデノージング

Task-Oriented Low-Dose CT Image Denoising ( http://arxiv.org/abs/2103.13557v1 )

ライセンス: Link先を確認
Jiajin Zhang, Hanqing Chao, Xuanang Xu, Chuang Niu, Ge Wang and Pingkun Yan(参考訳) 医療用CTの広範な使用は、患者への放射線線量に対する一般の関心を高めている。 放射線線量を減らすことでCT画像のノイズやアーティファクトが増加し、放射線技師の判断だけでなく、下流の医療画像解析タスクのパフォーマンスにも悪影響を及ぼす可能性がある。 様々な低用量CT法、特に最近のディープラーニングに基づくアプローチは、驚くべき結果をもたらしている。 しかし、既存のdenoisingメソッドはすべてダウンストリームタスクに依存しず、ダウンストリームアプリケーションのさまざまなニーズを無視している。 本稿では,下流タスクの知識を活かしたタスク指向のネットワーク(TOD-Net)を提案する。 総合的な実証分析により、タスク指向の損失は他のタスク非依存の損失を補完し、興味のあるタスク関連領域の画質を高めるためにデノイザを操ることが示される。 このような強化は、ダウンストリームタスクの様々なメソッドのパフォーマンスを全般的に向上させる。 提示された研究は、コンテキスト認識画像のデノイジング手法の将来の発展に光を当てるかもしれない。

The extensive use of medical CT has raised a public concern over the radiation dose to the patient. Reducing the radiation dose leads to increased CT image noise and artifacts, which can adversely affect not only the radiologists judgement but also the performance of downstream medical image analysis tasks. Various low-dose CT denoising methods, especially the recent deep learning based approaches, have produced impressive results. However, the existing denoising methods are all downstream-task-agnostic and neglect the diverse needs of the downstream applications. In this paper, we introduce a novel Task-Oriented Denoising Network (TOD-Net) with a task-oriented loss leveraging knowledge from the downstream tasks. Comprehensive empirical analysis shows that the task-oriented loss complements other task agnostic losses by steering the denoiser to enhance the image quality in the task related regions of interest. Such enhancement in turn brings general boosts on the performance of various methods for the downstream task. The presented work may shed light on the future development of context-aware image denoising methods.
翻訳日:2021-03-26 13:27:36 公開日:2021-03-25
# STA-VPR:視覚的位置認識のための時空間アライメント

STA-VPR: Spatio-temporal Alignment for Visual Place Recognition ( http://arxiv.org/abs/2103.13580v1 )

ライセンス: Link先を確認
Feng Lu, Baifan Chen, Xiang-Dong Zhou and Dezhen Song(参考訳) 近年,視覚的位置認識(VPR)分野において,畳み込みニューラルネットワーク(CNN)に基づく手法が普及している。 特に、cnnの中間層からの機能は、手作りの特徴や高層特徴よりも、劇的な外観変化に対してより堅牢である。 残念ながら、全体的な中間層機能は大きな視点の変更に対する堅牢性に欠ける。 そこで本研究では,局所的な特徴を局所的特徴に分割し,空間領域からの局所的特徴を2つの画像間の距離を計測し,適応動的時間ワープ(DTW)アルゴリズムを提案する。 これにより、視点不変および条件不変の場所認識を実現する。 一方、時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTW(LM-DTW)アルゴリズムを適用し、さらなる改善と線形時間複雑性を保証する。 5つの代表的なVPRデータセットについて広範な実験を行った。 その結果,提案手法はcnnに基づく手法を大幅に改善した。 さらに,本手法は,実行時の性能を維持しつつ,いくつかの最先端メソッドよりも優れている。 この作業は、VPRの再トレーニングなしでCNNメソッドのパフォーマンスを向上させる新しい方法を提供する。 コードはhttps://github.com/Lu-Feng/STA-VPRで公開されている。

Recently, the methods based on Convolutional Neural Networks (CNNs) have gained popularity in the field of visual place recognition (VPR). In particular, the features from the middle layers of CNNs are more robust to drastic appearance changes than handcrafted features and high-layer features. Unfortunately, the holistic mid-layer features lack robustness to large viewpoint changes. Here we split the holistic mid-layer features into local features, and propose an adaptive dynamic time warping (DTW) algorithm to align local features from the spatial domain while measuring the distance between two images. This realizes viewpoint-invariant and condition-invariant place recognition. Meanwhile, a local matching DTW (LM-DTW) algorithm is applied to perform image sequence matching based on temporal alignment, which achieves further improvements and ensures linear time complexity. We perform extensive experiments on five representative VPR datasets. The results show that the proposed method significantly improves the CNN-based methods. Moreover, our method outperforms several state-of-the-art methods while maintaining good run-time performance. This work provides a novel way to boost the performance of CNN methods without any re-training for VPR. The code is available at https://github.com/Lu-Feng/STA-VPR.
翻訳日:2021-03-26 13:27:19 公開日:2021-03-25
# JDSR-GAN:仮面超解法のための共同協調学習ネットワークの構築

JDSR-GAN: Constructing A Joint and Collaborative Learning Network for Masked Face Super-Resolution ( http://arxiv.org/abs/2103.13676v1 )

ライセンス: Link先を確認
Guangwei Gao, Lei Tang, Yi Yu, Fei Wu, Huimin Lu, Jian Yang(参考訳) 新型コロナウイルス(covid-19)の予防の重要性が高まる中、ほとんどのビデオ監視シナリオで得られた顔画像は、同時にマスクで解像度が低い。 しかし、これまでのスーパーレゾリューションソリューションのほとんどは、1つのモデルで両方のタスクを処理できない。 本研究では,マスク閉塞を画像ノイズとして扱うとともに,マスク付き顔超解像処理のための共同学習ネットワークJDSR-GANを構築する。 マスクを入力とする低品質の顔画像が与えられると、デノイジングモジュールとスーパーレゾリューションモジュールとからなるジェネレータの役割は、高品質の高解像度顔画像を取得することである。 判別器は、回収された顔画像の品質を確保するために注意深く設計された損失機能を利用する。 さらに,このアイデンティティ情報と注意機構をネットワークに組み込んで,特徴表現と情報的特徴学習を可能とした。 認知と超解像を共同で行うことにより、2つのタスクは互いに補完し、有望なパフォーマンスを達成することができる。 JDSR-GANは,従来の2つのタスクを別々に実行する手法よりも優れていることを示す。

With the growing importance of preventing the COVID-19 virus, face images obtained in most video surveillance scenarios are low resolution with mask simultaneously. However, most of the previous face super-resolution solutions can not handle both tasks in one model. In this work, we treat the mask occlusion as image noise and construct a joint and collaborative learning network, called JDSR-GAN, for the masked face super-resolution task. Given a low-quality face image with the mask as input, the role of the generator composed of a denoising module and super-resolution module is to acquire a high-quality high-resolution face image. The discriminator utilizes some carefully designed loss functions to ensure the quality of the recovered face images. Moreover, we incorporate the identity information and attention mechanism into our network for feasible correlated feature expression and informative feature learning. By jointly performing denoising and face super-resolution, the two tasks can complement each other and attain promising performance. Extensive qualitative and quantitative results show the superiority of our proposed JDSR-GAN over some comparable methods which perform the previous two tasks separately.
翻訳日:2021-03-26 13:27:03 公開日:2021-03-25
# 3D3L:LiDARの深層学習によるキーポイント検出と記述

3D3L: Deep Learned 3D Keypoint Detection and Description for LiDARs ( http://arxiv.org/abs/2103.13808v1 )

ライセンス: Link先を確認
Dominc Streiff, Lukas Bernreiter, Florian Tschopp, Marius Fehr, Roland Siegwart(参考訳) 強力で軽量な3D LiDARが登場し、様々な自律システムにおける多くのナビゲーションとSLAMアルゴリズムの好機となった。 ICPのような非構造化のポイントクラウドを扱うポイントクラウド登録手法は、しばしば計算コストがかかる。 さらに、3D特徴量に基づく登録手法は、視覚SLAMにおける2D手法の堅牢性には達していない。 LiDARレンジ画像の解像度が継続的に高められているため、これらの2D手法は適用できるだけでなく、奥行きや強度など、それに伴う照明に依存しないモダリティを活用すべきである。 ビジュアルSLAMでは、ディープラーニングの2D特徴と記述子は従来の手法に比べて非常によく機能する。 本稿では,3d3lの基盤として最先端の2d特徴ネットワークを用い,lidarレンジ画像の強度と深さを活用し,強力な3d特徴を抽出する。 以上の結果から,LiDARスキャン画像から抽出したこれらのキーポイントとディスクリプタは,異なるベンチマーク指標で精度良く動作し,ロバストなスキャン・スキャンアライメントとグローバルなローカライゼーションを可能にした。

With the advent of powerful, light-weight 3D LiDARs, they have become the hearth of many navigation and SLAM algorithms on various autonomous systems. Pointcloud registration methods working with unstructured pointclouds such as ICP are often computationally expensive or require a good initial guess. Furthermore, 3D feature-based registration methods have never quite reached the robustness of 2D methods in visual SLAM. With the continuously increasing resolution of LiDAR range images, these 2D methods not only become applicable but should exploit the illumination-independent modalities that come with it, such as depth and intensity. In visual SLAM, deep learned 2D features and descriptors perform exceptionally well compared to traditional methods. In this publication, we use a state-of-the-art 2D feature network as a basis for 3D3L, exploiting both intensity and depth of LiDAR range images to extract powerful 3D features. Our results show that these keypoints and descriptors extracted from LiDAR scan images outperform state-of-the-art on different benchmark metrics and allow for robust scan-to-scan alignment as well as global localization.
翻訳日:2021-03-26 13:26:47 公開日:2021-03-25
# 欠落データに対する堅牢性を備えたディープラーニング: 新型コロナウイルス検出のための新しいアプローチ

Deep Learning with robustness to missing data: A novel approach to the detection of COVID-19 ( http://arxiv.org/abs/2103.13833v1 )

ライセンス: Link先を確認
Erdi \c{C}all{\i}, Keelin Murphy, Steef Kurstjens, Tijs Samson, Robert Herpers, Henk Smits, Matthieu Rutten and Bram van Ginneken(参考訳) 近年の世界的なパンデミックとRT-PCR検査の限界の中で、実験室と胸部X線を用いた新型コロナウイルス検出のための新しいディープラーニングアーキテクチャDFCN(Denoising Fully Connected Network)を提案する。 世界中の医療施設は実験室検査や胸部画像撮影で大きく異なるため、DFCNは入力データの欠落に対して堅牢であるように設計されている。 アブレーション研究は、DFCNアーキテクチャの性能上の利点と、欠落した入力に対する堅牢性を広く評価する。 RT-PCR結果が確認された1088例のデータは2つの独立した医療施設から得られた。 収集されたデータは、27の実験実験結果と、深層学習ネットワークによって記録された胸部x線とを含む。 トレーニングとテストデータセットは、ソース医療施設に基づいて定義される。 データは公開されている。 RT-PCR結果の予測におけるDFCNの性能は,Random Forestベースラインと関連する3つのアーキテクチャと比較した。 すべてのモデルは、不足した入力に対する堅牢性を促進するために、さまざまなレベルのマスキング入力データでトレーニングされる。 ミスデータはランダムに入力をマスキングすることでテスト時にシミュレートされる。 受信操作曲線(AUC)の下の領域をメートル法として、DFCNは2-27個の入力を持つランダムな入力データのサブセットを用いて、統計的に有意な他のモデルよりも優れている。 28個の入力がすべて利用可能である場合、DFCNは他のモデルよりも高い0.924のAUCが得られる。 さらに、DFCNは、それぞれ6と7の入力からなるパラメータの臨床的に有意なサブセットで、他のどのモデルよりも高いAUCを達成し、0.909と0.919の値である。

In the context of the current global pandemic and the limitations of the RT-PCR test, we propose a novel deep learning architecture, DFCN, (Denoising Fully Connected Network) for the detection of COVID-19 using laboratory tests and chest x-rays. Since medical facilities around the world differ enormously in what laboratory tests or chest imaging may be available, DFCN is designed to be robust to missing input data. An ablation study extensively evaluates the performance benefits of the DFCN architecture as well as its robustness to missing inputs. Data from 1088 patients with confirmed RT-PCR results are obtained from two independent medical facilities. The data collected includes results from 27 laboratory tests and a chest x-ray scored by a deep learning network. Training and test datasets are defined based on the source medical facility. Data is made publicly available. The performance of DFCN in predicting the RT-PCR result is compared with 3 related architectures as well as a Random Forest baseline. All models are trained with varying levels of masked input data to encourage robustness to missing inputs. Missing data is simulated at test time by masking inputs randomly. Using area under the receiver operating curve (AUC) as a metric, DFCN outperforms all other models with statistical significance using random subsets of input data with 2-27 available inputs. When all 28 inputs are available DFCN obtains an AUC of 0.924, higher than achieved by any other model. Furthermore, with clinically meaningful subsets of parameters consisting of just 6 and 7 inputs respectively, DFCN also achieves higher AUCs than any other model, with values of 0.909 and 0.919.
翻訳日:2021-03-26 13:26:25 公開日:2021-03-25
# ScanGAN360: 360$^{\circ}$画像のための実写Scanpathの生成モデル

ScanGAN360: A Generative Model of Realistic Scanpaths for 360$^{\circ}$ Images ( http://arxiv.org/abs/2103.13922v1 )

ライセンス: Link先を確認
Daniel Martin, Ana Serrano, Alexander W. Bergman, Gordon Wetzstein, Belen Masia(参考訳) 360$^\circ$環境における人間の視線行動のダイナミクスの理解とモデリングは、コンピュータビジョンと仮想現実において重要な課題である。 生成的敵対的アプローチは、見えない画像のスキャンパスを多数生成することで、この課題を軽減することができる。 しかし、既存のスキャンパス生成法は、360$^\circ$画像の現実的なスキャンパスを適切に予測していない。 ScanGAN360は、この課題に対処するための新たな生成的対逆アプローチである。 私たちのネットワークジェネレータは没入環境を表す360$^\circ$イメージの仕様に合わせて調整されています。 具体的には,動的時間ゆがみの球面適応を損失関数として利用し,360$^\circ$スカンパスの新しいパラメータ化を提案する。 私たちのスキャンパスの品質は、競合するアプローチを大きなマージンで上回り、人間のベースラインとほぼ同等です。 ScanGAN360は、実際のユーザを模倣する多数の仮想オブザーバの高速なシミュレーションを可能にし、仮想シーン設計における視線行動と新しい応用の理解を深める。

Understanding and modeling the dynamics of human gaze behavior in 360$^\circ$ environments is a key challenge in computer vision and virtual reality. Generative adversarial approaches could alleviate this challenge by generating a large number of possible scanpaths for unseen images. Existing methods for scanpath generation, however, do not adequately predict realistic scanpaths for 360$^\circ$ images. We present ScanGAN360, a new generative adversarial approach to address this challenging problem. Our network generator is tailored to the specifics of 360$^\circ$ images representing immersive environments. Specifically, we accomplish this by leveraging the use of a spherical adaptation of dynamic-time warping as a loss function and proposing a novel parameterization of 360$^\circ$ scanpaths. The quality of our scanpaths outperforms competing approaches by a large margin and is almost on par with the human baseline. ScanGAN360 thus allows fast simulation of large numbers of virtual observers, whose behavior mimics real users, enabling a better understanding of gaze behavior and novel applications in virtual scene design.
翻訳日:2021-03-26 13:25:58 公開日:2021-03-25
# メモリ埋め込みによる深層コントラスト学習の再考

Rethinking Deep Contrastive Learning with Embedding Memory ( http://arxiv.org/abs/2103.14003v1 )

ライセンス: Link先を確認
Haozhi Zhang, Xun Wang, Weilin Huang, Matthew R. Scott(参考訳) ペアワイズ損失関数は広く研究され、dml(deep metric learning)のパフォーマンスを継続的に改善することが示されている。 しかし、それらは主に単純なおもちゃの例に基づく直感で設計されており、実世界の複雑なケースでは、真に効果的なデザインを実験的に識別することは困難である。 本稿では,様々な対方向損失関数の重み付け戦略を体系的に研究する新しい手法を提案し,埋め込みメモリを用いた重み付けを再考する。 重み付け機構をペアワイズ関数を分解して検討し,直接重み割り当てを用いて正負の重み付けを分離して検討する。 これにより、様々な重み付け関数を、重み曲線を通じて深く体系的に研究することができ、メモリベースのdmlにおける重要な観察結果となった、有意義で包括的で洞察に富んだ事実を多数特定できます。 これにより、重み付け方式を設計するための効率的だが驚くほど単純な規則となり、様々な高度な損失関数を設計して重み付けを慎重に設計する既存のミニバッチ方式とは大きく異なる。 最後に,3つの大規模ビジュアル検索ベンチマークについて広範な実験を行い,近年のミニバッチ方式よりもメモリベースDMLの方が優れていることを示す。

Pair-wise loss functions have been extensively studied and shown to continuously improve the performance of deep metric learning (DML). However, they are primarily designed with intuition based on simple toy examples, and experimentally identifying the truly effective design is difficult in complicated, real-world cases. In this paper, we provide a new methodology for systematically studying weighting strategies of various pair-wise loss functions, and rethink pair weighting with an embedding memory. We delve into the weighting mechanisms by decomposing the pair-wise functions, and study positive and negative weights separately using direct weight assignment. This allows us to study various weighting functions deeply and systematically via weight curves, and identify a number of meaningful, comprehensive and insightful facts, which come up with our key observation on memory-based DML: it is critical to mine hard negatives and discard easy negatives which are less informative and redundant, but weighting on positive pairs is not helpful. This results in an efficient but surprisingly simple rule to design the weighting scheme, making it significantly different from existing mini-batch based methods which design various sophisticated loss functions to weight pairs carefully. Finally, we conduct extensive experiments on three large-scale visual retrieval benchmarks, and demonstrate the superiority of memory-based DML over recent mini-batch based approaches, by using a simple contrastive loss with momentum-updated memory.
翻訳日:2021-03-26 13:25:40 公開日:2021-03-25
# 深ブラインド画像超解像のための実用的劣化モデルの設計

Designing a Practical Degradation Model for Deep Blind Image Super-Resolution ( http://arxiv.org/abs/2103.14006v1 )

ライセンス: Link先を確認
Kai Zhang, Jingyun Liang, Luc Van Gool, Radu Timofte(参考訳) 単一画像のスーパーレゾリューション (sisr) 法は, 推定劣化モデルが実画像から逸脱した場合はうまく機能しないと広く認識されている。 いくつかの劣化モデルは、ぼやけなどの追加要因を考慮に入れているが、実際の画像の多様な劣化をカバーできるほど効果がない。 そこで本稿では, ランダムにシャッフルされたボウ, ダウンサンプリング, ノイズ劣化からなる, より複雑で実用的な劣化モデルを提案する。 具体的には、ボウを等方性と異方性のあるガウス核を持つ2つの畳み込みにより近似し、最寄り、双線形及びバイキュビック補間からランダムにサンプリングし、ノイズを異なるノイズレベルのガウスノイズを加え、異なる品質要因でJPEG圧縮を適用し、逆向きカメラ画像信号処理(ISP)パイプラインモデルとRAW画像ノイズモデルにより処理されたカメラセンサノイズを生成する。 新しい劣化モデルの有効性を検証するため,我々は深部ブラインドESRGANスーパーリゾルバを訓練し,様々な劣化を伴う合成画像と実画像の両方の超リゾルバに応用した。 実験結果から, 新しい劣化モデルにより, ディープ・スーパーリゾルバの実用性を大幅に向上させることができることがわかった。

It is widely acknowledged that single image super-resolution (SISR) methods would not perform well if the assumed degradation model deviates from those in real images. Although several degradation models take additional factors into consideration, such as blur, they are still not effective enough to cover the diverse degradations of real images. To address this issue, this paper proposes to design a more complex but practical degradation model that consists of randomly shuffled blur, downsampling and noise degradations. Specifically, the blur is approximated by two convolutions with isotropic and anisotropic Gaussian kernels; the downsampling is randomly chosen from nearest, bilinear and bicubic interpolations; the noise is synthesized by adding Gaussian noise with different noise levels, adopting JPEG compression with different quality factors, and generating processed camera sensor noise via reverse-forward camera image signal processing (ISP) pipeline model and RAW image noise model. To verify the effectiveness of the new degradation model, we have trained a deep blind ESRGAN super-resolver and then applied it to super-resolve both synthetic and real images with diverse degradations. The experimental results demonstrate that the new degradation model can help to significantly improve the practicability of deep super-resolvers, thus providing a powerful alternative solution for real SISR applications.
翻訳日:2021-03-26 13:25:16 公開日:2021-03-25
# トランスフォーマーを用いた高忠実度多元性画像補完

High-Fidelity Pluralistic Image Completion with Transformers ( http://arxiv.org/abs/2103.14031v1 )

ライセンス: Link先を確認
Ziyu Wan and Jingbo Zhang and Dongdong Chen and Jing Liao(参考訳) 画像補完は、強力なテクスチャモデリング能力のため、畳み込みニューラルネットワーク(CNN)で大幅に進歩した。 しかし、いくつかの固有の性質(例えば、局所帰納前、空間不変カーネルなど)のため、CNNはグローバル構造を理解したり、多元的完備化を自然にサポートしない。 近年、変換器は長期的な関係をモデル化し、様々な結果を生成する能力を示しているが、計算の複雑さは入力長に2次的であるため、高解像度画像処理の応用を妨げている。 本稿では, トランスフォーマーによる外観先行復元とcnnによるテクスチャ補足という多元的画像補完に, 両世界のベストをもたらす。 前者は粗いテクスチャとともに多元的コヒーレント構造を復元し、後者のCNNは高分解能マスク画像によって導かれる粗い前の局所的なテクスチャの詳細を強化する。 提案手法は,(1)決定論的補完法と比較して画像忠実度が大幅に向上する,2)多元的補完に対する多様性と高い忠実度,3)大規模マスクと汎用データセットに対する例外的な一般化能力,の3つの点で最先端手法を大きく上回っている。

Image completion has made tremendous progress with convolutional neural networks (CNNs), because of their powerful texture modeling capacity. However, due to some inherent properties (e.g., local inductive prior, spatial-invariant kernels), CNNs do not perform well in understanding global structures or naturally support pluralistic completion. Recently, transformers demonstrate their power in modeling the long-term relationship and generating diverse results, but their computation complexity is quadratic to input length, thus hampering the application in processing high-resolution images. This paper brings the best of both worlds to pluralistic image completion: appearance prior reconstruction with transformer and texture replenishment with CNN. The former transformer recovers pluralistic coherent structures together with some coarse textures, while the latter CNN enhances the local texture details of coarse priors guided by the high-resolution masked images. The proposed method vastly outperforms state-of-the-art methods in terms of three aspects: 1) large performance boost on image fidelity even compared to deterministic completion methods; 2) better diversity and higher fidelity for pluralistic completion; 3) exceptional generalization ability on large masks and generic dataset, like ImageNet.
翻訳日:2021-03-26 13:24:48 公開日:2021-03-25
# 知的エッセイスコアリングとフィードバックシステムに関するエンジニアリング--経験報告

Engineering an Intelligent Essay Scoring and Feedback System: An Experience Report ( http://arxiv.org/abs/2103.13590v1 )

ライセンス: Link先を確認
Akriti Chadda, Kelly Song, Raman Chandrasekar, Ian Gorton(参考訳) 人工知能(AI) / 機械学習(ML)ベースのシステムは、コアビジネスサービスの自動化と拡張を可能にする商用ソリューションとして広く求められている。 インテリジェントシステムは提供されたサービスの品質を改善し、自動化によるスケーラビリティをサポートする。 本稿では,特別採用支援サービスの顧客から提供されたエッセイの品質評価のための探索システムの設計経験について述べる。 問題領域は、オープンエンドの顧客供給のソーステキストが曖昧さとエラーに対してかなりのスコープを持っているため、分析のモデルの構築が難しいため、困難である。 また、インテリジェントな処理システムに専門的なビジネスドメインの知識を組み込む必要もあります。 これらの課題に対処するため、クラウドベースの機械学習モデルを試行し、それらをアプリケーション固有の処理パイプラインに構成しました。 この設計により、より多くのデータと改良された技術が利用可能になると、基礎となるアルゴリズムの変更が可能になる。 すなわち、モデルの品質管理を確認し、ソフトウェアをテストし、計算に高価なMLモデルをクラウドにデプロイすることです。

Artificial Intelligence (AI) / Machine Learning (ML)-based systems are widely sought-after commercial solutions that can automate and augment core business services. Intelligent systems can improve the quality of services offered and support scalability through automation. In this paper we describe our experience in engineering an exploratory system for assessing the quality of essays supplied by customers of a specialized recruitment support service. The problem domain is challenging because the open-ended customer-supplied source text has considerable scope for ambiguity and error, making models for analysis hard to build. There is also a need to incorporate specialized business domain knowledge into the intelligent processing systems. To address these challenges, we experimented with and exploited a number of cloud-based machine learning models and composed them into an application-specific processing pipeline. This design allows for modification of the underlying algorithms as more data and improved techniques become available. We describe our design, and the main challenges we faced, namely keeping a check on the quality control of the models, testing the software and deploying the computationally expensive ML models on the cloud.
翻訳日:2021-03-26 13:23:24 公開日:2021-03-25
# 空間フィルタ型てんかん性ECoGにおける波形の探索

Searching for waveforms on spatially-filtered epileptic ECoG ( http://arxiv.org/abs/2103.13853v1 )

ライセンス: Link先を確認
Carlos H. Mendoza-Cardenas and Austin J. Brockmeier(参考訳) シーズーレはてんかん患者において決定的な症状の1つであり、未発表の症状のため、患者に深刻な危険を及ぼす可能性がある。 新しい研究は差し迫った発作の予測と先延ばしに有望な未来を示しており、これらの取り組みにより、発作予測アルゴリズムに広範囲で多様な機能セットが提案されている。 しかし、発作予測のための非正弦波波形のデータ駆動による発見は、神経振動の波形形態と脳の生理・病態との密接な関係を示す最近の研究と対照的に、特にてんかん患者のてんかん患者の脳電図(ECoG)記録における正常な振動と異常な振動とを効果的に識別するために用いられる文献に欠けている。 本稿では,空間計画型連続マルチデイECoGデータセットにおける拡張性,エネルギー誘導型波形探索手法について検討する。 我々の研究は、データ駆動波形学習法が、発作予測の予測力に寄与するだけでなく、発作の病態や病因の理解に寄与する振動パターンの発見を促進する可能性があることを示唆している。

Seizures are one of the defining symptoms in patients with epilepsy, and due to their unannounced occurrence, they can pose a severe risk for the individual that suffers it. New research efforts are showing a promising future for the prediction and preemption of imminent seizures, and with those efforts, a vast and diverse set of features have been proposed for seizure prediction algorithms. However, the data-driven discovery of nonsinusoidal waveforms for seizure prediction is lacking in the literature, which is in stark contrast with recent works that show the close connection between the waveform morphology of neural oscillations and the physiology and pathophysiology of the brain, and especially its use in effectively discriminating between normal and abnormal oscillations in electrocorticographic (ECoG) recordings of epileptic patients. Here, we explore a scalable, energy-guided waveform search strategy on spatially-projected continuous multi-day ECoG data sets. Our work shows that data-driven waveform learning methods have the potential to not only contribute features with predictive power for seizure prediction, but also to facilitate the discovery of oscillatory patterns that could contribute to our understanding of the pathophysiology and etiology of seizures.
翻訳日:2021-03-26 13:22:48 公開日:2021-03-25
# エッジデバイスのためのフォワードパスによるインクリメンタルトレーニング

Enabling Incremental Training with Forward Pass for Edge Devices ( http://arxiv.org/abs/2103.14007v1 )

ライセンス: Link先を確認
Dana AbdulQader, Shoba Krishnan, Claudionor N. Coelho Jr(参考訳) ディープニューラルネットワーク(DNN)は、常に変化する環境に存在するエンドデバイスに一般的にデプロイされる。 システムの精度を維持するためには、ネットワークの一部を再トレーニングすることで変更に適応し、回復できることが重要である。 しかし、エンドデバイスはリソースが限られており、同じデバイスでトレーニングすることは困難である。 さらに、深層ニューラルネットワークのトレーニングは、バックプロパゲーションアルゴリズムによるメモリと計算集約の両方である。 本稿では,進化戦略(ES)を用いてネットワークを部分的に再トレーニングし,エラー発生後に変更に適応し,回復できるようにする手法を提案する。 この技術は、バックプロパゲーションを必要とせず、最小限のリソースオーバーヘッドで推論専用ハードウェアのトレーニングを可能にする。 我々は,入力にノイズを注入した後,量子化されたMNISTニューラルネットワークを再学習する手法を実証する。 さらに,HLS4ML(推論ハードウェアアーキテクチャ)のトレーニングを可能とし,Verilogで実装するために必要なマイクロアーキテクチャを提案する。 我々は,xilinx kintex ultrascale field programmable gate array (fpga)の実装を合成し,インクリメンタルトレーニングを実現するために必要なリソース利用率を1%以下に抑えた。

Deep Neural Networks (DNNs) are commonly deployed on end devices that exist in constantly changing environments. In order for the system to maintain it's accuracy, it is critical that it is able to adapt to changes and recover by retraining parts of the network. However, end devices have limited resources making it challenging to train on the same device. Moreover, training deep neural networks is both memory and compute intensive due to the backpropagation algorithm. In this paper we introduce a method using evolutionary strategy (ES) that can partially retrain the network enabling it to adapt to changes and recover after an error has occurred. This technique enables training on an inference-only hardware without the need to use backpropagation and with minimal resource overhead. We demonstrate the ability of our technique to retrain a quantized MNIST neural network after injecting noise to the input. Furthermore, we present the micro-architecture required to enable training on HLS4ML (an inference hardware architecture) and implement it in Verilog. We synthesize our implementation for a Xilinx Kintex Ultrascale Field Programmable Gate Array (FPGA) resulting in less than 1% resource utilization required to implement the incremental training.
翻訳日:2021-03-26 13:22:24 公開日:2021-03-25
# 医用画像を用いた腫瘍部分領域解析における人工知能

Artificial Intelligence in Tumor Subregion Analysis Based on Medical Imaging: A Review ( http://arxiv.org/abs/2103.13588v1 )

ライセンス: Link先を確認
Mingquan Lin, Jacob Wynne, Yang Lei, Tonghe Wang, Walter J. Curran, Tian Liu, Xiaofeng Yang(参考訳) 医用画像はがんの診断や治療に広く使われており、人工知能(AI)は医療画像解析の様々なタスクで大きな成功を収めている。 本稿では,医療画像におけるAIを用いた腫瘍サブリージョン解析についてレビューする。 腫瘍領域解析のための最新のAIベースの手法とその応用について要約する。 具体的には、AIベースの手法をトレーニング戦略によって分類する。 各カテゴリの詳細なレビューが提示され、重要な貢献と成果が強調されている。 腫瘍亜領域解析における具体的な課題と潜在的なAI応用について論じる。

Medical imaging is widely used in cancer diagnosis and treatment, and artificial intelligence (AI) has achieved tremendous success in various tasks of medical image analysis. This paper reviews AI-based tumor subregion analysis in medical imaging. We summarize the latest AI-based methods for tumor subregion analysis and their applications. Specifically, we categorize the AI-based methods by training strategy: supervised and unsupervised. A detailed review of each category is presented, highlighting important contributions and achievements. Specific challenges and potential AI applications in tumor subregion analysis are discussed.
翻訳日:2021-03-26 13:21:49 公開日:2021-03-25
# 乱流のデータ駆動閉包のための構造的ディープカーネルネットワーク

Structured Deep Kernel Networks for Data-Driven Closure Terms of Turbulent Flows ( http://arxiv.org/abs/2103.13655v1 )

ライセンス: Link先を確認
Tizian Wenzel, Marius Kurz, Andrea Beck, Gabriele Santin, Bernard Haasdonk(参考訳) 機械学習の標準的なカーネルメソッドは通常、大規模なデータセットを扱う際に苦労する。 本稿では,高次元および大規模データセットを処理可能な構造的深層カーネルネットワーク(sdkn)アプローチについて検討し,一般的な機械学習近似特性を享受する。 SDKNを拡張して、標準的な機械学習モジュールと組み合わせて、乱流のクロージャ項のデータ駆動予測の科学的課題について、ニューラルネットワークと比較する。 実験により、SDKNは大きなデータセットを処理でき、与えられたアプリケーションに対してほぼ完璧な精度を達成できることを示した。

Standard kernel methods for machine learning usually struggle when dealing with large datasets. We review a recently introduced Structured Deep Kernel Network (SDKN) approach that is capable of dealing with high-dimensional and huge datasets - and enjoys typical standard machine learning approximation properties. We extend the SDKN to combine it with standard machine learning modules and compare it with Neural Networks on the scientific challenge of data-driven prediction of closure terms of turbulent flows. We show experimentally that the SDKNs are capable of dealing with large datasets and achieve near-perfect accuracy on the given application.
翻訳日:2021-03-26 13:21:13 公開日:2021-03-25
# runge-kuttaニューラルネットワークによるモデルオーダーの削減

Model Order Reduction based on Runge-Kutta Neural Network ( http://arxiv.org/abs/2103.13805v1 )

ライセンス: Link先を確認
Qinyu Zhuang, Juan Manuel Lorenzi, Hans-Joachim Bungartz, Dirk Hartmann(参考訳) モデルオーダリダクション(mor)メソッドは、リアルタイム対応可能なデジタルツインの生成を可能にし、業界におけるさまざまな新しいバリューストリームを可能にする。 従来のプロジェクションベースの手法は線形問題に対して堅牢で正確であるが、非線形性に機械学習を組み込むことは、複雑な問題を減らすための新しい選択肢となっている。 通常は2つの段階からなる。 第1段階は投影法により次元を縮小し,第2段階はニューラルネットワークによるモデル再構成である。 本研究は,両ステップの修正をそれぞれ適用し,3つのシミュレーションモデルによるテストによってどのように影響を受けるかを検討する。 いずれの場合も、適切な直交分解(POD)は次元の減少に使用される。 このステップでは、一定の入力パラメータで入力スナップショットデータベースを生成する効果を、時間依存の入力パラメータと比較する。 モデル再構成ステップでは,多層パーセプトロン (mlp) とrunge-kuttaニューラルネットワーク (rknn) の2種類のニューラルネットワークアーキテクチャを比較した。 MLPはシステム状態を直接学習し、RKNNはシステム状態の微分を学習し、新しい状態をRunge-Kutta積分器として予測する。

Model Order Reduction (MOR) methods enable the generation of real-time-capable digital twins, which can enable various novel value streams in industry. While traditional projection-based methods are robust and accurate for linear problems, incorporating Machine Learning to deal with nonlinearity becomes a new choice for reducing complex problems. Such methods usually consist of two steps. The first step is dimension reduction by projection-based method, and the second is the model reconstruction by Neural Network. In this work, we apply some modifications for both steps respectively and investigate how they are impacted by testing with three simulation models. In all cases Proper Orthogonal Decomposition (POD) is used for dimension reduction. For this step, the effects of generating the input snapshot database with constant input parameters is compared with time-dependent input parameters. For the model reconstruction step, two types of neural network architectures are compared: Multilayer Perceptron (MLP) and Runge-Kutta Neural Network (RKNN). The MLP learns the system state directly while RKNN learns the derivative of system state and predicts the new state as a Runge-Kutta integrator.
翻訳日:2021-03-26 13:21:03 公開日:2021-03-25
# スペクトルCT多元分解のためのサブサンプリングニュートン法による正則化

Regularization by Denoising Sub-sampled Newton Method for Spectral CT Multi-Material Decomposition ( http://arxiv.org/abs/2103.13909v1 )

ライセンス: Link先を確認
Alessandro Perelli, Martin S. Andersen(参考訳) 分光CT(Spectral Computed Tomography)は、異なる光子エネルギースペクトルを利用して走査対象物中の基底物質の濃度を推定できる新興技術である。 本研究では,マルチマテリアル画像の再構成とスペクトルCTへの応用をモデルベースで効率的に行うことを目的とする。 特に,ランダム化二階法を用いて,プラグインイメージデオライズ関数に基づく正則化最適化問題を解くことを提案する。 確率関数のヘシアンのスケッチを用いてニュートンステップを近似することにより、データ駆動正規化器によって与えられる複雑な事前構造を維持しながら複雑さを低減できる。 我々は,非一様ブロックのヘッセン部分サンプリングを,ジャコビアンベクトル積のみを必要とする非コンパクトだが効率的な共役勾配更新で活用する。 最後に,スペクトルct材料の分解に関する数値的および実験的結果を示す。

Spectral Computed Tomography (CT) is an emerging technology that enables to estimate the concentration of basis materials within a scanned object by exploiting different photon energy spectra. In this work, we aim at efficiently solving a model-based maximum-a-posterior problem to reconstruct multi-materials images with application to spectral CT. In particular, we propose to solve a regularized optimization problem based on a plug-in image-denoising function using a randomized second order method. By approximating the Newton step using a sketching of the Hessian of the likelihood function, it is possible to reduce the complexity while retaining the complex prior structure given by the data-driven regularizer. We exploit a non-uniform block sub-sampling of the Hessian with inexact but efficient Conjugate gradient updates that require only Jacobian-vector products for denoising term. Finally, we show numerical and experimental results for spectral CT materials decomposition.
翻訳日:2021-03-26 13:20:44 公開日:2021-03-25
# 時間量子トモグラフィーの学習

Learning Temporal Quantum Tomography ( http://arxiv.org/abs/2103.13973v1 )

ライセンス: Link先を確認
Quoc Hoan Tran and Kohei Nakajima(参考訳) 量子状態の準備における制御レベルの定量化と検証は、量子デバイス構築における中心的な課題である。 量子状態は実験的な測定によって特徴づけられ、トモグラフィーと呼ばれる手順で大量の資源を必要とする。 さらに,時間処理を施した量子デバイスのトモグラフィは標準トモグラフィと根本的に異なるが,定式化されていない。 そこで本稿では,この興味深い状況に対する機械学習フレームワークを用いた実用的および近似トモグラフィー手法を提案する。 この方法は、量子状態の流れを持つ量子貯水池と呼ばれるシステム間の繰り返し量子相互作用に基づいている。 貯留層からの計測データは線形読み出しに接続され、入力ストリームに適用された量子チャネル間の繰り返し関係を訓練する。 量子学習タスクのためのアルゴリズムを実証し、その後、量子短期記憶容量を提案して、短期量子デバイスの時間的処理能力を評価する。

Quantifying and verifying the control level in preparing a quantum state are central challenges in building quantum devices. The quantum state is characterized from experimental measurements, using a procedure known as tomography, which requires a vast number of resources. Furthermore, the tomography for a quantum device with temporal processing, which is fundamentally different from the standard tomography, has not been formulated. We develop a practical and approximate tomography method using a recurrent machine learning framework for this intriguing situation. The method is based on repeated quantum interactions between a system called quantum reservoir with a stream of quantum states. Measurement data from the reservoir are connected to a linear readout to train a recurrent relation between quantum channels applied to the input stream. We demonstrate our algorithms for quantum learning tasks followed by the proposal of a quantum short-term memory capacity to evaluate the temporal processing ability of near-term quantum devices.
翻訳日:2021-03-26 13:20:29 公開日:2021-03-25
# Wasserstein 終端コストを考慮した確率線形系の離散時間共分散ステアリングの凸性について

On the Convexity of Discrete Time Covariance Steering in Stochastic Linear Systems with Wasserstein Terminal Cost ( http://arxiv.org/abs/2103.13579v1 )

ライセンス: Link先を確認
Isin M. Balci, Abhishek Halder, Efstathios Bakolas(参考訳) 本研究では,二乗ワッサースタイン距離端末コストを持つ離散時間ガウス線形系の共分散ステアリング問題に対する解の性質を分析する。 本稿では,状態フィードバック制御ポリシのパラメータ化を利用して,この確率的最適制御問題を凸関数プログラムの差に関連付けることができることを示した。 ここでは,同じ共分散制御問題を再検討するが,今回は問題の解析に注目する。 具体的には、最適化問題に対する解の存在を確立し、最適性の第一および第二次条件を導出する。 本稿では,行列計算の特殊ツールを用いて,性能指標の勾配とヘシアンの解析式を提供する。 その後、最適化問題は常に大域最小化を許容し、最後に、性能指標が厳密な凸関数となる十分な条件を提供する(後者の条件では、問題は一意の大域最小化を許容する)。 特に、l\"{o}wner部分順序に関して端末状態共分散が上界である場合、所望の端末正規分布の共分散行列により、この問題は一意な大域的最小化状態フィードバックゲインを与える。 本研究は, 共分散ステアリング問題に対する解の構造を二乗ワッサーシュタイン距離終端コストで利用した, 特殊制御設計ツールの開発に向けての段階を定めている。

In this work, we analyze the properties of the solution to the covariance steering problem for discrete time Gaussian linear systems with a squared Wasserstein distance terminal cost. In our previous work, we have shown that by utilizing the state feedback control policy parametrization, this stochastic optimal control problem can be associated with a difference of convex functions program. Here, we revisit the same covariance control problem but this time we focus on the analysis of the problem. Specifically, we establish the existence of solutions to the optimization problem and derive the first and second order conditions for optimality. We provide analytic expressions for the gradient and the Hessian of the performance index by utilizing specialized tools from matrix calculus. Subsequently, we prove that the optimization problem always admits a global minimizer, and finally, we provide a sufficient condition for the performance index to be a strictly convex function (under the latter condition, the problem admits a unique global minimizer). In particular, we show that when the terminal state covariance is upper bounded, with respect to the L\"{o}wner partial order, by the covariance matrix of the desired terminal normal distribution, then our problem admits a unique global minimizing state feedback gain. The results of this paper set the stage for the development of specialized control design tools that exploit the structure of the solution to the covariance steering problem with a squared Wasserstein distance terminal cost.
翻訳日:2021-03-26 13:20:16 公開日:2021-03-25
# (参考訳) Meta-DETR:Unified Image-Level Meta-LearningによるFew-Shotオブジェクト検出

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning ( http://arxiv.org/abs/2103.11731v2 )

ライセンス: CC BY-SA 4.0
Gongjie Zhang, Zhipeng Luo, Kaiwen Cui, Shijian Lu(参考訳) 少数の注釈付き例でのみ、新規な物体を検出することを目的としている。 従来の研究は、メタラーニングが有望な解決策であることを証明しており、そのほとんどは、分類と位置の微調整のために、地域にわたってメタラーニングによる検出に対処している。 しかし、これらの手法は、初期よく配置された地域の提案に実質的に依存しており、これは通常、少数の設定では入手が困難である。 本稿では,領域的予測を排除し,画像レベルでのメタ学習オブジェクトの局所化と分類を統一的かつ補完的に行うメタ検出フレームワークMeta-DETRを提案する。 具体的には、まずサポートとクエリの両方をカテゴリ固有の機能にエンコードし、次にカテゴリに依存しないデコーダに入力して、特定のカテゴリの予測を直接生成する。 ディープネットワークを用いたメタ学習を容易にするために,高レベルかつ低レベルの特徴意味論を整合させ,メタ学習表現の一般化を改善する,単純かつ効果的な意味的アライメント機構(sam)を設計した。 複数の数ショットのオブジェクト検出ベンチマーク実験により、Meta-DETRは最先端の手法よりも大きなマージンで優れていることが示された。

Few-shot object detection aims at detecting novel objects with only a few annotated examples. Prior works have proved meta-learning a promising solution, and most of them essentially address detection by meta-learning over regions for their classification and location fine-tuning. However, these methods substantially rely on initially well-located region proposals, which are usually hard to obtain under the few-shot settings. This paper presents a novel meta-detector framework, namely Meta-DETR, which eliminates region-wise prediction and instead meta-learns object localization and classification at image level in a unified and complementary manner. Specifically, it first encodes both support and query images into category-specific features and then feeds them into a category-agnostic decoder to directly generate predictions for specific categories. To facilitate meta-learning with deep networks, we design a simple but effective Semantic Alignment Mechanism (SAM), which aligns high-level and low-level feature semantics to improve the generalization of meta-learned representations. Experiments over multiple few-shot object detection benchmarks show that Meta-DETR outperforms state-of-the-art methods by large margins.
翻訳日:2021-03-26 12:43:53 公開日:2021-03-25
# (参考訳) セルフ・スーパーバイザード・プレトレーニングは自己スーパーバイザード・プレトレーニングを改善する

Self-Supervised Pretraining Improves Self-Supervised Pretraining ( http://arxiv.org/abs/2103.12718v2 )

ライセンス: CC BY 4.0
Colorado J. Reed and Xiangyu Yue and Ani Nrusimha and Sayna Ebrahimi and Vivek Vijaykumar and Richard Mao and Bo Li and Shanghang Zhang and Devin Guillory and Sean Metzger and Kurt Keutzer and Trevor Darrell(参考訳) 自己教師付き事前訓練は多くのコンピュータビジョンタスクに有益であることが証明されているが、高価で長い計算と大量のデータを必要とし、データ拡張に敏感である。 以前の研究では、imagenetでトレーニングされた胸部x線モデルやスクラッチからトレーニングされたアンダーパーフォームモデルなど、ターゲットデータと異なるデータセットで事前トレーニングされたモデルが示されている。 事前トレーニングするリソースを持たないユーザは、パフォーマンスの低い既存のモデルを使用する必要がある。 本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 16種類の視覚データセットを実験することにより、HPTは最大80倍の速度で収束し、タスク間の精度を向上し、自己教師付き事前学習プロセスの堅牢性を改善し、画像強化ポリシーや事前学習データの量を変更する。 HPTは計算資源の少ないより優れた事前訓練された表現を得るためのシンプルなフレームワークを提供する。

While self-supervised pretraining has proven beneficial for many computer vision tasks, it requires expensive and lengthy computation, large amounts of data, and is sensitive to data augmentation. Prior work demonstrates that models pretrained on datasets dissimilar to their target data, such as chest X-ray models trained on ImageNet, underperform models trained from scratch. Users that lack the resources to pretrain must use existing models with lower performance. This paper explores Hierarchical PreTraining (HPT), which decreases convergence time and improves accuracy by initializing the pretraining process with an existing pretrained model. Through experimentation on 16 diverse vision datasets, we show HPT converges up to 80x faster, improves accuracy across tasks, and improves the robustness of the self-supervised pretraining process to changes in the image augmentation policy or amount of pretraining data. Taken together, HPT provides a simple framework for obtaining better pretrained representations with less computational resources.
翻訳日:2021-03-26 12:25:13 公開日:2021-03-25
# (参考訳) 変数の連立の共有価値はより良い説明を提供する

The Shapley Value of coalition of variables provides better explanations ( http://arxiv.org/abs/2103.13342v2 )

ライセンス: CC BY 4.0
Salim I. Amoukou, Nicolas J-B. Brunel, Tangi Sala\"un(参考訳) 共有値(SV)は、機械学習モデルを解釈するための金の標準の1つであるが、特に分類変数の存在や重要性の低い変数の存在において、まだ理解されていないことを示す。 例えば、ダミー変数のSVを和らげるという一般的な慣行は、モデル内のすべてのSVの間違った推定を提供し、刺激的な解釈を示唆するので、偽であることを示す。 nullとアクティブな連立の識別とsvの連立バージョンに基づいて、重要な変数の正しい計算と推論を提供する。 さらに、pythonライブラリ(すべての実験とシミュレーションは、公開ライブラリ \emph{active coalition of variables} https://github.com/acvicml/acv)で再現でき、ツリーベースのモデルで確実に条件付き期待値とsvを計算する。

While Shapley Values (SV) are one of the gold standard for interpreting machine learning models, we show that they are still poorly understood, in particular in the presence of categorical variables or of variables of low importance. For instance, we show that the popular practice that consists in summing the SV of dummy variables is false as it provides wrong estimates of all the SV in the model and implies spurious interpretations. Based on the identification of null and active coalitions, and a coalitional version of the SV, we provide a correct computation and inference of important variables. Moreover, a Python library (All the experiments and simulations can be reproduced with the publicly available library \emph{Active Coalition of Variables} https://github.com/acvicml/ACV) that computes reliably conditional expectations and SV for tree-based models, is implemented and compared with state-of-the-art algorithms on toy models and real data sets.
翻訳日:2021-03-26 11:59:46 公開日:2021-03-25
# (参考訳) Fr'echetタスク距離によるニューラルアーキテクチャ検索

Neural Architecture Search From Fr\'echet Task Distance ( http://arxiv.org/abs/2103.12827v2 )

ライセンス: CC BY 4.0
Cat P. Le, Mohammadreza Soltani, Robert Ravier, Trevor Standley, Silvio Savarese, Vahid Tarokh(参考訳) 我々はFr'echet型非対称距離をフィッシャー情報行列に基づいて定式化する。 対象タスクと与えられたベースラインタスクの集合における各タスク間の距離が、対象タスクのニューラルアーキテクチャ探索スペースを減らすためにどのように使用できるかを示す。 タスク固有のアーキテクチャに対する検索空間の複雑さの低減は、このサイド情報を用いることなく完全な検索を行う代わりに、類似したタスクのために最適化されたアーキテクチャ上に構築することで達成される。 実験の結果,提案手法の有効性と最新手法の改善が示された。

We formulate a Fr\'echet-type asymmetric distance between tasks based on Fisher Information Matrices. We show how the distance between a target task and each task in a given set of baseline tasks can be used to reduce the neural architecture search space for the target task. The complexity reduction in search space for task-specific architectures is achieved by building on the optimized architectures for similar tasks instead of doing a full search without using this side information. Experimental results demonstrate the efficacy of the proposed approach and its improvements over the state-of-the-art methods.
翻訳日:2021-03-26 11:27:13 公開日:2021-03-25
# BERT-based Post-Editing による代名詞の修復

Repairing Pronouns in Translation with BERT-Based Post-Editing ( http://arxiv.org/abs/2103.12838v2 )

ライセンス: Link先を確認
Reid Pryzant, Melvin Johnson, Hideto Kazawa(参考訳) 名詞はテキストの意味の重要な決定要因であるが、翻訳が難しい。 これは、代名詞の選択が前の文で記述されたエンティティに依存することができ、一部の言語では、参照が文脈から推測できないときに代名詞をドロップできるためである。 これらの問題は、神経機械翻訳(NMT)システムに、不明瞭さを損なうこと、さらには性バイアスを補強する代名詞に重大なエラーを与える可能性がある。 本稿では,(1)一部の領域において,代名詞選択がnmtシステムの誤差の半分以上を占めること,(2)代名詞が認識される翻訳品質に不釣り合いに大きな影響を与えること,など,代名詞問題の重大性について検討する。 提案手法は,情報源側文のチャンクを用いて代名詞予測タスクを微調整し,その結果の分類器を用いて既存のNMTモデルの翻訳を修復する。 日本語と英語のペアに対して,この手法の最初の事例研究を行い,人間の評価値によって少数の翻訳が著しく改善されていることを観察した。

Pronouns are important determinants of a text's meaning but difficult to translate. This is because pronoun choice can depend on entities described in previous sentences, and in some languages pronouns may be dropped when the referent is inferrable from the context. These issues can lead Neural Machine Translation (NMT) systems to make critical errors on pronouns that impair intelligibility and even reinforce gender bias. We investigate the severity of this pronoun issue, showing that (1) in some domains, pronoun choice can account for more than half of a NMT systems' errors, and (2) pronouns have a disproportionately large impact on perceived translation quality. We then investigate a possible solution: fine-tuning BERT on a pronoun prediction task using chunks of source-side sentences, then using the resulting classifier to repair the translations of an existing NMT model. We offer an initial case study of this approach for the Japanese-English language pair, observing that a small number of translations are significantly improved according to human evaluators.
翻訳日:2021-03-26 11:02:44 公開日:2021-03-25
# MetaSAug: 長期視覚認識のためのメタセマンティック拡張

MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2103.12579v2 )

ライセンス: Link先を確認
Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng(参考訳) 実世界のトレーニングデータは、通常、多くのクラスが残りのマイノリティクラスよりもかなり多くのサンプルを持つロングテール分布を示す。 この不均衡は、バランスの取れたトレーニングセット用に設計された典型的な教師付き学習アルゴリズムの性能を劣化させる。 本稿では,最近提案された暗黙的意味データ拡張 (ISDA) アルゴリズムを用いてマイノリティクラスを拡大することでこの問題に対処する。 さらに,isdaが意味的指示を得るためにクラス条件統計を推定していることを考えると,訓練データ不足のためマイノリティクラスでこれを行うのに効果がないことがわかった。 そこで本稿では,メタ学習で意味の変換を自動学習する手法を提案する。 具体的には、トレーニング中の強化戦略を動的に最適化し、メタ更新ステップによって近似される小さなバランスの取れた検証セットの損失を最小限に抑える。 CIFAR-LT-10/100, ImageNet-LT, iNaturalist 2017/2018の広範な実験結果から, 本手法の有効性が検証された。

Real-world training data usually exhibits long-tailed distribution, where several majority classes have a significantly larger number of samples than the remaining minority classes. This imbalance degrades the performance of typical supervised learning algorithms designed for balanced training sets. In this paper, we address this issue by augmenting minority classes with a recently proposed implicit semantic data augmentation (ISDA) algorithm, which produces diversified augmented samples by translating deep features along many semantically meaningful directions. Importantly, given that ISDA estimates the class-conditional statistics to obtain semantic directions, we find it ineffective to do this on minority classes due to the insufficient training data. To this end, we propose a novel approach to learn transformed semantic directions with meta-learning automatically. In specific, the augmentation strategy during training is dynamically optimized, aiming to minimize the loss on a small balanced validation set, which is approximated via a meta update step. Extensive empirical results on CIFAR-LT-10/100, ImageNet-LT, and iNaturalist 2017/2018 validate the effectiveness of our method.
翻訳日:2021-03-26 11:02:26 公開日:2021-03-25
# DRO:Structure-from-Motionのためのディープリカレント最適化

DRO: Deep Recurrent Optimizer for Structure-from-Motion ( http://arxiv.org/abs/2103.13201v2 )

ライセンス: Link先を確認
Xiaodong Gu, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Chengzhou Tang, Ping Tan(参考訳) sfm(structure-from-motion)問題を機械学習技術で研究する関心が高まっている。 より最近の研究では、画像から深度マップやカメラポーズへのマッピングを直接学習する一方で、学習フレームワークに最適化を組み込んだマルチビュー幾何が適用されている。 本稿では、SfMにおけるニューラルネットワークの可能性をさらに活用するために、リカレントニューラルネットワークに基づく新しい最適化手法を提案する。 私たちのニューラルオプティマイザは奥行きを更新し、カメラはイテレーションを通じて機能測定コストを最小化します。 2つのゲートリカレントユニットは、イテレーション中に履歴情報を追跡するように設計されている。 我々のネットワークはゼロ階最適化として機能し、計算とメモリコストのかかるボリュームや勾配を避ける。 実験により, 繰り返しオプティマイザは, 深度とポーズを改良しながら, 機能測定コストを効果的に低減できることを示した。 提案手法は従来の手法より優れており,コストボリューム法よりも計算とメモリ消費が効率的である。 私たちのメソッドのコードは公開されます。

There are increasing interests of studying the structure-from-motion (SfM) problem with machine learning techniques. While earlier methods directly learn a mapping from images to depth maps and camera poses, more recent works enforce multi-view geometry through optimization embed in the learning framework. This paper presents a novel optimization method based on recurrent neural networks to further exploit the potential of neural networks in SfM. Our neural optimizer alternatively updates the depth and camera poses through iterations to minimize a feature-metric cost. Two gated recurrent units are designed to trace the historical information during the iterations. Our network works as a zeroth-order optimizer, where the computation and memory expensive cost volume or gradients are avoided. Experiments demonstrate that our recurrent optimizer effectively reduces the feature-metric cost while refining the depth and poses. Our method outperforms previous methods and is more efficient in computation and memory consumption than cost-volume-based methods. The code of our method will be made public.
翻訳日:2021-03-26 11:02:06 公開日:2021-03-25
# シーケンス学習による音声認識誤りの幻覚

Hallucination of speech recognition errors with sequence to sequence learning ( http://arxiv.org/abs/2103.12258v2 )

ライセンス: Link先を確認
Prashant Serai and Vishal Sunder and Eric Fosler-Lussier(参考訳) 自動音声認識 (Automatic Speech Recognition, ASR) は、プレーンテキストや文字起こしと比較して、ASR出力テキストのミスマッチを生じる不完全なプロセスである。 平易なテキストデータが音声言語理解システム(ASR)の訓練に使用される場合、そのミスマッチを減らし劣化を防ぐための実証された戦略は、ASRの出力に金の転写を与えることを幻覚させることである。 このドメインでの以前の作業は、音韻レベルでのエラーのモデル化に重点を置いており、レキシコンを使用して携帯電話を単語に変換する。 本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。 これにより、ドメイン内ASRシステムの未確認データの書き起こしによるエラーのリコールや、非関連タスクからのドメイン外ASRシステムのオーディオの書き起こしから、さらにテストASRシステムからの限られた特徴データが取得可能な場合の中間シナリオを探索する。 また,本手法の非本質的妥当性を検証するため,音声質問分類器の訓練に幻覚的ASR誤りを用いることで,列車時間帯にタスク固有の音声が不足あるいはゼロであった場合に,下流タスクにおける実際のASR誤りに対してロバスト性を実現することを確認した。

Automatic Speech Recognition (ASR) is an imperfect process that results in certain mismatches in ASR output text when compared to plain written text or transcriptions. When plain text data is to be used to train systems for spoken language understanding or ASR, a proven strategy to reduce said mismatch and prevent degradations, is to hallucinate what the ASR outputs would be given a gold transcription. Prior work in this domain has focused on modeling errors at the phonetic level, while using a lexicon to convert the phones to words, usually accompanied by an FST Language model. We present novel end-to-end models to directly predict hallucinated ASR word sequence outputs, conditioning on an input word sequence as well as a corresponding phoneme sequence. This improves prior published results for recall of errors from an in-domain ASR system's transcription of unseen data, as well as an out-of-domain ASR system's transcriptions of audio from an unrelated task, while additionally exploring an in-between scenario when limited characterization data from the test ASR system is obtainable. To verify the extrinsic validity of the method, we also use our hallucinated ASR errors to augment training for a spoken question classifier, finding that they enable robustness to real ASR errors in a downstream task, when scarce or even zero task-specific audio was available at train-time.
翻訳日:2021-03-26 11:01:51 公開日:2021-03-25
# 3次元変換群のタンジェント空間バックプロパゲーション

Tangent Space Backpropagation for 3D Transformation Groups ( http://arxiv.org/abs/2103.12032v2 )

ライセンス: Link先を確認
Zachary Teed and Jia Deng(参考訳) 本稿では,3次元変換群so(3),se(3),sim(3)を含む計算グラフに対してバックプロパゲーションを行う問題に対処する。 3d変換群は3dビジョンやロボティクスで広く使われているが、ベクトル空間を形成しず滑らかな多様体の上に横たわっている。 ユークリッド空間に3d変換を組み込む標準的なバックプロパゲーションアプローチは、数値的な困難に苦しむ。 3次元変換の群構造を利用し、多様体の接空間においてバックプロパゲーションを行う新しいライブラリを紹介する。 我々のアプローチは数値的に安定しており、実装が容易であり、様々なタスクに有益であることを示している。 私たちのPyTorchライブラリはhttps://github.com/princeton-vl/lietorch.comで利用可能です。

We address the problem of performing backpropagation for computation graphs involving 3D transformation groups SO(3), SE(3), and Sim(3). 3D transformation groups are widely used in 3D vision and robotics, but they do not form vector spaces and instead lie on smooth manifolds. The standard backpropagation approach, which embeds 3D transformations in Euclidean spaces, suffers from numerical difficulties. We introduce a new library, which exploits the group structure of 3D transformations and performs backpropagation in the tangent spaces of manifolds. We show that our approach is numerically more stable, easier to implement, and beneficial to a diverse set of tasks. Our plug-and-play PyTorch library is available at https://github.com/princeton-vl/lietorch.
翻訳日:2021-03-26 11:01:25 公開日:2021-03-25