このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210401となっている論文です。

PDF登録状況(公開日: 20210401)

TitleAuthorsAbstract論文公表日・翻訳日
# 準備・測定シナリオにおけるロバスト自己検査の普遍的スキーム

A universal scheme for robust self-testing in the prepare-and-measure scenario ( http://arxiv.org/abs/2003.01032v5 )

ライセンス: Link先を確認
Nikolai Miklin and Micha{\l} Oszmaniec(参考訳) ヒルベルト空間の次元上界を仮定する準備と測定のシナリオにおいて、純粋状態の任意のアンサンブルの証明の問題と実験統計からのみ射影測定を考察する。 そこで本研究では,対象状態と好適に連続する射影測定値の完全な相関関係を確立することを目的とした,普遍的で直感的なスキームを提案する。 この方法はすべての有限次元で動作し、任意の準備状態と対応する測定演算子間の重なりの堅牢な証明を可能にする。 最後に、量子ビットに対して、我々の手法は純粋量子状態と射影測定の任意の構成をしっかりと自己テストするために使用できることを証明した。 これらの結果は、量子デバイス認証への準備と測定のパラダイムの実践的応用への道を開いた。

We consider the problem of certification of arbitrary ensembles of pure states and projective measurements solely from the experimental statistics in the prepare-and-measure scenario assuming the upper bound on the dimension of the Hilbert space. To this aim, we propose a universal and intuitive scheme based on establishing perfect correlations between target states and suitably-chosen projective measurements. The method works in all finite dimensions and allows for robust certification of the overlaps between arbitrary preparation states and between the corresponding measurement operators. Finally, we prove that for qubits, our technique can be used to robustly self-test arbitrary configurations of pure quantum states and projective measurements. These results pave the way towards the practical application of the prepare-and-measure paradigm to certification of quantum devices.
翻訳日:2023-05-31 12:23:05 公開日:2021-04-01
# オンライン活動における企業の多様性と支配の進化

Evolution of diversity and dominance of companies in online activity ( http://arxiv.org/abs/2003.07049v2 )

ライセンス: Link先を確認
Paul X. McCarthy, Xian Gong, Sina Eghbal, Daniel S. Falster, Marian-Andrei Rizoiu(参考訳) Webが始まって以来、Webサイトの数は指数関数的に増えている。 これらのウェブサイトは、成長するさまざまな産業の様々な社会的、経済的機能を満たすオンラインサービスの範囲をカバーしている。 しかし、ウェブのネットワーク的な性質は、優先的なアタッチメント、利益の増大、世界貿易の経済と相まって、長期的には少数の競争相手が検索、小売、ソーシャルメディアといった各機能的な市場セグメントを支配する可能性が高いことを示唆している。 ここでは,オンライン環境における注目度分布の定量化を目的として,大規模縦断調査を行った。 100億以上の投稿と10年以上にわたる2つの大規模なオンラインソーシャルメディアデータセットでは、組織の主要なドメイン名に対して、彼らが受けるオンライン注意の代理として投稿された外部リンクの数を集計している。 私たちはまた、10億以上の異なるwebサイト間のリンクパターンを含む共通crawlデータセットを使用して、過去3年間のweb全体のリンク集中度パターンを調査しています。 最後に、電気自動車メーカーのteslaにおける、ソーシャルメディアに対するオンラインの注意と企業価値の成長の関係を探求することで、経済、金融、市場データの関係を示す。 私たちの分析は、すべてのマクロ指標 -- オンラインの注意の総量、オンライン存在の組織数、それらが実行する機能 -- が一貫した成長を観察しているにもかかわらず、少数の組織がユーザーの注意を継続的に増加させ、通常は1人の大きなプレイヤーが各機能を支配しているという事実も示しています。 これらの結果は、オンライン経済の進化がいかにイノベーション、多様性、そして競争優位を巻き起こすかを強調している。

Ever since the web began, the number of websites has been growing exponentially. These websites cover an ever-increasing range of online services that fill a variety of social and economic functions across a growing range of industries. Yet the networked nature of the web, combined with the economics of preferential attachment, increasing returns and global trade, suggest that over the long run a small number of competitive giants are likely to dominate each functional market segment, such as search, retail and social media. Here we perform a large scale longitudinal study to quantify the distribution of attention given in the online environment to competing organisations. In two large online social media datasets, containing more than 10 billion posts and spanning more than a decade, we tally the volume of external links posted towards the organisations' main domain name as a proxy for the online attention they receive. We also use the Common Crawl dataset -- which contains the linkage patterns between more than a billion different websites -- to study the patterns of link concentration over the past three years across the entire web. Lastly, we showcase the linking between economic, financial and market data by exploring the relationships between online attention on social media and the growth in enterprise value in the electric carmaker Tesla. Our analysis shows that despite the fact that we observe consistent growth in all the macro indicators -- the total amount of online attention, in the number of organisations with an online presence, and in the functions they perform -- we also observe that a smaller number of organisations account for an ever-increasing proportion of total user attention, usually with one large player dominating each function. These results highlight how evolution of the online economy involves innovation, diversity, and then competitive dominance.
翻訳日:2023-05-29 00:33:44 公開日:2021-04-01
# 浸漬グラフェンのバンドエンジニアリングに及ぼすひずみの影響

Effect of Strain on Band Engineering in Gapped Graphene ( http://arxiv.org/abs/2007.04579v2 )

ライセンス: Link先を確認
Hasna Chnafa, Miloud Mekkaoui, Ahmed Jellal, Abdelhadi Bahaoui(参考訳) 本研究では, グラフェンのバンド工学に及ぼすひずみの影響について検討した。 フロッケ理論を適用することで、アームチェアおよびジグザグ方向のひずみの存在下で、線形、円、楕円偏極のドレッシング場により、電子の有効ハミルトニアンを決定する。 その結果, エネルギースペクトルは異なる対称性を示し, 無ひずみの場合, 照射強度の値がどんな等方的かつ異方的でも, プリスチングラフェンのように線形であることがわかった。 アームチェア方向に沿ってひずみを印加するとゆっくりと増加するが、ジグザグの場合は急速に増加する。 さらに, 再正規化バンドギャップはひずみ等級によって変化し, 偏光位相$\theta$ に対して, 値が反対に変化する線形偏光や円偏光と比較して変化しないことがわかった。

We study the effect of strain on the band engineering in gapped graphene subject to external sources. By applying the Floquet theory, we determine the effective Hamiltonian of electron dressed by a linearly, circularly and an elliptically polarized dressing field in the presence of strain along armchair and zigzag directions. Our results show that the energy spectrum exhibits different symmetries and for the strainless case it takes an isotropic and anisotropic forms whatever the values of irradiation intensity, whereas it is linear as in the case of pristine graphene. It increases slowly when strain is applied along the armchair direction but rapidly for the zigzag case. Moreover, it is found that the renormalized band gap changes along different strain magnitudes and does not change for the polarization phase $\theta$ compared to linear and circular polarizations where its values change oppositely.
翻訳日:2023-05-10 21:34:55 公開日:2021-04-01
# 3つの時間依存結合調和振動子における絡み合いとコヒーレンスのダイナミクスと再分配

Dynamics and Redistribution of Entanglement and Coherence in Three Time-Dependent Coupled Harmonic Oscillators ( http://arxiv.org/abs/2007.14746v2 )

ライセンス: Link先を確認
Radouan Hab-arrih, Ahmed Jellal, Abdeldjalil Merdaci(参考訳) 3つの時間依存結合調和振動子における絡み合いとコヒーレンスのダイナミクスと再分配について検討する。 時間依存型オイラー回転と線形クエンチモデルを用いてSchr\"{o}dinger方程式を解き、真空溶液の状態を得る。 そのような状態は位相空間図に変換してウィグナー分布を決定することができる。 ガウス行列 $\mathbb{G}(t)$ が共分散行列 $\sigma(t)$ を直接キャストできることを示す。 状態の混合性と絡み合いを定量化するために、完全対称、双対称、完全非対称の3つの場合においてそれぞれ線形およびフォン・ノイマンエントロピーを用いる。 そして、コヒーレンス、三部構造交絡、局所不確実性を決定し、それらのダイナミクスを導出する。 すべての量子情報量のダイナミクスがエルマコフモードによって駆動されることを示す。 最後に、ホモダイン検出を用いて、絡み合いとコヒーレンスの両方の資源を再分配する。

We study the dynamics and redistribution of entanglement and coherence in three time-dependent coupled harmonic oscillators. We resolve the Schr\"{o}dinger equation by using time-dependent Euler rotation together with a linear quench model to obtain the state of vacuum solution. Such state can be translated to the phase space picture to determine the Wigner distribution. We show that its Gaussian matrix $\mathbb{G}(t)$ can be used to directly cast the covariance matrix $\sigma(t)$. To quantify the mixedness and entanglement of the state one uses respectively linear and von Neumann entropies for three cases: fully symmetric, bi-symmetric and fully non symmetric. Then we determine the coherence, tripartite entanglement and local uncertainties and derive their dynamics. We show that the dynamics of all quantum information quantities are driven by the Ermakov modes. Finally, we use an homodyne detection to redistribute both resources of entanglement and coherence.
翻訳日:2023-05-07 20:31:50 公開日:2021-04-01
# 超低温ガスによる量子速度限界の探索

Probing Quantum Speed Limits with Ultracold Gases ( http://arxiv.org/abs/2007.15019v3 )

ライセンス: Link先を確認
Adolfo del Campo(参考訳) 量子速度制限(QSL)は、任意の物理過程において量子状態が識別可能な状態に進化する最小時間を決定する。 これらの基本的な結果は、非断熱エネルギーゆらぎによって設定された進化の速度の観点から、バーズ角として知られる量子状態によって移動される距離の概念を制約している。 時間依存型高調波トラップに閉じ込められた超低温量子ガス中のQSLの測定法を理論的に提案する。 この高次元連続変数系では、量子トモグラフィーは禁止されている。 しかし、QSLは、超低温気体の雲の大きさを時間関数として測定することで、力学が自己相似であるときに調査することができる。 これにより、様々な超低温原子系で議論されるように、バーズ角とエネルギーゆらぎを決定できる。

Quantum Speed Limits (QSLs) rule the minimum time for a quantum state to evolve into a distinguishable state in an arbitrary physical process. These fundamental results constrain a notion of distance travelled by the quantum state, known as the Bures angle, in terms of the speed of evolution set by nonadiabatic energy fluctuations. We theoretically propose how to measure QSLs in an ultracold quantum gas confined in a time-dependent harmonic trap. In this highly-dimensional system of continuous variables, quantum tomography is prohibited. Yet, QSLs can be probed whenever the dynamics is self-similar by measuring as a function of time the cloud size of the ultracold gas. This makes possible to determine the Bures angle and energy fluctuations, as we discuss for various ultracold atomic systems.
翻訳日:2023-05-07 20:21:55 公開日:2021-04-01
# マルチセットN-Partite Bellシナリオにおける非局所相関に対する実験的フレンドリなアプローチ

Experimentally friendly approach towards nonlocal correlations in multisetting N -partite Bell scenarios ( http://arxiv.org/abs/2009.11691v2 )

ライセンス: Link先を確認
Artur Barasi\'nski, Anton\'in \v{C}ernoch, Wies{\l}aw Laskowski, Karel Lemr, Tam\'as V\'ertesi, and Jan Soubusta(参考訳) 本研究では,最近提案されたFonseca and Parisio~[Phys. A 92, 030101(R) (2015)]による非局所性に関する非局所性評価手法について検討した。 これらの量に関する我々の知識は理論的な観点からは十分に確立されているが、実験的な課題はかなり困難であり、この分野ではほとんど行われていない。 これは解析に必要な局所ポリトープの面の完全な知識の欠如によって引き起こされる。 本稿では,ベル不等式の不完全集合に基づいて,n$-qubit純状態の両量を実験的に決定するための簡単な手順を提案する。 その結果,本手法によるインプレッションは電位測定誤差と同程度であることがわかった。 また,ランダムに選択されたn$-qubit純状態とランダムに選択された測定ベースの両方であっても,局所リアリズムの違反を実験的に約100〜%の時間に検出できることを示した。 その他の応用の中で、我々の研究は、アライメントされた参照フレームを使わずに、真のマルチパーティ・エンタングルメントを目撃する実現可能な代替手段を提供する。

In this work, we study a recently proposed operational measure of nonlocality by Fonseca and Parisio~[Phys. Rev. A 92, 030101(R) (2015)] which describes the probability of violation of local realism under randomly sampled observables, and the strength of such violation as described by resistance to white noise admixture. While our knowledge concerning these quantities is well established from a theoretical point of view, the experimental counterpart is a considerably harder task and very little has been done in this field. It is caused by the lack of complete knowledge about the facets of the local polytope required for the analysis. In this paper, we propose a simple procedure towards experimentally determining both quantities for $N$-qubit pure states, based on the incomplete set of tight Bell inequalities. We show that the imprecision arising from this approach is of similar magnitude as the potential measurement errors. We also show that even with both a randomly chosen $N$-qubit pure state and randomly chosen measurement bases, a violation of local realism can be detected experimentally almost $100\%$ of the time. Among other applications, our work provides a feasible alternative for the witnessing of genuine multipartite entanglement without aligned reference frames.
翻訳日:2023-05-01 02:44:43 公開日:2021-04-01
# 多変量トレースの不等式、pフィデリティ、およびトラキア設定を超えたユニバーサルリカバリ

Multivariate Trace Inequalities, p-Fidelity, and Universal Recovery Beyond Tracial Settings ( http://arxiv.org/abs/2009.11866v2 )

ライセンス: Link先を確認
Marius Junge and Nicholas LaRacuente(参考訳) トレース不等式(Trace inequality)は、量子情報理論における多くの応用において一般的な手法であり、古典的汎関数計算を非可換な設定で置き換えることが多い。 しかし、量子場理論とホログラフィの物理学は、半有限トレースを持たないiii型フォン・ノイマン環のエントロピーの不等式を動機付けている。 Haagerup と Kosaki $L_p$ 空間は、非トラシャルフォン・ノイマン代数におけるトレース不等式を再表現することができる。 特に、一般化Araki-Lieb-ThirringとGolden-Thompsonの不等式について (Sutter, Berta \&Tomamichel 2017) に示す。 次に,haagerup近似法を用いて,相対エントロピーに対するデータ処理の不等式に対する不連続回復写像補正の一般フォン・ノイマン代数バージョンを証明した。 対数的p-fidelity of recoveryの亜調和性を示す。 さらに、相対エントロピーの非減少は、両方の入力状態にチャネルを実装する$L_1$-isometryの存在と等価であることを示す。

Trace inequalities are general techniques with many applications in quantum information theory, often replacing classical functional calculus in noncommutative settings. The physics of quantum field theory and holography, however, motivate entropy inequalities in type III von Neumann algebras that lack a semifinite trace. The Haagerup and Kosaki $L_p$ spaces enable re-expressing trace inequalities in non-tracial von Neumann algebras. In particular, we show this for the generalized Araki-Lieb-Thirring and Golden-Thompson inequalities from (Sutter, Berta \& Tomamichel 2017). Then, using the Haagerup approximation method, we prove a general von Neumann algebra version of univeral recovery map corrections to the data processing inequality for relative entropy. We also show subharmonicity of a logarithmic p-fidelity of recovery. Furthermore, we prove that non-decrease of relative entropy is equivalent to existence of an $L_1$-isometry implementing the channel on both input states.
翻訳日:2023-05-01 02:24:47 公開日:2021-04-01
# Lefschetz thimblesの統計: Bell/Leggett-Garg不等式と古典統計近似

Statistics on Lefschetz thimbles: Bell/Leggett-Garg inequalities and the classical-statistical approximation ( http://arxiv.org/abs/2011.02657v3 )

ライセンス: Link先を確認
Peter Millington, Zong-Gang Mou, Paul M. Saffin, Anders Tranberg(参考訳) lefschetz thimble理論に着想を得て、量子場理論を複素確率分布関数を持つ統計理論として扱う(pdf)。 このような複素値のpdfはベル型不等式を破ることを可能にし、実数値の非負のpdfでは破れない。 本稿では,ベル型不等式, viz. the familiar (spatial) bell inequalities and the temporal leggett-garg inequalities の文脈における古典的統計的近似を考える。 古典統計学的近似は、自由理論に完全であるにもかかわらず、時空ベル型不等式に違反しないことを示した。 この不一致の起源を説明し,空間的ベル型不等式と時間的ベル型不等式の主な違いを指摘する。 古典統計近似の適用について,本研究の輸入についてコメントする。

Inspired by Lefschetz thimble theory, we treat Quantum Field Theory as a statistical theory with a complex Probability Distribution Function (PDF). Such complex-valued PDFs permit the violation of Bell-type inequalities, which cannot be violated by a real-valued, non-negative PDF. In this paper, we consider the Classical-Statistical approximation in the context of Bell-type inequalities, viz. the familiar (spatial) Bell inequalities and the temporal Leggett-Garg inequalities. We show that the Classical-Statistical approximation does not violate temporal Bell-type inequalities, even though it is in some sense exact for a free theory, whereas the full quantum theory does. We explain the origin of this discrepancy, and point out the key difference between the spatial and temporal Bell-type inequalities. We comment on the import of this work for applications of the Classical-Statistical approximation.
翻訳日:2023-04-25 05:37:07 公開日:2021-04-01
# 粗粒量子セルオートマトン

Coarse-grained quantum cellular automata ( http://arxiv.org/abs/2011.04287v4 )

ライセンス: Link先を確認
O. Duranthon and Giuseppe Di Molfetta(参考訳) いくつかの物理的進化は、微視的離散モデルの創発的効果の結果であると考えることができる。 従来の粗粒処理法に触発されて,goldilocksルールに従う粗粒色の量子セルオートマトンへの簡単な手順を提供する。 その手続きは i) 量子セルオートマトン (QCA) をサイズ$N$; のセルにグループ化する時空 二 細胞の状態をその境界に投影し、それらを微細な動力学と接続すること。 (iii)私たちが信号と呼ぶ境界状態による全体のダイナミクスを記述すること。 (4)異なる大きさの細胞に対して粗粒度ダイナミクスを構築する。 この単純な玩具モデルの副産物はストークス法則の一般的な離散アナログである。 さらに、時空極限において、オートマトンがディラック自由ハミルトニアンに収束することを証明する。 ここで紹介するQCAは、Rydberg配列、閉じ込められたイオン、超伝導qbitなどの現在の量子プラットフォームによって実装できる。 私たちの研究が、限られた解像度でこれらのシステムのより豊かな理解に道を開くことを願っています。

One can think of some physical evolutions as being the emergent-effective result of a microscopic discrete model. Inspired by classical coarse-graining procedures, we provide a simple procedure to coarse-grain color-blind quantum cellular automata that follow Goldilocks rules. The procedure consists in (i) space-time grouping the quantum cellular automaton (QCA) in cells of size $N$; (ii) projecting the states of a cell onto its borders, connecting them with the fine dynamics; (iii) describing the overall dynamics by the border states, that we call signals; and (iv) constructing the coarse-grained dynamics for different sizes $N$ of the cells. A byproduct of this simple toy-model is a general discrete analog of the Stokes law. Moreover we prove that in the spacetime limit, the automaton converges to a Dirac free Hamiltonian. The QCA we introduce here can be implemented by present-day quantum platforms, such as Rydberg arrays, trapped ions, and superconducting qbits. We hope our study can pave the way to a richer understanding of those systems with limited resolution.
翻訳日:2023-04-24 21:35:14 公開日:2021-04-01
# 時空事象の量子計測

Quantum Measurement of Space-Time Events ( http://arxiv.org/abs/2011.11541v3 )

ライセンス: Link先を確認
Dorje C. Brody, Lane P. Hughston(参考訳) 相対論的システムの位相空間は、将来のミンコフスキー空間の複素化管と同一視できる。 複素構造とシンプレクティック構造と同様に、将来のチューブは8次元の実多様体と見なされ、その対称性群とともに、非定義のミンコフスキー空間計量の基底幾何学に対応する自然な正定値リーマン計量(英語版)を与えられた。 共形変換の15-パラメータ群のユニタリ表現は、将来のチューブ上の平方可積分正則関数のヒルベルト空間に作用するように構成できる。 これらの構造は位相空間事象の量子論を提唱するのに十分である。 特に、位相空間事象の検出に正の演算子値の測定を用いることにより、相対論的条件で量子測定の理論を定式化することができ、これにより、明らかな共変フレームワークにおける結合時空と4モーメントの測定結果に確率を割り当てることができる。 これは、関連するコンプトン波長によって決定される相対論的量子論における位相空間事象の局所化定理につながる。

The phase space of a relativistic system can be identified with the future tube of complexified Minkowski space. As well as a complex structure and a symplectic structure, the future tube, seen as an eight-dimensional real manifold, is endowed with a natural positive-definite Riemannian metric that accommodates the underlying geometry of the indefinite Minkowski space metric, together with its symmetry group. A unitary representation of the 15-parameter group of conformal transformations can then be constructed that acts upon the Hilbert space of square-integrable holomorphic functions on the future tube. These structures are enough to allow one to put forward a quantum theory of phase-space events. In particular, a theory of quantum measurement can be formulated in a relativistic setting, based on the use of positive operator valued measures, for the detection of phase-space events, hence allowing one to assign probabilities to the outcomes of joint space-time and four-momentum measurements in a manifestly covariant framework. This leads to a localization theorem for phase-space events in relativistic quantum theory, determined by the associated Compton wavelength.
翻訳日:2023-04-23 09:00:14 公開日:2021-04-01
# 崩壊モデルのための量子仮説テストのための光学的プラットフォーム

An Optomechanical Platform for Quantum Hypothesis Testing for Collapse Models ( http://arxiv.org/abs/2012.02112v2 )

ライセンス: Link先を確認
Marta Maria Marchese, Alessio Belenchia, Stefano Pirandola, Mauro Paternostro(参考訳) 量子仮説テスト(quantum hypothesis testing)は、量子資源が競合仮説の識別において提供できる利点を示している。 本稿では,この枠組みを光学系および基礎物理問題に適用する。 特に、量子チャネル識別を行うために使用される2つの空洞からなるオプテメカティカルシステムに焦点を当てる。 入力圧縮光ノイズと出力キャビティモードにおける実測可能なスキームは、同等の古典的スキームに対して有利であることを示す。 これらの結果を波動関数の自発的崩壊のモデルの識別に適用し,本手法が基礎物理学を探索する可能性を強調した。

Quantum Hypothesis Testing has shown the advantages that quantum resources can offer in the discrimination of competing hypothesis. Here, we apply this framework to optomechanical systems and fundamental physics questions. In particular, we focus on an optomechanical system composed of two cavities employed to perform quantum channel discrimination. We show that input squeezed optical noise, and feasible measurement schemes on the output cavity modes, allow to obtain an advantage with respect to any comparable classical schemes. We apply these results to the discrimination of models of spontaneous collapse of the wavefunction, highlighting the possibilities offered by this scheme for fundamental physics searches.
翻訳日:2023-04-22 05:16:36 公開日:2021-04-01
# 量子場理論の非可積分モデルにおけるカオスのシグネチャ

Signatures of Chaos in Non-integrable Models of Quantum Field Theory ( http://arxiv.org/abs/2012.08505v2 )

ライセンス: Link先を確認
Miha Srdinsek, Tomaz Prosen, Spyros Sotiriadis(参考訳) 1+1)D量子場理論(QFT)モデルにおける量子カオスのシグネチャについて検討する。 解析は,QFTの低エネルギースペクトルと固有状態を構築するための数値的手法であるハミルトン・トランケーションの手法に基づいており,これは正確に解けるモデルの摂動と見なすことができる。 両シネゴルドンに焦点をあて、また、巨大なシネゴルドンと${\phi^4}$モデルも検討し、これらは全て非可積分であり、この方法では小から中間の摂動強度から十分に高精度に研究することができる。 本研究では,乱数行列理論の予測に従うことが期待される固有ベクトル成分とレベル間隔の統計解析を行う。 レベルスペーシング統計は予想通りガウス直交アンサンブルに近いが、逆に固有ベクトル成分は期待されるガウスアンサンブルとは著しく異なる分布に従う。 典型的な量子カオスのシナリオとは異なり、レベル間隔統計からカオス的行動への移行はすでに摂動状態にある。 一方、固有ベクトル成分の分布は比較的大きな摂動であってもガウス的挙動を変化させたり近づいたりしないように見える。 さらに,これらの特徴はモデルや基礎の選択とは無関係であることが示唆された。

We study signatures of quantum chaos in (1+1)D Quantum Field Theory (QFT) models. Our analysis is based on the method of Hamiltonian truncation, a numerical approach for the construction of low-energy spectra and eigenstates of QFTs that can be considered as perturbations of exactly solvable models. We focus on the double sine-Gordon, also studying the massive sine-Gordon and ${\phi^4}$ model, all of which are non-integrable and can be studied by this method with sufficiently high precision from small to intermediate perturbation strength. We analyze the statistics of level spacings and of eigenvector components, both of which are expected to follow Random Matrix Theory predictions. While level spacing statistics are close to the Gaussian Orthogonal Ensemble as expected, on the contrary, the eigenvector components follow a distribution markedly different from the expected Gaussian. Unlike in the typical quantum chaos scenario, the transition of level spacing statistics to chaotic behaviour takes place already in the perturbative regime. On the other hand, the distribution of eigenvector components does not appear to change or approach Gaussian behaviour, even for relatively large perturbations. Moreover, our results suggest that these features are independent of the choice of model and basis.
翻訳日:2023-04-20 18:55:33 公開日:2021-04-01
# 力学系の最適制御に基づく物理深層学習

Physical deep learning based on optimal control of dynamical systems ( http://arxiv.org/abs/2012.08761v2 )

ライセンス: Link先を確認
Genki Furuhata, Tomoaki Niiyama, and Satoshi Sunada(参考訳) ディープラーニングは人工知能技術のバックボーンであり、多層的なフィードフォワードニューラルネットワークの一種と見なすことができる。 深層学習の本質は層を通しての情報伝達である。 これは、情報伝達が動的システムの時間進化によって明示的にモデル化されるという意味で、ディープニューラルネットワークと動的システムの間に関係があることを示唆している。 本研究では,物理ハードウェアの実装に適した連続時間力学系の最適制御に基づくパターン認識を行う。 学習は動的システムの最適制御のための随伴法に基づいており、入力情報を処理するのにシステムの時間発展に基づく深層(仮想)ネットワーク構造を用いる。 重要な例として,光電子遅延系にダイナミクスに基づく認識手法を適用し,遅延システムを用いることで,少数の制御信号のみを用いた画像認識と非線形分類が可能となることを示す。 これは、多くの重みパラメータをトレーニングする必要がある従来の多層ニューラルネットワークとは対照的である。 提案手法は、最適制御問題の枠組みにおけるディープネットワーク処理のメカニズムを考察し、物理コンピューティングハードウェアを実現するための経路を示す。

Deep learning is the backbone of artificial intelligence technologies, and it can be regarded as a kind of multilayer feedforward neural network. An essence of deep learning is information propagation through layers. This suggests that there is a connection between deep neural networks and dynamical systems in the sense that information propagation is explicitly modeled by the time-evolution of dynamical systems. In this study, we perform pattern recognition based on the optimal control of continuous-time dynamical systems, which is suitable for physical hardware implementation. The learning is based on the adjoint method to optimally control dynamical systems, and the deep (virtual) network structures based on the time evolution of the systems are used for processing input information. As a key example, we apply the dynamics-based recognition approach to an optoelectronic delay system and demonstrate that the use of the delay system allows for image recognition and nonlinear classifications using only a few control signals. This is in contrast to conventional multilayer neural networks, which require a large number of weight parameters to be trained. The proposed approach provides insight into the mechanisms of deep network processing in the framework of an optimal control problem and presents a pathway for realizing physical computing hardware.
翻訳日:2023-04-20 11:20:14 公開日:2021-04-01
# 時間分解単光子計数による時間ビンquditの位相推定

Phase estimation of time-bin qudits by time-resolved single-photon counting ( http://arxiv.org/abs/2012.09939v2 )

ライセンス: Link先を確認
Artur Czerwinski, Karolina Sedziak-Kacprowicz, Piotr Kolenderski(参考訳) ファイバを介して送信される時間ビン量子ドットの量子状態トモグラフィー(QST)に関する包括的なフレームワークを提案する。 基本的な仮定から, 量子状態再構成問題に適用可能な正演算子値測度(povm)を定義する。 検出器の時間的不確実性を実験ノイズの源として扱う場合、現実的なシナリオが考慮される。 量子トモグラフィーフレームワークの性能は、装置を記述する様々なパラメータに対して一連の数値シミュレーションによって検証される。 最小忠実度の概念によって定量化された状態回復の質は、繊維長の範囲のグラフに表される。 qubits と qutrits の相対的位相再構成に特に注意が払われている。 その結果, 繊維長と検出器ジッタの相互依存性が示唆された。

We present a comprehensive framework for quantum state tomography (QST) of time-bin qudits sent through a fiber. Starting from basic assumptions, we define a positive-operator valued measure (POVM) which is then applied to the quantum state reconstruction problem. A realistic scenario is considered where the time uncertainty of the detector is treated as a source of experimental noise. The performance of the quantum tomography framework is examined through a series of numerical simulations conducted for different parameters describing the apparatus. The quality of state recovery, quantified by the notion of minimum fidelity, is depicted on graphs for a range of fiber lengths. Special attention is paid to relative phase reconstruction for qubits and qutrits. The results present relevant interdependence between the fiber length and the detector jitter.
翻訳日:2023-04-20 08:17:08 公開日:2021-04-01
# 空間モードソータを用いた共焦点超解像顕微鏡

Confocal super-resolution microscopy based on a spatial mode sorter ( http://arxiv.org/abs/2101.03649v2 )

ライセンス: Link先を確認
Katherine K. M. Bearne, Yiyu Zhou, Boris Braverman, Jing Yang, S. A. Wadood, Andrew N. Jordan, A. N. Vamivakas, Zhimin Shi, Robert W. Boyd(参考訳) 空間分解能はイメージングシステムの最も重要な仕様の一つである。 量子パラメータ推定理論の最近の結果は、空間モードソータを用いて、2つの不整点源間の任意の小さな距離を常に効率的に決定できることを明らかにする。 しかし、マルチパラメータ推定問題の本質的複雑性のため、この手順を多くの非一貫性点源からなる一般的な対象に拡張することは依然として困難である。 本稿では、この課題に対処するために、Richardson-Lucy(RL)デコンボリューションアルゴリズムを一般化する。 従来の共焦点顕微鏡のピンホールを置き換えたZernike空間モードソータを用いた非コヒーレント共焦点顕微鏡への応用をシミュレーションした。 任意の幾何形状の空間的不整合物体を試験し、標準RLデコンボリューションアルゴリズムを用いて、ソータ型顕微鏡の分解能は従来の共焦点顕微鏡の分解能よりも30%以上高いことがわかった。 本手法は蛍光顕微鏡や天文学イメージングなどの様々な用途に応用できる可能性がある。

Spatial resolution is one of the most important specifications of an imaging system. Recent results in quantum parameter estimation theory reveal that an arbitrarily small distance between two incoherent point sources can always be efficiently determined through the use of a spatial mode sorter. However, extending this procedure to a general object consisting of many incoherent point sources remains challenging, due to the intrinsic complexity of multi-parameter estimation problems. Here, we generalize the Richardson-Lucy (RL) deconvolution algorithm to address this challenge. We simulate its application to an incoherent confocal microscope, with a Zernike spatial mode sorter replacing the pinhole used in a conventional confocal microscope. We test different spatially incoherent objects of arbitrary geometry, and we find that the resolution enhancement of sorter-based microscopy is on average over 30% higher than that of a conventional confocal microscope using the standard RL deconvolution algorithm. Our method could potentially be used in diverse applications such as fluorescence microscopy and astronomical imaging.
翻訳日:2023-04-17 02:59:25 公開日:2021-04-01
# セキュア通信のためのAlGaAsチップを用いたフレキシブルエンタングルメント・ディストリビューションネットワーク

Flexible entanglement-distribution network with an AlGaAs chip for secure communications ( http://arxiv.org/abs/2102.04835v2 )

ライセンス: Link先を確認
F. Appas, F. Baboux, M. I. Amanti, A. Lema\^itre, F. Boitier, E. Diamanti, S. Ducci(参考訳) 量子通信ネットワークは、セキュアな通信からクロック同期や分散量子コンピューティングまで、幅広いアプリケーションを可能にする。 小型化、フレキシブル化、コスト効率の高いリソースは、大規模にデプロイされたインフラストラクチャへ進む上で、そのようなネットワークのスケーラビリティを確保する上で重要な要素となるでしょう。 本稿では、オンチップ、テレコム波長、ブロードバンドエンタングルド光子源と産業レベルのフレキシブルグリッド波長分割多重化技術を組み合わせて、リソース最適化量子ネットワークトポロジにおいて最大8ユーザ間の再構成可能なエンタングルメント分布を実証する。 ベンチマークとして、我々は量子鍵分布を使用し、対称および非対称大都市圏距離光ファイバーリンクと有限サイズ効果を含む複数の周波数チャネルで低誤差および高秘密鍵生成率を示す。 帯域割り当てを特定のネットワーク制約に適応することにより、構成の柔軟なネットワーク機能についても説明します。 商用多重化技術によって60nmの帯域に秘密鍵を分散する半導体源の可能性とともに、これらの結果はスケーラブルな量子ネットワークアーキテクチャの展開に有望な経路を提供する。

Quantum communication networks enable applications ranging from highly secure communication to clock synchronization and distributed quantum computing. Miniaturized, flexible, and cost-efficient resources will be key elements for ensuring the scalability of such networks as they progress towards large-scale deployed infrastructures. Here, we bring these elements together by combining an on-chip, telecom-wavelength, broadband entangled photon source with industry-grade flexible-grid wavelength division multiplexing techniques, to demonstrate reconfigurable entanglement distribution between up to 8 users in a resource-optimized quantum network topology. As a benchmark application we use quantum key distribution, and show low error and high secret key generation rates across several frequency channels, over both symmetric and asymmetric metropolitan-distance optical fibered links and including finite-size effects. By adapting the bandwidth allocation to specific network constraints, we also illustrate the flexible networking capability of our configuration. Together with the potential of our semiconductor source for distributing secret keys over a 60 nm bandwidth with commercial multiplexing technology, these results offer a promising route to the deployment of scalable quantum network architectures.
翻訳日:2023-04-12 03:29:00 公開日:2021-04-01
# ガウスの絡み合いを持つ量子範囲

Quantum ranging with Gaussian entanglement ( http://arxiv.org/abs/2103.11054v2 )

ライセンス: Link先を確認
Quntao Zhuang(参考訳) 絡み合いは量子情報処理のタスクに役立つことはよく知られている。 最初に提案された量子照明は、エンタングルメントの利点がエンタングルメント破壊ノイズに耐えるので驚くべきものである。 それ以来、ノイズのあるシナリオにおける量子センシングの研究に多くの努力が費やされてきた。 しかし、そのようなスキームの適用性は、二項量子仮説テストのシナリオに限られる。 目標検出の観点では、これらのスキームは1つの偏極-方位-上昇-距離-ドップラー分解器を一度に尋問し、レーダー検出への影響を制限する。 エンタングルメントによって強化された量子レンジリングプロトコルを提案することにより、この二項合成制限を解消する。 測位タスクを多元仮説検定問題として定式化することにより、絡み合いは最適古典的スキームに対する誤差指数において6-dBの利点を可能にすることを示す。 さらに,提案プロトコルはパルス位置変調型絡み合い支援通信プロトコルの実装にも利用することができる。 提案手法は,一般の量子仮説テストタスクにおける絡み合いの可能性を明らかにし,証明可能な量子アドバンテージを持つ量子測位レーダへの道を開く。

It is well known that entanglement can benefit quantum information processing tasks. Quantum illumination, when first proposed, is surprising as entanglement's benefit survives entanglement-breaking noise. Since then, many efforts have been devoted to study quantum sensing in noisy scenarios. The applicability of such schemes, however, is limited to a binary quantum hypothesis testing scenario. In terms of target detection, such schemes interrogate a single polarization-azimuth-elevation-range-Doppler resolution bin at a time, limiting the impact to radar detection. We resolve this binary-hypothesis limitation by proposing a quantum ranging protocol enhanced by entanglement. By formulating a ranging task as a multiary hypothesis testing problem, we show that entanglement enables a 6-dB advantage in the error exponent against the optimal classical scheme. Moreover, the proposed ranging protocol can also be utilized to implement a pulse-position modulated entanglement-assisted communication protocol. Our ranging protocol reveals entanglement's potential in general quantum hypothesis testing tasks and paves the way towards a quantum-ranging radar with a provable quantum advantage.
翻訳日:2023-04-07 10:33:59 公開日:2021-04-01
# 保存法下における触媒量子ランダム性の相関資源理論

Correlational Resource Theory of Catalytic Quantum Randomness under Conservation Law ( http://arxiv.org/abs/2104.00300v1 )

ライセンス: Link先を確認
Seok Hyung Lie, Hyunsek Jeong(参考訳) 触媒は、プロセス中に消費されることなく、他の資源の多い物体の変換を支援する物質である。 しかし、その「触媒力」が制限され、枯渇し得るという事実は、特に触媒との相関関係の構築を利用した量子ランダム性触媒論において、しばしば見過ごされている。 本研究は, ランダム性触媒において非相関性を消費する一発触媒ランダム性の資源理論を確立する。 部分変換を用いたランダム性触媒の実装に使用できる二部ユニタリ作用素を完全に特徴付ける。 これにより、すべての触媒チャネルが因子化可能であることが分かり、したがって触媒ではない単位チャネルが存在する。 量子状態内で触媒的に抽出可能なエントロピーを定量化する触媒エントロピーの族を定義し、量子状態の縮退が触媒エントロピーを通常のエントロピーを超えてどれだけ高めるかを示す。 そこで本研究では,一定量のランダム性を抽出した後,実際にランダム性源を排出できることを実証した。 この理論は、特定の量子状態の重ね合わせを禁止し、非最大混合状態が最大触媒エントロピーを生成できるという保存法の下でのシステムに適用する。 本理論は,触媒的ランダム性吸収,非秘密定理,多人数無限触媒の可能性など,様々な話題への示唆について論じる。

Catalysts are substances that assist transformation of other resourceful objects without being consumed in the process. However, the fact that their `catalytic power' is limited and can be depleted is often overlooked, especially in the recently developing theories on catalysis of quantum randomness utilizing building correlation with catalyst. In this work, we establish a resource theory of one-shot catalytic randomness in which uncorrelatedness is consumed in catalysis of randomness. We do so by completely characterizing bipartite unitary operators that can be used to implement catalysis of randomness using partial transpose. By doing so, we find that every catalytic channel is factorizable, and therefore there exists a unital channel that is not catalytic. We define a family of catalytic entropies that quantifies catalytically extractable entropy within a quantum state and show how much degeneracy of quantum state can boost the catalytic entropy beyond its ordinary entropy. Based on this, we demonstrate that a randomness source can be actually exhausted after a certain amount of randomness is extracted. We apply this theory to systems under conservation law that forbids superposition of certain quantum states and find that non-maximally mixed states can yield the maximal catalytic entropy. We discuss implications of this theory to various topics including catalytic randomness absorption, the no-secret theorem and the possibility of multi-party infinite catalysis.
翻訳日:2023-04-05 22:28:59 公開日:2021-04-01
# 強相互作用スピン系を用いた多パラメータ量子力学

Multiparameter quantum metrology using strongly interacting spin systems ( http://arxiv.org/abs/2104.00211v1 )

ライセンス: Link先を確認
Min Jiang, Yunlan Ji, Qing Li, Ran Liu, Dieter Suter, Xinhua Peng(参考訳) 相互作用する量子系は、精密な計量論の発展に対する関心が高まっている。 特に、量子関連状態と相互作用系の力学が全く新しい予期せぬ現象を引き起こすことの実現は、理論上も実験上も相互作用に基づく気象学を探求するための激しい研究を開始した。 しかし, インタラクション・ベース・メトロロジーの現在の枠組みでは, 主に単パラメータ推定に焦点が当てられているが, インタラクションを資源として用いたマルチパラメータ・メトロロジーの実証では不足していた。 ここでは、強く相互作用する核スピンを持つ相互作用に基づくマルチパラメータ・メトロジーを示す。 相互作用スピンはラーモア周波数よりもはるかに大きい場合,多次元場のすべての成分に対して本質的に敏感になることを示す。 強い相互作用を持つ原子核スピンを含む液体状態分子を用いて、未知磁場と慣性回転の3成分の原理的推定を実証する。 既存のアプローチとは対照的に、現在のインタラクションベースのマルチパラメータセンシングは外部参照フィールドを必要とせず、全く新しい種類のマルチパラメータ量子センサーを開発するための道を開く。

Interacting quantum systems are attracting increasing interest for developing precise metrology. In particular, the realisation that quantum-correlated states and the dynamics of interacting systems can lead to entirely new and unexpected phenomena have initiated an intense research effort to explore interaction-based metrology both theoretically and experimentally. However, the current framework of interaction-based metrology mainly focuses on single-parameter estimations, a demonstration of multiparameter metrology using interactions as a resource was heretofore lacking. Here we demonstrate an interaction-based multiparameter metrology with strongly interacting nuclear spins. We show that the interacting spins become intrinsically sensitive to all components of a multidimensional field when their interactions are significantly larger than their Larmor frequencies. Using liquid-state molecules containing strongly interacting nuclear spins, we demonstrate the proof-of-principle estimation of all three components of an unknown magnetic field and inertial rotation. In contrast to existing approaches, the present interaction-based multiparameter sensing does not require external reference fields and opens a path to develop an entirely new class of multiparameter quantum sensors.
翻訳日:2023-04-05 22:27:46 公開日:2021-04-01
# ランダム化測定による量子フィッシャー情報の実験的推定

Experimental estimation of the quantum Fisher information from randomized measurements ( http://arxiv.org/abs/2104.00519v1 )

ライセンス: Link先を確認
Min Yu, Dongxiao Li, Jingcheng Wang, Yaoming Chu, Pengcheng Yang, Musang Gong, Nathan Goldman, and Jianming Cai(参考訳) 量子フィッシャー情報(QFI)は、量子物理学の基本概念である。 一方、量子パラメータ推定測定における量子状態のメトロロジーポテンシャルを定量化する。 一方、これは本質的に、多体系の量子幾何学と多部交絡と関係している。 本稿では、純量子状態と混合量子状態の両方に適用できるという利点を持つ、ランダム化測定を用いてqfiを推定する方法を考察する。 後者の場合、本手法は、qfiに下限を設定するサブ量子フィッシャー情報へのアクセスを与える。 本研究では, ダイヤモンド中の窒素空孔中心スピンと超伝導量子コンピュータによって提供される4量子状態の2つのプラットフォームを用いて, このアプローチを実験的に検証した。 さらに,多体スピンシステムの数値的研究を行い,量子状態トモグラフィーと比較して,多粒子の絡み合いを推定するランダム化測定手法の利点を示す。 本研究は, 固体スピンシステム, 超伝導量子コンピュータ, 閉じ込められたイオンを含む一般量子プラットフォームへの本手法の適用性を強調し, 量子物理学におけるQFIの本質的役割を探求するための汎用的なツールを提供する。

The quantum Fisher information (QFI) represents a fundamental concept in quantum physics. On the one hand, it quantifies the metrological potential of quantum states in quantum-parameter-estimation measurements. On the other hand, it is intrinsically related to the quantum geometry and multipartite entanglement of many-body systems. Here, we explore how the QFI can be estimated via randomized measurements, an approach which has the advantage of being applicable to both pure and mixed quantum states. In the latter case, our method gives access to the sub-quantum Fisher information, which sets a lower bound on the QFI. We experimentally validate this approach using two platforms: a nitrogen-vacancy center spin in diamond and a 4-qubit state provided by a superconducting quantum computer. We further perform a numerical study on a many-body spin system to illustrate the advantage of our randomized-measurement approach in estimating multipartite entanglement, as compared to quantum state tomography. Our results highlight the general applicability of our method to general quantum platforms, including solid-state spin systems, superconducting quantum computers and trapped ions, hence providing a versatile tool to explore the essential role of the QFI in quantum physics.
翻訳日:2023-04-05 22:21:53 公開日:2021-04-01
# 2つ以上の入力と2つの出力を持つベルの不等式に基づくデバイス独立量子鍵分布

Device-independent quantum key distribution based on Bell inequalities with more than two inputs and two outputs ( http://arxiv.org/abs/2104.00413v1 )

ライセンス: Link先を確認
Junior R. Gonzales-Ureta, Ana Predojevi\'c, Ad\'an Cabello(参考訳) デバイス独立量子鍵分布(DI-QKD)は、量子力学の法則に縛られた盗聴者に対する最強のセキュリティを提供する。 しかし、現在の技術では可能な以上の可視性と検出効率の組合せが要求されるため、実用的実装はまだ保留されている。 このミスマッチは、理論と実用のセキュリティのギャップを埋めるDI-QKDプロトコルの探索を動機付けている。 本稿では、2つ以上の入力と2つの出力を持つベルの不等式に依存する2つのDI-QKDプロトコルを提案する。 3つの入力と4つの出力を持つベルの不等式に基づくプロトコルでは、2つの入力と2つの出力を持つベルの不等式に基づくプロトコルよりもわずかに検出効率が低いことを示す。

Device-independent quantum key distribution (DI-QKD) offers the strongest form of security against eavesdroppers bounded by the laws of quantum mechanics. However, a practical implementation is still pending due to the requirement of combinations of visibility and detection efficiency that are beyond those possible with current technology. This mismatch motivates the search for DI-QKD protocols that can close the gap between theoretical and practical security. In this work, we present two DI-QKD protocols whose security relies on Bell inequalities with more than two inputs and two outputs. We show that, for maximally entangled states and perfect visibility, a protocol based on a Bell inequality with three inputs and four outputs requires a slightly lower detection efficiency than the protocols based on Bell inequalities with two inputs and two outputs.
翻訳日:2023-04-05 22:21:11 公開日:2021-04-01
# 希土類量子エミッタに結合した高速可変マイクロキャビティ

High-Speed Tunable Microcavities Coupled to Rare-Earth Quantum Emitters ( http://arxiv.org/abs/2104.00389v1 )

ライセンス: Link先を確認
Kangwei Xia, Fiammetta Sardi, Colin Sauerzapf, Thomas Kornher, Hans-Werner Becker, Zsolt Kis, Laszlo Kovacs, Roman Kolesov, J\"org Wrachtrup(参考訳) オンチップフォトニックデバイスの電気的光制御は、効率的な集積フォトニクスにとって必須のツールである。 絶縁体上のニオブ酸リチウム(lnoi)は、大きな電気光学係数と高非線形性([1])のため、オンチップフォトニクスの新たなプラットフォームである。 量子エミッタをLNOIに統合することは、古典フォトニクスにおける多用途の使用を量子コンピューティングと通信に拡張する[2, 3]。 ここでは、単一希土類イオン(REI)量子エミッタを電気光学的波長可変リチウムニオブ(LN)薄膜に組み込み、160GHz帯でREIに結合したLNマイクロキャビティの制御と5 \musスイッチング速度を示す。 キャビティの動的制御は、短い時間定数でREIのパーセル拡張の変調を可能にする。 Purcellの増強により,LN空洞内のYb3+イオンが検出された。 高速可変フォトニックデバイスにおける量子エミッタの結合は、エミッタ[4]の波形を形成する効率的な方法である。 また、高レベルのチャネル多重化を達成するためにスペクトル-時間空間領域の統合において量子情報をエンコードするプラットフォームと、決定論的単一光子源 [5, 6]を生成するアプローチを提供する。

Electro-optical control of on-chip photonic devices is an essential tool for efficient integrated photonics. Lithium niobate on insulator (LNOI) is an emerging platform for on-chip photonics due to its large electro-optic coefficient and high nonlinearity [1]. Integrating quantum emitters into LNOI would extend their versatile use in classic photonics to quantum computing and communication [2, 3]. Here, we incorporate single rare-earth ions (REI) quantum emitters in electro-optical tunable lithium niobite (LN) thin films and demonstrate control of LN microcavities coupled to REI over a frequency range of 160 GHz with 5 \mus switching speed. Dynamical control of the cavities enables the modulation of the Purcell enhancement of the REIs with short time constants. Using the Purcell enhancement, we show evidence of detecting single Yb3+ ions in LN cavities. Coupling quantum emitters in fast tunable photonic devices is an efficient method to shape the waveform of the emitter [4]. It also offers a platform to encode quantum information in the integration of a spectral-temporal-spatial domain to achieve high levels of channel multiplexing, as well as an approach to generate deterministic single-photon sources [5, 6].
翻訳日:2023-04-05 22:20:57 公開日:2021-04-01
# 2次元におけるディラック方程式の一般化表現とは何か

What Is the Generalized Representation of Dirac Equation in Two Dimensions? ( http://arxiv.org/abs/2104.00388v1 )

ライセンス: Link先を確認
H. Moaiery and A. Chenani and A. Hakimifard and N. Tahmasebi(参考訳) 本研究では、2+1次元に対する2\times2$dirac行列の一般形式を見いだす。 この一般表現を見つけるために、行列と行列の要素間のすべての関係が発見され、一般化されたローレンツ変換行列もディラック行列の一般表現の影響下でも見られる。 よく知られているように、ディラックの方程式 $left(i\gamma^{\mu}\partial_{\mu}-m\right) \psi=0 $ はディラック行列やディラック行列の一般表現として知られる偶数次元の行列からなる。 この研究の動機は、このよく知られた方程式の発見から90年以上が経過したにもかかわらず、これらの行列の一般表現の欠如にある。 例えば、ディラック・パウリ表現(Dirac-Pauli Representation)、ワイル表現(Weyl Representation)、マヨラナ表現(Majolarana representation)と呼ばれる標準的な表現である。 この研究では、これらの行列が持つことのできる一般的な形式が、すべてに対して一度見つかる。

In this work, the general form of $2\times2$ Dirac matrices for 2+1 dimension is found. In order to find this general representation, all relations among the elements of the matrices and matrices themselves are found,and the generalized Lorentz transform matrix is also found under the effect of the general representation of Dirac matrices. As we know, the well known equation of Dirac, $ \left( i\gamma^{\mu}\partial_{\mu}-m\right) \Psi=0 $, is consist of matrices of even dimension known as the general representation of Dirac matrices or Dirac matrices. Our motivation for this study was lack of the general representation of these matrices despite the fact that more than nine decades have been passed since the discovery of this well known equation. Everyone has used a specific representation of this equation according to their need; such as the standard representation known as Dirac-Pauli Representation, Weyl Representation or Majorana representation. In this work, the general form which these matrices can have is found once for all.
翻訳日:2023-04-05 22:20:31 公開日:2021-04-01
# 2色フェムト秒パルス励起対称トップ分子の長寿命配向

Long-Lasting Orientation of Symmetric-top Molecules Excited by Two-Color Femtosecond Pulses ( http://arxiv.org/abs/2104.00307v1 )

ライセンス: Link先を確認
Long Xu, Ilia Tutunnikov, Yehiam Prior, and Ilya Sh. Averbukh(参考訳) 二色フェムト秒パルスで励起される対称トップ分子のインパルス配向を考える。 パルスの直後に現れるよく知られた過渡配向に加えて、量子回復により周期的に再帰し、フィールドフリー長寿命配向の現象を報告する。 長期化は、例えば分子間衝突などの他の物理的効果によって破壊されるまで平均配向時間がゼロにならないことを意味する。 この効果は、場分極性と場分極性相互作用の複合作用によって引き起こされる。 温度とパルスのパラメータに対する長持続方向の依存性を考察した。 この効果は2次(またはそれ以上)の高調波発生によって測定でき、不均質な静電場を通過する分子の振れを制御するのに使うことができる。

Impulsive orientation of symmetric-top molecules excited by two-color femtosecond pulses is considered. In addition to the well-known transient orientation appearing immediately after the pulse and then reemerging periodically due to quantum revivals, we report the phenomenon of field-free long-lasting orientation. Long-lasting means that the time averaged orientation remains non-zero until destroyed by other physical effects, e.g. intermolecular collisions. The effect is caused by the combined action of the field-polarizability and field-hyperpolarizability interactions. The dependence of degree of long-lasting orientation on temperature and pulse's parameters is considered. The effect can be measured by means of second (or higher-order) harmonic generation, and may be used to control the deflection of molecules traveling through inhomogeneous electrostatic fields.
翻訳日:2023-04-05 22:19:47 公開日:2021-04-01
# spin-1 pxpモデルにおける制約によるエルゴディシティの破壊と回復

Constraint-induced breaking and restoration of ergodicity in spin-1 PXP models ( http://arxiv.org/abs/2104.00699v1 )

ライセンス: Link先を確認
Bhaskar Mukherjee, Zi Cai, W. Vincent Liu(参考訳) 固有状態熱化仮説(eth)は、孤立量子多体系におけるエルゴード性とその破れを理解する上で重要な役割を担っている。 51原子のrydberg量子シミュレータとその後の理論解析に関する最近の実験は、ハードコアの速度論的制約が弱いエルゴディティの破れをもたらすことを示した。 本研究では, 1d spin-1 pxp鎖を用いて, 近接スピンの異なる成分間のハードコア制約を調整することで, 異種のエルゴディキシティを実現することを実証する。 これには、ヒルベルト空間の指数関数的に多くの部分集合への創発的破砕による ETH 違反、局所保存量と強いエルゴード性を持つ新しい形の非可積分性が含まれる。 我々はこれらの異なる形のエルゴード性を分析し、Z2初期状態の非平衡ダイナミクスへの影響を研究する。 これらのモデルに存在するZ2-oscillationの量を理解するために、フォワード散乱近似(FSA)を用いる。 私たちの研究は、エルゴード性の破壊だけでなく、制約の適切な選択もエルゴード性の回復にも繋がることを示している。

Eigenstate Thermalization Hypothesis(ETH) has played a pivotal role in understanding ergodicity and its breaking in isolated quantum many-body systems. Recent experiment on 51-atom Rydberg quantum simulator and subsequent theoretical analysis have shown that hardcore kinetic constraint can lead to weak ergodicity breaking. In this work, we demonstrate, using 1d spin-1 PXP chains, that miscellaneous type of ergodicity can be realized by adjusting the hardcore constraints between different components of nearest neighbor spins. This includes ETH violation due to emergent shattering of Hilbert space into exponentially many subsectors of various sizes, a novel form of non-integrability with an extensive number of local conserved quantities and strong ergodicity. We analyze these different forms of ergodicity and study their impact on the non-equilibrium dynamics of a Z2 initial state. We use forward scattering approximation (FSA) to understand the amount of Z2-oscillation present in these models. Our work shows that not only ergodicity breaking but an appropriate choice of constraints can lead to restoration of ergodicity as well.
翻訳日:2023-04-05 22:14:03 公開日:2021-04-01
# 熱場二重状態の絡み合い再正規化

Entanglement renormalization of thermofield double states ( http://arxiv.org/abs/2104.00693v1 )

ライセンス: Link先を確認
Cheng-Ju Lin, Zhi Li, Timothy H. Hsieh(参考訳) エンタングルメント再正規化(Entanglement renormalization)は、実空間における量子状態の粗粒化方法であり、マルチスケールエンタングルメント再正規化アンサッツ(MERA)が顕著な例である。 有限温度 (gibbs) 状態のエンタングルメント再正規化スキームをmeraを標準純度である熱場二重状態に適用することにより得られる。 例えば、有限温度の2次元トーリック符号に対して解析的に正確な再正規化回路を発見し、それを高温度の粗粒系にマッピングし、位相秩序の欠如を明確に示す。 さらに、このスキームを有限温度における1次元自由ボソンモデルに適用し、臨界熱状態に対応する熱場倍がリフシッツ理論によって記述されることを示した。 実空間再正規化における様々な摂動の関連性および無関係性を数値的に示す。

Entanglement renormalization is a method for coarse-graining a quantum state in real space, with the multi-scale entanglement renormalization ansatz (MERA) as a notable example. We obtain an entanglement renormalization scheme for finite-temperature (Gibbs) states by applying MERA to their canonical purification, the thermofield double state. As an example, we find an analytically exact renormalization circuit for finite temperature two-dimensional toric code which maps it to a coarse-grained system with a renormalized higher temperature, thus explicitly demonstrating its lack of topological order. Furthermore, we apply this scheme to one-dimensional free boson models at a finite temperature and find that the thermofield double corresponding to the critical thermal state is described by a Lifshitz theory. We numerically demonstrate the relevance and irrelevance of various perturbations under real space renormalization.
翻訳日:2023-04-05 22:13:41 公開日:2021-04-01
# 駆動型量子エミッタキャビティシステムを用いた光子絡みの時間依存性スイッチング

Time-dependent switching of the photon entanglement type using a driven quantum emitter-cavity system ( http://arxiv.org/abs/2104.00643v1 )

ライセンス: Link先を確認
Tim Seidelmann, Doris E. Reiter, Michael Cosacchi, Moritz Cygorek, Alexei Vagov, Vollrath Martin Axt(参考訳) 4レベル量子エミッタにおけるカスケード崩壊は、量子技術における多くの応用の構成要素である偏光子対を生成するための確立されたメカニズムである。 最大に絡み合った4つの光子対状態はベル状態である。 非駆動エミッタに基づく典型的な実験では、与えられた偏光基底で1種類のベル状態の絡み合いしか観測できない。 他の種類のベル状態の絡み合いは、外部レーザーによって連続的に駆動することで生成することができる。 本研究では,外部駆動強度を変化させることで動作可能な4レベル量子エミッタキャビティシステムにおける時間依存の絡み合いスイッチングプロトコルを提案する。 レーザドレッシング状態の間で異なる2光子共鳴を選択することで、異なる種類のベル状態の絡み合いと、絡み合った光子対と非絡み合い光子対の間を、積極的に切り替えることができる。 この注目すべき特徴は、多くの革新的なアプリケーションで使用できるエンタングルメントタイプの制御された時間に依存した操作を実現する可能性を示している。

The cascaded decay in a four-level quantum emitter is a well established mechanism to generate polarization entangled photon pairs, the building blocks of many applications in quantum technologies. The four most prominent maximally entangled photon pair states are the Bell states. In a typical experiment based on an undriven emitter only one type of Bell state entanglement can be observed in a given polarization basis. Other types of Bell state entanglement in the same basis can be created by continuously driving the system by an external laser. In this work we propose a protocol for time-dependent entanglement switching in a four-level quantum emitter--cavity system that can be operated by changing the external driving strength. By selecting different two-photon resonances between the laser-dressed states, we can actively switch back and forth between the different types of Bell state entanglement in the same basis as well as between entangled and nonentangled photon pairs. This remarkable feature demonstrates the possibility to achieve a controlled, time-dependent manipulation of the entanglement type that could be used in many innovative applications.
翻訳日:2023-04-05 22:12:40 公開日:2021-04-01
# IoTのためのブロックチェーンとスマートコントラクトによりスマート農業が可能に

Blockchain and smart contract for IoT enabled smart agriculture ( http://arxiv.org/abs/2104.00632v1 )

ライセンス: Link先を確認
Tahmid Hasan Pranto, Abdulla All Noman, Atik Mahmud and AKM Bahalul Haque(参考訳) 農業部門は最新の技術を使うという点で、他のあらゆる分野から遅れを取っている。 生産では、最新のマシンが導入され、採用されている。 しかし、プレハーベスト処理やポストハーベスト処理は、農業データを追跡、保存、公開しながら、伝統的な方法論に従って行われる。 その結果、農家は商品を購入する前に十分な情報を得ることができず、中間者/プロセッサは小売価格を上昇させている。 ブロックチェーン、スマートコントラクト、IoTデバイスを使用して、プロセスを完全に自動化し、これらすべての関係者の絶対的な信頼を確立することができます。 本研究では、ブロックチェーンとスマートコントラクトを、農業のプレハーベスティングとポストハーベスティングのセグメントでIoTデバイスを統合することで、さまざまな側面について検討した。 我々は、ブロックチェーンをバックボーンとして使用するシステムを提案し、IoTデバイスはフィールドレベルからデータを収集し、スマートコントラクトはこれらすべてのコントリビュータ間のインタラクションを規制する。 システムの実装は図や適切な説明で示されています。 各運転のガスコストも、コストをよりよく理解するために取付けられている。 また,課題やメリットの観点からシステムを解析した。 この調査の全体的な影響は、農業分野におけるブロックチェーンの不変性、可用性、透過性、堅牢でセキュアな特性を示すと同時に、ブロックチェーン、スマートコントラクト、IoTのコラボレーションがもたらす活気あるメカニズムを強調することであった。

The agricultural sector is still lagging behind from all other sectors in terms of using the newest technologies. For production, the latest machines are being introduced and adopted. However, pre-harvest and post-harvest processing are still done by following traditional methodologies while tracing, storing, and publishing agricultural data. As a result, farmers are not getting deserved payment, consumers are not getting enough information before buying their product, and intermediate person/processors are increasing retail prices. Using blockchain, smart contracts, and IoT devices, we can fully automate the process while establishing absolute trust among all these parties. In this research, we explored the different aspects of using blockchain and smart contracts with the integration of IoT devices in pre-harvesting and post-harvesting segments of agriculture. We proposed a system that uses blockchain as the backbone while IoT devices collect data from the field level, and smart contracts regulate the interaction among all these contributing parties. The system implementation has been shown in diagrams and with proper explanations. Gas costs of every operation have also been attached for a better understanding of the costs. We also analyzed the system in terms of challenges and advantages. The overall impact of this research was to show the immutable, available, transparent, and robustly secure characteristics of blockchain in the field of agriculture while also emphasizing the vigorous mechanism that the collaboration of blockchain, smart contract, and IoT presents.
翻訳日:2023-04-05 22:12:21 公開日:2021-04-01
# 動的損失しきい値による雑音ラベルからの学習

Learning from Noisy Labels via Dynamic Loss Thresholding ( http://arxiv.org/abs/2104.02570v1 )

ライセンス: Link先を確認
Hao Yang, Youzhi Jin, Ziyin Li, Deng-Bao Wang, Lei Miao, Xin Geng, Min-Ling Zhang(参考訳) 多くの研究により、ディープニューラルネットワーク(DNN)がノイズのあるラベルを持つデータであっても、最終的にすべてに適合できることが証明され、結果として一般化性能は低下する。 しかし最近の研究では、DNNはデータを徐々に記憶し、正しいデータから間違ったラベル付きデータに移行する傾向にあることが示唆されている。 そこで本研究では,DLT(Dynamic Loss Thresholding)という新しい手法を提案する。 トレーニングプロセス中、DLTは各サンプルの損失値を記録し、動的損失閾値を算出する。 具体的には、dltは各サンプルの損失値と電流損失閾値を比較する。 損失が少ないサンプルはより高い確率でクリーンなサンプルと見なすことができる。 そして、DLTは、潜在的に破損したラベルを捨て、さらに教師付き学習技術を活用する。 CIFAR-10/100 と Clothing1M の実験は、最近の最先端手法よりも大幅に改善されている。 さらに,実世界の2つの問題を初めて検討した。 まず,dnnの初期訓練段階と後期訓練段階の損失差に基づいて,データセットの雑音率を推定する新しい手法を提案する。 第二に、ノイズラベルから学習する過程におけるハードサンプル(区別が難しい)の効果について検討する。

Numerous researches have proved that deep neural networks (DNNs) can fit everything in the end even given data with noisy labels, and result in poor generalization performance. However, recent studies suggest that DNNs tend to gradually memorize the data, moving from correct data to mislabeled data. Inspired by this finding, we propose a novel method named Dynamic Loss Thresholding (DLT). During the training process, DLT records the loss value of each sample and calculates dynamic loss thresholds. Specifically, DLT compares the loss value of each sample with the current loss threshold. Samples with smaller losses can be considered as clean samples with higher probability and vice versa. Then, DLT discards the potentially corrupted labels and further leverages supervised learning techniques. Experiments on CIFAR-10/100 and Clothing1M demonstrate substantial improvements over recent state-of-the-art methods. In addition, we investigate two real-world problems for the first time. Firstly, we propose a novel approach to estimate the noise rates of datasets based on the loss difference between the early and late training stages of DNNs. Secondly, we explore the effect of hard samples (which are difficult to be distinguished) on the process of learning from noisy labels.
翻訳日:2023-04-05 22:03:32 公開日:2021-04-01
# 量子近似最適化アルゴリズムの普遍性に関する上限

An upper bound on the Universality of the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2104.01993v1 )

ライセンス: Link先を確認
J Ceasar Aguma(参考訳) リー代数を用いて、この短いテキストはQAOAの普遍性に関する上限を与える。 すなわち、普遍ゲート集合を近似するのに必要となるQAOAの変化数に対する上限が O(n) 内であることを証明する。

Using lie algebra, this brief text provides an upper bound on the universality of QAOA. That is, we prove that the upper bound for the number of alterations of QAOA required to approximate a universal gate set is within O(n)
翻訳日:2023-04-05 22:03:16 公開日:2021-04-01
# シンプレクティック対称性を持つ古典的カオス量子系の欠測レベル統計

Missing-level statistics in classically chaotic quantum systems with symplectic symmetry ( http://arxiv.org/abs/2104.01911v1 )

ライセンス: Link先を確認
Jiongning Che, Junjie Lu, 2 Xiaodong Zhang, 1 Barbara Dietz and Guozhi Chai(参考訳) 古典極限におけるシンプレクティック対称性とカオス力学を持つ量子系の不完全スペクトルの揺らぎ特性に関する実験的および理論的結果を示す。 理論的予測を得るために, [o. bohigas and m. p. pato, phys. rev. e 74, 036212 (2006)] で導入された直交対称性を持つ量子系の不完全スペクトルに対するランダム行列理論(rmt)アプローチを拡張する。 量子グラフの数値解とシンプレクティック対称性を持つマイクロ波ネットワークに対する実験により得られた完全系列から無作為にレベルを抽出し、不完全な実験スペクトルに適用してその適用性を示すことにより、これらのrmt予測を検証する。 対称性クラス量子グラフとは独立に、非普遍的貢献に由来する非遺伝的特徴を示す。 関連する固有フレクエンシーの一部はパラメータ依存量子グラフのレベルダイナミクスで同定され、抽出され、固有フレクエンシーを体系的に欠くスペクトルが得られる。 RMTの手法は、ランダムにレベルが欠落しているという仮定に頼っているにもかかわらず、不足レベルの分数を決定し、その変動特性とRTT予測との比較により適切な対称性クラスを割り当てることが可能である。

We present experimental and theoretical results for the fluctuation properties in the incomplete spectra of quantum systems with symplectic symmetry and a chaotic dynamics in the classical limit. To obtain theoretical predictions, we extend the random-matrix theory (RMT) approach introduced in [O. Bohigas and M. P. Pato, Phys. Rev. E 74, 036212 (2006)] for incomplete spectra of quantum systems with orthogonal symmetry. We validate these RMT predictions by randomly extracting a fraction of levels from complete sequences obtained numerically for quantum graphs and experimentally for microwave networks with symplectic symmetry and then apply them to incomplete experimental spectra to demonstrate their applicability. Independently of their symmetry class quantum graphs exhibit nongeneric features which originate from nonuniversal contributions. Part of the associated eigenfrequencies can be identified in the level dynamics of parameter-dependent quantum graphs and extracted, thereby yielding spectra with systematically missing eigenfrequencies. We demonstrate that, even though the RMT approach relies on the assumption that levels are missing at random, it is possible to determine the fraction of missing levels and assign the appropriate symmetry class by comparison of their fluctuation properties with the RMT predictions.
翻訳日:2023-04-05 22:03:07 公開日:2021-04-01
# bohmポテンシャルを用いた2モード圧縮真空状状態の工学

Engineering two-mode squeezed vacuum-like states by using the Bohm potential ( http://arxiv.org/abs/2104.00781v1 )

ライセンス: Link先を確認
H\'ector M. Moya-Cessa, Felipe A. Asenjo, Sergio A. Hojman, Francisco Soto-Eguibar(参考訳) 導波関数の位相を適切に選択することにより, 2モード圧縮真空状状態がボーム・マデラング形式に実装できることを示す。 我々の波動関数と圧縮真空状態の違いは、我々が選択した位相によって正確に与えられる。

We show that two-mode squeezed vacuum-like states may be engineered in the Bohm-Madelung formalism by adequately choosing the phase of the wavefunction. The difference between our wavefunction and the one of the squeezed vacuum states is given precisely by the phase we choose.
翻訳日:2023-04-05 22:01:51 公開日:2021-04-01
# エンジニアリング the quantum scientific computing open user testbed (qscout): 設計の詳細とユーザガイド

Engineering the Quantum Scientific Computing Open User Testbed (QSCOUT): Design details and user guide ( http://arxiv.org/abs/2104.00759v1 )

ライセンス: Link先を確認
Susan M. Clark, Daniel Lobser, Melissa Revelle, Christopher G. Yale, David Bossert, Ashlyn D. Burch, Matthew N. Chow, Craig W. Hogle, Megan Ivory, Jessica Pehr, Bradley Salzbrenner, Daniel Stick, William Sweatt, Joshua M. Wilson, Edward Winrow, Peter Maunz(参考訳) 量子コンピューティングオープンユーザテストベッド (Quantum Scientific Computing Open User Testbed, QSCOUT) は、米国エネルギー省(DOE)とASCR(Advanced Scientific Computing Research)プログラムの科学計算応用における短期量子ハードウェアの可能性を評価するために設計された、トラップオン量子ビットシステムである。 主に超伝導量子ビットをベースにした商用プラットフォームと同様に、量子アルゴリズムの実行、量子システム固有のノイズ特性の調査、そして将来より大規模で強力なシステムに有用な新しいアイデアのテストに研究者が使用できる量子ハードウェアを提供する。 しかし、他の多くの量子コンピューティングテストベッドとは異なり、QSCOUTはトラップされた$^{171}$Yb$^{+}$イオンを量子ビットとして使用し、量子回路と低レベルパルス制御の両方に量子ビット間の完全な接続を提供し、新しいプログラミングと最適化のモードの研究を可能にする。 本原稿の目的は,QSCOUTハードウェアとそのインターフェースの詳細をユーザと一般コミュニティに提供することで,その能力を最大限に活用することである。

The Quantum Scientific Computing Open User Testbed (QSCOUT) at Sandia National Laboratories is a trapped-ion qubit system designed to evaluate the potential of near-term quantum hardware in scientific computing applications for the US Department of Energy (DOE) and its Advanced Scientific Computing Research (ASCR) program. Similar to commercially available platforms, most of which are based on superconducting qubits, it offers quantum hardware that researchers can use to perform quantum algorithms, investigate noise properties unique to quantum systems, and test novel ideas that will be useful for larger and more powerful systems in the future. However, unlike most other quantum computing testbeds, QSCOUT uses trapped $^{171}$Yb$^{+}$ ions as the qubits, provides full connectivity between qubits, and allows both quantum circuit and low-level pulse control access to study new modes of programming and optimization. The purpose of this manuscript is to provide users and the general community with details of the QSCOUT hardware and its interface, enabling them to take maximum advantage of its capabilities.
翻訳日:2023-04-05 22:01:36 公開日:2021-04-01
# 二重電子電子共鳴によるダイヤモンドの局所欠陥密度の決定

Determination of local defect density in diamond by double electron-electron resonance ( http://arxiv.org/abs/2104.00744v1 )

ライセンス: Link先を確認
Shang Li, Huijie Zheng, Zaili Peng, Mizuki Kamiya, Tomoyuki Niki, Viktor Stepanov, Andrey Jarmola, Yasuhiro Shimizu, Susumu Takahashi, Arne Wickenbrock, and Dmitry Budker(参考訳) ダイヤモンドの磁気不純物は緩和特性に影響を与え、窒素空調色中心に基づく磁気、電気、ひずみ、温度センサーの感度を制限する。 ダイヤモンドサンプルは、緩和経路の定量的解析を妨げる不純物濃度の空間的変化を示す可能性がある。 本稿では,二重電子-電子共鳴を利用して各種欠陥の濃度を測定できる局所的測定手法を提案する。 この方法ではスピン緩和の基礎となる物理学の理解を深め、ダイヤモンド試料の開発を導くとともに、最適化されたセンシングのためのプロトコルを提供する。

Magnetic impurities in diamond influence the relaxation properties and thus limit the sensitivity of magnetic, electric, strain, and temperature sensors based on nitrogen-vacancy color centers. Diamond samples may exhibit significant spatial variations in the impurity concentrations hindering the quantitative analysis of relaxation pathways. Here, we present a local measurement technique which can be used to determine the concentration of various species of defects by utilizing double electron-electron resonance. This method will help to improve the understanding of the physics underlying spin relaxation and guide the development of diamond samples, as well as offering protocols for optimized sensing.
翻訳日:2023-04-05 22:00:53 公開日:2021-04-01
# インテリジェントで効率的なIoTスペクトルセンサを実現するためのRFデータに基づく貯留層エッジトレーニング

Reservoir Based Edge Training on RF Data To Deliver Intelligent and Efficient IoT Spectrum Sensors ( http://arxiv.org/abs/2106.16087v1 )

ライセンス: Link先を確認
Silvija Kokalj-Filipovic, Paul Toliver, William Johnson, Rob Miller(参考訳) エッジにおける現在の高周波センサは、インテリジェントスペクトル監視のための実践的、その場でのトレーニング、センサデータ分類をサポートするための計算資源を欠いている。 本稿では,Deep Delay Loop Reservoir Computing (DLR) を用いて,革新的な電気光学ハードウェアと組み合わせて遅延ループ貯水池計算を活用することで,小型モバイルデバイス上での汎用機械学習アルゴリズムをサポートする処理アーキテクチャを提案する。 ループの設計をデジタルとフォトニックの両方で実現することにより、DLRは、SoA(State-of-the-Art)と比較して、フォームファクタ、ハードウェアの複雑さ、レイテンシの低減を実現します。 貯水池の主な影響は、入力クラスを線形に分離するために、入力データを高次元の貯水池状態ベクトル空間に投影することである。 クラスが適切に分離されると、伝統的に複雑なパワーハングリー分類モデルが学習プロセスに不要になる。 しかし、リッジ回帰(RR)に基づく単純な分類器でさえ、複雑性は少なくとも入力サイズに比例して増大する。 したがって、コンパクトデバイスでのトレーニングに必要なハードウェアの削減は、状態ベクトルの大きな次元と矛盾する。 DLRはRRベースの分類器を使用してSoAの精度を超え、並列(分割)ループのアーキテクチャを活用することで消費電力をさらに削減する。 状態ベクトルを線形に結合した複数の小さなループからなるDLRアーキテクチャを、リッジ回帰に対する低次元入力を生成する。 我々は、IoT認証のためのRF specific Emitter Identification (SEI) と、IoT状況認識のための無線プロトコル認識の2つの異なるアプリケーションにDLRを使用することの利点を実証する。

Current radio frequency (RF) sensors at the Edge lack the computational resources to support practical, in-situ training for intelligent spectrum monitoring, and sensor data classification in general. We propose a solution via Deep Delay Loop Reservoir Computing (DLR), a processing architecture that supports general machine learning algorithms on compact mobile devices by leveraging delay-loop reservoir computing in combination with innovative electrooptical hardware. With both digital and photonic realizations of our design of the loops, DLR delivers reductions in form factor, hardware complexity and latency, compared to the State-of-the-Art (SoA). The main impact of the reservoir is to project the input data into a higher dimensional space of reservoir state vectors in order to linearly separate the input classes. Once the classes are well separated, traditionally complex, power-hungry classification models are no longer needed for the learning process. Yet, even with simple classifiers based on Ridge regression (RR), the complexity grows at least quadratically with the input size. Hence, the hardware reduction required for training on compact devices is in contradiction with the large dimension of state vectors. DLR employs a RR-based classifier to exceed the SoA accuracy, while further reducing power consumption by leveraging the architecture of parallel (split) loops. We present DLR architectures composed of multiple smaller loops whose state vectors are linearly combined to create a lower dimensional input into Ridge regression. We demonstrate the advantages of using DLR for two distinct applications: RF Specific Emitter Identification (SEI) for IoT authentication, and wireless protocol recognition for IoT situational awareness.
翻訳日:2023-04-05 21:54:29 公開日:2021-04-01
# 2つの真実と嘘:Amazon Alexaによる新型コロナウイルスの誤報のソフト・モデレーションを探る

Two Truths and a Lie: Exploring Soft Moderation of COVID-19 Misinformation with Amazon Alexa ( http://arxiv.org/abs/2104.04077v1 )

ライセンス: Link先を確認
Donald Gover and Filipo Sharevski(参考訳) 本稿では、サードパーティのamazon alexaスキルを用いて、新型コロナウイルス(covid-19)ワクチンのツイートの正確性を分析した。 私たちは、twitterが新型コロナウイルス(covid-19)の誤情報コンテンツに適用するソフトモデレーションを、警告カバーと警告タグの両方の形式で模倣して、サードパーティのスキルが、ユーザーがこれらの警告をいつ、いつ、どのように監視できるかを検証した。 304名の被験者による研究結果から,テキストから音声への変換においても,音声バック警告カバーは意図通りに動作しない可能性が示唆された。 われわれは、新型コロナウイルスの予防接種と政治的傾向をコントロールし、ツイートが個人的な信念と一致している限り、Alexaのユーザーはいかなる種類の警告も無視していることがわかった。 政治的に独立したユーザーは、Alexaを政治的に劣勢なユーザーよりも信頼しており、新型コロナウイルスの情報を正確に把握するのに役立った。 本稿では,新型コロナウイルスの誤情報の抑制を目的とした音声アシスタントのソフトモデレーション適応について検討する。

In this paper, we analyzed the perceived accuracy of COVID-19 vaccine Tweets when they were spoken back by a third-party Amazon Alexa skill. We mimicked the soft moderation that Twitter applies to COVID-19 misinformation content in both forms of warning covers and warning tags to investigate whether the third-party skill could affect how and when users heed these warnings. The results from a 304-participant study suggest that the spoken back warning covers may not work as intended, even when converted from text to speech. We controlled for COVID-19 vaccination hesitancy and political leanings and found that the vaccination hesitant Alexa users ignored any type of warning as long as the Tweets align with their personal beliefs. The politically independent users trusted Alexa less then their politically-laden counterparts and that helped them accurately perceiving truthful COVID-19 information. We discuss soft moderation adaptations for voice assistants to achieve the intended effect of curbing COVID-19 misinformation.
翻訳日:2023-04-05 21:53:48 公開日:2021-04-01
# 人工知能とモノのインターネットによる自動灌水システム

An artificial intelligence and Internet of things based automated irrigation system ( http://arxiv.org/abs/2104.04076v1 )

ライセンス: Link先を確認
\"Omer Aydin, Cem Ali Kandemir, Umut Kira\c{c}, Feri\c{s}tah Dalkili\c{c}(参考訳) 世界の水源の日々の減少を考慮すると、清浄な水の必要性が増していることがわかるのは困難ではない。 温水も灌水に利用されており、淡水排水の削減が計画されている。 技術の発展と、より安価で効率的なソリューションの提供により、灌水効率が向上し、水の損失を低減できる。 特にIoT(Internet of Things)デバイスは,すべての領域で使用され始めている。 iotデバイスとセンサを使用して、水田から温度、湿度、鉱物値を簡単かつ正確に収集することができる。 灌水に関する作業と決定のほとんどは、人々によって行われます。 人には、意思決定プロセスにおいて温度、水分、ミネラルレベルなどのリアルタイムデータをすべて保持し、それらを考慮して決定することは困難である。 人はたいてい自分の経験で決める。 本研究では,IoTデバイスとセンサを用いて,灌水分野からの幅広い情報を得た。 IoTデバイスやセンサから収集されたデータは、通信チャネル経由で送信され、MongoDBに格納される。 wekaソフトウェアの助けを借りて、データは正規化され、正規化データは学習セットとして使用された。 その結果, 精度の高い決定木 (J48) アルゴリズムが選択され, 人工知能モデルが作成された。 作業の開始、維持、停止などの作業の管理には決定が用いられる。 判定の精度を評価し, 実験結果から灌水システムについて検討した。 リモートおよび手動でシステムを管理し、表示し、生成したモバイルアプリケーションでシステムsを決定するオプションもある。

It is not hard to see that the need for clean water is growing by considering the decrease of the water sources day by day in the world. Potable fresh water is also used for irrigation, so it should be planned to decrease freshwater wastage. With the development of technology and the availability of cheaper and more effective solutions, the efficiency of irrigation increased and the water loss can be reduced. In particular, Internet of things (IoT) devices has begun to be used in all areas. We can easily and precisely collect temperature, humidity and mineral values from the irrigation field with the IoT devices and sensors. Most of the operations and decisions about irrigation are carried out by people. For people, it is hard to have all the real-time data such as temperature, moisture and mineral levels in the decision-making process and make decisions by considering them. People usually make decisions with their experience. In this study, a wide range of information from the irrigation field was obtained by using IoT devices and sensors. Data collected from IoT devices and sensors sent via communication channels and stored on MongoDB. With the help of Weka software, the data was normalized and the normalized data was used as a learning set. As a result of the examinations, a decision tree (J48) algorithm with the highest accuracy was chosen and an artificial intelligence model was created. Decisions are used to manage operations such as starting, maintaining and stopping the irrigation. The accuracy of the decisions was evaluated and the irrigation system was tested with the results. There are options to manage, view the system remotely and manually and also see the system s decisions with the created mobile application.
翻訳日:2023-04-05 21:53:30 公開日:2021-04-01
# ハイブリッドアプローチによるソーシャルメディアデータにおける専門家の探索

Finding Experts in Social Media Data using a Hybrid Approach ( http://arxiv.org/abs/2104.03920v1 )

ライセンス: Link先を確認
Simon James (Seamus) Brady(参考訳) 専門家発見問題に対するいくつかのアプローチがコンピュータサイエンス研究に現れている。 本研究では,コンテンツ分析,ソーシャルグラフ分析,セマンティックウェブ技術の利用という3つのアプローチについて検討した。 次に、3つのアプローチ全てを1つのハイブリッドアプローチで使用するシステム要件の統合セットを開発する。 このハイブリッドアプローチの実用性を示すために,現代関数型プログラミング言語(clojure)を用いて,ソーシャルメディアデータとリンクデータのクエリを行うための,expertquestと呼ばれる実用プロトタイプエキスパート検索システムを開発した。 本システムを評価,検討した。 最後に、ハイブリッドアプローチの利点と欠点と、この研究で使用される技術を説明する議論と結論が提示される。

Several approaches to the problem of expert finding have emerged in computer science research. In this work, three of these approaches - content analysis, social graph analysis and the use of Semantic Web technologies are examined. An integrated set of system requirements is then developed that uses all three approaches in one hybrid approach. To show the practicality of this hybrid approach, a usable prototype expert finding system called ExpertQuest is developed using a modern functional programming language (Clojure) to query social media data and Linked Data. This system is evaluated and discussed. Finally, a discussion and conclusions are presented which describe the benefits and shortcomings of the hybrid approach and the technologies used in this work.
翻訳日:2023-04-05 21:53:08 公開日:2021-04-01
# トルコのeコマースとsap統合eコマースシステム

E-Commerce in Turkey and SAP Integrated E-Commerce System ( http://arxiv.org/abs/2104.03911v1 )

ライセンス: Link先を確認
Ahmet Kaya, \"Omer Aydin(参考訳) 電子商取引はインターネットを利用したショッピングの一種である。 電子商取引は、通常のショッピングのコンセプトとは大きく異なり、今日の経済のダイナミクスと互換性がある。 電子商取引は、インターネット利用の増加に伴い、欠かせない方法になりつつある。 eコマースを利用することで、企業にも多くの利点があります。 一方、SAPは、企業のリソース計画ソフトウェアセクターのパイオニアであり、リーダーです。 SAPは大規模企業にとって非常に重要です。 sap上のすべてのプロセスを管理し、その統合は他の関連ソフトウェアと非常に重要である。 本稿では,電子商取引における重要な側面について簡単な情報を提供し,電子商取引システムのERP統合のためのソリューションを提案する。

E-commerce is a kind of shopping by use of the internet. E-commerce, very different from the usual shopping concept, is compatible with today's economic dynamics. E-commerce is becoming an indispensable method with the increase of internet usage. With the use of E-commerce, there are also a number of advantages for companies. On the other hand, SAP is a pioneer and leader in the company resource planning software sector. SAP is very important for large-scale companies. They manage all their processes on SAP and its integration is very important with other related software. In this article, we give brief information on some important aspects of e-commerce and propose a solution for ERP integration of an e-commerce system.
翻訳日:2023-04-05 21:52:57 公開日:2021-04-01
# トリプルト強化文脈ネットワークを用いた行動モデリングのための教師なし音声表現学習

Unsupervised Speech Representation Learning for Behavior Modeling using Triplet Enhanced Contextualized Networks ( http://arxiv.org/abs/2104.03899v1 )

ライセンス: Link先を確認
Haoqi Li, Brian Baucom, Shrikanth Narayanan, Panayiotis Georgiou(参考訳) 音声は人間の行動に関する豊富な情報を符号化し、様々な自動行動認識タスクで使われている。 しかし,特定の行動パターンの出現頻度の低さから引き起こされる不適切なトレーニングデータ資源など,音声から行動情報を抽出することは課題である。 さらに、教師付き振舞いモデリングはドメイン固有の構造定義とそれに対応する手動の注釈付きデータに依存し、ドメイン間の一般化を困難にしている。 本稿では,対話における人間の行動の定常的特性を活用し,教師なしの方法で音声から行動情報をキャプチャする表現学習法を提案する。 我々は、近傍の音声セグメントが同じ行動文脈を共有していると仮定し、それゆえ同様の行動表現にマップする。 本稿では, エンコーダ・デコーダをベースとしたDeep Contextualized Network (DCN) と, 動作コンテキストを捉えるための Triplet-Enhanced DCN (TE-DCN) フレームワークを提案する。 モデルは映画のオーディオデータに基づいて訓練され、カップルセラピーコーパスやその他の公開データ(スタンドアップコメディなど)を含む様々な領域で検証される。 提案手法は,クロスドメイン行動モデリングにおける教師なし学習の実現可能性を示す。

Speech encodes a wealth of information related to human behavior and has been used in a variety of automated behavior recognition tasks. However, extracting behavioral information from speech remains challenging including due to inadequate training data resources stemming from the often low occurrence frequencies of specific behavioral patterns. Moreover, supervised behavioral modeling typically relies on domain-specific construct definitions and corresponding manually-annotated data, rendering generalizing across domains challenging. In this paper, we exploit the stationary properties of human behavior within an interaction and present a representation learning method to capture behavioral information from speech in an unsupervised way. We hypothesize that nearby segments of speech share the same behavioral context and hence map onto similar underlying behavioral representations. We present an encoder-decoder based Deep Contextualized Network (DCN) as well as a Triplet-Enhanced DCN (TE-DCN) framework to capture the behavioral context and derive a manifold representation, where speech frames with similar behaviors are closer while frames of different behaviors maintain larger distances. The models are trained on movie audio data and validated on diverse domains including on a couples therapy corpus and other publicly collected data (e.g., stand-up comedy). With encouraging results, our proposed framework shows the feasibility of unsupervised learning within cross-domain behavioral modeling.
翻訳日:2023-04-05 21:52:49 公開日:2021-04-01
# 協調学習による音声・映像共同生成

Collaborative Learning to Generate Audio-Video Jointly ( http://arxiv.org/abs/2104.02656v1 )

ライセンス: Link先を確認
Vinod K Kurmi, Vipul Bajaj, Badri N Patro, K S Venkatesh, Vinay P Namboodiri, Preethi Jyothi(参考訳) 画像、ビデオ、オーディオを生成する機能など、GANを使用して1つのモードでマルチメディアデータを生成することを実証する技術が数多く存在する。 しかし、これまでのところ、音声とビデオの両方において、マルチモーダルなデータ生成の課題は十分に研究されていない。 そこで本研究では,音声と映像の関連付けにより,映像と音声データの自然なサンプルを生成可能であることを示す手法を提案する。 提案手法では,複数の識別器を用いて,実世界のサンプルと音声,ビデオ,共同出力が区別できないことを保証する。 このタスクのためのデータセットを示し、現実的なサンプルを生成できることを示します。 この方法は、インセプションスコア、Frechet Inception Distance(FID)、人間による評価など、様々な標準指標を用いて検証される。

There have been a number of techniques that have demonstrated the generation of multimedia data for one modality at a time using GANs, such as the ability to generate images, videos, and audio. However, so far, the task of multi-modal generation of data, specifically for audio and videos both, has not been sufficiently well-explored. Towards this, we propose a method that demonstrates that we are able to generate naturalistic samples of video and audio data by the joint correlated generation of audio and video modalities. The proposed method uses multiple discriminators to ensure that the audio, video, and the joint output are also indistinguishable from real-world samples. We present a dataset for this task and show that we are able to generate realistic samples. This method is validated using various standard metrics such as Inception Score, Frechet Inception Distance (FID) and through human evaluation.
翻訳日:2023-04-05 21:52:25 公開日:2021-04-01
# ニューラルネットワークを用いた太陽放射の予測

Prediction of Solar Radiation Using Artificial Neural Network ( http://arxiv.org/abs/2104.02573v1 )

ライセンス: Link先を確認
Shahriar Rahman, Shazzadur Rahman and A K M Bahalul Haque(参考訳) ほとんどのソーラーアプリケーションやシステムは、多くの住宅やオフィスで電力と電力を確実に生成するために使用することができる。 近年, 発電だけでなく, 太陽光蒸留, 水暖房, 建物の暖房, 気象学, 太陽変換エネルギーなどの応用分野においても, 太陽エネルギーの需要が高まっている。 前述の目的を達成するために、太陽放射の予測は非常に重要である。 本稿では,太陽放射の時間的活動を予測するアルゴリズムを提案する。 大気温度、時間、湿度、風速、気圧、風向、太陽放射データからなるデータセットを用いて、ニューラルネットワーク(ANN)モデルを構築し、利用可能な天気予報データを用いて太陽放射を効果的に予測する。 2つのモデルが作成され、教師付き学習データを通じてパターンを解釈し、大気中の正確な放射量を予測できるシステムを作成する。 平均絶対誤差(mae)と平均二乗誤差(mse)の2つの統計指標の結果を観測データと予測データと比較した。 これら2つのモデルは、十分な性能精度で効率的な予測を生成することができた。

Most solar applications and systems can be reliably used to generate electricity and power in many homes and offices. Recently, there is an increase in many solar required systems that can be found not only in electricity generation but other applications such as solar distillation, water heating, heating of buildings, meteorology and producing solar conversion energy. Prediction of solar radiation is very significant in order to accomplish the previously mentioned objectives. In this paper, the main target is to present an algorithm that can be used to predict an hourly activity of solar radiation. Using a dataset that consists of temperature of air, time, humidity, wind speed, atmospheric pressure, direction of wind and solar radiation data, an Artificial Neural Network (ANN) model is constructed to effectively forecast solar radiation using the available weather forecast data. Two models are created to efficiently create a system capable of interpreting patterns through supervised learning data and predict the correct amount of radiation present in the atmosphere. The results of the two statistical indicators: Mean Absolute Error (MAE) and Mean Squared Error (MSE) are performed and compared with observed and predicted data. These two models were able to generate efficient predictions with sufficient performance accuracy.
翻訳日:2023-04-05 21:52:10 公開日:2021-04-01
# 部分的に時間反転不変性に反するマイクロ波共振器における損失レベル統計

Missing level statistics in a dissipative microwave resonator with partially violated time-reversal invariance ( http://arxiv.org/abs/2104.02572v1 )

ライセンス: Link先を確認
Malgorzata Bialous, Barbara Dietz and Leszek Sirko(参考訳) 2個の磁化フェライトにより誘起される部分時間反転不分散違反(tiv)を受ける散逸量子ビリヤードをシミュレートする平面共振器の共振周波数スペクトルの変動特性について実験的に検討した。 空洞は四分儀のビリヤードの形をしており、対応する古典力学はカオスである。 散逸のため、共鳴周波数の完全なリストを特定することは不可能である。 ランダム・マトリクス理論のアプローチに基づき、保存された時間反転不変量と完全TIVの間の不完全スペクトルにおける短距離・長距離相関の統計測度に関する解析式を導出し、実験スペクトルへの適用性を実証する。

We report on the experimental investigation of the fluctuation properties in the resonance frequency spectra of a flat resonator simulating a dissipative quantum billiard subject to partial time-reversal invariance violation (TIV) which is induced by two magnetized ferrites. The cavity has the shape of a quarter bowtie billiard of which the corresponding classical dynamics is chaotic. Due to dissipation it is impossible to identify a complete list of resonance frequencies. Based on a random-matrix theory approach we derive analytical expressions for statistical measures of short- and long-range correlations in such incomplete spectra interpolating between the cases of preserved time-reversal invariance and complete TIV and demonstrate their applicability to the experimental spectra.
翻訳日:2023-04-05 21:51:50 公開日:2021-04-01
# smapgan: 生成広告ネットワークベースの半教師付きスタイルマップタイル生成方法

SMAPGAN: Generative Adversarial Network Based Semi-Supervised Styled Map Tiles Generating Method ( http://arxiv.org/abs/2001.07712v2 )

ライセンス: Link先を確認
X. Chen (1), S. Chen (1), T. Xu (1), B. Yin (1), X. Mei (2), J. Peng (2), H. Li (2) ((1) School of Computer Science, Wuhan University, Wuhan, China, (2) School of Geosciences and Info-Physics, Central South University, Changsha, China)(参考訳) google mapやbaidu mapなどのインターネットで広く使われている従来のオンライン地図タイルは、ベクトルデータからレンダリングされる。 生成に時間を要するベクトルデータから、オンラインマップタイルをタイムリーに更新することは、難しいミッションです。 ベクトルデータなしでタイムリーに取得できるリモートセンシング画像から時間内に地図タイルを生成するためのショートカットである。 しかし、この任務はかつて困難であったり、不可能であったりしていた。 画像から画像への変換(img2img)をGAN(Generative Adversarial Network)に基づく手法にヒントを得て,SMAPGAN(Generative Adversarial Network)モデルに基づく半教師付き地図タイル生成を提案し,リモートセンシング画像から直接スタイル付き地図タイルを生成する。 本モデルでは,SMAPGANを豊富な未ペアサンプルで事前学習し,限定的なペアサンプルで微調整する半教師付き学習戦略を設計した。 また,画像勾配L1損失と画像勾配構造損失を設計し,大域的トポロジ的関係とオブジェクトの詳細なエッジ曲線を持つスタイルの地図タイルを生成した。 さらに,生成した地図タイルと地上真実の位相的整合性を評価する指標として,エッジ構造類似度指数(ESSI)を提案した。 実験結果から,SMAPGANは平均二乗誤差,構造類似度指数,ESSIに基づいて,最先端(SOTA)よりも優れていた。 また、SMAPGANは、地図の視覚的リアリズムに関する人間の知覚テストにおいて、SOTAよりも高い承認を得た。 我々の研究は、SMAPGANが地図タイルをスタイル化するための新しいパラダイムであることを示している。 SMAPGANの実装はhttps://github.com/imcsq/SMAPGANで公開されています。

Traditional online map tiles, widely used on the Internet such as Google Map and Baidu Map, are rendered from vector data. Timely updating online map tiles from vector data, of which the generating is time-consuming, is a difficult mission. It is a shortcut to generate map tiles in time from remote sensing images, which can be acquired timely without vector data. However, this mission used to be challenging or even impossible. Inspired by image-to-image translation (img2img) techniques based on generative adversarial networks (GAN), we proposed a semi-supervised Generation of styled map Tiles based on Generative Adversarial Network (SMAPGAN) model to generate styled map tiles directly from remote sensing images. In this model, we designed a semi-supervised learning strategy to pre-train SMAPGAN on rich unpaired samples and fine-tune it on limited paired samples in reality. We also designed image gradient L1 loss and image gradient structure loss to generate a styled map tile with global topological relationships and detailed edge curves of objects, which are important in cartography. Moreover, we proposed edge structural similarity index (ESSI) as a metric to evaluate the quality of topological consistency between generated map tiles and ground truths. Experimental results present that SMAPGAN outperforms state-of-the-art (SOTA) works according to mean squared error, structural similarity index, and ESSI. Also, SMAPGAN won more approval than SOTA in the human perceptual test on the visual realism of cartography. Our work shows that SMAPGAN is potentially a new paradigm to produce styled map tiles. Our implementation of the SMAPGAN is available at https://github.com/imcsq/SMAPGAN.
翻訳日:2023-01-07 23:54:28 公開日:2021-04-01
# 知識グラフに関する調査 : 表現・獲得・応用

A Survey on Knowledge Graphs: Representation, Acquisition and Applications ( http://arxiv.org/abs/2002.00388v4 )

ライセンス: Link先を確認
Shaoxiong Ji and Shirui Pan and Erik Cambria and Pekka Marttinen and Philip S. Yu(参考訳) 人間の知識は世界を形式的に理解する。 エンティティ間の構造的関係を表す知識グラフは、認知と人間レベルの知性に対する研究の方向性としてますます人気が高まっている。 本調査では,知識グラフに関する総合的な研究内容のレビューを行う。 1)知識グラフ表現学習 2)知識の獲得及び完成 3)時間的知識グラフ、及び 4)知識を意識した応用,今後の研究を促進するための最近のブレークスルーと視点の方向性をまとめる。 本稿では,これらのトピックに関する分類と分類を提案する。 知識グラフ埋め込みは、表現空間、スコアリング関数、エンコードモデル、補助情報という4つの側面から構成される。 知識獲得、特に知識グラフの完成、埋め込み方法、経路推論、論理ルール推論について概観する。 メタリレーショナル学習,コモンセンス推論,時間的知識グラフなど,新たなトピックについても検討する。 知識グラフの今後の研究を容易にするため、さまざまなタスクに関するデータセットとオープンソースライブラリのキュレートされたコレクションも提供します。 最終的には、いくつかの有望な研究方向性について、徹底的に展望する。

Human knowledge provides a formal understanding of the world. Knowledge graphs that represent structural relations between entities have become an increasingly popular research direction towards cognition and human-level intelligence. In this survey, we provide a comprehensive review of knowledge graph covering overall research topics about 1) knowledge graph representation learning, 2) knowledge acquisition and completion, 3) temporal knowledge graph, and 4) knowledge-aware applications, and summarize recent breakthroughs and perspective directions to facilitate future research. We propose a full-view categorization and new taxonomies on these topics. Knowledge graph embedding is organized from four aspects of representation space, scoring function, encoding models, and auxiliary information. For knowledge acquisition, especially knowledge graph completion, embedding methods, path inference, and logical rule reasoning, are reviewed. We further explore several emerging topics, including meta relational learning, commonsense reasoning, and temporal knowledge graphs. To facilitate future research on knowledge graphs, we also provide a curated collection of datasets and open-source libraries on different tasks. In the end, we have a thorough outlook on several promising research directions.
翻訳日:2023-01-04 19:48:22 公開日:2021-04-01
# Bottou-Curtis-Nocedal 関数における確率勾配の停止基準と強い収束性

Stopping Criteria for, and Strong Convergence of, Stochastic Gradient Descent on Bottou-Curtis-Nocedal Functions ( http://arxiv.org/abs/2004.00475v2 )

ライセンス: Link先を確認
Vivak Patel(参考訳) 確率勾配降下法(sgd)法の停止基準は、適応的なステップサイズスキームの実現から漸近的推論のような下流解析の厳密化まで重要な役割を果たす。 残念なことに、sgd法の現在の停止基準は、漸近正規性結果や定常分布への収束に依存するヒューリスティックであり、これは非凸関数には存在せず、そのような停止基準の適用性を制限する可能性がある。 この問題に対処するため,本研究では,bottou-curtis-nocedal関数と呼ばれる幅広い非凸関数に適用可能なsgdの2つの停止基準を厳格に開発する。 さらに、これらの停止基準を開発するための前提条件として、SGD の反復度で評価された勾配関数が、SGD 文学における開問題に対処するボットゥー・カルティス・ノッセアル関数に対してゼロに強く収束することを証明する。 本研究の成果は,新たな適応的なステップサイズスキームの開発や,非凸関数の下流解析の強化に,厳格に開発した停止基準を用いることである。

Stopping criteria for Stochastic Gradient Descent (SGD) methods play important roles from enabling adaptive step size schemes to providing rigor for downstream analyses such as asymptotic inference. Unfortunately, current stopping criteria for SGD methods are often heuristics that rely on asymptotic normality results or convergence to stationary distributions, which may fail to exist for nonconvex functions and, thereby, limit the applicability of such stopping criteria. To address this issue, in this work, we rigorously develop two stopping criteria for SGD that can be applied to a broad class of nonconvex functions, which we term Bottou-Curtis-Nocedal functions. Moreover, as a prerequisite for developing these stopping criteria, we prove that the gradient function evaluated at SGD's iterates converges strongly to zero for Bottou-Curtis-Nocedal functions, which addresses an open question in the SGD literature. As a result of our work, our rigorously developed stopping criteria can be used to develop new adaptive step size schemes or bolster other downstream analyses for nonconvex functions.
翻訳日:2022-12-17 19:30:39 公開日:2021-04-01
# 言語間スーパービジョンによる教師なしニューラルネットワーク翻訳の改善

Cross-lingual Supervision Improves Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2004.03137v3 )

ライセンス: Link先を確認
Mingxuan Wang, Hongxiao Bai, Hai Zhao, Lei Li(参考訳) ニューラルマシン翻訳~(NMT)はゼロリソース言語では効果がない。 モノリンガルデータのみを用いたunsupervised neural machine translation (UNMT)の可能性を探る最近の研究は、有望な結果をもたらすことができる。 しかし、UNMTとNMTの並列監視には大きなギャップがある。 本研究では,多言語非教師付きNMT(\method)フレームワークを導入し,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用する。 より具体的には、教師なし言語対 \texttt{En-De} に対して、並列データセット \texttt{En-Fr} からの情報をフル活用して、教師なし翻訳方向を1つのモデルで全てトレーニングすることができる。 \methodは標準教師なしNTTの変更を必要としない多言語モデルに基づいている。 実験の結果、\methodは6つのベンチマークで教師なしの翻訳指示で3 bleuスコア以上の翻訳品質を大幅に向上させた。

Neural machine translation~(NMT) is ineffective for zero-resource languages. Recent works exploring the possibility of unsupervised neural machine translation (UNMT) with only monolingual data can achieve promising results. However, there are still big gaps between UNMT and NMT with parallel supervision. In this work, we introduce a multilingual unsupervised NMT (\method) framework to leverage weakly supervised signals from high-resource language pairs to zero-resource translation directions. More specifically, for unsupervised language pairs \texttt{En-De}, we can make full use of the information from parallel dataset \texttt{En-Fr} to jointly train the unsupervised translation directions all in one model. \method is based on multilingual models which require no changes to the standard unsupervised NMT. Empirical results demonstrate that \method significantly improves the translation quality by more than 3 BLEU score on six benchmark unsupervised translation directions.
翻訳日:2022-12-15 23:48:33 公開日:2021-04-01
# deep daxes: ニューラルネットワークにおける学習バイアスと実用戦略の両方を通して生じる相互排他性

Deep daxes: Mutual exclusivity arises through both learning biases and pragmatic strategies in neural networks ( http://arxiv.org/abs/2004.03902v2 )

ライセンス: Link先を確認
Kristina Gulordava, Thomas Brochhagen, Gemma Boleda(参考訳) 子どもたちは、新しい単語と新しい参照語を関連付ける傾向があり、相互排他性に対する偏見を反映している。 この傾向は、(1)ラベルを欠いた単一の参照者に対するアドホックな参照選択ヒューリスティックであり、(2)語彙獲得の組織的原則である。 本稿では,これらの2つの可能性とその相互作用に着目し,横断型ニューラルネットワークが子どもに類似した行動を示す状況について考察する。 この目的のために、我々は、シンボルデータと第一に、大規模画像データの両方で'ニューラルネットワーク'を評価する。 学習と選択の両面での制約は、語彙的意味の競合に言葉を投入する限り、相互排他性を育むことができる。 計算モデルでは, 相互排他性が有利なタスクにおいて, より優れた性能を得るための利用可能な選択肢の役割を明らかにする。 認知研究においては、単語学習、参照選択機構、および様々な複雑さの刺激の構造、象徴的および視覚的相互作用を強調している。

Children's tendency to associate novel words with novel referents has been taken to reflect a bias toward mutual exclusivity. This tendency may be advantageous both as (1) an ad-hoc referent selection heuristic to single out referents lacking a label and as (2) an organizing principle of lexical acquisition. This paper investigates under which circumstances cross-situational neural models can come to exhibit analogous behavior to children, focusing on these two possibilities and their interaction. To this end, we evaluate neural networks' on both symbolic data and, as a first, on large-scale image data. We find that constraints in both learning and selection can foster mutual exclusivity, as long as they put words in competition for lexical meaning. For computational models, these findings clarify the role of available options for better performance in tasks where mutual exclusivity is advantageous. For cognitive research, they highlight latent interactions between word learning, referent selection mechanisms, and the structure of stimuli of varying complexity: symbolic and visual.
翻訳日:2022-12-15 08:44:57 公開日:2021-04-01
# 半教師付き自然言語理解のためのデュアルラーニング

Dual Learning for Semi-Supervised Natural Language Understanding ( http://arxiv.org/abs/2004.12299v4 )

ライセンス: Link先を確認
Su Zhu, Ruisheng Cao, and Kai Yu(参考訳) 自然言語理解(NLU)は文を構造化意味形式に変換する。 注釈付きトレーニングサンプルのpaucityは、nluの基本的な課題である。 このデータ疎度問題を解決するために、半教師付き学習に基づく以前の研究は主にラベルなし文の活用に焦点を当てた。 本研究では,NLUの2つのタスクである意味文生成(SSG)を導入し,対応する2つのモデルを用いた半教師付きNLUのための新しいフレームワークを提案する。 このフレームワークは2つの擬似ラベルと2つの学習法で構成されており、NLUモデルは原始タスクと双対タスクのクローズドループを通じてデータ(ラベル付きおよびラベルなし)をフル活用することができる。 この2つのタスクを組み込むことで、純粋な意味形式やラベルのない文を活用でき、NLUとSSGモデルをクローズドループで反復的に改善することができる。 提案手法は2つのパブリックデータセット(ATISとSNIPS)で評価される。 半教師付きセッティング実験により,本手法は様々なベースラインを著しく上回り,フレームワークの有効性を検証するために広範囲にわたるアブレーション研究を行った。 最後に,本手法は教師付き設定における2つのデータセットの最先端性能を実現する。 私たちのコードは \url{https://github.com/rhythmcao/slu-dual-learning.git} で利用可能です。

Natural language understanding (NLU) converts sentences into structured semantic forms. The paucity of annotated training samples is still a fundamental challenge of NLU. To solve this data sparsity problem, previous work based on semi-supervised learning mainly focuses on exploiting unlabeled sentences. In this work, we introduce a dual task of NLU, semantic-to-sentence generation (SSG), and propose a new framework for semi-supervised NLU with the corresponding dual model. The framework is composed of dual pseudo-labeling and dual learning method, which enables an NLU model to make full use of data (labeled and unlabeled) through a closed-loop of the primal and dual tasks. By incorporating the dual task, the framework can exploit pure semantic forms as well as unlabeled sentences, and further improve the NLU and SSG models iteratively in the closed-loop. The proposed approaches are evaluated on two public datasets (ATIS and SNIPS). Experiments in the semi-supervised setting show that our methods can outperform various baselines significantly, and extensive ablation studies are conducted to verify the effectiveness of our framework. Finally, our method can also achieve the state-of-the-art performance on the two datasets in the supervised setting. Our code is available at \url{https://github.com/rhythmcao/slu-dual-learning.git}.
翻訳日:2022-12-09 13:01:10 公開日:2021-04-01
# 実楕円対称分布に対するロバストM推定に基づくベイズクラスタ列挙

Robust M-Estimation Based Bayesian Cluster Enumeration for Real Elliptically Symmetric Distributions ( http://arxiv.org/abs/2005.01404v3 )

ライセンス: Link先を確認
Christian A. Schroth and Michael Muma(参考訳) データセット内の最適なクラスタ数をロバストに決定することは、幅広いアプリケーションにおいて必須の要素である。 クラスタ列挙は、観測データの真の基盤構造が重尾ノイズと外れ値によって破壊されると困難になる。 近年,候補モデルの後方確率の最大化としてクラスタ列挙を定式化したベイズクラスタ列挙基準が導出されている。 本稿では、任意のReal Elliptically Symmetric (RES)分散混合モデルで使用できるように、頑健なベイズクラスタ列挙を一般化する。 また,特定の確率分布から分離した混合モデルを可能にするm推定器の事例についても述べる。 Huber と Tukey の M-estimator の例について論じる。 サンプルサイズが有限であるデータセットに対するロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための漸近近似を提供する。 これらのアルゴリズムは、レーダベースの人物識別を含むシミュレーションおよび実世界のデータセットに適用され、既存の手法と比較して顕著な堅牢性向上を示す。

Robustly determining the optimal number of clusters in a data set is an essential factor in a wide range of applications. Cluster enumeration becomes challenging when the true underlying structure in the observed data is corrupted by heavy-tailed noise and outliers. Recently, Bayesian cluster enumeration criteria have been derived by formulating cluster enumeration as maximization of the posterior probability of candidate models. This article generalizes robust Bayesian cluster enumeration so that it can be used with any arbitrary Real Elliptically Symmetric (RES) distributed mixture model. Our framework also covers the case of M-estimators that allow for mixture models, which are decoupled from a specific probability distribution. Examples of Huber's and Tukey's M-estimators are discussed. We derive a robust criterion for data sets with finite sample size, and also provide an asymptotic approximation to reduce the computational cost at large sample sizes. The algorithms are applied to simulated and real-world data sets, including radar-based person identification, and show a significant robustness improvement in comparison to existing methods.
翻訳日:2022-12-07 01:22:08 公開日:2021-04-01
# マルチペナルティリッジ回帰のための高速クロスバリデーション

Fast cross-validation for multi-penalty ridge regression ( http://arxiv.org/abs/2005.09301v2 )

ライセンス: Link先を確認
Mark A. van de Wiel, Mirrelijn M. van Nee, Armin Rauschenberger(参考訳) 複数のデータ型による高次元予測は、予測信号の潜在的に強い違いを考慮する必要がある。 リッジ回帰は高次元データの単純なモデルであり、より複雑なモデルや学習者の予測性能に挑戦し、データ型固有の罰則を含ませることができる。 マルチペナルティリッジの最大の課題は、これらのペナルティを、特に反復重み付き最小二乗 (IWLS) による追加推定ループを必要とする GLM および Cox リッジ回帰 (Cox ridge regression) の設定で効率的に最適化することである。 我々の主な貢献は、IWLSアルゴリズムで用いられるマルチペナルティ、サンプル重み付きハット行列に対する計算的に非常に効率的な公式である。 その結果、ほぼ全ての計算は低次元空間にあり、数桁の速度アップとなる。 我々は,複数種類の応答,不給付共変量,いくつかの性能基準,繰り返しCVを実現するフレキシブルなフレームワークを開発した。 ペアデータ型および優先データ型への拡張は、いくつかのがんゲノム生存予測問題に含まれ、図示されている。 さらに,最大限界確率とベイズ確率回帰に対する同様の計算ショートカットを提案する。 対応するr-packageであるmultiridgeは、汎用的なスタンドアロンツールとして機能するだけでなく、他の複雑なモデルやマルチビュー学習者の高速ベンチマークとしても機能する。

High-dimensional prediction with multiple data types needs to account for potentially strong differences in predictive signal. Ridge regression is a simple model for high-dimensional data that has challenged the predictive performance of many more complex models and learners, and that allows inclusion of data type specific penalties. The largest challenge for multi-penalty ridge is to optimize these penalties efficiently in a cross-validation (CV) setting, in particular for GLM and Cox ridge regression, which require an additional estimation loop by iterative weighted least squares (IWLS). Our main contribution is a computationally very efficient formula for the multi-penalty, sample-weighted hat-matrix, as used in the IWLS algorithm. As a result, nearly all computations are in low-dimensional space, rendering a speed-up of several orders of magnitude. We developed a flexible framework that facilitates multiple types of response, unpenalized covariates, several performance criteria and repeated CV. Extensions to paired and preferential data types are included and illustrated on several cancer genomics survival prediction problems. Moreover, we present similar computational shortcuts for maximum marginal likelihood and Bayesian probit regression. The corresponding R-package, multiridge, serves as a versatile standalone tool, but also as a fast benchmark for other more complex models and multi-view learners.
翻訳日:2022-12-01 14:45:38 公開日:2021-04-01
# 農業における機械学習利用を可能にするラベル付き植物画像の自動生成のための組込みシステム

An embedded system for the automated generation of labeled plant images to enable machine learning applications in agriculture ( http://arxiv.org/abs/2006.01228v2 )

ライセンス: Link先を確認
Michael A. Beck, Chen-Yi Liu, Christopher P. Bidinosti, Christopher J. Henry, Cara M. Godee, Manisha Ajmani(参考訳) 多様性と量の両方の観点から十分なトレーニングデータがないことは、任意のドメインにおける機械学習(ML)アプリケーションの開発において、しばしばボトルネックとなる。 農業用途では、自律的な植物分類のようなタスクを実行するために設計されたMLベースのモデルは、通常1種または数種の植物に結合される。 その結果、それぞれの作物固有のタスクは、独自の訓練データを必要とする可能性が非常に高く、このようなデータにどのように対応すべきかという問題は、そのようなモデルを実際にトレーニングするより日常的なエクササイズを覆すことが多い。 そこで我々は,農業におけるML応用のための植物画像の大規模データセットの自動生成とラベル付けを行う組込みロボットシステムを開発した。 このシステムは、植物を事実上あらゆる角度から画像化することができ、それによって幅広いデータを保証し、1秒間に最大1枚の画像で、1日に数千から数万の画像のスケールでラブルデータセットを作成できる。 このように、このシステムは、手動生成とラベリングの時間的・コスト的な方法に対する重要な代替手段を提供する。 さらに、ブルーキーイング布で作られた均一な背景を用いることで、背景置換や植物分割などの画像処理技術も追加できる。 また、トレーニングプロセスにも役立ち、モデルに植物の特徴に集中させ、ランダムな相関を排除させる。 システムの性能を示すため、34,000以上のラベル付き画像のデータセットを生成し、MLモデルを用いて、さまざまなソースからの試験データの非草地と草地を区別する訓練を行った。 現在では、カナダの作物や雑草のより大規模なデータセットを作成し、農業分野におけるMLのさらなる活用を期待して、公開する予定です。

A lack of sufficient training data, both in terms of variety and quantity, is often the bottleneck in the development of machine learning (ML) applications in any domain. For agricultural applications, ML-based models designed to perform tasks such as autonomous plant classification will typically be coupled to just one or perhaps a few plant species. As a consequence, each crop-specific task is very likely to require its own specialized training data, and the question of how to serve this need for data now often overshadows the more routine exercise of actually training such models. To tackle this problem, we have developed an embedded robotic system to automatically generate and label large datasets of plant images for ML applications in agriculture. The system can image plants from virtually any angle, thereby ensuring a wide variety of data; and with an imaging rate of up to one image per second, it can produce lableled datasets on the scale of thousands to tens of thousands of images per day. As such, this system offers an important alternative to time- and cost-intensive methods of manual generation and labeling. Furthermore, the use of a uniform background made of blue keying fabric enables additional image processing techniques such as background replacement and plant segmentation. It also helps in the training process, essentially forcing the model to focus on the plant features and eliminating random correlations. To demonstrate the capabilities of our system, we generated a dataset of over 34,000 labeled images, with which we trained an ML-model to distinguish grasses from non-grasses in test data from a variety of sources. We now plan to generate much larger datasets of Canadian crop plants and weeds that will be made publicly available in the hope of further enabling ML applications in the agriculture sector.
翻訳日:2022-11-26 07:00:20 公開日:2021-04-01
# M3P:マルチタスク多言語マルチモーダル事前学習によるユニバーサル表現の学習

M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training ( http://arxiv.org/abs/2006.02635v4 )

ライセンス: Link先を確認
Minheng Ni, Haoyang Huang, Lin Su, Edward Cui, Taroon Bharti, Lijuan Wang, Jianfeng Gao, Dongdong Zhang and Nan Duan(参考訳) 本稿では,マルチリンガルプリトレーニングとマルチモーダルプリトレーニングを組み合わせたマルチタスクマルチリンガルプリトレーニングモデルであるm3pについて述べる。 我々のゴールは、異なる言語で表現されたオブジェクトやテキストを共通の意味空間にマッピングできる普遍的な表現を学習することである。 さらに,画像と非英語の微調整を明示的に促進するために,単言語による事前学習とマルチモーダル事前学習をコードスウィッチ戦略を介して組み合わせたマルチモーダルコードスイッチトトレーニング(MCT)を提案する。 MSCOCOとMulti30Kを含む2つのベンチマークデータセットの多言語画像検索タスクで実験を行う。 m3pは、英語と非英語言語の最先端の結果に匹敵する結果を得ることができる。

We present M3P, a Multitask Multilingual Multimodal Pre-trained model that combines multilingual pre-training and multimodal pre-training into a unified framework via multitask pre-training. Our goal is to learn universal representations that can map objects occurred in different modalities or texts expressed in different languages into a common semantic space. In addition, to explicitly encourage fine-grained alignment between images and non-English languages, we also propose Multimodal Code-switched Training (MCT) to combine monolingual pre-training and multimodal pre-training via a code-switch strategy. Experiments are performed on the multilingual image retrieval task across two benchmark datasets, including MSCOCO and Multi30K. M3P can achieve comparable results for English and new state-of-the-art results for non-English languages.
翻訳日:2022-11-25 09:06:33 公開日:2021-04-01
# 反事実的vqa: 言語バイアスに対する因果効果

Counterfactual VQA: A Cause-Effect Look at Language Bias ( http://arxiv.org/abs/2006.04315v4 )

ライセンス: Link先を確認
Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, Ji-Rong Wen(参考訳) VQAモデルはショートカットとして言語バイアスに依存する傾向があるため、視覚と言語の両方からマルチモーダルな知識を十分に習得することができない。 推論中に言語を除外する最近のデバイアス法が提案されている。 しかし、彼らは「良い」言語コンテキストと「悪い」言語バイアスを全体から切り離すことに失敗した。 本稿では,VQAにおける言語バイアスを軽減する方法について検討する。 因果的効果を動機として,質問に対する直接的な因果的影響として言語バイアスを捕捉し,全因果的効果から直接言語効果を減じることで言語バイアスを低減する,新たな因果的推論フレームワークを提案する。 実験により 提案する反事実推論フレームワークが 1) 様々なVQAバックボーンおよび核融合戦略に一般化される。 2) 言語バイアスに敏感なVQA-CPデータセット上での競合性能を実現すると同時に,拡張データなしでバランスの取れたVQA v2データセット上で堅牢に動作させる。 コードはhttps://github.com/yuleiniu/cfvqaで入手できる。

VQA models may tend to rely on language bias as a shortcut and thus fail to sufficiently learn the multi-modal knowledge from both vision and language. Recent debiasing methods proposed to exclude the language prior during inference. However, they fail to disentangle the "good" language context and "bad" language bias from the whole. In this paper, we investigate how to mitigate language bias in VQA. Motivated by causal effects, we proposed a novel counterfactual inference framework, which enables us to capture the language bias as the direct causal effect of questions on answers and reduce the language bias by subtracting the direct language effect from the total causal effect. Experiments demonstrate that our proposed counterfactual inference framework 1) is general to various VQA backbones and fusion strategies, 2) achieves competitive performance on the language-bias sensitive VQA-CP dataset while performs robustly on the balanced VQA v2 dataset without any augmented data. The code is available at https://github.com/yuleiniu/cfvqa.
翻訳日:2022-11-24 00:14:45 公開日:2021-04-01
# 非凸非凸ミニマックス最適化のための近位点法の展望

The Landscape of the Proximal Point Method for Nonconvex-Nonconcave Minimax Optimization ( http://arxiv.org/abs/2006.08667v3 )

ライセンス: Link先を確認
Benjamin Grimmer, Haihao Lu, Pratik Worah, Vahab Mirrokni(参考訳) Minimax最適化は、堅牢な最適化、強化学習、GANなどの応用で機械学習の中心的なツールとなっている。 これらの応用は、しばしば非凸非凸であるが、既存の理論は、これが引き起こす根本的な困難を識別し対処することができない。 本稿では,非凸非凸極小問題に適用される古典的近位点法(PPM)について検討する。 Attouch と Wets による Moreau エンベロープの古典的な一般化は重要な洞察を与える。 批判的に、このエンベロープは目的を円滑にするだけでなく、最小化変数と最大化変数の間の相互作用レベルに基づいて凸化および凸化することができる。 このことから,非凸非凸問題の3つの異なる領域を同定する。 相互作用が十分に強い場合、大域的な線形収束を保証する。 逆に、相互作用がかなり弱い場合、局所線形収束保証を適切な初期化で導出する。 これら2つの設定の間に、ppm が極限サイクルに分岐するか収束するかを示す。

Minimax optimization has become a central tool in machine learning with applications in robust optimization, reinforcement learning, GANs, etc. These applications are often nonconvex-nonconcave, but the existing theory is unable to identify and deal with the fundamental difficulties this poses. In this paper, we study the classic proximal point method (PPM) applied to nonconvex-nonconcave minimax problems. We find that a classic generalization of the Moreau envelope by Attouch and Wets provides key insights. Critically, we show this envelope not only smooths the objective but can convexify and concavify it based on the level of interaction present between the minimizing and maximizing variables. From this, we identify three distinct regions of nonconvex-nonconcave problems. When interaction is sufficiently strong, we derive global linear convergence guarantees. Conversely when the interaction is fairly weak, we derive local linear convergence guarantees with a proper initialization. Between these two settings, we show that PPM may diverge or converge to a limit cycle.
翻訳日:2022-11-21 03:49:49 公開日:2021-04-01
# 効率的な推論のための画像超解法における空間性探索

Exploring Sparsity in Image Super-Resolution for Efficient Inference ( http://arxiv.org/abs/2006.09603v2 )

ライセンス: Link先を確認
Longguang Wang, Xiaoyu Dong, Yingqian Wang, Xinyi Ying, Zaiping Lin, Wei An, and Yulan Guo(参考訳) 現在のcnnベースのスーパーレゾリューション(sr)法は、全ての位置を等しく処理し、計算資源を空間に一様に割り当てる。 しかし,低解像度 (lr) 画像における詳細情報は主にエッジやテクスチャの領域に存在するため,平坦な領域では計算資源が不足する。 したがって、既存のcnnベースの手法では、平坦な領域での冗長な計算が必要となり、計算コストが増大し、モバイルデバイスへの応用が制限される。 本稿では,SRネットワークの推論効率を向上させるために,画像SRの空間性について検討する。 具体的には、スパースマスクを学習して冗長計算を行うためのスパースマスクSR(SMSR)ネットワークを開発する。 我々のSMSRでは、空間マスクは「重要」領域を識別し、チャンネルマスクは「重要」領域の冗長なチャネルをマークする。 これにより、冗長な計算を正確にローカライズし、同等の性能を維持しながらスキップすることができる。 その結果,SMSRは41%/33%/27%のFLOPをx2/3/4SRで削減した。 コードはhttps://github.com/longguangwang/smsr.com/。

Current CNN-based super-resolution (SR) methods process all locations equally with computational resources being uniformly assigned in space. However, since missing details in low-resolution (LR) images mainly exist in regions of edges and textures, less computational resources are required for those flat regions. Therefore, existing CNN-based methods involve redundant computation in flat regions, which increases their computational cost and limits their applications on mobile devices. In this paper, we explore the sparsity in image SR to improve inference efficiency of SR networks. Specifically, we develop a Sparse Mask SR (SMSR) network to learn sparse masks to prune redundant computation. Within our SMSR, spatial masks learn to identify "important" regions while channel masks learn to mark redundant channels in those "unimportant" regions. Consequently, redundant computation can be accurately localized and skipped while maintaining comparable performance. It is demonstrated that our SMSR achieves state-of-the-art performance with 41%/33%/27% FLOPs being reduced for x2/3/4 SR. Code is available at: https://github.com/LongguangWang/SMSR.
翻訳日:2022-11-19 21:05:05 公開日:2021-04-01
# アクティブラーニングのための逐次グラフ畳み込みネットワーク

Sequential Graph Convolutional Network for Active Learning ( http://arxiv.org/abs/2006.10219v3 )

ライセンス: Link先を確認
Razvan Caramalau, Binod Bhattarai, Tae-Kyun Kim(参考訳) 本稿では,逐次グラフ畳み込みネットワーク(gcn)上に構築したプール型アクティブラーニングフレームワークを提案する。 データプールからのそれぞれの画像の特徴はグラフ内のノードを表し、エッジはその類似性をエンコードする。 ランダムにサンプリングされた画像をシードラベル付き例として、二項クロスエントロピー損失を最小にすることでラベル付きノードとラベルなしノードを区別するグラフのパラメータを学習する。 GCNはノード間のメッセージパッシング操作を実行するため、強く関連付けられたノードの同様の表現を誘導する。 我々はGCNの特性を利用してラベル付けされたものと十分に異なる未ラベルの例を選択する。 この目的のために、グラフノードの埋め込みとその信頼性スコアを利用し、CoreSetや不確実性に基づく手法などのサンプリング手法を適用してノードを問合せする。 新たにクエリされたノードのラベルをラベル付けしたラベルから反転させ、学習者がダウンストリームタスクとグラフを最適化して修正対象を最小化するように再訓練する。 このプロセスは固定予算内で継続します。 提案手法は,6種類の実画像分類,深度に基づく手ポーズ推定,合成RGB画像分類データセットを用いて評価した。 私たちのメソッドはVAAL、Learning Loss、CoreSetといった競争力のあるベースラインを上回り、複数のアプリケーションで新しい最先端のパフォーマンスを実現しています。

We propose a novel pool-based Active Learning framework constructed on a sequential Graph Convolution Network (GCN). Each image's feature from a pool of data represents a node in the graph and the edges encode their similarities. With a small number of randomly sampled images as seed labelled examples, we learn the parameters of the graph to distinguish labelled vs unlabelled nodes by minimising the binary cross-entropy loss. GCN performs message-passing operations between the nodes, and hence, induces similar representations of the strongly associated nodes. We exploit these characteristics of GCN to select the unlabelled examples which are sufficiently different from labelled ones. To this end, we utilise the graph node embeddings and their confidence scores and adapt sampling techniques such as CoreSet and uncertainty-based methods to query the nodes. We flip the label of newly queried nodes from unlabelled to labelled, re-train the learner to optimise the downstream task and the graph to minimise its modified objective. We continue this process within a fixed budget. We evaluate our method on 6 different benchmarks:4 real image classification, 1 depth-based hand pose estimation and 1 synthetic RGB image classification datasets. Our method outperforms several competitive baselines such as VAAL, Learning Loss, CoreSet and attains the new state-of-the-art performance on multiple applications The implementations can be found here: https://github.com/razvancaramalau/Sequential-GCN-for-Active-Learning
翻訳日:2022-11-19 13:15:29 公開日:2021-04-01
# NOVAS: エンドツーエンド学習と制御のための適応確率探索による非凸最適化

NOVAS: Non-convex Optimization via Adaptive Stochastic Search for End-to-End Learning and Control ( http://arxiv.org/abs/2006.11992v3 )

ライセンス: Link先を確認
Ioannis Exarchos and Marcus A. Pereira and Ziyi Wang and Evangelos A. Theodorou(参考訳) 本研究では、ニューラルネットワークアーキテクチャにおける一般の非凸最適化演算のためのビルディングブロックとして適応確率探索を提案する。 具体的には,ネットワークのある層に位置し,ネットワークパラメータによってパラメータ化される目的関数に対して,その出力に対する最適化を行うために適応的確率探索を用いる。 この操作は微分可能であり、バックプロパゲーション中の勾配の通過を妨げないため、エンドツーエンド学習においてコンポーネントとして組み込むことができる。 提案した最適化モジュールの特性を,合成エネルギーベース構造予測タスクにおける既存の2つの代替手法と比較し,確率的最適制御への応用を示す。

In this work we propose the use of adaptive stochastic search as a building block for general, non-convex optimization operations within deep neural network architectures. Specifically, for an objective function located at some layer in the network and parameterized by some network parameters, we employ adaptive stochastic search to perform optimization over its output. This operation is differentiable and does not obstruct the passing of gradients during backpropagation, thus enabling us to incorporate it as a component in end-to-end learning. We study the proposed optimization module's properties and benchmark it against two existing alternatives on a synthetic energy-based structured prediction task, and further showcase its use in stochastic optimal control applications.
翻訳日:2022-11-18 06:06:39 公開日:2021-04-01
# SenSei: 個々人の公平性を高めるための敏感なセット不変性

SenSeI: Sensitive Set Invariance for Enforcing Individual Fairness ( http://arxiv.org/abs/2006.14168v2 )

ライセンス: Link先を確認
Mikhail Yurochkin and Yuekai Sun(参考訳) 本稿では,フェア機械学習を不変機械学習として論じる。 まず、ある感度集合の不変性を強制する個別の公正性のバージョンを定式化する。 次に,輸送型正規化器を設計し,個別の公平性を強制し,効率よく正規化器を最小化するためのアルゴリズムを開発する。 提案手法は, 確実に公平なmlモデルを訓練する。 最後に,アルゴリズムのバイアスに敏感な3つのMLタスクに対する,近年の公正トレーニング手順と比較して,公正度指標の改善を実証した。

In this paper, we cast fair machine learning as invariant machine learning. We first formulate a version of individual fairness that enforces invariance on certain sensitive sets. We then design a transport-based regularizer that enforces this version of individual fairness and develop an algorithm to minimize the regularizer efficiently. Our theoretical results guarantee the proposed approach trains certifiably fair ML models. Finally, in the experimental studies we demonstrate improved fairness metrics in comparison to several recent fair training procedures on three ML tasks that are susceptible to algorithmic bias.
翻訳日:2022-11-17 03:04:42 公開日:2021-04-01
# PDEの逆問題クラス近似のための物理情報ニューラルネットワーク(PINN)の一般化誤差の推定

Estimates on the generalization error of Physics Informed Neural Networks (PINNs) for approximating a class of inverse problems for PDEs ( http://arxiv.org/abs/2007.01138v2 )

ライセンス: Link先を確認
Siddhartha Mishra and Roberto Molinaro(参考訳) 物理情報ニューラルネットワーク(PINN)は、最近、PDEの逆問題を効率的に近似するために非常に成功した。 我々は,特定の逆問題,いわゆるデータ同化あるいは一意継続問題に焦点を当て,ピンの一般化誤差に対する厳密な推定を証明した。 抽象的枠組みを提示し, 基礎となる逆問題に対する条件付き安定性推定を行い, ピン一般化誤差の推定を導出し, この文脈におけるピンの使用の厳密な正当化を提供する。 抽象的なフレームワークは、4つの原型線形PDEの例で説明される。 また,提案理論を検証した数値実験を行った。

Physics informed neural networks (PINNs) have recently been very successfully applied for efficiently approximating inverse problems for PDEs. We focus on a particular class of inverse problems, the so-called data assimilation or unique continuation problems, and prove rigorous estimates on the generalization error of PINNs approximating them. An abstract framework is presented and conditional stability estimates for the underlying inverse problem are employed to derive the estimate on the PINN generalization error, providing rigorous justification for the use of PINNs in this context. The abstract framework is illustrated with examples of four prototypical linear PDEs. Numerical experiments, validating the proposed theory, are also presented.
翻訳日:2022-11-15 15:33:31 公開日:2021-04-01
# 機械学習におけるプライバシ攻撃に関する調査

A Survey of Privacy Attacks in Machine Learning ( http://arxiv.org/abs/2007.07646v2 )

ライセンス: Link先を確認
Maria Rigaki and Sebastian Garcia(参考訳) 機械学習がより広く使われるようになると、セキュリティとプライバシにおけるその影響を研究する必要性がより緊急になる。 プライバシの本体はここ数年着実に成長しているが、機械学習のプライバシー面の研究は、セキュリティ面よりもあまり注目されていない。 この研究への私たちの貢献は、過去7年間に発表された機械学習に対するプライバシ攻撃に関する40以上の論文の分析です。 そこで本研究では,敵の知識と攻撃対象の資産に基づいて,異なる攻撃の分類を可能にする脅威モデルとともに,攻撃分類を提案する。 プライバシリークの原因に関する最初の調査と、さまざまな攻撃に関する詳細な分析が紹介されている。 最後に、最も一般的に提案されている防衛の概観と、分析中に特定されるオープンな問題と今後の方向性について論じる。

As machine learning becomes more widely used, the need to study its implications in security and privacy becomes more urgent. Although the body of work in privacy has been steadily growing over the past few years, research on the privacy aspects of machine learning has received less focus than the security aspects. Our contribution in this research is an analysis of more than 40 papers related to privacy attacks against machine learning that have been published during the past seven years. We propose an attack taxonomy, together with a threat model that allows the categorization of different attacks based on the adversarial knowledge, and the assets under attack. An initial exploration of the causes of privacy leaks is presented, as well as a detailed analysis of the different attacks. Finally, we present an overview of the most commonly proposed defenses and a discussion of the open problems and future directions identified during our analysis.
翻訳日:2022-11-10 06:40:20 公開日:2021-04-01
# SSN:画像合成のためのソフトシャドウネットワーク

SSN: Soft Shadow Network for Image Compositing ( http://arxiv.org/abs/2007.08211v3 )

ライセンス: Link先を確認
Yichen Sheng, Jianming Zhang, Bedrich Benes(参考訳) 画像合成のための制御可能なソフトシャドウを生成するためのインタラクティブなソフトシャドウネットワーク(SSN)を導入する。 SSNは2Dオブジェクトマスクを入力として取り、ペインティングやベクトルアートのようなイメージタイプに依存しない。 環境光マップは、角度や柔らかさなどの影の特性を制御するために用いられる。 ssnは、中間的環境オクルージョンマップを予測するためにアンビエントオクルージョン予測モジュールを使用しており、ユーザがさらに洗練し、シャドー生成を変調する幾何学的手がかりを提供することができる。 モデルを訓練するために,3次元オブジェクトモデルを用いた多様なソフトシャドウ訓練データを生成するための効率的なパイプラインを設計する。 さらに,モデルトレーニングを改善するために,逆影マップ表現を提案する。 我々のモデルが現実のソフトシャドウをリアルタイムで生成できることを実証する。 ユーザスタディによると、生成した影は物理ベースのレンダラーによって計算された影と区別できないことが多く、ユーザは対話的なアプリケーションを通じてSSNを使って数分で特定の影効果を発生させることができる。

We introduce an interactive Soft Shadow Network (SSN) to generates controllable soft shadows for image compositing. SSN takes a 2D object mask as input and thus is agnostic to image types such as painting and vector art. An environment light map is used to control the shadow's characteristics, such as angle and softness. SSN employs an Ambient Occlusion Prediction module to predict an intermediate ambient occlusion map, which can be further refined by the user to provides geometric cues to modulate the shadow generation. To train our model, we design an efficient pipeline to produce diverse soft shadow training data using 3D object models. In addition, we propose an inverse shadow map representation to improve model training. We demonstrate that our model produces realistic soft shadows in real-time. Our user studies show that the generated shadows are often indistinguishable from shadows calculated by a physics-based renderer and users can easily use SSN through an interactive application to generate specific shadow effects in minutes.
翻訳日:2022-11-10 00:18:23 公開日:2021-04-01
# シーケンシャルルーティングフレームワーク:完全カプセル型ネットワークに基づく音声認識

Sequential Routing Framework: Fully Capsule Network-based Speech Recognition ( http://arxiv.org/abs/2007.11747v3 )

ライセンス: Link先を確認
Kyungmin Lee, Hyunwhan Joe, Hyeontaek Lim, Kwangyoun Kim, Sungsoo Kim, Chang Woo Han, Hong-Gee Kim(参考訳) カプセルネットワーク(capsnets)は最近、新しいニューラルアーキテクチャとして注目を集めている。 本稿では,capsnetのみの構造をシーケンシャル・ツー・シーケンス認識に適用する最初の手法として,シーケンシャル・ルーティング・フレームワークを提案する。 入力シーケンスはカプセル化され、ウィンドウサイズでスライスされる。 各スライスは、反復ルーティング機構によって対応するタイミングでラベルに分類される。 その後、コネクショニスト時間分類(ctc)により損失を算出する。 ルーティング中、スライス全体にわたって学習可能な重みを共有することで、シーケンスの長さに関わらず、必要なパラメータの数をウィンドウサイズで制御できる。 また,従来の動的ルーティングを置き換えるシーケンシャルな動的ルーティングアルゴリズムを提案する。 提案手法は、精度を低下させることなく非イテレーティブな動作が可能なため、経路反復による復号速度低下を最小限に抑えることができる。 ウォールストリートジャーナルのコーパスで、双方向の短期記憶型ctcネットワークと比較して、単語誤り率が16.9%で1.1%低下する。 TIMITコーパスでは、畳み込みニューラルネットワークベースのCTCネットワークと比較して、0.7%のエラー率を17.5%で達成している(Zhang et al., 2016)。

Capsule networks (CapsNets) have recently gotten attention as a novel neural architecture. This paper presents the sequential routing framework which we believe is the first method to adapt a CapsNet-only structure to sequence-to-sequence recognition. Input sequences are capsulized then sliced by a window size. Each slice is classified to a label at the corresponding time through iterative routing mechanisms. Afterwards, losses are computed by connectionist temporal classification (CTC). During routing, the required number of parameters can be controlled by the window size regardless of the length of sequences by sharing learnable weights across the slices. We additionally propose a sequential dynamic routing algorithm to replace traditional dynamic routing. The proposed technique can minimize decoding speed degradation caused by the routing iterations since it can operate in a non-iterative manner without dropping accuracy. The method achieves a 1.1% lower word error rate at 16.9% on the Wall Street Journal corpus compared to bidirectional long short-term memory-based CTC networks. On the TIMIT corpus, it attains a 0.7% lower phone error rate at 17.5% compared to convolutional neural network-based CTC networks (Zhang et al., 2016).
翻訳日:2022-11-07 13:25:12 公開日:2021-04-01
# 箱面マッチングを用いた高密度シーン多重物体追跡

Dense Scene Multiple Object Tracking with Box-Plane Matching ( http://arxiv.org/abs/2007.15576v2 )

ライセンス: Link先を確認
Jinlong Peng, Yueyang Gu, Yabiao Wang, Chengjie Wang, Jilin Li, Feiyue Huang(参考訳) マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。 MOTは、特に密集したシーンにおいて、閉塞問題のため、依然として難しい。 追跡検出フレームワークに従い,密集したシーンにおけるmotパフォーマンスを改善するために,bpm(box-plane matching)法を提案する。 まず, 雑音検出をフィルタするために, 層別アグリゲーション識別モデル (ladm) を設計する。 そして,残りの検出を正確に関連付けるために,Global Attention Feature Model(GAFM)を導入し,その特徴を抽出し,履歴トラッカーと現在の検出との外観類似性を計算する。 最後に,トラックレットと検出装置の動作類似度と外観類似度に応じてデータアソシエーションを実現するためのBox-Plane Matching戦略を提案する。 3つのモジュールの有効性により、チームはacm mm grand challenge hieve 2020でトラック1のリーダーボードで1位を獲得した。

Multiple Object Tracking (MOT) is an important task in computer vision. MOT is still challenging due to the occlusion problem, especially in dense scenes. Following the tracking-by-detection framework, we propose the Box-Plane Matching (BPM) method to improve the MOT performacne in dense scenes. First, we design the Layer-wise Aggregation Discriminative Model (LADM) to filter the noisy detections. Then, to associate remaining detections correctly, we introduce the Global Attention Feature Model (GAFM) to extract appearance feature and use it to calculate the appearance similarity between history tracklets and current detections. Finally, we propose the Box-Plane Matching strategy to achieve data association according to the motion similarity and appearance similarity between tracklets and detections. With the effectiveness of the three modules, our team achieves the 1st place on the Track-1 leaderboard in the ACM MM Grand Challenge HiEve 2020.
翻訳日:2022-11-05 14:24:56 公開日:2021-04-01
# ブラジルポルトガル語テキストにおける不正意図の研究

Studying Dishonest Intentions in Brazilian Portuguese Texts ( http://arxiv.org/abs/2008.06079v2 )

ライセンス: Link先を確認
Francielle Alves Vargas and Thiago Alexandre Salgueiro Pardo(参考訳) 社会科学、心理学、言語学における以前の研究は、嘘つきが物語の内容に対してある程度のコントロールを持っていることを示しているが、その根底にある精神状態は、彼らが話す方法を通じて「抜け出す」可能性がある。 我々の知る限り、ブラジルポルトガル語の偽り言語を記述し、モデル化するために、これまでの体系的な取り組みは存在しない。 この重要なギャップを埋めるために,ブラジルのニュースにおける虚言に関する実証言語学的研究を行った。 偽ニュースと真ニュースの両方を含む偽ニュースコーパスを用いて言語特徴を体系的に解析する。 その結果,句読点と感情の区別に加えて,語彙的,構文的,意味的変化がみられた。

Previous work in the social sciences, psychology and linguistics has show that liars have some control over the content of their stories, however their underlying state of mind may "leak out" through the way that they tell them. To the best of our knowledge, no previous systematic effort exists in order to describe and model deception language for Brazilian Portuguese. To fill this important gap, we carry out an initial empirical linguistic study on false statements in Brazilian news. We methodically analyze linguistic features using a deceptive news corpus, which includes both fake and true news. The results show that they present substantial lexical, syntactic and semantic variations, as well as punctuation and emotion distinctions.
翻訳日:2022-10-30 22:27:56 公開日:2021-04-01
# スキューガウス過程を伴う優先ベイズ最適化

Preferential Bayesian optimisation with Skew Gaussian Processes ( http://arxiv.org/abs/2008.06677v3 )

ライセンス: Link先を確認
Alessio Benavoli, Dario Azzimonti, Dario Piga(参考訳) 優先ベイズ最適化(pbo)は、2つの候補解(a/bテストやレコメンダシステムなど)の間で「これよりも良い」というように、目的関数が選好判断を通してのみアクセス可能な最適化問題を扱う。 PBOに対する最先端のアプローチは、好み関数をモデル化するガウス過程と、観測されたペア比較をモデル化するベルヌーイ確率を用いる。 その後、ラプラスの手法は後進推論を計算し、特に適切な獲得関数を構築するために用いられる。 本稿では, 選好関数の真の後方分布が歪ガウス過程(skewgp)であることを証明し, ラプラス法が通常非常に貧弱な近似を与えることを示す。 そこで我々は,正確なSkiwGP後部を計算し,これを標準取得関数(Upper Credible Boundなど)を用いたPBOの代理モデルとして利用する。 本稿では,PBO-SkewGPの精度を様々な実験で説明し,収束速度と計算時間の両方においてLaplaceの近似に基づいてPBOを一貫して上回っていることを示す。 また、我々のフレームワークは、二項判定(無効または非無効)と選好判定を併用する混合優先カテゴリーBOに拡張可能であることを示す。

Preferential Bayesian optimisation (PBO) deals with optimisation problems where the objective function can only be accessed via preference judgments, such as "this is better than that" between two candidate solutions (like in A/B tests or recommender systems). The state-of-the-art approach to PBO uses a Gaussian process to model the preference function and a Bernoulli likelihood to model the observed pairwise comparisons. Laplace's method is then employed to compute posterior inferences and, in particular, to build an appropriate acquisition function. In this paper, we prove that the true posterior distribution of the preference function is a Skew Gaussian Process (SkewGP), with highly skewed pairwise marginals and, thus, show that Laplace's method usually provides a very poor approximation. We then derive an efficient method to compute the exact SkewGP posterior and use it as surrogate model for PBO employing standard acquisition functions (Upper Credible Bound, etc.). We illustrate the benefits of our exact PBO-SkewGP in a variety of experiments, by showing that it consistently outperforms PBO based on Laplace's approximation both in terms of convergence speed and computational time. We also show that our framework can be extended to deal with mixed preferential-categorical BO, where binary judgments (valid or non-valid) together with preference judgments are available.
翻訳日:2022-10-28 20:54:28 公開日:2021-04-01
# How2Sign: 継続的アメリカ手話のための大規模マルチモーダルデータセット

How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign Language ( http://arxiv.org/abs/2008.08143v2 )

ライセンス: Link先を確認
Amanda Duarte, Shruti Palaskar, Lucas Ventura, Deepti Ghadiyaram, Kenneth DeHaan, Florian Metze, Jordi Torres and Xavier Giro-i-Nieto(参考訳) 手話認識、翻訳、生産の分野の進展を妨げる要因の1つは、大規模な注釈付きデータセットが存在しないことである。 この目的に向けて,80時間以上の手話ビデオの並列コーパスと,音声や英語の書き起こし,奥行きなどに対応する一連のモダリティからなる,マルチモーダルかつマルチビューの連続アメリカ手話(asl)データセットであるhow2signを紹介する。 さらに3時間のサブセットがpanoptic studioに記録され、詳細な3dポーズ推定が可能になった。 実世界の衝撃に対するHow2Signの可能性を評価するため、ASLシグナーを用いて研究を行い、我々のデータセットを用いた合成ビデオが実際に理解可能であることを示す。 この研究は、この分野で進歩するためにコンピュータビジョンが取り組むべき課題についてさらに洞察を与える。 Dataset Webサイト: http://how2sign.github.io/

One of the factors that have hindered progress in the areas of sign language recognition, translation, and production is the absence of large annotated datasets. Towards this end, we introduce How2Sign, a multimodal and multiview continuous American Sign Language (ASL) dataset, consisting of a parallel corpus of more than 80 hours of sign language videos and a set of corresponding modalities including speech, English transcripts, and depth. A three-hour subset was further recorded in the Panoptic studio enabling detailed 3D pose estimation. To evaluate the potential of How2Sign for real-world impact, we conduct a study with ASL signers and show that synthesized videos using our dataset can indeed be understood. The study further gives insights on challenges that computer vision should address in order to make progress in this field. Dataset website: http://how2sign.github.io/
翻訳日:2022-10-27 21:47:57 公開日:2021-04-01
# banana at wnut-2020 task 2: ディープラーニングとトランスファー学習モデルを組み合わせたtwitter上のcovid-19情報の識別

BANANA at WNUT-2020 Task 2: Identifying COVID-19 Information on Twitter by Combining Deep Learning and Transfer Learning Models ( http://arxiv.org/abs/2009.02671v2 )

ライセンス: Link先を確認
Tin Van Huynh, Luan Thanh Nguyen and Son T. Luu(参考訳) 新型コロナウイルスの感染拡大は世界中の人々の健康に大きな影響を及ぼした。 したがって、病気に関する情報を誰とでも一定かつ正確なものにすることが不可欠である。 本稿では, WNUT-2020 Task 2: Identification of Informative COVID-19 English Tweetsについて述べる。 このタスクのデータセットは、人間がラベル付けした英語のつぶやきサイズが10,000である。 3つの変圧器および深層学習モデルからのアンサンブルモデルを用いて最終予測を行う。 実験結果から, システム上でのインフォーマルラベルのF1を88.81%で達成したことがわかった。

The outbreak COVID-19 virus caused a significant impact on the health of people all over the world. Therefore, it is essential to have a piece of constant and accurate information about the disease with everyone. This paper describes our prediction system for WNUT-2020 Task 2: Identification of Informative COVID-19 English Tweets. The dataset for this task contains size 10,000 tweets in English labeled by humans. The ensemble model from our three transformer and deep learning models is used for the final prediction. The experimental result indicates that we have achieved F1 for the INFORMATIVE label on our systems at 88.81% on the test set.
翻訳日:2022-10-21 08:31:30 公開日:2021-04-01
# MulDE:低次元知識グラフ埋め込みのためのマルチ教師知識蒸留

MulDE: Multi-teacher Knowledge Distillation for Low-dimensional Knowledge Graph Embeddings ( http://arxiv.org/abs/2010.07152v4 )

ライセンス: Link先を確認
Kai Wang, Yu Liu, Qian Ma, Quan Z. Sheng(参考訳) 知識グラフ埋め込み(KGE)に基づくリンク予測は、知識グラフ(KG)を自動的に構築する新しいトリプルを予測することを目的としている。 しかし、最近のKGEモデルでは、埋め込み寸法を過度に増やすことで、トレーニングコストが大幅に増加し、より多くのストレージスペースが必要になる可能性がある。 本稿では,高次元モデルをトレーニングする代わりに,教師として複数の低次元双曲KGEモデルと,中学校とシニアという2つの学生コンポーネントを含む新しい知識蒸留フレームワークであるMulDEを提案する。 新たな反復蒸留戦略の下で,低次元KGEモデルであるジュニアコンポーネントは,事前予測結果に基づいて教師に積極的に質問し,シニアコンポーネントは教師の知識を適応的に統合し,関係性特化スケーリングとコントラスト注意という2つのメカニズムに基づいてジュニアコンポーネントを訓練する。 実験の結果,MulDEは低次元KGEモデルの性能と訓練速度を効果的に向上できることが示された。 蒸留32次元モデルは、いくつかの広く使われているデータセットの最先端の高次元法と比較して競合する。

Link prediction based on knowledge graph embeddings (KGE) aims to predict new triples to automatically construct knowledge graphs (KGs). However, recent KGE models achieve performance improvements by excessively increasing the embedding dimensions, which may cause enormous training costs and require more storage space. In this paper, instead of training high-dimensional models, we propose MulDE, a novel knowledge distillation framework, which includes multiple low-dimensional hyperbolic KGE models as teachers and two student components, namely Junior and Senior. Under a novel iterative distillation strategy, the Junior component, a low-dimensional KGE model, asks teachers actively based on its preliminary prediction results, and the Senior component integrates teachers' knowledge adaptively to train the Junior component based on two mechanisms: relation-specific scaling and contrast attention. The experimental results show that MulDE can effectively improve the performance and training speed of low-dimensional KGE models. The distilled 32-dimensional model is competitive compared to the state-of-the-art high-dimensional methods on several widely-used datasets.
翻訳日:2022-10-07 12:17:47 公開日:2021-04-01
# 抽象要約モデルに対する事実誤り訂正

Factual Error Correction for Abstractive Summarization Models ( http://arxiv.org/abs/2010.08712v2 )

ライセンス: Link先を確認
Meng Cao, Yue Dong, Jiapeng Wu, Jackie Chi Kit Cheung(参考訳) ニューラルネットワークの抽象要約システムは、自己教師ありの手法で事前学習された大規模データセットとモデルの可用性により、有望な進歩を遂げている。 しかし,抽象的要約システムのための生成した要約の事実的一貫性を確保することは課題である。 生成した要約の事実誤りを特定し,修正することで,この問題に対処する編集後修正モジュールを提案する。 神経矯正モデルは、参照要約に一連のヒューリスティック変換を適用することによって生成される人工例に基づいて事前訓練される。 これらの変換は、最先端の要約モデル出力の誤差解析にインスパイアされている。 実験の結果,本モデルはcnn/dailymailデータセットの事実整合性評価において,他の神経要約モデルによって生成された要約の事実誤りを訂正でき,先行モデルよりも優れていた。 また、人工的なエラー訂正から下流の設定への移行は依然として非常に難しい。

Neural abstractive summarization systems have achieved promising progress, thanks to the availability of large-scale datasets and models pre-trained with self-supervised methods. However, ensuring the factual consistency of the generated summaries for abstractive summarization systems is a challenge. We propose a post-editing corrector module to address this issue by identifying and correcting factual errors in generated summaries. The neural corrector model is pre-trained on artificial examples that are created by applying a series of heuristic transformations on reference summaries. These transformations are inspired by an error analysis of state-of-the-art summarization model outputs. Experimental results show that our model is able to correct factual errors in summaries generated by other neural summarization models and outperforms previous models on factual consistency evaluation on the CNN/DailyMail dataset. We also find that transferring from artificial error correction to downstream settings is still very challenging.
翻訳日:2022-10-06 09:01:23 公開日:2021-04-01
# スパース特徴相互作用のための正規化係数化マシン

Factorization Machines with Regularization for Sparse Feature Interactions ( http://arxiv.org/abs/2010.09225v2 )

ライセンス: Link先を確認
Kyohei Atarashi, Satoshi Oyama, Masahito Kurihara(参考訳) 因子化マシン(FM)は、二階特徴相互作用に基づく機械学習予測モデルであり、スパース正規化を伴うFMはスパースFMと呼ばれる。 このような正規化は、正確な予測のために最も関連する特徴を選択する特徴選択を可能にするため、モデルの精度と解釈可能性の向上に寄与することができる。 しかし、fmsは2次特徴相互作用を使うため、特徴の選択はしばしば結果モデルにおける多くの関連する特徴相互作用を失う。 このような場合、特徴レベルの空間性を達成するために特別に設計された正規化FMは、特徴レベルの空間性を達成するためにのみの機能選択を行うものよりも好まれる。 本稿では,FMにおける特徴間相互作用選択のための新しい正規化方式を提案する。 提案された正規化子は、fmsのパラメータ行列から計算される特徴的相互作用行列の$\ell_1$正規化子の上限である。 特徴的相互作用選択のために,提案する正規化器は,既存手法のスパースパターンを制約することなく特徴的相互作用行列をスパースさせる。 また,提案するfmsの効率的な近位アルゴリズムについて述べるとともに,既存および新正規化の理論的解析について述べる。 さらに、より正確な機能選択や、高階fmsや全サブセットモデルといった他の関連するモデルへの私たちのアイデアの適用や拡張について論じます。 合成および実世界のデータセットの解析と実験結果から,提案手法の有効性が示された。

Factorization machines (FMs) are machine learning predictive models based on second-order feature interactions and FMs with sparse regularization are called sparse FMs. Such regularizations enable feature selection, which selects the most relevant features for accurate prediction, and therefore they can contribute to the improvement of the model accuracy and interpretability. However, because FMs use second-order feature interactions, the selection of features often causes the loss of many relevant feature interactions in the resultant models. In such cases, FMs with regularization specially designed for feature interaction selection trying to achieve interaction-level sparsity may be preferred instead of those just for feature selection trying to achieve feature-level sparsity. In this paper, we present a new regularization scheme for feature interaction selection in FMs. The proposed regularizer is an upper bound of the $\ell_1$ regularizer for the feature interaction matrix, which is computed from the parameter matrix of FMs. For feature interaction selection, our proposed regularizer makes the feature interaction matrix sparse without a restriction on sparsity patterns imposed by the existing methods. We also describe efficient proximal algorithms for the proposed FMs and present theoretical analyses of both existing and the new regularize. In addition, we will discuss how our ideas can be applied or extended to more accurate feature selection and other related models such as higher-order FMs and the all-subsets model. The analysis and experimental results on synthetic and real-world datasets show the effectiveness of the proposed methods.
翻訳日:2022-10-05 20:46:35 公開日:2021-04-01
# 音声質問応答の精度向上のための知識蒸留

Knowledge Distillation for Improved Accuracy in Spoken Question Answering ( http://arxiv.org/abs/2010.11067v3 )

ライセンス: Link先を確認
Chenyu You, Nuo Chen, Yuexian Zou(参考訳) 音声質問応答(SQA)は、機械が複雑な音声文書を完全に理解する必要がある課題である。 音声認識(ASR)は,QAシステムの開発において重要な役割を果たす。 しかし、最近の研究は、ASRシステムが非常にノイズの多い書き起こしを生成し、SQAタスクにおける機械理解の能力を著しく制限していることを示している。 この問題に対処するため,新しい蒸留フレームワークを提案する。 具体的には、音声文書や文章から知識蒸留(KD)を行うための訓練戦略を考案する。 本研究は,言語モデルからの知識を指導信号として蒸留し,自動書き起こしと手動書き起こしの誤用を低減し,学生の正確性を向上させるための一歩を踏み出した。 実験により,我々のアプローチが,音声データセット上の最先端言語モデルよりも優れていることを実証した。

Spoken question answering (SQA) is a challenging task that requires the machine to fully understand the complex spoken documents. Automatic speech recognition (ASR) plays a significant role in the development of QA systems. However, the recent work shows that ASR systems generate highly noisy transcripts, which critically limit the capability of machine comprehension on the SQA task. To address the issue, we present a novel distillation framework. Specifically, we devise a training strategy to perform knowledge distillation (KD) from spoken documents and written counterparts. Our work makes a step towards distilling knowledge from the language model as a supervision signal to lead to better student accuracy by reducing the misalignment between automatic and manual transcriptions. Experiments demonstrate that our approach outperforms several state-of-the-art language models on the Spoken-SQuAD dataset.
翻訳日:2022-10-04 22:40:01 公開日:2021-04-01
# 確率分布の指数的否定

Exponential Negation of a Probability Distribution ( http://arxiv.org/abs/2010.11533v2 )

ライセンス: Link先を確認
Qinyuan Wu, Yong Deng and Neal Xiong(参考訳) 否定操作は知的情報処理において重要である。 本稿では,既存の算術否定と異なり,指数否定について述べる。 新しい否定は幾何学的否定の一種と見なすことができる。 提案する否定の基本的な性質について検討し、固定点が一様確率分布であることを示す。 否定はエントロピー増加演算であり、全ての確率分布は複数の否定反復の後に一様分布に収束する。 収束の反復の数は分布の要素の数に逆比例する。 いくつかの数値的な例は、提案された否定の効率を説明するために用いられる。

Negation operation is important in intelligent information processing. Different with existing arithmetic negation, an exponential negation is presented in this paper. The new negation can be seen as a kind of geometry negation. Some basic properties of the proposed negation is investigated, we find that the fix point is the uniform probability distribution. The negation is an entropy increase operation and all the probability distributions will converge to the uniform distribution after multiple negation iterations. The number of iterations of convergence is inversely proportional to the number of elements in the distribution. Some numerical examples are used to illustrate the efficiency of the proposed negation.
翻訳日:2022-10-04 07:52:30 公開日:2021-04-01
# multimix: 医療画像からの控えめな教師付き、極端なマルチタスク学習

MultiMix: Sparingly Supervised, Extreme Multitask Learning From Medical Images ( http://arxiv.org/abs/2010.14731v2 )

ライセンス: Link先を確認
Ayaan Haque, Abdullah-Al-Zubaer Imran, Adam Wang, Demetri Terzopoulos(参考訳) 限られたラベル付きデータからの学習による半教師付き学習は、教師付き学習の代替として研究されている。 ラベルなしデータから得られる知識の最大化は、半教師付き学習設定に効果がある。 さらに、同じモデル内で複数のタスクを学習することで、モデルの一般化性がさらに向上する。 本稿では,2つのタスク間の橋渡しによる説明可能性を維持しつつ,病気の分類と解剖学的区分を相互に学習する新しいマルチタスク学習モデルであるMultiMixを提案する。 トレーニングセットにおけるラベル付きデータの多種多様な実験は,胸部x線画像からの肺炎の分類と肺の分画に対するマルチタスクモデルの有効性を正当化する。 さらに、タスク全体にわたるドメイン内評価とクロスドメイン評価は、我々のモデルが挑戦的な一般化シナリオに適応する可能性をさらに示している。

Semi-supervised learning via learning from limited quantities of labeled data has been investigated as an alternative to supervised counterparts. Maximizing knowledge gains from copious unlabeled data benefit semi-supervised learning settings. Moreover, learning multiple tasks within the same model further improves model generalizability. We propose a novel multitask learning model, namely MultiMix, which jointly learns disease classification and anatomical segmentation in a sparingly supervised manner, while preserving explainability through bridge saliency between the two tasks. Our extensive experimentation with varied quantities of labeled data in the training sets justify the effectiveness of our multitasking model for the classification of pneumonia and segmentation of lungs from chest X-ray images. Moreover, both in-domain and cross-domain evaluations across the tasks further showcase the potential of our model to adapt to challenging generalization scenarios.
翻訳日:2022-10-02 05:04:24 公開日:2021-04-01
# ランダムグラフによる透かしグラフニューラルネットワーク

Watermarking Graph Neural Networks by Random Graphs ( http://arxiv.org/abs/2011.00512v2 )

ライセンス: Link先を確認
Xiangyu Zhao, Hanzhou Wu and Xinpeng Zhang(参考訳) 多くの学習タスクでは、要素間のリッチリレーショナル情報を含むグラフデータを扱う必要があり、サービス品質を改善するために、産業製品にグラフニューラルネットワーク(GNN)モデルがデプロイされるようになる。 しかし、認証のモデルにも課題がある。 本稿では,GNNモデルに対する透かし手法を提案する動機となるGNNモデルの所有権を保護することが必要である。 提案手法では,ランダムなノード特徴ベクトルとラベルを持つエルドス・レニー(ER)ランダムグラフをランダムに生成し,GNNを通常のサンプルとともに保護するように訓練する。 モデルのトレーニング中に、秘密のウォーターマークがerグラフノードのラベル予測に埋め込まれる。 モデル検証において、マークされたGNNをトリガーERグラフで活性化することにより、ウォーターマークを出力から再構成してオーナシップを検証することができる。 ERグラフはランダムに生成され、非マーク付きGNNに入力することで、グラフノードのラベル予測がランダムになり、結果として(提案された作業の)偽アラームレートが低くなる。 実験の結果、元のタスクでマークされたGNNのパフォーマンスが損なわれることはないことが示された。 さらに,モデル圧縮や微調整に対して頑健であり,その優越性と適用性が示された。

Many learning tasks require us to deal with graph data which contains rich relational information among elements, leading increasing graph neural network (GNN) models to be deployed in industrial products for improving the quality of service. However, they also raise challenges to model authentication. It is necessary to protect the ownership of the GNN models, which motivates us to present a watermarking method to GNN models in this paper. In the proposed method, an Erdos-Renyi (ER) random graph with random node feature vectors and labels is randomly generated as a trigger to train the GNN to be protected together with the normal samples. During model training, the secret watermark is embedded into the label predictions of the ER graph nodes. During model verification, by activating a marked GNN with the trigger ER graph, the watermark can be reconstructed from the output to verify the ownership. Since the ER graph was randomly generated, by feeding it to a non-marked GNN, the label predictions of the graph nodes are random, resulting in a low false alarm rate (of the proposed work). Experimental results have also shown that, the performance of a marked GNN on its original task will not be impaired. Moreover, it is robust against model compression and fine-tuning, which has shown the superiority and applicability.
翻訳日:2022-10-01 00:02:48 公開日:2021-04-01
# 非完全csi下のマルチirs支援マルチセルアップリンクmimo通信:深層強化学習アプローチ

Multi-IRS-assisted Multi-Cell Uplink MIMO Communications under Imperfect CSI: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2011.01141v6 )

ライセンス: Link先を確認
Junghoon Kim, Seyyedali Hosseinalipour, Taejoon Kim, David J. Love, Christopher G. Brinton(参考訳) 近年,無線ネットワークにおけるインテリジェント反射面(IRS)の応用が注目されている。 関連する文献のほとんどは、単一のIRSがデプロイされ、完全なチャネル状態情報(CSI)が想定される単一セル設定に焦点を当てている。 本研究では,アップリンクにおけるマルチIRS支援マルチセルネットワークのための新しい手法を開発する。 我々はそのシナリオを考察する i)チャネルは動的で動的である (ii)各基地局(bs)には部分csiのみがあり、具体的には、ユーザ機器(ue)のサブセットのみから有効チャネル電力をスカラーする。 我々は,irs反射ビームフォーマ,bsコンバイン,ue伝送パワーを共同で最適化することを目的とした合計レート最大化問題を定式化する。 これを逐次的意思決定問題としてキャスティングするにあたって,我々は,各bsが独立エージェントとして,局所ue送信電力のチューニング,局所irs反射ビームフォーマとそのコンビネータの調整を行うマルチエージェント深層強化学習アルゴリズムを提案する。 複数のBSが行う動作のカップリングによって生じる非定常性に対処するために、近隣のBS間で限られた情報交換を必要とする効率的な情報共有方式を提案する。 提案手法は,固定UE送信電力と最大比の組合せなどのベースライン手法と比較して,平均データレートが大幅に向上することを示す。

Applications of intelligent reflecting surfaces (IRSs) in wireless networks have attracted significant attention recently. Most of the relevant literature is focused on the single cell setting where a single IRS is deployed and perfect channel state information (CSI) is assumed. In this work, we develop a novel methodology for multi-IRS-assisted multi-cell networks in the uplink. We consider the scenario in which (i) channels are dynamic and (ii) only partial CSI is available at each base station (BS); specifically, scalar effective channel powers from only a subset of user equipments (UE). We formulate the sum-rate maximization problem aiming to jointly optimize the IRS reflect beamformers, BS combiners, and UE transmit powers. In casting this as a sequential decision making problem, we propose a multi-agent deep reinforcement learning algorithm to solve it, where each BS acts as an independent agent in charge of tuning the local UE transmit powers, the local IRS reflect beamformer, and its combiners. We introduce an efficient information-sharing scheme that requires limited information exchange among neighboring BSs to cope with the non-stationarity caused by the coupling of actions taken by multiple BSs. Our numerical results show that our method obtains substantial improvement in average data rate compared to baseline approaches, e.g., fixed UE transmit power and maximum ratio combining.
翻訳日:2022-09-30 11:49:26 公開日:2021-04-01
# キネマティックドメインランダム化と適応による政策伝達

Policy Transfer via Kinematic Domain Randomization and Adaptation ( http://arxiv.org/abs/2011.01891v3 )

ライセンス: Link先を確認
Ioannis Exarchos, Yifeng Jiang, Wenhao Yu, C. Karen Liu(参考訳) 物理シミュレーションで訓練された強化学習ポリシーを実際のハードウェアに移すことは、"sim-to-real"ギャップとして知られる課題である。 ドメインのランダム化は、ソースドメインとターゲットドメイン間のダイナミクスの相違に対処するための単純かつ効果的なテクニックであるが、一般的にはヒューリスティックスと試行錯誤に依存する。 本研究では,パラメータ選択のランダム化が,異なるタイプのドメイン間のポリシー伝達性に与える影響について検討する。 動的パラメータがランダム化されている間、運動パラメータを慎重に測定する一般的な実践とは対照的に、シミュレーションにおけるトレーニング中の仮想ランダム化(リンク長など)は、一般的に動的ランダム化よりも優れている。 そこで本研究では,シミュレーションキネマティックパラメータの変動を利用した新しい領域適応アルゴリズムを提案する。 我々のアルゴリズムであるMulti-Policy Bayesian Optimizationは、仮想キネマティックパラメータに条件付きユニバーサルポリシーのアンサンブルを訓練し、限られた数のターゲットドメインロールアウトを用いてターゲット環境に効率的に適応する。 本研究は,ドメインの相違点を網羅する5つの異なるターゲット環境において,擬似四足歩行ロボットを用いた実験を行った。

Transferring reinforcement learning policies trained in physics simulation to the real hardware remains a challenge, known as the "sim-to-real" gap. Domain randomization is a simple yet effective technique to address dynamics discrepancies across source and target domains, but its success generally depends on heuristics and trial-and-error. In this work we investigate the impact of randomized parameter selection on policy transferability across different types of domain discrepancies. Contrary to common practice in which kinematic parameters are carefully measured while dynamic parameters are randomized, we found that virtually randomizing kinematic parameters (e.g., link lengths) during training in simulation generally outperforms dynamic randomization. Based on this finding, we introduce a new domain adaptation algorithm that utilizes simulated kinematic parameters variation. Our algorithm, Multi-Policy Bayesian Optimization, trains an ensemble of universal policies conditioned on virtual kinematic parameters and efficiently adapts to the target environment using a limited number of target domain rollouts. We showcase our findings on a simulated quadruped robot in five different target environments covering different aspects of domain discrepancies.
翻訳日:2022-09-30 06:29:12 公開日:2021-04-01
# Reachable Polyhedral Marching (RPM):Deep Neural Network Componentsを用いたロボットシステムの安全性検証アルゴリズム

Reachable Polyhedral Marching (RPM): A Safety Verification Algorithm for Robotic Systems with Deep Neural Network Components ( http://arxiv.org/abs/2011.11609v2 )

ライセンス: Link先を確認
Joseph A. Vincent, Mac Schwager(参考訳) 本稿では,relu(recurtified linear unit)アクティベーションを用いたディープニューラルネットワークの正確な到達可能集合の計算法を提案する。 本手法は, 深層ニューラルネットワークを用いたロボット認識と制御システムの厳密な安全性解析に適している。 本アルゴリズムは,ロボットシステムの知覚・動作ループに見られるように,複数の時間ステップを反復したreluネットワークに対して,前方・後方到達可能セットを計算できる。 我々のアルゴリズムは、他の手法のようにレイヤ・バイ・レイヤを繰り返すのではなく、入力空間に多面体セルを漸進的に列挙することで到達可能な集合を構築するという点でユニークである。 もし安全でないセルが見つかると、我々のアルゴリズムは完全な到達性計算を完了せずにこの結果を返すことができるので、安全検証を加速する任意の特性を与えることができる。 さらに,本手法は,メモリが制限要因となる既存の方法と比較して,実行時のメモリ消費を少なくする。 本稿では,ACAS Xu航空機アドバイザリーシステムの安全性検証を行う。 安全でないアクションは、既存のメソッドの約2倍の速度で、安全でないアクションが存在しないことを証明します。 また,ペンデュラムダイナミクスの学習モデルに対して,87s における50 回のステップ水平線上での前方および後方到達可能な集合を計算した。 アルゴリズムのソースコード:https://github.com/StanfordMSL/Neural-Network-Reach。

We present a method for computing exact reachable sets for deep neural networks with rectified linear unit (ReLU) activation. Our method is well-suited for use in rigorous safety analysis of robotic perception and control systems with deep neural network components. Our algorithm can compute both forward and backward reachable sets for a ReLU network iterated over multiple time steps, as would be found in a perception-action loop in a robotic system. Our algorithm is unique in that it builds the reachable sets by incrementally enumerating polyhedral cells in the input space, rather than iterating layer-by-layer through the network as in other methods. If an unsafe cell is found, our algorithm can return this result without completing the full reachability computation, thus giving an anytime property that accelerates safety verification. In addition, our method requires less memory during execution compared to existing methods where memory can be a limiting factor. We demonstrate our algorithm on safety verification of the ACAS Xu aircraft advisory system. We find unsafe actions many times faster than the fastest existing method and certify no unsafe actions exist in about twice the time of the existing method. We also compute forward and backward reachable sets for a learned model of pendulum dynamics over a 50 time step horizon in 87s on a laptop computer. Algorithm source code: https://github.com/StanfordMSL/Neural-Network-Reach.
翻訳日:2022-09-22 02:56:12 公開日:2021-04-01
# 断層画像再構成における幻覚について

On hallucinations in tomographic image reconstruction ( http://arxiv.org/abs/2012.00646v2 )

ライセンス: Link先を確認
Sayantan Bhadra, Varun A. Kelkar, Frank J. Brooks and Mark A. Anastasio(参考訳) 断層画像再構成は一般に線状逆問題である。 このような不適切な逆問題は通常、後続のオブジェクトプロパティの事前知識を使って正規化される。 近年,トレーニング画像から被写体特性の事前学習を行い,画像再構成問題の正則化のために深層ニューラルネットワークが積極的に研究されている。 しかし、これらの深層ネットワークが学習した事前情報の分析と、トレーニング分布の外にある可能性のあるデータに一般化する能力はまだ検討中である。 不正確な先行は、再構成された画像に偽構造が幻覚され、医療画像の深刻な懸念の原因となる可能性がある。 本研究では,画像推定を一般化された測定値とヌル成分に分解することで,再構成手法により事前に課された効果を説明する。 幻覚マップの概念は、正規化再建法における事前の効果を理解するための一般的な目的のために導入された。 数値解析はスタイリングトモグラフィー画像のモダリティに対応して行われる。 提案手法では, 異なる復元手法の挙動を数値研究の助けを借りて検討する。

Tomographic image reconstruction is generally an ill-posed linear inverse problem. Such ill-posed inverse problems are typically regularized using prior knowledge of the sought-after object property. Recently, deep neural networks have been actively investigated for regularizing image reconstruction problems by learning a prior for the object properties from training images. However, an analysis of the prior information learned by these deep networks and their ability to generalize to data that may lie outside the training distribution is still being explored. An inaccurate prior might lead to false structures being hallucinated in the reconstructed image and that is a cause for serious concern in medical imaging. In this work, we propose to illustrate the effect of the prior imposed by a reconstruction method by decomposing the image estimate into generalized measurement and null components. The concept of a hallucination map is introduced for the general purpose of understanding the effect of the prior in regularized reconstruction methods. Numerical studies are conducted corresponding to a stylized tomographic imaging modality. The behavior of different reconstruction methods under the proposed formalism is discussed with the help of the numerical studies.
翻訳日:2021-05-30 19:29:38 公開日:2021-04-01
# マルチオブジェクトオクルージョンの推論によるロバストインスタンスセグメンテーション

Robust Instance Segmentation through Reasoning about Multi-Object Occlusion ( http://arxiv.org/abs/2012.02107v3 )

ライセンス: Link先を確認
Xiaoding Yuan, Adam Kortylewski, Yihong Sun and Alan Yuille(参考訳) 複雑なシーンをディープニューラルネットワークで分析することは、特に画像が部分的にお互いを遮蔽する複数のオブジェクトを含む場合、難しい課題である。 画像解析に対する既存のアプローチは、主にオブジェクトを独立に処理し、近くのオブジェクトの相対的な閉塞を考慮しない。 本稿では,隠蔽に頑健で,バウンディングボックスの監視のみからトレーニングできるマルチオブジェクトインスタンスセグメンテーションのためのディープネットワークを提案する。 私たちの研究は、神経機能アクティベーションの生成モデルを学び、Occluderを見つけ、非Occluded部分に基づいてオブジェクトを分類するコンポジションネットワークを構築しています。 複数のオブジェクトを含むように生成モデルを拡張し、オクルージョンシナリオに対する効率的な推論のためのフレームワークを導入します。 特に、オブジェクトクラスとそのインスタンスとoccluderセグメンテーションのフィードフォワード予測を得る。 不正なセグメンテーションを検知し、その修正のためにオクルージョン順序を推定するOcclusion Reasoning Module(ORM)を導入する。 改良されたセグメンテーションマスクは、画像分類を改善するためにトップダウン方式でネットワークに統合される。 KITTIインスタンスデータセット(KINS)と合成オクルージョンデータセットを用いた実験により、オクルージョン下でのマルチオブジェクトインスタンスセグメンテーションにおけるモデルの有効性とロバスト性を示した。 コードはhttps://github.com/XD7479/Multi-Object-Occlusionで公開されている。

Analyzing complex scenes with Deep Neural Networks is a challenging task, particularly when images contain multiple objects that partially occlude each other. Existing approaches to image analysis mostly process objects independently and do not take into account the relative occlusion of nearby objects. In this paper, we propose a deep network for multi-object instance segmentation that is robust to occlusion and can be trained from bounding box supervision only. Our work builds on Compositional Networks, which learn a generative model of neural feature activations to locate occluders and to classify objects based on their non-occluded parts. We extend their generative model to include multiple objects and introduce a framework for efficient inference in challenging occlusion scenarios. In particular, we obtain feed-forward predictions of the object classes and their instance and occluder segmentations. We introduce an Occlusion Reasoning Module (ORM) that locates erroneous segmentations and estimates the occlusion order to correct them. The improved segmentation masks are, in turn, integrated into the network in a top-down manner to improve the image classification. Our experiments on the KITTI INStance dataset (KINS) and a synthetic occlusion dataset demonstrate the effectiveness and robustness of our model at multi-object instance segmentation under occlusion. Code is publically available at https://github.com/XD7479/Multi-Object-Occlusion.
翻訳日:2021-05-23 14:52:47 公開日:2021-04-01
# iNeRF:Pose Estimationのためのニューラルラジアンスフィールドの反転

iNeRF: Inverting Neural Radiance Fields for Pose Estimation ( http://arxiv.org/abs/2012.05877v2 )

ライセンス: Link先を確認
Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Alberto Rodriguez, Phillip Isola, Tsung-Yi Lin(参考訳) 我々は、Neural RadianceField(NeRF)を"反転"することでメッシュフリーのポーズ推定を行うフレームワークiNeRFを提案する。 NeRFは、現実世界のシーンやオブジェクトのフォトリアリスティックな新しいビューを合成する、ビュー合成のタスクに極めて効果的であることが示されている。 本研究では,メッシュフリーでRGBのみの6DoFポーズ推定にNeRFを用いた分析合成を適用することができるかを検討する。 我々の手法は、トレーニングやテストの期間中にオブジェクトメッシュモデルが利用できないと仮定する。 初期ポーズ推定から, 勾配降下法を用いて, nerfから描画された画素と観測画像中の画素との間の残差を最小限に抑える。 実験では,まず,iNeRFの補間光線をサンプリングして情報勾配を抽出する方法,および,iNeRFの合成データセット上でのバッチサイズの違いが,iNeRFに与える影響について検討した。 LLFFデータセットからの複雑な実世界のシーンに対して、iNeRFは、新しい画像のカメラポーズを推定し、これらの画像をNeRFのトレーニングデータとして用いることにより、NeRFを改善することができることを示す。 最後に、iNeRFは、トレーニング中に見えないオブジェクトインスタンスを含むカテゴリレベルのオブジェクトポーズ推定を、単一のビューから推論されたNeRFモデルを反転させることで、RGBイメージで行うことができることを示す。

We present iNeRF, a framework that performs mesh-free pose estimation by "inverting" a Neural RadianceField (NeRF). NeRFs have been shown to be remarkably effective for the task of view synthesis - synthesizing photorealistic novel views of real-world scenes or objects. In this work, we investigate whether we can apply analysis-by-synthesis via NeRF for mesh-free, RGB-only 6DoF pose estimation - given an image, find the translation and rotation of a camera relative to a 3D object or scene. Our method assumes that no object mesh models are available during either training or test time. Starting from an initial pose estimate, we use gradient descent to minimize the residual between pixels rendered from a NeRF and pixels in an observed image. In our experiments, we first study 1) how to sample rays during pose refinement for iNeRF to collect informative gradients and 2) how different batch sizes of rays affect iNeRF on a synthetic dataset. We then show that for complex real-world scenes from the LLFF dataset, iNeRF can improve NeRF by estimating the camera poses of novel images and using these images as additional training data for NeRF. Finally, we show iNeRF can perform category-level object pose estimation, including object instances not seen during training, with RGB images by inverting a NeRF model inferred from a single view.
翻訳日:2021-05-15 06:12:14 公開日:2021-04-01
# (参考訳) ニューラルネットワークによるBV関数の近似:正規性理論のアプローチ

Approximation of BV functions by neural networks: A regularity theory approach ( http://arxiv.org/abs/2012.08291v2 )

ライセンス: CC BY 4.0
Benny Avelin and Vesa Julin(参考訳) 本稿では、単位円上にReLU活性化関数を持つ単一の隠れ層ニューラルネットワークによる関数近似について検討する。 特に、データポイント数がノード数を超えた場合に興味があります。 まず,二次ペナリゼーションを伴うコスト関数に関連する確率的勾配流の平衡への収束について検討した。 具体的には、データとノード数とは独立な明示的な定数を持つコスト関数のペナルティ化バージョンに対するポアンカルの不等式を証明する。 ペナリゼーションは重み付けをバイアスするので、このことは、有界重み付きネットワークが与えられた有界変動(BV)の関数をどの程度うまく近似できるかを研究することに繋がる。 bv関数の近似に関する我々の主要な貢献は、局所化定理と呼ばれる結果である。 具体的には、制約付き問題(重みの長さが$r$ 以下である場合)の期待誤差は、制約付き問題(大域的最適問題)に対して順序が $r^{-1/9}$ である。 この証明はこの話題で新しく、楕円偏微分方程式の正則性理論の技法に着想を得たものである。 最後に、普遍近似定理の定量的バージョンを証明し、大域最適化の期待値を定量化する。

In this paper we are concerned with the approximation of functions by single hidden layer neural networks with ReLU activation functions on the unit circle. In particular, we are interested in the case when the number of data-points exceeds the number of nodes. We first study the convergence to equilibrium of the stochastic gradient flow associated with the cost function with a quadratic penalization. Specifically, we prove a Poincar\'e inequality for a penalized version of the cost function with explicit constants that are independent of the data and of the number of nodes. As our penalization biases the weights to be bounded, this leads us to study how well a network with bounded weights can approximate a given function of bounded variation (BV). Our main contribution concerning approximation of BV functions, is a result which we call the localization theorem. Specifically, it states that the expected error of the constrained problem, where the length of the weights are less than $R$, is of order $R^{-1/9}$ with respect to the unconstrained problem (the global optimum). The proof is novel in this topic and is inspired by techniques from regularity theory of elliptic partial differential equations. Finally we quantify the expected value of the global optimum by proving a quantitative version of the universal approximation theorem.
翻訳日:2021-05-07 11:52:29 公開日:2021-04-01
# (参考訳) 等化損失v2:ロングテール物体検出のための新しい勾配バランスアプローチ

Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection ( http://arxiv.org/abs/2012.08548v2 )

ライセンス: CC BY 4.0
Jingru Tan, Xin Lu, Gang Zhang, Changqing Yin, Quanquan Li(参考訳) 近年,長距離物体検出の主流パラダイムとして,分離学習法が提案されている。 しかし、それらは追加の微調整段階を必要とし、表現と分類器の解離した最適化は、最適でない結果をもたらすかもしれない。 しかしながら、EQL(Equalization Los)のようなエンドツーエンドのトレーニングメソッドは、分離されたトレーニングメソッドよりもパフォーマンスが悪い。 本稿では,長尾物体検出における主な問題は,正と負の勾配の不均衡であり,eqlがうまく解決できないことを明らかにする。 不均衡勾配問題に対処するため,我々は,等化損失v2(eql v2)と呼ばれる,各カテゴリのトレーニングプロセスを独立かつ均等に再バランスさせる新しい勾配誘導緩和機構を新たに導入する。 挑戦的なLVISベンチマークで大規模な実験を行う。 EQL v2は、AP全体で約4ポイント、まれなカテゴリで14-18ポイント改善されている。 さらに重要なのは、非結合のトレーニング方法を上回ることだ。 Open Imagesデータセットのさらなるチューニングなしで、EQL v2はEQLを7.3ポイントAP改善し、強力な一般化能力を示している。 コードはhttps://github.com/tztztztz/eqlv2でリリースされた。

Recently proposed decoupled training methods emerge as a dominant paradigm for long-tailed object detection. But they require an extra fine-tuning stage, and the disjointed optimization of representation and classifier might lead to suboptimal results. However, end-to-end training methods, like equalization loss (EQL), still perform worse than decoupled training methods. In this paper, we reveal the main issue in long-tailed object detection is the imbalanced gradients between positives and negatives, and find that EQL does not solve it well. To address the problem of imbalanced gradients, we introduce a new version of equalization loss, called equalization loss v2 (EQL v2), a novel gradient guided reweighing mechanism that re-balances the training process for each category independently and equally. Extensive experiments are performed on the challenging LVIS benchmark. EQL v2 outperforms origin EQL by about 4 points overall AP with 14-18 points improvements on the rare categories. More importantly, it also surpasses decoupled training methods. Without further tuning for the Open Images dataset, EQL v2 improves EQL by 7.3 points AP, showing strong generalization ability. Codes have been released at https://github.com/tztztztztz/eqlv2
翻訳日:2021-05-07 09:09:38 公開日:2021-04-01
# 局所暗黙的画像関数を用いた連続画像表現の学習

Learning Continuous Image Representation with Local Implicit Image Function ( http://arxiv.org/abs/2012.09161v2 )

ライセンス: Link先を確認
Yinbo Chen, Sifei Liu, Xiaolong Wang(参考訳) 画像をどう表現するか? 視覚の世界は連続的に表現されるが、マシンは画像を2次元のピクセル配列で個別に保存して見ることができる。 本稿では,画像の連続表現について学ぶ。 暗黙的ニューラル表現を用いた最近の3次元再構成の進歩に触発されて,画像座標と2次元深部特徴を入力として取り出すローカルインプリシット画像関数 (LIIF) を提案し,所定の座標におけるRGB値を出力として予測する。 座標は連続であるため、liif は任意の分解能で表現できる。 画像の連続表現を生成するために,超解像度の自己教師型タスクを通じてLIIF表現を持つエンコーダを訓練する。 学習された連続表現は、訓練タスクが提供されないx30高解像度の任意の解像度で表現することができる。 さらに、LIIF表現は2次元の離散的表現と連続的表現の間に橋渡しを行い、画像のサイズの異なる学習タスクを自然にサポートし、グラウンドトゥルースを縮小する手法よりもはるかに優れていることを示す。

How to represent an image? While the visual world is presented in a continuous manner, machines store and see the images in a discrete way with 2D arrays of pixels. In this paper, we seek to learn a continuous representation for images. Inspired by the recent progress in 3D reconstruction with implicit neural representation, we propose Local Implicit Image Function (LIIF), which takes an image coordinate and the 2D deep features around the coordinate as inputs, predicts the RGB value at a given coordinate as an output. Since the coordinates are continuous, LIIF can be presented in arbitrary resolution. To generate the continuous representation for images, we train an encoder with LIIF representation via a self-supervised task with super-resolution. The learned continuous representation can be presented in arbitrary resolution even extrapolate to x30 higher resolution, where the training tasks are not provided. We further show that LIIF representation builds a bridge between discrete and continuous representation in 2D, it naturally supports the learning tasks with size-varied image ground-truths and significantly outperforms the method with resizing the ground-truths.
翻訳日:2021-05-03 03:07:22 公開日:2021-04-01
# ハードウェア・ソフトウェア共同設計によるリアルタイムマルチタスク回折深層ニューラルネットワーク

Real-time Multi-Task Diffractive Deep Neural Networks via Hardware-Software Co-design ( http://arxiv.org/abs/2012.08906v2 )

ライセンス: Link先を確認
Yingjie Li, Ruiyang Chen, Berardi Sensale Rodriguez, Weilu Gao, and Cunxi Yu(参考訳) ディープニューラルネットワーク(DNN)は、リソース制約のある環境での性能を大幅に制限する、相当な計算要件を持つ。 近年、光ニューラルネットワークと光コンピューティングベースのDNNハードウェアへの取り組みが活発化しており、その電力効率、並列性、計算速度の観点から、ディープラーニングシステムに大きな利点をもたらしている。 中でも、光回折に基づく自由空間微分深部ニューラルネットワーク(D$^2$NNs)は、近隣の層でニューロンと接続される各層に数百万のニューロンを特徴付ける。 しかし、再構成性を実装するという課題のため、異なるDNNアルゴリズムをデプロイするには物理拡散システムの再構築と複製が必要であるため、実用的なアプリケーションシナリオではハードウェア効率が大幅に低下する。 そこで本研究では,d$^2$nnsでロバストかつノイズ耐性のあるマルチタスク学習を実現する,新しいハードウェアソフトウェア共同設計手法を提案する。 実験により,汎用性とハードウェア効率の大幅な向上と,全システムコンポーネントの広いノイズ範囲下でのマルチタスクD$2$NNアーキテクチャの堅牢性を示す。 さらに,提案するマルチタスクアーキテクチャをトレーニングするためのドメイン固有正規化アルゴリズムを提案する。

Deep neural networks (DNNs) have substantial computational requirements, which greatly limit their performance in resource-constrained environments. Recently, there are increasing efforts on optical neural networks and optical computing based DNNs hardware, which bring significant advantages for deep learning systems in terms of their power efficiency, parallelism and computational speed. Among them, free-space diffractive deep neural networks (D$^2$NNs) based on the light diffraction, feature millions of neurons in each layer interconnected with neurons in neighboring layers. However, due to the challenge of implementing reconfigurability, deploying different DNNs algorithms requires re-building and duplicating the physical diffractive systems, which significantly degrades the hardware efficiency in practical application scenarios. Thus, this work proposes a novel hardware-software co-design method that enables robust and noise-resilient Multi-task Learning in D$^2$NNs. Our experimental results demonstrate significant improvements in versatility and hardware efficiency, and also demonstrate the robustness of proposed multi-task D$^2$NN architecture under wide noise ranges of all system components. In addition, we propose a domain-specific regularization algorithm for training the proposed multi-task architecture, which can be used to flexibly adjust the desired performance for each task.
翻訳日:2021-05-03 03:05:33 公開日:2021-04-01
# 骨盤骨の深部学習 : 大規模CTデータセットとベースラインモデル

Deep Learning to Segment Pelvic Bones: Large-scale CT Datasets and Baseline Models ( http://arxiv.org/abs/2012.08721v2 )

ライセンス: Link先を確認
Pengbo Liu, Hu Han, Yuanqi Du, Heqin Zhu, Yinhao Li, Feng Gu, Honghu Xiao, Jun Li, Chunpeng Zhao, Li Xiao, Xinbao Wu and S.Kevin Zhou(参考訳) 目的:CTにおける骨分節は骨盤骨疾患の臨床診断と手術計画において常に重要なステップである。 骨盤骨切り術の既存の方法は手作りまたは半自動的であり、多部位領域シフトによる画像の出現変化、造影血管の存在、骨骨折、低用量、金属アーティファクトなどを扱う場合の精度は限られている。 アノテーション付き大規模骨盤CTデータセットが欠如しているため、ディープラーニング手法は十分に研究されていない。 方法: 本論文では, 異なる解像度の1, 184個のCTボリュームと320,000個のスライスを含む, 複数のソースおよび異なるメーカから収集された大きな骨盤CTデータセットをキュレートし, データギャップを埋めることを目的としている。 そこで本研究では,多領域画像から腰椎,仙骨,左股関節,右股関節を分割する深層多層ネットワークを学習し,より効果的でロバストな特徴表現を得ることを初めて提案する。 最後に,サイン付き距離関数(sdf)に基づく後処理ツールを導入し,骨断片を正しく予測しながら誤予測を解消する。 結果: 筆者らのデータセットを用いた広範囲な実験により, メタルフリーボリュームの平均0.987サイクリングが得られた。 sdfポストプロセッサは、後処理段階で重要な骨断片を維持することにより、ハウスドルフ距離が10.5%減少する。 結論: この大規模なデータセットはコミュニティ全体の開発を促進し、https://github.com/ICT-MIRACLE-lab/CTPelvic1Kで画像、アノテーション、コード、トレーニングされたベースラインモデルをオープンソース化する予定です。

Purpose: Pelvic bone segmentation in CT has always been an essential step in clinical diagnosis and surgery planning of pelvic bone diseases. Existing methods for pelvic bone segmentation are either hand-crafted or semi-automatic and achieve limited accuracy when dealing with image appearance variations due to the multi-site domain shift, the presence of contrasted vessels, coprolith and chyme, bone fractures, low dose, metal artifacts, etc. Due to the lack of a large-scale pelvic CT dataset with annotations, deep learning methods are not fully explored. Methods: In this paper, we aim to bridge the data gap by curating a large pelvic CT dataset pooled from multiple sources and different manufacturers, including 1, 184 CT volumes and over 320, 000 slices with different resolutions and a variety of the above-mentioned appearance variations. Then we propose for the first time, to the best of our knowledge, to learn a deep multi-class network for segmenting lumbar spine, sacrum, left hip, and right hip, from multiple-domain images simultaneously to obtain more effective and robust feature representations. Finally, we introduce a post-processing tool based on the signed distance function (SDF) to eliminate false predictions while retaining correctly predicted bone fragments. Results: Extensive experiments on our dataset demonstrate the effectiveness of our automatic method, achieving an average Dice of 0.987 for a metal-free volume. SDF post-processor yields a decrease of 10.5% in hausdorff distance by maintaining important bone fragments in post-processing phase. Conclusion: We believe this large-scale dataset will promote the development of the whole community and plan to open source the images, annotations, codes, and trained baseline models at https://github.com/ICT-MIRACLE-lab/CTPelvic1K.
翻訳日:2021-05-03 02:58:42 公開日:2021-04-01
# (参考訳) TDN:効果的な行動認識のための時間差ネットワーク

TDN: Temporal Difference Networks for Efficient Action Recognition ( http://arxiv.org/abs/2012.10071v2 )

ライセンス: CC BY 4.0
Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu(参考訳) ビデオのアクション認識には、時間モデリングが依然として難しい。 この問題を軽減するため,本稿では,行動認識のためのマルチスケールの時間情報収集に着目し,時間差ネットワーク (tdn) と呼ばれる新しい映像アーキテクチャを提案する。 我々のTDNの中核は、時間差演算子を明示的に活用して効率的な時間的モジュール(TDM)を考案し、その短期的・長期的動作モデリングへの影響を体系的に評価することである。 ビデオ全体の時間的情報をフルキャプチャするために,2レベル差分モデリングパラダイムを用いてTDNを構築した。 具体的には、局所的な動きモデリングでは、連続フレーム上の時間差を用いて2次元CNNにより微細な動きパターンを供給し、グローバルな動きモデリングでは、セグメント間の時間差を組み込んで、動き特徴励起のための長距離構造をキャプチャする。 TDNは、シンプルで原則化された時間モデリングフレームワークを提供しており、計算コストの少ない既存のCNNでインスタンス化することができる。 我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。 さらに,詳細なアブレーション実験を行い,tdnの可視化結果のプロットを行い,時間差モデリングの洞察に富む解析を行うことを期待する。 コードをhttps://github.com/MCG-NJU/TDNでリリースします。

Temporal modeling still remains challenging for action recognition in videos. To mitigate this issue, this paper presents a new video architecture, termed as Temporal Difference Network (TDN), with a focus on capturing multi-scale temporal information for efficient action recognition. The core of our TDN is to devise an efficient temporal module (TDM) by explicitly leveraging a temporal difference operator, and systematically assess its effect on short-term and long-term motion modeling. To fully capture temporal information over the entire video, our TDN is established with a two-level difference modeling paradigm. Specifically, for local motion modeling, temporal difference over consecutive frames is used to supply 2D CNNs with finer motion pattern, while for global motion modeling, temporal difference across segments is incorporated to capture long-range structure for motion feature excitation. TDN provides a simple and principled temporal modeling framework and could be instantiated with the existing CNNs at a small extra computational cost. Our TDN presents a new state of the art on the Something-Something V1 & V2 datasets and is on par with the best performance on the Kinetics-400 dataset. In addition, we conduct in-depth ablation studies and plot the visualization results of our TDN, hopefully providing insightful analysis on temporal difference modeling. We release the code at https://github.com/MCG-NJU/TDN.
翻訳日:2021-05-02 03:25:11 公開日:2021-04-01
# (参考訳) voronoi progressive widening: 連続状態、動作、観察のための効率的なオンラインソルバ

Voronoi Progressive Widening: Efficient Online Solvers for Continuous State, Action, and Observation POMDPs ( http://arxiv.org/abs/2012.10140v3 )

ライセンス: CC BY 4.0
Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg(参考訳) 本稿では,voronoi progressive widening (vpw) とvoronoi progressive optimization (voo) の一般化と,部分可観測マルコフ決定プロセス (pomdps) へのアクションプログレッシブ拡張を提案する。 ツリー探索アルゴリズムは、局所的および大域的アクション探索を効率的にバランスさせることで、連続的またはハイブリッドなアクション空間を効果的に扱うためにvpwを利用することができる。 本稿では,2つのvpwアルゴリズムを提案し,理論およびシミュレーションの観点から解析する。 Voronoi Optimistic Weighted Sparse Smpling (VOWSS)はVPWベースのオンラインソルバを正当化する理論ツールであり、連続状態、動作、観察POMDPのグローバル収束を保証する最初のアルゴリズムである。 Voronoi Optimistic Monte Carlo Planning with Observation Weighting (VOMCPOW) は、様々なシミュレーション実験において、最先端のPOMDPアルゴリズムを一貫して上回る、汎用的で効率的なアルゴリズムである。

This paper introduces Voronoi Progressive Widening (VPW), a generalization of Voronoi optimistic optimization (VOO) and action progressive widening to partially observable Markov decision processes (POMDPs). Tree search algorithms can use VPW to effectively handle continuous or hybrid action spaces by efficiently balancing local and global action searching. This paper proposes two VPW-based algorithms and analyzes them from theoretical and simulation perspectives. Voronoi Optimistic Weighted Sparse Sampling (VOWSS) is a theoretical tool that justifies VPW-based online solvers, and it is the first algorithm with global convergence guarantees for continuous state, action, and observation POMDPs. Voronoi Optimistic Monte Carlo Planning with Observation Weighting (VOMCPOW) is a versatile and efficient algorithm that consistently outperforms state-of-the-art POMDP algorithms in several simulation experiments.
翻訳日:2021-05-02 01:08:01 公開日:2021-04-01
# 適応的決定境界を用いた深いオープンインテント分類

Deep Open Intent Classification with Adaptive Decision Boundary ( http://arxiv.org/abs/2012.10209v5 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Ting-En Lin(参考訳) オープンインテント分類は対話システムにおいて難しい課題である。 一方で、既知の意図の識別の品質を保証する必要がある。 一方、事前の知識なしにオープン(未知)の意図を検出する必要がある。 現在のモデルは、既知の意図とオープン意図の両方のパフォーマンスのバランスをとるための適切な決定境界を見つける場合に限られている。 本稿では,オープン意図分類のための適応決定境界(ADB)を学習するための後処理手法を提案する。 まず,ラベル付き既知のインテントサンプルを使用してモデルを事前学習する。 次に,よく訓練された特徴の助けを借りて,各既知のクラスに対する適応球面決定境界を自動的に学習する。 具体的には,経験的リスクとオープンスペースリスクを両立させる新たな損失関数を提案する。 このメソッドはオープンインテントのサンプルは必要とせず、モデルアーキテクチャの変更は行わない。 さらに、私たちのアプローチはラベル付きデータの少ないことと、既知の意図の少ないことに驚くほど敏感です。 3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端の手法と比較して大きな改善をもたらすことが示された。 コードはhttps://github.com/thuiar/adaptive-decision-boundaryでリリースされる。

Open intent classification is a challenging task in dialogue systems. On the one hand, it should ensure the quality of known intent identification. On the other hand, it needs to detect the open (unknown) intent without prior knowledge. Current models are limited in finding the appropriate decision boundary to balance the performances of both known intents and the open intent. In this paper, we propose a post-processing method to learn the adaptive decision boundary (ADB) for open intent classification. We first utilize the labeled known intent samples to pre-train the model. Then, we automatically learn the adaptive spherical decision boundary for each known class with the aid of well-trained features. Specifically, we propose a new loss function to balance both the empirical risk and the open space risk. Our method does not need open intent samples and is free from modifying the model architecture. Moreover, our approach is surprisingly insensitive with less labeled data and fewer known intents. Extensive experiments on three benchmark datasets show that our method yields significant improvements compared with the state-of-the-art methods. The codes are released at https://github.com/thuiar/Adaptive-Decision-Boundary.
翻訳日:2021-05-01 18:18:02 公開日:2021-04-01
# PTN:半教師付きFew-shot学習のためのPoisson Transfer Network

PTN: A Poisson Transfer Network for Semi-supervised Few-shot Learning ( http://arxiv.org/abs/2012.10844v3 )

ライセンス: Link先を確認
Huaxi Huang, Junjie Zhang, Jian Zhang, Qiang Wu, Chang Xu(参考訳) 半教師付き少ショット学習(SSFSL)の先行きは、余分なラベル付きデータの価値を最大化し、少ショット学習者を増やすことである。 本稿では,2つの側面からSSFSLのラベルのない情報をマイニングするためのPoisson Transfer Network (PTN)を提案する。 第一に、Poisson Merriman Bence Osher (MBO) モデルはラベル付きおよびラベルなしの例間の通信のためのブリッジを構築する。 このモデルは、ラベルのメッセージパッシングプロセスにおいて、従来のグラフベースのSSFSL法よりも安定かつ情報的分類器として機能する。 第二に、基礎クラスから新しいクラスへのコントラスト学習を通じて知識を伝達するために、余分なラベルのないサンプルを用いる。 具体的には、負の対を遠ざけながら、強化された正の対を閉じる。 我々の対照的な転送方式は、少数のラベル付きデータに対する過度に適合する問題を緩和するために、新規なクラス埋め込みを暗黙的に学習する。 したがって、新しいクラスにおける埋め込み一般化の退化を緩和することができる。 広範な実験により、PTNは miniImageNet と tieredImageNet ベンチマークデータセット上で、最先端のいくつかのショットモデルと SSFSL モデルより優れていることが示された。

The predicament in semi-supervised few-shot learning (SSFSL) is to maximize the value of the extra unlabeled data to boost the few-shot learner. In this paper, we propose a Poisson Transfer Network (PTN) to mine the unlabeled information for SSFSL from two aspects. First, the Poisson Merriman Bence Osher (MBO) model builds a bridge for the communications between labeled and unlabeled examples. This model serves as a more stable and informative classifier than traditional graph-based SSFSL methods in the message-passing process of the labels. Second, the extra unlabeled samples are employed to transfer the knowledge from base classes to novel classes through contrastive learning. Specifically, we force the augmented positive pairs close while push the negative ones distant. Our contrastive transfer scheme implicitly learns the novel-class embeddings to alleviate the over-fitting problem on the few labeled data. Thus, we can mitigate the degeneration of embedding generality in novel classes. Extensive experiments indicate that PTN outperforms the state-of-the-art few-shot and SSFSL models on miniImageNet and tieredImageNet benchmark datasets.
翻訳日:2021-05-01 04:43:26 公開日:2021-04-01
# YolactEdge: エッジ上のリアルタイムインスタンスセグメンテーション

YolactEdge: Real-time Instance Segmentation on the Edge ( http://arxiv.org/abs/2012.12259v2 )

ライセンス: Link先を確認
Haotian Liu, Rafael A. Rivera Soto, Fanyi Xiao, Yong Jae Lee(参考訳) YolactEdgeは,小さなエッジデバイス上でリアルタイムに動作する,最初の競合インスタンスセグメンテーションアプローチである。 具体的には、YolactEdgeはJetson AGX Xavierで最大30.8 FPS(RTX 2080 Tiで172.7 FPS)、ResNet-101のバックボーンを550x550解像度イメージで実行している。 そこで本研究では,現在最先端の画像ベースリアルタイム手法であるYOLACTの2つの改良点について述べる。(1) 速度と精度を慎重に交換しながらTensorRTを最適化し,(2) ビデオの時間的冗長性を活かす新しい特徴変形モジュールである。 YouTube VISとMS COCOデータセットの実験では、YolactEdgeは既存のリアルタイムメソッドよりも3~5倍高速で、競合マスクとボックス検出の精度が得られている。 デザインの選択やモジュールを識別するアブレーション研究も行っています。 コードとモデルはhttps://github.com/haotian-liu/yolact_edgeで入手できる。

We propose YolactEdge, the first competitive instance segmentation approach that runs on small edge devices at real-time speeds. Specifically, YolactEdge runs at up to 30.8 FPS on a Jetson AGX Xavier (and 172.7 FPS on an RTX 2080 Ti) with a ResNet-101 backbone on 550x550 resolution images. To achieve this, we make two improvements to the state-of-the-art image-based real-time method YOLACT: (1) applying TensorRT optimization while carefully trading off speed and accuracy, and (2) a novel feature warping module to exploit temporal redundancy in videos. Experiments on the YouTube VIS and MS COCO datasets demonstrate that YolactEdge produces a 3-5x speed up over existing real-time methods while producing competitive mask and box detection accuracy. We also conduct ablation studies to dissect our design choices and modules. Code and models are available at https://github.com/haotian-liu/yolact_edge.
翻訳日:2021-04-26 07:49:53 公開日:2021-04-01
# xerte: 未来的リンク予測のための時間的知識グラフの説明可能な推論

xERTE: Explainable Reasoning on Temporal Knowledge Graphs for Forecasting Future Links ( http://arxiv.org/abs/2012.15537v5 )

ライセンス: Link先を確認
Zhen Han, Peng Chen, Yunpu Ma, Volker Tresp(参考訳) 時間進化知識グラフ(KG)のモデリングは近年、関心が高まりつつある。 ここでグラフ表現学習は時間的kgのリンク予測の主要なパラダイムとなっている。 しかし、埋め込みベースのアプローチは主にブラックボックス方式で動作し、予測を解釈する能力が欠如している。 本稿では,時間的kgのクエリ関連部分グラフを理由とし,構造的依存関係と時間的ダイナミクスを共同でモデル化するリンク予測フレームワークを提案する。 特に,クエリの周りに囲む部分グラフの抽出を導くために,時間的関係性注意機構と新しい逆表現更新方式を提案する。 このサブグラフは、時間的近傍の反復サンプリングと注意伝播によって拡張される。 我々のアプローチは予測を説明する人間の理解可能な証拠を提供する。 リンク予測タスクのためのベンチマーク時間知識グラフを4つ評価した。 より説明しやすい一方で,これまでのKG予測手法と比較して,Hits@1では20%の相対的な改善が得られた。 また,53名の回答者を対象に調査を行い,リンク予測モデルから抽出した証拠が人間の理解と一致していることを示した。

Modeling time-evolving knowledge graphs (KGs) has recently gained increasing interest. Here, graph representation learning has become the dominant paradigm for link prediction on temporal KGs. However, the embedding-based approaches largely operate in a black-box fashion, lacking the ability to interpret their predictions. This paper provides a link forecasting framework that reasons over query-relevant subgraphs of temporal KGs and jointly models the structural dependencies and the temporal dynamics. Especially, we propose a temporal relational attention mechanism and a novel reverse representation update scheme to guide the extraction of an enclosing subgraph around the query. The subgraph is expanded by an iterative sampling of temporal neighbors and by attention propagation. Our approach provides human-understandable evidence explaining the forecast. We evaluate our model on four benchmark temporal knowledge graphs for the link forecasting task. While being more explainable, our model obtains a relative improvement of up to 20% on Hits@1 compared to the previous best KG forecasting method. We also conduct a survey with 53 respondents, and the results show that the evidence extracted by the model for link forecasting is aligned with human understanding.
翻訳日:2021-04-17 17:24:25 公開日:2021-04-01
# (参考訳) 効果的なコミュニケーション: 雑音チャネル上でのマルチエージェント強化学習のための共同学習・コミュニケーションフレームワーク

Effective Communications: A Joint Learning and Communication Framework for Multi-Agent Reinforcement Learning over Noisy Channels ( http://arxiv.org/abs/2101.10369v2 )

ライセンス: CC BY 4.0
Tze-Yang Tung, Szymon Kobus, Joan Roig Pujol, Deniz Gunduz(参考訳) マルチエージェント強化学習(MARL)フレームワークにおける協調と協調を向上するために,複数のエージェントがノイズチャネル上で通信することを考慮し,シャノンとウィーバーがセミナーで行ったコミュニケーションにおける「有効性問題」の新たな定式化について提案する。 具体的には,マルチエージェントによる部分的に観測可能なマルコフ決定プロセス (MA-POMDP) について考察する。 ノイズの多い通信チャネルは、環境のダイナミクスの一部として明示的に考慮され、各エージェントが送信するメッセージは、エージェントが取り得るアクションの一部である。 その結果、エージェントは互いに協力することだけでなく、ノイズの多いチャンネル上で「効果的に」コミュニケーションすることを学ぶ。 このフレームワークは、ノイズの多いチャネル上で確実にメッセージを伝達することを目的としている従来のコミュニケーション問題と、基礎となる通信チャネルがエラーフリーであると仮定されたmarl文献で最近注目を集めている"コミュニケーションを学ぶための学習"フレームワークの両方を一般化している。 提案手法を用いて学習した共同政策は,基礎となるMA-POMDPとは別途考慮されているものよりも優れていることを示す。 これは非常に強力なフレームワークであり、自動運転車計画からドローン群制御まで、多くの現実世界の応用があり、マルチユーザー通信システムの設計のための深層強化学習の豊富なツールボックスを開く。

We propose a novel formulation of the "effectiveness problem" in communications, put forth by Shannon and Weaver in their seminal work [2], by considering multiple agents communicating over a noisy channel in order to achieve better coordination and cooperation in a multi-agent reinforcement learning (MARL) framework. Specifically, we consider a multi-agent partially observable Markov decision process (MA-POMDP), in which the agents, in addition to interacting with the environment can also communicate with each other over a noisy communication channel. The noisy communication channel is considered explicitly as part of the dynamics of the environment and the message each agent sends is part of the action that the agent can take. As a result, the agents learn not only to collaborate with each other but also to communicate "effectively" over a noisy channel. This framework generalizes both the traditional communication problem, where the main goal is to convey a message reliably over a noisy channel, and the "learning to communicate" framework that has received recent attention in the MARL literature, where the underlying communication channels are assumed to be error-free. We show via examples that the joint policy learned using the proposed framework is superior to that where the communication is considered separately from the underlying MA-POMDP. This is a very powerful framework, which has many real world applications, from autonomous vehicle planning to drone swarm control, and opens up the rich toolbox of deep reinforcement learning for the design of multi-user communication systems.
翻訳日:2021-04-13 10:06:19 公開日:2021-04-01
# 正確な高密度対応の学習と信頼の時期

Learning Accurate Dense Correspondences and When to Trust Them ( http://arxiv.org/abs/2101.01710v2 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Luc Van Gool and Radu Timofte(参考訳) 一対の画像間の密接な対応を確立することは重要かつ一般的な問題である。 しかし, 大変位や均質領域の場合, 密集流の推定は不正確であることが多い。 ポーズ推定や画像操作,3D再構成など,ほとんどのアプリケーションやダウンストリームタスクでは,いつ,どこで推定されたマッチを信頼するかを知ることが重要です。 本研究では,2つの画像間の密な流れ場と,予測の信頼性と精度を示す頑健な画素信頼度マップを推定することを目的とした。 フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。 特に、予測分布を制約付き混合モデルとしてパラメトリ化し、正確な流れ予測と外れ値の両方をより良くモデル化する。 さらに,自己監督訓練の文脈において,堅牢で一般化可能な不確実性予測に適したアーキテクチャとトレーニング戦略を開発した。 本手法は,複数の挑戦的幾何マッチングとオプティカルフローデータセットの最先端結果を得る。 さらに,ポーズ推定タスクにおける確率的信頼度推定の有用性を検証した。 コードとモデルはhttps://github.com/prunetruong/pdcnetで入手できる。

Establishing dense correspondences between a pair of images is an important and general problem. However, dense flow estimation is often inaccurate in the case of large displacements or homogeneous regions. For most applications and down-stream tasks, such as pose estimation, image manipulation, or 3D reconstruction, it is crucial to know when and where to trust the estimated matches. In this work, we aim to estimate a dense flow field relating two images, coupled with a robust pixel-wise confidence map indicating the reliability and accuracy of the prediction. We develop a flexible probabilistic approach that jointly learns the flow prediction and its uncertainty. In particular, we parametrize the predictive distribution as a constrained mixture model, ensuring better modelling of both accurate flow predictions and outliers. Moreover, we develop an architecture and training strategy tailored for robust and generalizable uncertainty prediction in the context of self-supervised training. Our approach obtains state-of-the-art results on multiple challenging geometric matching and optical flow datasets. We further validate the usefulness of our probabilistic confidence estimation for the task of pose estimation. Code and models are available at https://github.com/PruneTruong/PDCNet.
翻訳日:2021-04-11 11:33:37 公開日:2021-04-01
# (参考訳) 固いオデムのための新しいdnnと化学反応流への応用

Novel DNNs for Stiff ODEs with Applications to Chemically Reacting Flows ( http://arxiv.org/abs/2104.01914v1 )

ライセンス: CC BY 4.0
Thomas S. Brown, Harbir Antil, Rainald L\"ohner, Fumiya Togashi, Deepanshu Verma(参考訳) 化学反応する流れは、超音速流、燃焼、爆発、製造プロセス、環境評価などの工学において一般的である。 燃焼においては、反応数は(100以上)顕著であり、化学反応のCPU要求が非常に大きい(99%以上)ため、多くのフローと燃焼の問題は現在、最大のスーパーコンピュータの能力を超えている。 これに触発された新しいDeep Neural Networks (DNN) は、近似された固いODEに導入される。 2つのアプローチ、すなわち、これらのODEに対する解や解の微分を学習する。 これらのDNNは、化学反応流に共通する複数の種や反応に適用される。 実験結果から,DNNの設計において,種の物理的特性を考慮に入れることが有用であることが示唆された。 提案手法はよく一般化される。

Chemically reacting flows are common in engineering, such as hypersonic flow, combustion, explosions, manufacturing processes and environmental assessments. For combustion, the number of reactions can be significant (over 100) and due to the very large CPU requirements of chemical reactions (over 99%) a large number of flow and combustion problems are presently beyond the capabilities of even the largest supercomputers. Motivated by this, novel Deep Neural Networks (DNNs) are introduced to approximate stiff ODEs. Two approaches are compared, i.e., either learn the solution or the derivative of the solution to these ODEs. These DNNs are applied to multiple species and reactions common in chemically reacting flows. Experimental results show that it is helpful to account for the physical properties of species while designing DNNs. The proposed approach is shown to generalize well.
翻訳日:2021-04-08 06:38:18 公開日:2021-04-01
# スマートメータによる都市配電網における急速線停止の同定

Quick Line Outage Identification in Urban Distribution Grids via Smart Meters ( http://arxiv.org/abs/2104.02056v1 )

ライセンス: Link先を確認
Yizheng Liao, Yang Weng, Chin-woo Tan, Ram Rajagopal(参考訳) 分散エネルギー資源(DER)の分散グリッドへの統合は、DERの不確実で複雑な振る舞いのため、様々な信頼性の問題を引き起こす。 配電網の大規模普及に伴い、従来の停電検出手法は、顧客からの報告とスマートメータの最後のgasp信号に依存しており、再生可能発電機やストレージ、都市配電網のメッシュ構造が系統の停電後も電力供給を継続できるため、性能が低下する。 これらの課題に対処するため,理論的保証付き確率的時系列解析に基づくデータ駆動型停止監視手法を提案する。 具体的には,時間系列電圧測定の依存性がライン停止後の統計的に有意な変化を示すことを示す。 これにより、最適変化点検出の理論がラインの停止を識別するのに適している。 しかし,既存の切換点検出手法では,配電系統では未知の電圧分布を必要とする。 そこで我々は電圧データから分布パラメータを直接学習する最大確率推定器を設計する。 推定パラメータに基づく検出も最適性能を達成し,高速な分散グリッド停止同定に非常に有用であることを示す。 さらに、スマートメータは配電網や先進的なインフラ(例えばPMU)に広く設置されているため、我々のアプローチは急激な停止識別のためにのみ電圧等級を必要とする。 シミュレーションの結果,Derと非Derの配置が14の8つの配電網において,スマートメータデータを用いた高精度な故障同定が得られた。

The growing integration of distributed energy resources (DERs) in distribution grids raises various reliability issues due to DER's uncertain and complex behaviors. With a large-scale DER penetration in distribution grids, traditional outage detection methods, which rely on customers report and smart meters' last gasp signals, will have poor performance, because the renewable generators and storages and the mesh structure in urban distribution grids can continue supplying power after line outages. To address these challenges, we propose a data-driven outage monitoring approach based on the stochastic time series analysis with a theoretical guarantee. Specifically, we prove via power flow analysis that the dependency of time-series voltage measurements exhibits significant statistical changes after line outages. This makes the theory on optimal change-point detection suitable to identify line outages. However, existing change point detection methods require post-outage voltage distribution, which is unknown in distribution systems. Therefore, we design a maximum likelihood estimator to directly learn the distribution parameters from voltage data. We prove that the estimated parameters-based detection also achieves the optimal performance, making it extremely useful for fast distribution grid outage identifications. Furthermore, since smart meters have been widely installed in distribution grids and advanced infrastructure (e.g., PMU) has not widely been available, our approach only requires voltage magnitude for quick outage identification. Simulation results show highly accurate outage identification in eight distribution grids with 14 configurations with and without DERs using smart meter data.
翻訳日:2021-04-06 14:45:49 公開日:2021-04-01
# 個人信頼性を利用した競合する順序量子証拠の組み合わせ

Combining conflicting ordinal quantum evidences utilizing individual reliability ( http://arxiv.org/abs/2104.01910v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 異なる情報源からの不確定な情報をいかに組み合わせるかは、長年にわたってホットな話題となっている。 しかしながら、情報に含まれる順序量子証拠に関しては、この種の問題に対する解決策を提供することのできる参照可能な研究は存在しない。 さらに、量子情報の不確かさを解消する手法はまだ未解決の問題である。 そこで,本論文では,量子情報に含まれる不確実性による影響を合理的に低減し,順序量子エビデンスの組み合わせを合理的に改善する優れた手法を提案する。 また,提案手法の正当性および妥当性を検証するために,いくつかの実応用が提供される。

How to combine uncertain information from different sources has been a hot topic for years. However, with respect to ordinal quantum evidences contained in information, there is no any referable work which is able to provide a solution to this kind of problem. Besides, the method to dispel uncertainty of quantum information is still an open issue. Therefore, in this paper, a specially designed method is designed to provide an excellent method which improves the combination of ordinal quantum evidences reasonably and reduce the effects brought by uncertainty contained in quantum information simultaneously. Besides, some actual applications are provided to verify the correctness and validity of the proposed method.
翻訳日:2021-04-06 14:41:09 公開日:2021-04-01
# 共役写像の深層学習

Deep Learning of Conjugate Mappings ( http://arxiv.org/abs/2104.01874v1 )

ライセンス: Link先を確認
Jason J. Bramburger, Steven L. Brunton, J. Nathan Kutz(参考訳) 最も一般的なカオス力学系の多くが時間的に連続しているにもかかわらず、カオスの理解の多くは離散時間マッピングによって形成される。 henri poincar\'e はまず、低次元の横断部分空間で連続的な連続的な流れの反復を追跡することでこの接続を実現した。 流れと部分空間の連続的な交叉を通じて力学を反復する写像は、現在ではポアンカルン写像と呼ばれ、カオス力学を解釈し分類するための主要な方法である。 残念なことに、最も単純なシステムを除いて、そのようなマッピングのための明示的な形式は、いまだに際立ったままである。 本研究では,より単純なカオス写像によって動的が支配される共役表現への非可逆座標変換を構築するために,ディープラーニングを用いて明示的なポアンカー写像を得る方法を提案する。 変数の可逆的変化は、次元の減少を可能にする自己エンコーダに基づいており、位相的共役の同値関係を用いてカオスシステムを分類する利点がある。 実際、位相共役の強制は座標とダイナミクスのペアリングを学ぶための重要なニューラルネットワークの規則化である。 本稿では,R\ ossler や Lorenz などの低次元システムに対する手法の実証的応用に加えて,倉本-シヴァシンスキー方程式のような無限次元システムに対する手法の有用性を実証する。

Despite many of the most common chaotic dynamical systems being continuous in time, it is through discrete time mappings that much of the understanding of chaos is formed. Henri Poincar\'e first made this connection by tracking consecutive iterations of the continuous flow with a lower-dimensional, transverse subspace. The mapping that iterates the dynamics through consecutive intersections of the flow with the subspace is now referred to as a Poincar\'e map, and it is the primary method available for interpreting and classifying chaotic dynamics. Unfortunately, in all but the simplest systems, an explicit form for such a mapping remains outstanding. This work proposes a method for obtaining explicit Poincar\'e mappings by using deep learning to construct an invertible coordinate transformation into a conjugate representation where the dynamics are governed by a relatively simple chaotic mapping. The invertible change of variable is based on an autoencoder, which allows for dimensionality reduction, and has the advantage of classifying chaotic systems using the equivalence relation of topological conjugacies. Indeed, the enforcement of topological conjugacies is the critical neural network regularization for learning the coordinate and dynamics pairing. We provide expository applications of the method to low-dimensional systems such as the R\"ossler and Lorenz systems, while also demonstrating the utility of the method on infinite-dimensional systems, such as the Kuramoto--Sivashinsky equation.
翻訳日:2021-04-06 14:17:31 公開日:2021-04-01
# モンテカルロ木探索を支援するグラフニューラルネットワークを用いたクビットルーティング

Qubit Routing using Graph Neural Network aided Monte Carlo Tree Search ( http://arxiv.org/abs/2104.01992v1 )

ライセンス: Link先を確認
Animesh Sinha, Utkarsh Azad and Harjinder Singh(参考訳) 短期量子ハードウェアは、相互に相互作用可能な量子ビット上でのみ2量子演算をサポートすることができる。 したがって、ハードウェア上で任意の量子回路を実行するには、まず量子ビットルーティングのタスク、すなわち、追加のSWAPゲートを挿入するか、あるいは既存のCNOTゲートを逆転してターゲットトポロジの接続制約を満たすことで量子回路を変換する必要がある。 本稿では,アーキテクチャに依存せず,様々な回路ベンチマークで利用可能な他のルーティング実装よりも優れるキュービットルーティング手法を提案する。 変換された量子回路の深さは、モンテカルロ木探索を利用して量子ビットルーティングを行い、各状態の値関数とアクション確率を評価するグラフニューラルネットワークによって支援される。

Near-term quantum hardware can support two-qubit operations only on the qubits that can interact with each other. Therefore, to execute an arbitrary quantum circuit on the hardware, compilers have to first perform the task of qubit routing, i.e., to transform the quantum circuit either by inserting additional SWAP gates or by reversing existing CNOT gates to satisfy the connectivity constraints of the target topology. We propose a procedure for qubit routing that is architecture agnostic and that outperforms other available routing implementations on various circuit benchmarks. The depth of the transformed quantum circuits is minimised by utilizing the Monte Carlo tree search to perform qubit routing, aided by a Graph neural network that evaluates the value function and action probabilities for each state.
翻訳日:2021-04-06 14:16:35 公開日:2021-04-01
# 畳み込みニューラルネットワークを用いた神経状態分類

Neurological Status Classification Using Convolutional Neural Network ( http://arxiv.org/abs/2104.02058v1 )

ライセンス: Link先を確認
Mehrad Jaloli, Divya Choudhary and Marzia Cescon(参考訳) 本研究では,CNNモデルを用いて,被験者が身体的,認知的,感情的なストレスにさらされる実験で記録された非脳波(EEG)データセットにおいて,神経状態の4つの異なる位相を正確に識別できることを示す。 提案モデルでは,受信操作特性(ROC)のAUC(AreaUnder the Curve)が99.99%,テストデータセットの99.82%の分類精度が得られた。 さらに,本モデルでは,SVMやRFといった従来の分類手法よりも優れていることを示す。 最後に,他の手法と比較して,雑音に対する頑健さを97.46%の精度で向上させるCNNモデルの利点を示す。

In this study we show that a Convolutional Neural Network (CNN) model is able to accuratelydiscriminate between 4 different phases of neurological status in a non-Electroencephalogram(EEG) dataset recorded in an experiment in which subjects are exposed to physical, cognitiveand emotional stress. We demonstrate that the proposed model is able to obtain 99.99% AreaUnder the Curve (AUC) of Receiver Operation characteristic (ROC) and 99.82% classificationaccuracy on the test dataset. Furthermore, for comparison, we show that our models outperformstraditional classification methods such as SVM, and RF. Finally, we show the advantage of CNN models, in comparison to other methods, in robustness to noise by 97.46% accuracy on a noisy dataset.
翻訳日:2021-04-06 14:13:22 公開日:2021-04-01
# (参考訳) back to square one: ディープニューラルネットワークと木探索によるシュートとはしごの超人的パフォーマンス

Back to Square One: Superhuman Performance in Chutes and Ladders Through Deep Neural Networks and Tree Search ( http://arxiv.org/abs/2104.00698v1 )

ライセンス: CC BY 4.0
Dylan Ashley, Anssi Kanervisto, Brendan Bennett(参考訳) 我々は,Chutes と Ladders の古代ゲームにおいて,超人的パフォーマンスを実現する最先端のアルゴリズムである AlphaChute を提示する。 我々のアルゴリズムは一定時間内にナッシュ平衡に収束するので、このゲームに対する最初の形式的解である。 驚くべきことに、これらのことにもかかわらず、AlphaChuteの実装はドメイン固有の適応のため比較的単純です。 AlphaChuteのソースコードは、Appendixで提供しています。

We present AlphaChute: a state-of-the-art algorithm that achieves superhuman performance in the ancient game of Chutes and Ladders. We prove that our algorithm converges to the Nash equilibrium in constant time, and therefore is -- to the best of our knowledge -- the first such formal solution to this game. Surprisingly, despite all this, our implementation of AlphaChute remains relatively straightforward due to domain-specific adaptations. We provide the source code for AlphaChute here in our Appendix.
翻訳日:2021-04-06 02:53:03 公開日:2021-04-01
# (参考訳) 高速ストリーム型テキスト音声スペクトルモデリングのためのマルチレートアテンションアーキテクチャ

Multi-rate attention architecture for fast streamable Text-to-speech spectrum modeling ( http://arxiv.org/abs/2104.00705v1 )

ライセンス: CC BY 4.0
Qing He, Zhiping Xiu, Thilo Koehler, Jilong Wu(参考訳) 典型的なTTSシステムでは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージという、2段階のアーキテクチャを採用している。 高品質のスペクトルモデルは通常、エンコーダ・デコーダアーキテクチャを自己アテンションまたは双方向長短短期(BLSTM)ユニットに組み込む。 これらのモデルは高品質な音声を生成することができるが、入力長が$L$である場合、レイテンシーとリアルタイム係数(RTF)の両方でO($L$)が増加する。 言い換えれば、より長い入力は、より長い遅延とより遅い合成速度をもたらし、リアルタイムアプリケーションでの使用を制限する。 本稿では,エンコード中にコンパクト表現を計算し,デコード時にストリーム方式で再帰的にアテンションベクトルを生成することで,レイテンシとrtfボトルネックを解消するマルチレートアテンションアーキテクチャを提案する。 提案アーキテクチャは,低レイテンシ,低RTFを同時に実現し,高音質(4.31MOSは4.48MOS)を実現する。 一方,提案方式のレイテンシとRTFは入力長に関わらず一定であり,リアルタイムアプリケーションに最適である。

Typical high quality text-to-speech (TTS) systems today use a two-stage architecture, with a spectrum model stage that generates spectral frames and a vocoder stage that generates the actual audio. High-quality spectrum models usually incorporate the encoder-decoder architecture with self-attention or bi-directional long short-term (BLSTM) units. While these models can produce high quality speech, they often incur O($L$) increase in both latency and real-time factor (RTF) with respect to input length $L$. In other words, longer inputs leads to longer delay and slower synthesis speed, limiting its use in real-time applications. In this paper, we propose a multi-rate attention architecture that breaks the latency and RTF bottlenecks by computing a compact representation during encoding and recurrently generating the attention vector in a streaming manner during decoding. The proposed architecture achieves high audio quality (MOS of 4.31 compared to groundtruth 4.48), low latency, and low RTF at the same time. Meanwhile, both latency and RTF of the proposed system stay constant regardless of input lengths, making it ideal for real-time applications.
翻訳日:2021-04-06 02:50:17 公開日:2021-04-01
# (参考訳) BRepNet:固体モデルのためのトポロジカルメッセージパッシングシステム

BRepNet: A topological message passing system for solid models ( http://arxiv.org/abs/2104.00706v1 )

ライセンス: CC BY-SA 4.0
Joseph G. Lambourne, Karl D.D. Willis, Pradeep Kumar Jayaraman, Aditya Sanghi, Peter Meltzer, Hooman Shayani(参考訳) 境界表現(B-rep)モデルは、3次元形状をCAD(Computer-Aided Design)アプリケーションで記述する標準的な方法である。 軽量パラメトリック曲線と曲面を位相情報と組み合わせ、幾何学的実体を多様体を記述する。 本稿では,b-repデータ構造上で直接動作するように設計されたニューラルネットワークアーキテクチャであるbrepnetを紹介する。 brepnetはデータ構造の向き付けコエッジに関して畳み込み型カーネルを定義する。 各コエッジ近傍では、顔、エッジ、コエッジの小さなコレクションを識別でき、特定の学習可能なパラメータによって検出されたこれらのエンティティから特徴ベクトルのパターンを識別できる。 さらに,b-repsを用いたさらなるディープラーニング研究を促進するため,fusion 360 gallery segmentationデータセットを公開する。 35,000以上のB-repモデルのコレクションには、各顔を生成するモデリング操作に関する情報が記入されている。 BRepNetがこれらのモデルをメッシュやポイントクラウドのメソッドよりも高い精度でセグメント化できることを実証する。

Boundary representation (B-rep) models are the standard way 3D shapes are described in Computer-Aided Design (CAD) applications. They combine lightweight parametric curves and surfaces with topological information which connects the geometric entities to describe manifolds. In this paper we introduce BRepNet, a neural network architecture designed to operate directly on B-rep data structures, avoiding the need to approximate the model as meshes or point clouds. BRepNet defines convolutional kernels with respect to oriented coedges in the data structure. In the neighborhood of each coedge, a small collection of faces, edges and coedges can be identified and patterns in the feature vectors from these entities detected by specific learnable parameters. In addition, to encourage further deep learning research with B-reps, we publish the Fusion 360 Gallery segmentation dataset. A collection of over 35,000 B-rep models annotated with information about the modeling operations which created each face. We demonstrate that BRepNet can segment these models with higher accuracy than methods working on meshes, and point clouds.
翻訳日:2021-04-06 02:41:45 公開日:2021-04-01
# (参考訳) インフォーマルエンジニアのためのフォーマルメソッド:ワークショップ勧告

Formal Methods for the Informal Engineer: Workshop Recommendations ( http://arxiv.org/abs/2104.00739v1 )

ライセンス: CC BY 4.0
Gopal Sarma, James Koppel, Gregory Malecha, Patrick Schultz, Eric Drexler, Ramana Kumar, Cody Roux, and Philip Zucker(参考訳) Formal Methods for the Informal Engineer (FMIE) は、バイオメディカルソフトウェアエコシステムにおける検証済みソフトウェアの役割を探るため、2021年にMITとハーバードのブロード研究所で開かれたワークショップである。 FMIEの組織化の動機は、生命科学と医学が、ソフトウェアとAI/ML技術の受動的消費者から、ミッションと安全に欠かせないものを含む新しいプラットフォームの基本的なドライバへと移行している、という認識であった。 ワークショップの前後の会話に基づいて、私たちは5つの具体的なアドバイスを行い、ソフトウェアリーダーがツールやテクニック、形式的なメソッドから視点をプロジェクト計画や開発軌道に組み込むのを支援します。

Formal Methods for the Informal Engineer (FMIE) was a workshop held at the Broad Institute of MIT and Harvard in 2021 to explore the potential role of verified software in the biomedical software ecosystem. The motivation for organizing FMIE was the recognition that the life sciences and medicine are undergoing a transition from being passive consumers of software and AI/ML technologies to fundamental drivers of new platforms, including those which will need to be mission and safety-critical. Drawing on conversations leading up to and during the workshop, we make five concrete recommendations to help software leaders organically incorporate tools, techniques, and perspectives from formal methods into their project planning and development trajectories.
翻訳日:2021-04-06 02:23:09 公開日:2021-04-01
# (参考訳) 量子機械学習を用いた薬物発見手法

Drug Discovery Approaches using Quantum Machine Learning ( http://arxiv.org/abs/2104.00746v1 )

ライセンス: CC BY 4.0
Junde Li, Mahabubul Alam, Congzhou M Sha, Jian Wang, Nikolay V. Dokholyan, Swaroop Ghosh(参考訳) 伝統的な薬物発見パイプラインは数年かかり、何十億ドルもの費用がかかる。 深い生成モデルと予測モデルは、薬物開発を支援するために広く採用されている。 古典的マシンは、学習タスクのトレーニング品質を改善する量子コンピュータの非定型パターンを効率的に生成できない。 本稿では,gan(generative adversarial network)やcnn(convolutional neural network),vae(varuational auto-encoder)といった量子機械学習技術のスイートを提案する。

Traditional drug discovery pipeline takes several years and cost billions of dollars. Deep generative and predictive models are widely adopted to assist in drug development. Classical machines cannot efficiently produce atypical patterns of quantum computers which might improve the training quality of learning tasks. We propose a suite of quantum machine learning techniques e.g., generative adversarial network (GAN), convolutional neural network (CNN) and variational auto-encoder (VAE) to generate small drug molecules, classify binding pockets in proteins, and generate large drug molecules, respectively.
翻訳日:2021-04-06 02:16:37 公開日:2021-04-01
# (参考訳) エッジ操作のための貯留層型分散機械学習

Reservoir-Based Distributed Machine Learning for Edge Operation ( http://arxiv.org/abs/2104.00751v1 )

ライセンス: CC BY 4.0
Silvija Kokalj-Filipovic, Paul Toliver, William Johnson, Rob Miller(参考訳) 本稿では,スマートセンサに組み込まれた機械学習アルゴリズムの現場トレーニングのための新しい設計を提案し,無線周波数(rf)スペクトルセンサを用いた分散トレーニングシナリオについて述べる。 エッジの現在のRFセンサーは、インテリジェント信号分類のための実用的なその場トレーニングをサポートするための計算資源を欠いている。 本稿では,遅延ループリザーバコンピューティングと革新的なハードウェアを組み合わせることで,リソース制約のあるエッジデバイス上で機械学習アルゴリズムをサポートする処理アーキテクチャであるdeepdelay loop reservoir computing(dlr)を用いたソリューションを提案する。 dlrは、最先端の(soa)ニューラルネットと比較して、フォームファクタ、ハードウェアの複雑さ、レイテンシの削減を提供する。 RF特定エミッタ識別(SEI)と無線プロトコル認識の2つのアプリケーションに対してDLRを実証する。 DLRは、モバイルエッジプラットフォームを認証し、高速なSEIリトレーニングでエミッターを追跡する。 一度遅延ループがデータクラスを分離すると、伝統的に複雑なパワーハングリー分類モデルが学習プロセスに不要になる。 しかし、リッジ回帰(RR)のような単純な分類器でさえ、複雑性は入力サイズとともに少なくとも2倍に増大する。 RR分類器付きDLRはSoAの精度を超え、並列(分割)ループのアーキテクチャを活用することで消費電力をさらに削減する。 大規模なリージョンでモバイルデバイスを認証するために、DLRは、精度を維持しながら、非常に少ない追加処理と少ない通信コストで分散形式で訓練することができる。 我々は,ローカルに訓練されたdlr分類器を興味のある場合にマージする方法を示す。

We introduce a novel design for in-situ training of machine learning algorithms built into smart sensors, and illustrate distributed training scenarios using radio frequency (RF) spectrum sensors. Current RF sensors at the Edge lack the computational resources to support practical, in-situ training for intelligent signal classification. We propose a solution using Deepdelay Loop Reservoir Computing (DLR), a processing architecture that supports machine learning algorithms on resource-constrained edge-devices by leveraging delayloop reservoir computing in combination with innovative hardware. DLR delivers reductions in form factor, hardware complexity and latency, compared to the State-ofthe- Art (SoA) neural nets. We demonstrate DLR for two applications: RF Specific Emitter Identification (SEI) and wireless protocol recognition. DLR enables mobile edge platforms to authenticate and then track emitters with fast SEI retraining. Once delay loops separate the data classes, traditionally complex, power-hungry classification models are no longer needed for the learning process. Yet, even with simple classifiers such as Ridge Regression (RR), the complexity grows at least quadratically with the input size. DLR with a RR classifier exceeds the SoA accuracy, while further reducing power consumption by leveraging the architecture of parallel (split) loops. To authenticate mobile devices across large regions, DLR can be trained in a distributed fashion with very little additional processing and a small communication cost, all while maintaining accuracy. We illustrate how to merge locally trained DLR classifiers in use cases of interest.
翻訳日:2021-04-06 02:08:21 公開日:2021-04-01
# (参考訳) 効率的な個人予測説明のための協調戦略

Coalitional strategies for efficient individual prediction explanation ( http://arxiv.org/abs/2104.00765v1 )

ライセンス: CC BY 4.0
Gabriel Ferrettini (1), Elodie Escriva (2), Julien Aligon (1), Jean-Baptiste Excoffier (2), Chantal Soul\'e-Dupuy (1) ((1) Universit\'e de Toulouse-Capitole, IRIT CNRS/UMR 5505, (2) Kaduceo)(参考訳) 機械学習(ML)は、現在、研究と産業の両方において、多くの領域で広く適用されているため、ブラックボックス内で起きていることに対する理解は、特にこれらのモデルの非専門家によって、ますます需要が高まっている。 したがって、特定の観察のためにモデル予測の明確な洞察を提供するためにいくつかのアプローチが開発されたが、長い計算時間や属性間の相互作用を完全に考慮しない制限付き仮説のコストで開発された。 本稿では,関連する属性群 -- 名前付き連立 -- の検出に基づく手法を提供し,それらを文献と比較する。 以上の結果から,これらの連立手法はSHAP (SHapley Additive exPlanation) などの既存手法よりも効率的であることが示唆された。 個々の予測説明の許容精度を維持しながら計算時間を短縮する。 これにより、開発されたmlモデル、エンドユーザ、およびこれらのモデルが役割を担う決定によって影響を受ける人の間の信頼を高めるために、説明方法をより効果的に活用することができる。

As Machine Learning (ML) is now widely applied in many domains, in both research and industry, an understanding of what is happening inside the black box is becoming a growing demand, especially by non-experts of these models. Several approaches had thus been developed to provide clear insights of a model prediction for a particular observation but at the cost of long computation time or restrictive hypothesis that does not fully take into account interaction between attributes. This paper provides methods based on the detection of relevant groups of attributes -- named coalitions -- influencing a prediction and compares them with the literature. Our results show that these coalitional methods are more efficient than existing ones such as SHapley Additive exPlanation (SHAP). Computation time is shortened while preserving an acceptable accuracy of individual prediction explanations. Therefore, this enables wider practical use of explanation methods to increase trust between developed ML models, end-users, and whoever impacted by any decision where these models played a role.
翻訳日:2021-04-06 01:51:11 公開日:2021-04-01
# (参考訳) nguni言語における正準および表面形態素セグメンテーション

Canonical and Surface Morphological Segmentation for Nguni Languages ( http://arxiv.org/abs/2104.00767v1 )

ライセンス: CC BY 4.0
Tumi Moeng, Sheldon Reay, Aaron Daniels, Jan Buys(参考訳) 形態素セグメンテーション(英: Morphological Segmentation)は、単語をモルヒムに分解する。 これは南アフリカングニ語群のような形態学的に豊富な凝集言語にとって重要なNLPタスクである。 本稿では,2種類の形態的セグメンテーション(正準および表面セグメンテーション)の教師付きモデルと教師なしモデルについて検討する。 本研究では, 音節分割のための系列列列列モデルを訓練し, 基礎となる形態素は単語の表面形状と等しくなく, 条件付きランダム場(CRF)は表面セグメント化を行う。 トランスフォーマーは標準セグメンテーションに注目してLSTMを上回り、4つの言語で平均72.5%のF1スコアを得た。 特徴に基づくCRFは双方向LSTM-CRFよりも優れており、表面セグメンテーションにおける平均97.1%のF1が得られる。 教師なしの設定では、文字レベルのlstm言語モデルを用いたエントロピーベースのアプローチは、morfessorのベースラインを上回ることに失敗し、一部の言語では、どちらのアプローチもランダムなベースラインよりもうまく機能しない。 教師付きセグメンテーションモデルの高性能化によって、Nguni言語のためのより良いNLPツールの開発が促進されることを期待する。

Morphological Segmentation involves decomposing words into morphemes, the smallest meaning-bearing units of language. This is an important NLP task for morphologically-rich agglutinative languages such as the Southern African Nguni language group. In this paper, we investigate supervised and unsupervised models for two variants of morphological segmentation: canonical and surface segmentation. We train sequence-to-sequence models for canonical segmentation, where the underlying morphemes may not be equal to the surface form of the word, and Conditional Random Fields (CRF) for surface segmentation. Transformers outperform LSTMs with attention on canonical segmentation, obtaining an average F1 score of 72.5% across 4 languages. Feature-based CRFs outperform bidirectional LSTM-CRFs to obtain an average of 97.1% F1 on surface segmentation. In the unsupervised setting, an entropy-based approach using a character-level LSTM language model fails to outperforms a Morfessor baseline, while on some of the languages neither approach performs much better than a random baseline. We hope that the high performance of the supervised segmentation models will help to facilitate the development of better NLP tools for Nguni languages.
翻訳日:2021-04-06 01:26:41 公開日:2021-04-01
# (参考訳) 南アフリカ言語の低リソース言語モデリング

Low-Resource Language Modelling of South African Languages ( http://arxiv.org/abs/2104.00772v1 )

ライセンス: CC BY 4.0
Stuart Mesham, Luc Hayward, Jared Shapiro, Jan Buys(参考訳) 言語モデルは、現在の自然言語理解と生成のためのニューラルネットワークベースのモデルの基礎である。 しかしながら、アフリカ言語における言語モデルの本質的性能に関する研究は極めて限定的であり、英語や他の高リソース言語に存在している大規模で標準化されたトレーニングや評価セットが欠如していることから、より困難になっている。 本稿では,低資源南アフリカ語におけるオープン語彙モデルの性能を,バイトペア符号化を用いて評価する。 本研究では,n-gramモデル,feedforwardニューラルネットワーク,recurrent neural network (rnn),transformerの変種を小規模データセット上で評価する。 全体として、適切に正規化されたRNNは、2つのisiZuluデータセットと1つのSepediデータセットで最高のパフォーマンスを提供する。 マルチ言語トレーニングはこれらのデータセットのパフォーマンスをさらに向上させる。 この研究がアフリカ言語のための多言語および低リソース言語モデリングの研究に新たな道を開くことを期待している。

Language models are the foundation of current neural network-based models for natural language understanding and generation. However, research on the intrinsic performance of language models on African languages has been extremely limited, which is made more challenging by the lack of large or standardised training and evaluation sets that exist for English and other high-resource languages. In this paper, we evaluate the performance of open-vocabulary language models on low-resource South African languages, using byte-pair encoding to handle the rich morphology of these languages. We evaluate different variants of n-gram models, feedforward neural networks, recurrent neural networks (RNNs), and Transformers on small-scale datasets. Overall, well-regularized RNNs give the best performance across two isiZulu and one Sepedi datasets. Multilingual training further improves performance on these datasets. We hope that this research will open new avenues for research into multilingual and low-resource language modelling for African languages.
翻訳日:2021-04-06 01:14:37 公開日:2021-04-01
# (参考訳) MultiWOZ 2.4: 状態追跡評価を改善するための基本アノテーション補正付きマルチドメインタスク指向対話データセット

MultiWOZ 2.4: A Multi-Domain Task-Oriented Dialogue Dataset with Essential Annotation Corrections to Improve State Tracking Evaluation ( http://arxiv.org/abs/2104.00773v1 )

ライセンス: CC BY 4.0
Fanghua Ye, Jarana Manotumruksa, Emine Yilmaz(参考訳) MultiWOZ 2.0データセットは2018年にリリースされた。 7つのドメインにまたがる1万以上のタスク指向対話で構成され、タスク指向対話システムの研究を大いに刺激している。 しかし、状態アノテーションにはかなりのノイズがあり、対話状態追跡モデルの適切な評価を妨げる。 この問題に対処するため、アノテーションの修正に多大な努力が費やされ、3つの改良版(MultiWOZ 2.1-2.3)が作成された。 それでも、不正確で一貫性のないアノテーションはたくさんあります。 この研究はMultiWOZ 2.4を導入し、検証セットのすべてのアノテーションとMultiWOZ 2.1上でのテストセットを洗練します。 トレーニングセットのアノテーションは、堅牢でノイズ耐性のあるモデルトレーニングを促進するために変わっていない。 さらに8つの最先端対話状態追跡モデルをベンチマークする。 これらのモデルは全てMultiWOZ 2.1よりもMultiWOZ 2.4で高い性能を達成している。

The MultiWOZ 2.0 dataset was released in 2018. It consists of more than 10,000 task-oriented dialogues spanning 7 domains, and has greatly stimulated the research of task-oriented dialogue systems. However, there is substantial noise in the state annotations, which hinders a proper evaluation of dialogue state tracking models. To tackle this issue, massive efforts have been devoted to correcting the annotations, resulting in 3 improved versions of this dataset (i.e., MultiWOZ 2.1-2.3). Even so, there are still lots of incorrect and inconsistent annotations. This work introduces MultiWOZ 2.4, in which we refine all annotations in the validation set and test set on top of MultiWOZ 2.1. The annotations in the training set remain unchanged to encourage robust and noise-resilient model training. We further benchmark 8 state-of-the-art dialogue state tracking models. All these models achieve much higher performance on MultiWOZ 2.4 than on MultiWOZ 2.1.
翻訳日:2021-04-06 01:00:43 公開日:2021-04-01
# (参考訳) 制約環境下での衝突認識対象物グラフプ

Collision-Aware Target-Driven Object Grasping in Constrained Environments ( http://arxiv.org/abs/2104.00776v1 )

ライセンス: CC BY 4.0
Xibai Lou, Yang Yang and Changhyun Choi(参考訳) 制約のある環境(壁、ビン、棚など)で新しい対象物をつかむには、周囲の構造物との衝突を避けるために、把持性に関する集中的な推論が必要である。 典型的な6-DoFロボットの把握システムは、環境に関する事前の知識と集中的な計画計算に依存している。 対照的に、6-DoFグルーピングシステムのための新しい衝突認識到達可能性予測器(CARP)を提案する。 CARPは、ポーズを把握するための衝突のない確率を推定することを学び、挑戦的な環境での把握を大幅に改善する。 我々のアプローチにおけるディープニューラルネットワークは、シミュレーションの自己スーパービジョンによって完全に訓練される。 シミュレーションと実世界の両方における実験により,様々な構造物の新規物体に対する75%以上の把持率を達成した。 アブレーション試験はCARPの有効性を示し、6-DoFグルーピング率を95.7%向上させる。

Grasping a novel target object in constrained environments (e.g., walls, bins, and shelves) requires intensive reasoning about grasp pose reachability to avoid collisions with the surrounding structures. Typical 6-DoF robotic grasping systems rely on the prior knowledge about the environment and intensive planning computation, which is ungeneralizable and inefficient. In contrast, we propose a novel Collision-Aware Reachability Predictor (CARP) for 6-DoF grasping systems. The CARP learns to estimate the collision-free probabilities for grasp poses and significantly improves grasping in challenging environments. The deep neural networks in our approach are trained fully by self-supervision in simulation. The experiments in both simulation and the real world show that our approach achieves more than 75% grasping rate on novel objects in various surrounding structures. The ablation study demonstrates the effectiveness of the CARP, which improves the 6-DoF grasping rate by 95.7%.
翻訳日:2021-04-06 00:47:38 公開日:2021-04-01
# (参考訳) 文脈外敵文要約とハッシュタグ推薦「tl;dr:」

"TL;DR:" Out-of-Context Adversarial Text Summarization and Hashtag Recommendation ( http://arxiv.org/abs/2104.00782v1 )

ライセンス: CC BY 4.0
Peter Jachim, Filipo Sharevski, Emma Pieroni(参考訳) 本稿では,自由主義的・保守主義的な議題に適合するように要約することで,任意の公開ニュース記事を取り出すツールであるOut-of-Context Summarizerを提案する。 Out-of-Context Summarizerはまた、TwitterやParlerなどのプラットフォームでトロルを行う場合に備えて、要約の分極を強化するハッシュタグキーワードも提案している。 アウト・オブ・コンテキスト・サマリーサーは79%の精度と99%のリコールを達成し、93%の精度と93%のリコールを政治的中心の記事を要約すると達成し、87%の精度と88%のリコールをリコールした。 偽のテキストを合成する代わりに有効な情報源を要約すると、Out-of-Context Summarizerは「逆の開示」テストにかなり合格することが出来ました。 代わりに、Out-of-Context Summarizerを使って、反対側の言語モデルを公開する責任のあるボイラープレートテキスト以外の、自動化されたテキスト生成の潜在的な誤用に関する議論を進めました。

This paper presents Out-of-Context Summarizer, a tool that takes arbitrary public news articles out of context by summarizing them to coherently fit either a liberal- or conservative-leaning agenda. The Out-of-Context Summarizer also suggests hashtag keywords to bolster the polarization of the summary, in case one is inclined to take it to Twitter, Parler or other platforms for trolling. Out-of-Context Summarizer achieved 79% precision and 99% recall when summarizing COVID-19 articles, 93% precision and 93% recall when summarizing politically-centered articles, and 87% precision and 88% recall when taking liberally-biased articles out of context. Summarizing valid sources instead of synthesizing fake text, the Out-of-Context Summarizer could fairly pass the "adversarial disclosure" test, but we didn't take this easy route in our paper. Instead, we used the Out-of-Context Summarizer to push the debate of potential misuse of automated text generation beyond the boilerplate text of responsible disclosure of adversarial language models.
翻訳日:2021-04-06 00:32:28 公開日:2021-04-01
# (参考訳) アクションベースの会話データセット:より深いタスク指向対話システムを構築するコーパス

Action-Based Conversations Dataset: A Corpus for Building More In-Depth Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2104.00783v1 )

ライセンス: CC BY 4.0
Derek Chen, Howard Chen, Yi Yang, Alex Lin, Zhou Yu(参考訳) 既存の目標指向の対話データセットは主にスロットと値の識別に焦点を当てている。 しかし、実際には顧客サポートのやりとりには、明確に定義された企業ポリシーから派生した多段階の手順に従うエージェントが伴うことが多い。 顧客サービス対話システムをより現実的な設定で研究するために、タスク成功を達成するためにポリシーによって制約されたアクションのユニークなシーケンスを必要とする55の異なるユーザの意図を含む1万以上の人対人対話を備えた、完全なラベル付きデータセットであるaction-based conversation dataset(abcd)を紹介します。 本稿では,2つのダイアログタスク,Action State TrackingとCascading Dialogue Successを提案し,このデータセット上で大規模で事前訓練された言語モデルを含む一連のベースラインを確立する。 実験の結果、より洗練されたネットワークはより単純なモデルよりも優れているが、abcdの人間レベルの性能に到達するためのかなりのギャップ(絶対精度50.8%)が存在することが示されている。

Existing goal-oriented dialogue datasets focus mainly on identifying slots and values. However, customer support interactions in reality often involve agents following multi-step procedures derived from explicitly-defined company policies as well. To study customer service dialogue systems in more realistic settings, we introduce the Action-Based Conversations Dataset (ABCD), a fully-labeled dataset with over 10K human-to-human dialogues containing 55 distinct user intents requiring unique sequences of actions constrained by policies to achieve task success. We propose two additional dialog tasks, Action State Tracking and Cascading Dialogue Success, and establish a series of baselines involving large-scale, pre-trained language models on this dataset. Empirical results demonstrate that while more sophisticated networks outperform simpler models, a considerable gap (50.8% absolute accuracy) still exists to reach human-level performance on ABCD.
翻訳日:2021-04-06 00:05:32 公開日:2021-04-01
# (参考訳) ハイパースペクトル画像分類における圧縮の影響に関する研究

A study on the effects of compression on hyperspectral image classification ( http://arxiv.org/abs/2104.00788v1 )

ライセンス: CC BY 4.0
Kiran Mantripragada, Phuong D. Dao, Yuhong He, Faisal Z. Qureshi(参考訳) 本稿では,超スペクトル画素分類タスクにおける圧縮の影響を体系的に研究する。 301次元超スペクトル画素の圧縮には, pca, kpca, ica, ae, daeの5次元化法を用いる。 圧縮ピクセルはその後、ピクセルベースの分類を行うために使用される。 画素分類アキュラリティと圧縮法,圧縮率,再構成誤差は,画素分類タスクにおける圧縮法の適合性を調べるための新しいレンズを提供する。 高解像度ハイパースペクトル画像データセットを3つ使用し、3つの一般的な景観単位(すなわち3つ)を表現した。 トロント大学のリモートセンシング・空間生態系モデリング研究所(Remote Sensing and Space Ecosystem Modeling Laboratory)が収集した都市、トランジショナル郊外、森林。 その結果, PCA, KPCA, ICAの信号再構成能力は向上したが, 圧縮速度が90%以上であれば, 分類スコアは低かった。 AE法とDAE法は、95%の圧縮率でより良い分類精度を示すが、97の圧縮率で再び減少し、95の圧縮率でスイートスポットを示す。 本研究では,ハイパースペクトル画像分類パイプラインの設計において,圧縮率の高い圧縮方法の選択が重要な考慮事項であることを示す。

This paper presents a systematic study the effects of compression on hyperspectral pixel classification task. We use five dimensionality reduction methods -- PCA, KPCA, ICA, AE, and DAE -- to compress 301-dimensional hyperspectral pixels. Compressed pixels are subsequently used to perform pixel-based classifications. Pixel classification accuracies together with compression method, compression rates, and reconstruction errors provide a new lens to study the suitability of a compression method for the task of pixel-based classification. We use three high-resolution hyperspectral image datasets, representing three common landscape units (i.e. urban, transitional suburban, and forests) collected by the Remote Sensing and Spatial Ecosystem Modeling laboratory of the University of Toronto. We found that PCA, KPCA, and ICA post greater signal reconstruction capability; however, when compression rate is more than 90\% those methods showed lower classification scores. AE and DAE methods post better classification accuracy at 95\% compression rate, however decreasing again at 97\%, suggesting a sweet-spot at the 95\% mark. Our results demonstrate that the choice of a compression method with the compression rate are important considerations when designing a hyperspectral image classification pipeline.
翻訳日:2021-04-05 23:45:02 公開日:2021-04-01
# (参考訳) RNNは抽象音韻過程を符号化しているか?

Do RNN States Encode Abstract Phonological Processes? ( http://arxiv.org/abs/2104.00789v1 )

ライセンス: CC BY 4.0
Miikka Silfverberg, Francis Tyers, Garrett Nicolai, Mans Hulden(参考訳) シーケンシャル・ツー・シーケンスモデルは、形態素の屈折のような語形成タスクにおいて印象的な結果をもたらし、限られた訓練データで微妙な形態素学的な詳細をモデル化するためにしばしば学習している。 その性能にもかかわらず、神経モデルの不透明さは、複雑な一般化が学習されているか、あるいは形態素学的過程のある種の別々の暗記が起こっているかを決定するのを難しくする。 複雑な交替が単に記憶されているか、あるいは系列から系列へのモデルで関連する音変化にある程度の一般化があるかを調べるために、フィンランド子音階調についていくつかの実験を行い、ある単語で特定の接尾辞によって引き起こされる音変化の複雑な集合である。 我々のモデルは(必ずしもそうではないが)17の異なる子音階調過程をRNNの少数の次元で符号化することが多い。 また,これらの次元においてアクティベーションを拡大することにより,子音階調の発生と階調の方向を制御できることも示す。

Sequence-to-sequence models have delivered impressive results in word formation tasks such as morphological inflection, often learning to model subtle morphophonological details with limited training data. Despite the performance, the opacity of neural models makes it difficult to determine whether complex generalizations are learned, or whether a kind of separate rote memorization of each morphophonological process takes place. To investigate whether complex alternations are simply memorized or whether there is some level of generalization across related sound changes in a sequence-to-sequence model, we perform several experiments on Finnish consonant gradation -- a complex set of sound changes triggered in some words by certain suffixes. We find that our models often -- though not always -- encode 17 different consonant gradation processes in a handful of dimensions in the RNN. We also show that by scaling the activations in these dimensions we can control whether consonant gradation occurs and the direction of the gradation.
翻訳日:2021-04-05 23:23:30 公開日:2021-04-01
# (参考訳) ディープネットワークでより良いミスを犯すためのテスト時のコストのラバース操作

No Cost Likelihood Manipulation at Test Time for Making Better Mistakes in Deep Networks ( http://arxiv.org/abs/2104.00795v1 )

ライセンス: CC BY 4.0
Shyamgopal Karthik, Ameya Prabhu, Puneet K. Dokania, Vineet Gandhi(参考訳) 誤りの深刻度を定量化し減らし、単にエラーの数を減らそうとする、階層認識の深い分類器の構築に対する関心が高まっている。 この考え方は、ラベル階層(例えばWordNetオントロジー)を利用し、グラフ距離をミス重大性のプロキシとして考えることである。 意外なことに、トップ1予測の誤り重大度分布を調べると、現在最先端の階層認識深層分類器は、常に標準のクロスエントロピーベースラインよりも実用的な改善がなされていないことが分かる。 平均ミス重大度が減少する理由は、低重大度ミスの増加によるものであり、また、その正確さの顕著な低下も説明できる。 この目的のために,階層認識分類にはcrm(classic conditional risk minimization)フレームワークを用いる。 コストマトリックスと(トレーニングされたネットワークから得られる)可能性の信頼できる見積を前提に、CRMは単に推論時にミスを修正し、余分なハイパーパラメータを必要とせず、標準のクロスエントロピーベースラインにほんの数行のコードを追加する必要がある。 最先端よりも大幅に優れており、データセット全体にわたるトップ$kの予測の平均階層的距離を大幅に削減し、精度は極めて低い。 CRMは単純さのため、信頼性の高い推定値を提供する市販のトレーニングモデルでも使用できる。

There has been increasing interest in building deep hierarchy-aware classifiers that aim to quantify and reduce the severity of mistakes, and not just reduce the number of errors. The idea is to exploit the label hierarchy (e.g., the WordNet ontology) and consider graph distances as a proxy for mistake severity. Surprisingly, on examining mistake-severity distributions of the top-1 prediction, we find that current state-of-the-art hierarchy-aware deep classifiers do not always show practical improvement over the standard cross-entropy baseline in making better mistakes. The reason for the reduction in average mistake-severity can be attributed to the increase in low-severity mistakes, which may also explain the noticeable drop in their accuracy. To this end, we use the classical Conditional Risk Minimization (CRM) framework for hierarchy-aware classification. Given a cost matrix and a reliable estimate of likelihoods (obtained from a trained network), CRM simply amends mistakes at inference time; it needs no extra hyperparameters and requires adding just a few lines of code to the standard cross-entropy baseline. It significantly outperforms the state-of-the-art and consistently obtains large reductions in the average hierarchical distance of top-$k$ predictions across datasets, with very little loss in accuracy. CRM, because of its simplicity, can be used with any off-the-shelf trained model that provides reliable likelihood estimates.
翻訳日:2021-04-05 23:11:12 公開日:2021-04-01
# (参考訳) ソーシャルメディアにおけるユーザエンゲージメントのモデル化と最適化

Choice-Aware User Engagement Modeling andOptimization on Social Media ( http://arxiv.org/abs/2104.00801v1 )

ライセンス: CC BY 4.0
Saketh Reddy Karra and Theja Tulabandhula(参考訳) 我々は、twitterプラットフォーム上のコンテンツ(like、reply、retweet、retweetなど)に対するユーザーのエンゲージメントを最大化する問題に対処する。 ツイートトピックの教師なしクラスタリングにおける選択行動を捉えるマルチラベル分類問題として,エンゲージメント予測タスクを定式化する。 本稿では,ユーザのエンゲージメント履歴を組み込んだニューラルネットワークアーキテクチャを提案する。 本研究では,提案モデルに基づくスイート最適化問題に対して,twitterから得られた大規模データセットを用いて適切に定義された解法を用いて,ツイートの推薦がエンゲージメントの成果に与える影響について検討する。

We address the problem of maximizing user engagement with content (in the form of like, reply, retweet, and retweet with comments)on the Twitter platform. We formulate the engagement forecasting task as a multi-label classification problem that captures choice behavior on an unsupervised clustering of tweet-topics. We propose a neural network architecture that incorporates user engagement history and predicts choice conditional on this context. We study the impact of recommend-ing tweets on engagement outcomes by solving an appropriately defined sweet optimization problem based on the proposed model using a large dataset obtained from Twitter.
翻訳日:2021-04-05 22:58:29 公開日:2021-04-01
# (参考訳) 多目的ドメイン適応のためのカリキュラムグラフ共同学習

Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation ( http://arxiv.org/abs/2104.00808v1 )

ライセンス: CC BY 4.0
Subhankar Roy, Evgeny Krivosheev, Zhun Zhong, Nicu Sebe, Elisa Ricci(参考訳) 本稿では、データ分布が異なるラベル付きソースデータセットとラベルなしターゲットデータセットが与えられた場合、そのタスクは、全てのターゲットドメインに対して堅牢な予測器を学習することである。 MTDAでは,機能集約とカリキュラム学習という,複数のドメインシフトを軽減する上で有効な2つの重要な側面を特定している。 この目的のために,2つの分類器ヘッドを用いたCGCT (Curriculum Graph Co-Teaching) を提案し,そのうちの1つはグラフ畳み込みネットワーク (GCN) であり,各ドメインにまたがる類似のサンプルの特徴を集約する。 そこで本研究では,2つの分類器ヘッドを併用した学習手法を開発し,より信頼性の高い擬似ラベルを得る方法を提案する。 さらに、ドメインラベルが利用可能になると、まずより簡単なターゲットドメインに適応し、続いて難しいドメインに適応する逐次適応戦略であるDomain-Aware Curriculum Learning (DCL)を提案する。 提案手法の有効性をいくつかのベンチマークで実験的に検証し,MTDAの最先端を大きなマージン(例)で推し進める。 DomainNetの5.6%。

In this paper we address multi-target domain adaptation (MTDA), where given one labeled source dataset and multiple unlabeled target datasets that differ in data distributions, the task is to learn a robust predictor for all the target domains. We identify two key aspects that can help to alleviate multiple domain-shifts in the MTDA: feature aggregation and curriculum learning. To this end, we propose Curriculum Graph Co-Teaching (CGCT) that uses a dual classifier head, with one of them being a graph convolutional network (GCN) which aggregates features from similar samples across the domains. To prevent the classifiers from over-fitting on its own noisy pseudo-labels we develop a co-teaching strategy with the dual classifier head that is assisted by curriculum learning to obtain more reliable pseudo-labels. Furthermore, when the domain labels are available, we propose Domain-aware Curriculum Learning (DCL), a sequential adaptation strategy that first adapts on the easier target domains, followed by the harder ones. We experimentally demonstrate the effectiveness of our proposed frameworks on several benchmarks and advance the state-of-the-art in the MTDA by large margins (e.g. +5.6% on the DomainNet).
翻訳日:2021-04-05 22:46:12 公開日:2021-04-01
# 汎用ビジョンシステムに向けて

Towards General Purpose Vision Systems ( http://arxiv.org/abs/2104.00743v1 )

ライセンス: Link先を確認
Tanmay Gupta, Amita Kamath, Aniruddha Kembhavi and Derek Hoiem(参考訳) 特別目的学習システムは、設計時に許容されるタスクの知識を想定する。 このようなシステムを予期しないタスクに適応させるには、新しいタスクやデータセットごとに出力ヘッドを追加するなどのアーキテクチャ操作が必要になる。 本研究では,画像と自然言語タスク記述を受け付け,境界ボックス,信頼度,テキストを出力するタスクに依存しない視覚言語システムを提案する。 このシステムは、分類、ローカライゼーション、質問応答、キャプションなど、幅広いビジョンタスクをサポートする。 システムを複数のスキルを同時に学習し,新しいスキル概念の組み合わせでタスクを実行し,新しいスキルを効率的にかつ忘れずに学習する能力を評価する。

A special purpose learning system assumes knowledge of admissible tasks at design time. Adapting such a system to unforeseen tasks requires architecture manipulation such as adding an output head for each new task or dataset. In this work, we propose a task-agnostic vision-language system that accepts an image and a natural language task description and outputs bounding boxes, confidences, and text. The system supports a wide range of vision tasks such as classification, localization, question answering, captioning, and more. We evaluate the system's ability to learn multiple skills simultaneously, to perform tasks with novel skill-concept combinations, and to learn new skills efficiently and without forgetting.
翻訳日:2021-04-05 14:06:40 公開日:2021-04-01
# YUV色空間のための深層学習に基づくエンドツーエンドビデオ符号化アーキテクチャ

A Combined Deep Learning based End-to-End Video Coding Architecture for YUV Color Space ( http://arxiv.org/abs/2104.00807v1 )

ライセンス: Link先を確認
Ankitesh K. Singh, Hilmi E. Egilmez, Reza Pourreza, Muhammed Coban, Marta Karczewicz, Taco S. Cohen(参考訳) H.264/AVC、H.265/HEVC、H.266/VVCを含む既存のディープラーニングベースのエンドツーエンドビデオ符号化(DLEC)アーキテクチャは、主にYUV 4:2:0フォーマット用に設計されており、人間の視覚システムを考慮した優れた圧縮性能を達成するために、彩色(UとV)コンポーネントがサブサンプリングされている。 DLECに関する多くの論文は、RGBドメインでこれら2つの異なる符号化方式を比較しているが、より公正な比較のために、YUV 4:2:0ドメインで共通の評価フレームワークを持つことは理想的である。 本稿では,YUV 4:2:0を効果的にサポートするためのビデオ符号化のための新しいDLECアーキテクチャを提案する。 YUV 4:2:0ビデオシーケンスの実験結果から,提案アーキテクチャはフレーム内符号化においてHEVCより優れているが,最近の論文で報告されているRGB符号化結果とは対照的にフレーム間符号化は効率的ではない。

Most of the existing deep learning based end-to-end video coding (DLEC) architectures are designed specifically for RGB color format, yet the video coding standards, including H.264/AVC, H.265/HEVC and H.266/VVC developed over past few decades, have been designed primarily for YUV 4:2:0 format, where the chrominance (U and V) components are subsampled to achieve superior compression performances considering the human visual system. While a broad number of papers on DLEC compare these two distinct coding schemes in RGB domain, it is ideal to have a common evaluation framework in YUV 4:2:0 domain for a more fair comparison. This paper introduces a new DLEC architecture for video coding to effectively support YUV 4:2:0 and compares its performance against the HEVC standard under a common evaluation framework. The experimental results on YUV 4:2:0 video sequences show that the proposed architecture can outperform HEVC in intra-frame coding, however inter-frame coding is not as efficient on contrary to the RGB coding results reported in recent papers.
翻訳日:2021-04-05 14:06:30 公開日:2021-04-01
# Process Transformer: Transformer Networkによる予測ビジネスプロセスモニタリング

ProcessTransformer: Predictive Business Process Monitoring with Transformer Network ( http://arxiv.org/abs/2104.00721v1 )

ライセンス: Link先を確認
Zaharah A. Bukhsh, Aaqib Saeed, Remco M. Dijkman(参考訳) 予測ビジネスプロセス監視は、イベントログを使用して実行中のプロセスの将来の特性を予測することに重点を置いている。 プロセス実行の見通しは、効率的な運用、より良いリソース管理、効果的な顧客サービスのための大きなポテンシャルを約束します。 深層学習に基づくアプローチは、複数の問題を解決するための古典的アルゴリズムの制限、特に次の事象や継続時間の予測タスクに対処するために、プロセスマイニングにおいて広く採用されている。 それでも、さまざまなタスクをまたいで競争的に実行するディープニューラルネットワークの設計は、既存のメソッドが入力シーケンスの長距離依存性を捉えず、長いプロセストレースに対してパフォーマンスが悪かったため、困難である。 本稿では,注意に基づくネットワークを用いてイベントログからハイレベル表現を学習する手法である processtransformer を提案する。 本モデルでは,複数イベントシーケンスと対応する出力の依存関係を確立するための自己保持機構を,長期記憶に取り入れた。 我々は,9つの実イベントログに対する手法の適用性を評価する。 本研究では, 変圧器を用いたモデルが, 次の活動を予測するタスクに対して, 平均80%以上の精度で求めることにより, 先行手法のベースラインよりも優れていることを示す。 また,本手法は,実行事例のイベント時間と残時間を予測するタスクに対して,ベースラインと比較して競合的に実行する。

Predictive business process monitoring focuses on predicting future characteristics of a running process using event logs. The foresight into process execution promises great potentials for efficient operations, better resource management, and effective customer services. Deep learning-based approaches have been widely adopted in process mining to address the limitations of classical algorithms for solving multiple problems, especially the next event and remaining-time prediction tasks. Nevertheless, designing a deep neural architecture that performs competitively across various tasks is challenging as existing methods fail to capture long-range dependencies in the input sequences and perform poorly for lengthy process traces. In this paper, we propose ProcessTransformer, an approach for learning high-level representations from event logs with an attention-based network. Our model incorporates long-range memory and relies on a self-attention mechanism to establish dependencies between a multitude of event sequences and corresponding outputs. We evaluate the applicability of our technique on nine real event logs. We demonstrate that the transformer-based model outperforms several baselines of prior techniques by obtaining on average above 80% accuracy for the task of predicting the next activity. Our method also perform competitively, compared to baselines, for the tasks of predicting event time and remaining time of a running case
翻訳日:2021-04-05 14:04:05 公開日:2021-04-01
# GABO:バイレベル最適化によるグラフ拡張

GABO: Graph Augmentations with Bi-level Optimization ( http://arxiv.org/abs/2104.00722v1 )

ライセンス: Link先を確認
Heejung W. Chung, Avoy Datta, Chris Waites(参考訳) データ拡張とは、トレーニング例の強化によるモデル一般化を改善するための、幅広い技術を指す。 多くの場合、そのような手法はデータセットに関するドメイン知識を必要とし、データ拡張のための自動化技術を取り巻く最近の多くの文献を生み出します。 本研究では,Ogbg-molhivデータセット上のグラフ分類問題に取り組むために,二段階最適化という手法を適用する。 GIN+virtual classifierではROCAUCスコアが77.77 %に達し,この分類器はリーダボード上で最も有効である。 このフレームワークは、GIN層拡張ジェネレータとバイアス変換を結合し、最先端のFLAG拡張を使用して強化された同一の分類器を上回る。

Data augmentation refers to a wide range of techniques for improving model generalization by augmenting training examples. Oftentimes such methods require domain knowledge about the dataset at hand, spawning a plethora of recent literature surrounding automated techniques for data augmentation. In this work we apply one such method, bilevel optimization, to tackle the problem of graph classification on the ogbg-molhiv dataset. Our best performing augmentation achieved a test ROCAUC score of 77.77 % with a GIN+virtual classifier, which makes it the most effective augmenter for this classifier on the leaderboard. This framework combines a GIN layer augmentation generator with a bias transformation and outperforms the same classifier augmented using the state-of-the-art FLAG augmentation.
翻訳日:2021-04-05 14:03:44 公開日:2021-04-01
# 共変量シフト下における領域一般化のための信頼度校正

Confidence Calibration for Domain Generalization under Covariate Shift ( http://arxiv.org/abs/2104.00742v1 )

ライセンス: Link先を確認
Yunye Gong, Xiao Lin, Yi Yao, Thomas G. Dietterich, Ajay Divakaran, Melinda Gervasio(参考訳) 既存のキャリブレーションアルゴリズムは、教師なし領域適応による共変量シフトの問題に対処する。 しかし,これらの手法は,(1)実世界のアプリケーションではキャリブレーションの段階で利用できないような,対象ドメインからのラベル付きデータを必要とすること,2)ソースと対象ドメインの分布の相違に大きく依存すること,の2つの制限に悩まされている。 この2つの制限に対処するため、我々はドメインの一般化を通じて新しいキャリブレーションソリューションを提案する。 提案手法は,複数のキャリブレーション領域を活用し,対象領域とキャリブレーション領域の効果的な分布差を低減し,対象領域からのデータを必要とせずにキャリブレーション伝達を改善することにある。 提案アルゴリズムの有効性を実証するために,理論的正当性および実証実験結果を提供する。 ドメイン適応のための最先端キャリブレーション手法と比較して,Office-Homeデータセットのマルチクラス分類において,期待キャリブレーション誤差の8.86ポイント,すなわち改善率35ポイントの増加を観測した。

Existing calibration algorithms address the problem of covariate shift via unsupervised domain adaptation. However, these methods suffer from the following limitations: 1) they require unlabeled data from the target domain, which may not be available at the stage of calibration in real-world applications and 2) their performances heavily depend on the disparity between the distributions of the source and target domains. To address these two limitations, we present novel calibration solutions via domain generalization which, to the best of our knowledge, are the first of their kind. Our core idea is to leverage multiple calibration domains to reduce the effective distribution disparity between the target and calibration domains for improved calibration transfer without needing any data from the target domain. We provide theoretical justification and empirical experimental results to demonstrate the effectiveness of our proposed algorithms. Compared against the state-of-the-art calibration methods designed for domain adaptation, we observe a decrease of 8.86 percentage points in expected calibration error, equivalently an increase of 35 percentage points in improvement ratio, for multi-class classification on the Office-Home dataset.
翻訳日:2021-04-05 14:03:18 公開日:2021-04-01
# 信頼度適応型時間画素レベル認識

Confidence Adaptive Anytime Pixel-Level Recognition ( http://arxiv.org/abs/2104.00749v1 )

ライセンス: Link先を確認
Zhuang Liu, Trevor Darrell, Evan Shelhamer(参考訳) 任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。 常に視覚認識に関するこれまでの研究は、主に画像分類に焦点が当てられている。 我々は,任意のピクセルレベル認識のための最初の統一・エンドツーエンドモデルアプローチを提案する。 複数の予測を行い、さらなる計算を行うために、モデルに"exits"のカスケードが付加される。 各出口の特徴の深さと空間分解能を考慮に入れた出口を再設計する。 計算量を削減し,事前予測をフル活用するために,早期予測が十分に確実な領域でのさらなる計算を回避するために,空間適応型アプローチを開発した。 再設計された出口アーキテクチャと空間適応性を備えた全モデルにより、任意の時間推定が可能となり、同じレベルの最終的な精度を達成でき、さらに計算総量を大幅に削減できる。 セマンティックセグメンテーションと人間のポーズ推定におけるアプローチを評価する。 CityscapesのセマンティックセグメンテーションとMPIIの人間のポーズ推定では、精度を犠牲にすることなく、ベースモデルのFLOPを44.4%、59.1%削減できる。 新しいanytimeベースラインとして、本質的に反復的な最近のモデルであるdeep equilibrium networkのanytime能力を測定し、我々のアーキテクチャの精度計算曲線がそれを厳密に支配していることを示す。

Anytime inference requires a model to make a progression of predictions which might be halted at any time. Prior research on anytime visual recognition has mostly focused on image classification. We propose the first unified and end-to-end model approach for anytime pixel-level recognition. A cascade of "exits" is attached to the model to make multiple predictions and direct further computation. We redesign the exits to account for the depth and spatial resolution of the features for each exit. To reduce total computation, and make full use of prior predictions, we develop a novel spatially adaptive approach to avoid further computation on regions where early predictions are already sufficiently confident. Our full model with redesigned exit architecture and spatial adaptivity enables anytime inference, achieves the same level of final accuracy, and even significantly reduces total computation. We evaluate our approach on semantic segmentation and human pose estimation. On Cityscapes semantic segmentation and MPII human pose estimation, our approach enables anytime inference while also reducing the total FLOPs of its base models by 44.4% and 59.1% without sacrificing accuracy. As a new anytime baseline, we measure the anytime capability of deep equilibrium networks, a recent class of model that is intrinsically iterative, and we show that the accuracy-computation curve of our architecture strictly dominates it.
翻訳日:2021-04-05 14:03:01 公開日:2021-04-01
# キーワード変換:キーワードスポッティングのための自己照準モデル

Keyword Transformer: A Self-Attention Model for Keyword Spotting ( http://arxiv.org/abs/2104.00769v1 )

ライセンス: Link先を確認
Axel Berg, Mark O'Connor, Miguel Tairum Cruz(参考訳) Transformerアーキテクチャは自然言語処理、コンピュータビジョン、音声認識など、多くの領域で成功している。 キーワードスポッティングでは、自己アテンションは主に畳み込みエンコーダや繰り返しエンコーダの上に使われてきた。 キーワードスポッティング(キーワードスポッティング)にトランスフォーマーアーキテクチャを適用する方法を調査し,事前トレーニングや追加データを必要とせず,複数のタスクにまたがる最先端性能を超える完全自己完結型アーキテクチャであるキーワードトランスフォーマ(kwt)を導入する。 驚くべきことに、このシンプルなアーキテクチャは畳み込み層、再帰層、注意層を混合するより複雑なモデルを上回る。 KWTはこれらのモデルのドロップイン代替として使用することができ、Google Speech Commandsデータセットに2つのベンチマークレコードをそれぞれ98.6%と97.7%の精度で設定する。

The Transformer architecture has been successful across many domains, including natural language processing, computer vision and speech recognition. In keyword spotting, self-attention has primarily been used on top of convolutional or recurrent encoders. We investigate a range of ways to adapt the Transformer architecture to keyword spotting and introduce the Keyword Transformer (KWT), a fully self-attentional architecture that exceeds state-of-the-art performance across multiple tasks without any pre-training or additional data. Surprisingly, this simple architecture outperforms more complex models that mix convolutional, recurrent and attentive layers. KWT can be used as a drop-in replacement for these models, setting two new benchmark records on the Google Speech Commands dataset with 98.6% and 97.7% accuracy on the 12 and 35-command tasks respectively.
翻訳日:2021-04-05 14:01:07 公開日:2021-04-01
# 100の試行錯誤のうち、話者検証器はいくつの誤りを犯すのか?

Out of a hundred trials, how many errors does your speaker verifier make? ( http://arxiv.org/abs/2104.00732v1 )

ライセンス: Link先を確認
Niko Br\"ummer and Luciana Ferrer and Albert Swart(参考訳) 100の試行錯誤のうち、話者検証器はいくつの誤りを犯すのか? ユーザにとってこれは重要で実践的な質問だが、研究者やベンダーは通常、roc/det曲線によって与えられる条件付きエラーレートを回避して供給する。 ユーザの質問はベイズエラー率によって答えられると仮定する。 本稿では,検証者によって提供された推定率と,ユーザから提供された仮説を用いてベイズ決定を行う際の誤差率の計算方法を示すチュートリアルを示す。 完全校正には、ベイズ誤差率を min(EER,P,1-P) で上界し、EER を等エラー率、P, 1-P を競合仮説の先行確率とする。 EERは検証器の精度を表し、min(P,1-P)は分類問題の硬さを表す。 さらに,非完全校正のためのベイズ誤差率の計算方法や,誤差率から予測コストへの一般化方法についても述べる。 我々は、直接スコアの閾値付けによる決定を批判する。 最後に、最近発表されたDCA-PLDA話者検証器の誤り率を解析して示す。

Out of a hundred trials, how many errors does your speaker verifier make? For the user this is an important, practical question, but researchers and vendors typically sidestep it and supply instead the conditional error-rates that are given by the ROC/DET curve. We posit that the user's question is answered by the Bayes error-rate. We present a tutorial to show how to compute the error-rate that results when making Bayes decisions with calibrated likelihood ratios, supplied by the verifier, and an hypothesis prior, supplied by the user. For perfect calibration, the Bayes error-rate is upper bounded by min(EER,P,1-P), where EER is the equal-error-rate and P, 1-P are the prior probabilities of the competing hypotheses. The EER represents the accuracy of the verifier, while min(P,1-P) represents the hardness of the classification problem. We further show how the Bayes error-rate can be computed also for non-perfect calibration and how to generalize from error-rate to expected cost. We offer some criticism of decisions made by direct score thresholding. Finally, we demonstrate by analyzing error-rates of the recently published DCA-PLDA speaker verifier.
翻訳日:2021-04-05 13:59:00 公開日:2021-04-01
# 胸部X線解釈の深部学習モデルに及ぼす放射線学レポート品質の影響

Effect of Radiology Report Labeler Quality on Deep Learning Models for Chest X-Ray Interpretation ( http://arxiv.org/abs/2104.00793v1 )

ライセンス: Link先を確認
Saahil Jain, Akshay Smit, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 胸部X線解析のための深層学習モデルは, 自動放射線診断レポートラベリングによって生成されたラベルに基づいて訓練されることが多いが, 胸部X線分類モデルの性能に及ぼすレポートラベリングの改善の影響は系統的に検討されていない。 まず,chexpert,chexbertおよびvisualchexbertラベラーをx線画像から正確な胸部x線ラベルを抽出する作業で比較し,visualchexbertラベラーがchexpertおよびchexbertラベラーよりも優れていることを報告した。 次に, 胸部X線の最大データセットの1つに, 異なる放射線学レポートラベルから生成されたラベルを用いて画像分類モデルを訓練した後, VisualCheXbertラベルからトレーニングした画像分類モデルがCheXpertラベルとCheXbertラベルからトレーニングした画像分類モデルより優れていることを示す。 本研究は, 胸部X線分類モデルの開発にラジオグラフィーレポートラベリングの最近の進歩が寄与することを示唆している。

Although deep learning models for chest X-ray interpretation are commonly trained on labels generated by automatic radiology report labelers, the impact of improvements in report labeling on the performance of chest X-ray classification models has not been systematically investigated. We first compare the CheXpert, CheXbert, and VisualCheXbert labelers on the task of extracting accurate chest X-ray image labels from radiology reports, reporting that the VisualCheXbert labeler outperforms the CheXpert and CheXbert labelers. Next, after training image classification models using labels generated from the different radiology report labelers on one of the largest datasets of chest X-rays, we show that an image classification model trained on labels from the VisualCheXbert labeler outperforms image classification models trained on labels from the CheXpert and CheXbert labelers. Our work suggests that recent improvements in radiology report labeling can translate to the development of higher performing chest X-ray classification models.
翻訳日:2021-04-05 13:58:10 公開日:2021-04-01
# styleml:stylometry with structure and multitask learning for darkweb markets

StyleML: Stylometry with Structure and Multitask Learning for Darkweb Markets ( http://arxiv.org/abs/2104.00764v1 )

ライセンス: Link先を確認
Pranav Maneriker, Yuntian He, Srinivasan Parthasarathy(参考訳) ダークネット市場フォーラムは、暗号化を使って身元を隠す当事者間で違法な商品やサービスを交換するためによく使われる。 Torネットワークはこれらの市場をホストするために使用され、IPや位置情報からの匿名化が保証されるため、悪意のあるユーザを複数のアカウント(シビル)でリンクすることは困難である。 さらに、ユーザは閉じた時に新しいフォーラムに移行するため、複数のフォーラムにまたがるユーザリンクが困難になる。 本研究では,グラフ埋め込みを用いた自然言語と対話モデルのための新しいスタイロメトリベースのマルチタスク学習手法を開発し,ユーザ活動の短いエピソードの低次元表現を構築した。 提案手法を4つの異なるダークネットフォーラムで総合評価し,その効果を実証し,平均検索ランクで2.5倍,リコール@10で2倍まで引き上げた。

Darknet market forums are frequently used to exchange illegal goods and services between parties who use encryption to conceal their identities. The Tor network is used to host these markets, which guarantees additional anonymization from IP and location tracking, making it challenging to link across malicious users using multiple accounts (sybils). Additionally, users migrate to new forums when one is closed, making it difficult to link users across multiple forums. We develop a novel stylometry-based multitask learning approach for natural language and interaction modeling using graph embeddings to construct low-dimensional representations of short episodes of user activity for authorship attribution. We provide a comprehensive evaluation of our methods across four different darknet forums demonstrating its efficacy over the state-of-the-art, with a lift of up to 2.5X on Mean Retrieval Rank and 2X on Recall@10.
翻訳日:2021-04-05 13:56:24 公開日:2021-04-01
# 設定可能なプライバシー保護自動音声認識

Configurable Privacy-Preserving Automatic Speech Recognition ( http://arxiv.org/abs/2104.00766v1 )

ライセンス: Link先を確認
Ranya Aloufi, Hamed Haddadi, David Boyle(参考訳) 音声アシスタント技術は、プライバシーとセキュリティの懸念をはるかに高めている。 本稿では,モジュール型自動音声認識(ASR)が独立に訓練された分離・認識・離散化モジュールを組み合わせることで,音声支援システムのプライバシーを向上できるかどうかを検討する。 プライバシの懸念と,システムの各段階における各種技術の適用効果を評価し,タスク固有の指標(すなわち,タスク固有の指標)を用いて結果を報告する。 WER, ABX, and accuracy)。 ASRシステムへの重なり合う音声入力は、さらなるプライバシー上の懸念を生じさせ、これらを音声分離と最適化技術を用いて緩和する方法を示す。 我々の離散化モジュールは、ASR音響モデルからランダムな推測に相応しいレベルへのパラ言語的プライバシー漏洩を最小限に抑える。 音声プライバシーは設定可能であることを示し、これがASRを取り入れたプライバシー保護アプリケーションに新たな機会をもたらすと論じている。

Voice assistive technologies have given rise to far-reaching privacy and security concerns. In this paper we investigate whether modular automatic speech recognition (ASR) can improve privacy in voice assistive systems by combining independently trained separation, recognition, and discretization modules to design configurable privacy-preserving ASR systems. We evaluate privacy concerns and the effects of applying various state-of-the-art techniques at each stage of the system, and report results using task-specific metrics (i.e. WER, ABX, and accuracy). We show that overlapping speech inputs to ASR systems present further privacy concerns, and how these may be mitigated using speech separation and optimization techniques. Our discretization module is shown to minimize paralinguistics privacy leakage from ASR acoustic models to levels commensurate with random guessing. We show that voice privacy can be configurable, and argue this presents new opportunities for privacy-preserving applications incorporating ASR.
翻訳日:2021-04-05 13:56:07 公開日:2021-04-01
# curie:状況に関する推論のための反復クエリアプローチ

CURIE: An Iterative Querying Approach for Reasoning About Situations ( http://arxiv.org/abs/2104.00814v1 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Aman Madaan, Niket Tandon, Yiming Yang, Shrimai Prabhumoye, Abhilasha Ravichander, Peter Clark, Eduard Hovy(参考訳) 近年、雲空が植物の成長を阻害するなど、予期せぬ状況の影響を予測するモデルが示されている。 文脈が与えられた場合、そのような状況推論の目標は、その文脈で生じる新しい状況(st)の結果を引き出すことである。 本稿では,自然言語クエリを用いた構造的状況グラフ(st-graph)において,微調整言語モデル(m)上で,関連する結果のグラフを反復的に構築する手法を提案する。 複数のドメインにまたがって、curieはstグラフを生成し、人間が新しい状況の結果を引き出すのに有意義な意味を見出す。 特に背景知識とマルチホップ推論を必要とするハードサブセットにおいて,curieが生成したst-graphは,入力を生成した状況グラフで単純に強化することにより,状況推論終了タスク(wiqa-qa)の精度を3ポイント向上させる。

Recently, models have been shown to predict the effects of unexpected situations, e.g., would cloudy skies help or hinder plant growth? Given a context, the goal of such situational reasoning is to elicit the consequences of a new situation (st) that arises in that context. We propose a method to iteratively build a graph of relevant consequences explicitly in a structured situational graph (st-graph) using natural language queries over a finetuned language model (M). Across multiple domains, CURIE generates st-graphs that humans find relevant and meaningful in eliciting the consequences of a new situation. We show that st-graphs generated by CURIE improve a situational reasoning end task (WIQA-QA) by 3 points on accuracy by simply augmenting their input with our generated situational graphs, especially for a hard subset that requires background knowledge and multi-hop reasoning.
翻訳日:2021-04-05 13:55:50 公開日:2021-04-01
# FESTA:シーンポイント雲の空間的注意による流れの推定

FESTA: Flow Estimation via Spatial-Temporal Attention for Scene Point Clouds ( http://arxiv.org/abs/2104.00798v1 )

ライセンス: Link先を確認
Haiyan Wang, Jiahao Pang, Muhammad A. Lodhi, Yingli Tian, Dong Tian(参考訳) シーンフローは、自律運転、ロボットナビゲーション、AR/VRなど、さまざまなアプリケーションにとって重要な3Dシーンのダイナミクスを描いている。 従来、シーンフローはRGBの高密度フレームから推定される。 深度センシング技術の発展に伴い、精密な3次元計測は3次元シーンフローの新たな研究の火花となった点雲を通して利用可能である。 それにもかかわらず、典型的な点雲サンプリングパターンの間隔と不規則性のため、点雲からシーンフローを抽出することは依然として困難である。 不規則サンプリングに関する大きな問題のひとつは、多くのフロー推定シナリオにおける基本的なプロセスである、ポイントセットの抽象化/特徴抽出中のランダム性である。 不安定な抽象問題を緩和するために,新しい空間抽象層 (SA^2) を提案する。 さらに,時間領域の注意を正すため,TA^2層が提案され,より広い範囲で動きを拡大する利点がある。 大規模解析および実験により,シーンフロー推定の最先端ベンチマークと比較し,空間的-時間的注意によるフロー推定 (festa) と呼ばれる手法の動機と有意な性能向上を検証した。

Scene flow depicts the dynamics of a 3D scene, which is critical for various applications such as autonomous driving, robot navigation, AR/VR, etc. Conventionally, scene flow is estimated from dense/regular RGB video frames. With the development of depth-sensing technologies, precise 3D measurements are available via point clouds which have sparked new research in 3D scene flow. Nevertheless, it remains challenging to extract scene flow from point clouds due to the sparsity and irregularity in typical point cloud sampling patterns. One major issue related to irregular sampling is identified as the randomness during point set abstraction/feature extraction -- an elementary process in many flow estimation scenarios. A novel Spatial Abstraction with Attention (SA^2) layer is accordingly proposed to alleviate the unstable abstraction problem. Moreover, a Temporal Abstraction with Attention (TA^2) layer is proposed to rectify attention in temporal domain, leading to benefits with motions scaled in a larger range. Extensive analysis and experiments verified the motivation and significant performance gains of our method, dubbed as Flow Estimation via Spatial-Temporal Attention (FESTA), when compared to several state-of-the-art benchmarks of scene flow estimation.
翻訳日:2021-04-05 13:54:27 公開日:2021-04-01
# 離散連続分割の再構成:スパース通信の数学的理論に向けて

Reconciling the Discrete-Continuous Divide: Towards a Mathematical Theory of Sparse Communication ( http://arxiv.org/abs/2104.00755v1 )

ライセンス: Link先を確認
Andr\'e F. T. Martins(参考訳) ニューラルネットワークやその他の機械学習モデルは連続表現を計算し、人間は離散シンボルと通信する。 これらの2種類のコミュニケーションは、エンドツーエンドの識別性を保ちながら、人間可読な解釈を生成するか、個別の潜在変数モデルを学習することが望ましい。 既存の手法(グンベル・ソフトマックス変換など)では、ゼロ温度極限における離散近似である連続緩和が構築されているが、その他の手法(スパースマックス変換やハードコンクリート分布など)は離散/連続ハイブリッドを生成する。 本稿では,これらのハイブリッドの厳密な理論基盤を構築する。 我々の出発点は、確率単純性の面格子上で定義される新しい「直和」基底測度である。 この尺度から、離散エントロピーと微分エントロピーを具体例として含む新たなエントロピー関数を導入し、コード最適性の観点からの解釈と、相互情報とkullback-leiblerダイバージェンスを一般化する2つの情報理論の対応式を導入する。 最後に、ハイブリッドシンボルの文字列として「混合言語」を導入し、正規混合言語のクラスを認識する混合有限状態オートマトンを導入し、正規言語のクロージャ特性を一般化する。

Neural networks and other machine learning models compute continuous representations, while humans communicate with discrete symbols. Reconciling these two forms of communication is desirable to generate human-readable interpretations or to learn discrete latent variable models, while maintaining end-to-end differentiability. Some existing approaches (such as the Gumbel-softmax transformation) build continuous relaxations that are discrete approximations in the zero-temperature limit, while others (such as sparsemax transformations and the hard concrete distribution) produce discrete/continuous hybrids. In this paper, we build rigorous theoretical foundations for these hybrids. Our starting point is a new "direct sum" base measure defined on the face lattice of the probability simplex. From this measure, we introduce a new entropy function that includes the discrete and differential entropies as particular cases, and has an interpretation in terms of code optimality, as well as two other information-theoretic counterparts that generalize the mutual information and Kullback-Leibler divergences. Finally, we introduce "mixed languages" as strings of hybrid symbols and a new mixed weighted finite state automaton that recognizes a class of regular mixed languages, generalizing closure properties of regular languages.
翻訳日:2021-04-05 13:45:28 公開日:2021-04-01
# 大規模セルオートマトンにおける可視化計算

Visualizing computation in large-scale cellular automata ( http://arxiv.org/abs/2104.01008v1 )

ライセンス: Link先を確認
Hugo Cisneros, Josef Sivic, Tomas Mikolov(参考訳) セル・オートマトンのような複雑なシステムの創発的プロセスは複雑さの増大を計算し、人工的な進化につながる可能性がある。 このような偉業は、十分な計算能力を得るために、現在のシミュレーションサイズをスケールアップする必要がある。 セルオートマトンや他のシステムで起こる複雑な計算を理解することは、特に大規模システムにおいて多くの課題をもたらす。 本稿では,セル状態,クラスタリング,オートエンコーダの周波数解析に基づく粗粒化セルオートマトン法を提案する。 これらの革新的な技術は、これらのシステムにおける大規模構造形成と複雑性解析の発見を促進する。 背景パターンをフィルタリングしながら、基本的なセルオートマトンで興味深い振る舞いを強調する。 さらに,本手法は,大規模2次元オートマトンを小型化し,複数スケールで興味深い動作をするシステムを特定する。

Emergent processes in complex systems such as cellular automata can perform computations of increasing complexity, and could possibly lead to artificial evolution. Such a feat would require scaling up current simulation sizes to allow for enough computational capacity. Understanding complex computations happening in cellular automata and other systems capable of emergence poses many challenges, especially in large-scale systems. We propose methods for coarse-graining cellular automata based on frequency analysis of cell states, clustering and autoencoders. These innovative techniques facilitate the discovery of large-scale structure formation and complexity analysis in those systems. They emphasize interesting behaviors in elementary cellular automata while filtering out background patterns. Moreover, our methods reduce large 2D automata to smaller sizes and enable identifying systems that behave interestingly at multiple scales.
翻訳日:2021-04-05 13:43:46 公開日:2021-04-01
# NPM:3次元変形可能な形状のためのニューラルパラメトリックモデル

NPMs: Neural Parametric Models for 3D Deformable Shapes ( http://arxiv.org/abs/2104.00702v1 )

ライセンス: Link先を確認
Pablo Palafox, Alja\v{z} Bo\v{z}i\v{c}, Justus Thies, Matthias Nie{\ss}ner, Angela Dai(参考訳) パラメトリック3Dモデルは、人体、顔、手をモデル化するなど、コンピュータグラフィックスや視覚における様々なタスクを可能にした。 しかし、これらのパラメトリックモデルの構築は、重い手作業の調整を必要とするため、しばしば面倒であり、シワや衣服などの複雑さや詳細を表現できない。 この目的のために,従来のパラメトリック3Dモデルに代わる新しい学習モデルであるニューラルパラメトリックモデル(NPM)を提案する。 特に、4Dのダイナミクスを形状とポーズの潜在空間表現に分解し、学習された暗黙関数における最近の発展の柔軟性を活用する。 重要なことは、我々が学習した形状とポーズのニューラルパラメトリックモデルは、SMPLのような従来のパラメトリックモデルのように、学習した空間を最適化して新しい観測に適合させることができる。 これにより、NPMは観測可能な変形可能な配列のより正確で詳細な表現を実現できる。 また,NPMは,ヒトと手の単眼深度配列の再構築と追跡において,パラメトリック状態と非パラメトリック状態の両方よりも顕著に改善していることを示す。 潜在空間補間と形状/ポーズ伝達実験はnpmの有用性をさらに証明している。

Parametric 3D models have enabled a wide variety of tasks in computer graphics and vision, such as modeling human bodies, faces, and hands. However, the construction of these parametric models is often tedious, as it requires heavy manual tweaking, and they struggle to represent additional complexity and details such as wrinkles or clothing. To this end, we propose Neural Parametric Models (NPMs), a novel, learned alternative to traditional, parametric 3D models, which does not require hand-crafted, object-specific constraints. In particular, we learn to disentangle 4D dynamics into latent-space representations of shape and pose, leveraging the flexibility of recent developments in learned implicit functions. Crucially, once learned, our neural parametric models of shape and pose enable optimization over the learned spaces to fit to new observations, similar to the fitting of a traditional parametric model, e.g., SMPL. This enables NPMs to achieve a significantly more accurate and detailed representation of observed deformable sequences. We show that NPMs improve notably over both parametric and non-parametric state of the art in reconstruction and tracking of monocular depth sequences of clothed humans and hands. Latent-space interpolation as well as shape / pose transfer experiments further demonstrate the usefulness of NPMs.
翻訳日:2021-04-05 13:42:16 公開日:2021-04-01
# SEN12MSデータセットを用いたリモートセンシング画像分類

Remote Sensing Image Classification with the SEN12MS Dataset ( http://arxiv.org/abs/2104.00704v1 )

ライセンス: Link先を確認
Michael Schmitt, Yu-Lun Wu(参考訳) 画像分類は、コンピュータビジョンのための畳み込みニューラルネットワークを用いたディープラーニングの急速な発展の要因の1つである。 リモートセンシングにおけるシーン分類の類似タスクも同様である。 しかし、長い間、高容量モデルのトレーニングとベンチマークに確立された大規模な標準データセットを使用してきたコンピュータビジョンコミュニティとは対照的に、リモートセンシングコミュニティはいまだに比較的小さく、しばしばアプリケーションに分散したデータセットに依存しており、互換性が欠如している。 本稿では,SEN12MSデータセットの分類指向変換を提案する。 これにより、2つの標準cnnアーキテクチャと異なる入力データ設定に基づくいくつかのベースラインモデルの結果が得られる。 我々は,リモートセンシング画像分類のベンチマークをサポートし,従来のRGB画像に対するマルチスペクトルデータとマルチセンサデータ融合の利点に関する知見を提供する。

Image classification is one of the main drivers of the rapid developments in deep learning with convolutional neural networks for computer vision. So is the analogous task of scene classification in remote sensing. However, in contrast to the computer vision community that has long been using well-established, large-scale standard datasets to train and benchmark high-capacity models, the remote sensing community still largely relies on relatively small and often application-dependend datasets, thus lacking comparability. With this letter, we present a classification-oriented conversion of the SEN12MS dataset. Using that, we provide results for several baseline models based on two standard CNN architectures and different input data configurations. Our results support the benchmarking of remote sensing image classification and provide insights to the benefit of multi-spectral data and multi-sensor data fusion over conventional RGB imagery.
翻訳日:2021-04-05 13:41:56 公開日:2021-04-01
# 変圧器を用いたマルチターゲットトラッキング

Multitarget Tracking with Transformers ( http://arxiv.org/abs/2104.00734v1 )

ライセンス: Link先を確認
Juliano Pinto, Georg Hess, William Ljungbergh, Yuxuan Xia, Lennart Svensson, Henk Wymeersch(参考訳) マルチターゲットトラッキング(multitarget tracking、mtt)は、ノイズ測定を用いて未知数の物体の状態を追跡する問題であり、自動運転、監視、ロボット工学などにおいて重要な応用である。 モデルに基づくベイズ設定では、多目的後続を閉じた形で表現できる共役前駆体が存在し、理論的にはベイズ最適推定を提供することができる。 しかし、後部は時間の経過とともに仮説の数の超指数的な増加を伴い、最先端の手法は、複雑なシナリオにおいてそれらの性能に影響を及ぼすような、牽引可能な状態の近似に頼らざるを得ない。 ディープラーニングに基づくモデルフリーの手法は、原則としてデータから最適なフィルタを学べるが、私たちの知る限りでは、現在のベイズフィルタと比較されることは決してなく、正確なモデルが利用可能なコンテキストでは特にない。 本稿では,トランスフォーマティブ・アーキテクチャに基づくmttの高精度深層学習法を提案し,そのモデルの妥当性を仮定した2つの最先端ベイズフィルタと比較する。 これはモデルベースのフィルタにエッジを与えるが、無制限のトレーニングデータを生成することもできる。 提案手法は,複雑なシナリオでは最先端のベイズフィルタよりも優れており,より単純なケースでは性能が向上し,モデルベースシステムにおいてもディープラーニングの適用性を検証する。 すべての実装のコードは、(提供すべきgithubリンク)で利用可能です。

Multitarget Tracking (MTT) is the problem of tracking the states of an unknown number of objects using noisy measurements, with important applications to autonomous driving, surveillance, robotics, and others. In the model-based Bayesian setting, there are conjugate priors that enable us to express the multi-object posterior in closed form, which could theoretically provide Bayes-optimal estimates. However, the posterior involves a super-exponential growth of the number of hypotheses over time, forcing state-of-the-art methods to resort to approximations for remaining tractable, which can impact their performance in complex scenarios. Model-free methods based on deep-learning provide an attractive alternative, as they can in principle learn the optimal filter from data, but to the best of our knowledge were never compared to current state-of-the-art Bayesian filters, specially not in contexts where accurate models are available. In this paper, we propose a high-performing deep-learning method for MTT based on the Transformer architecture and compare it to two state-of-the-art Bayesian filters, in a setting where we assume the correct model is provided. Although this gives an edge to the model-based filters, it also allows us to generate unlimited training data. We show that the proposed model outperforms state-of-the-art Bayesian filters in complex scenarios, while macthing their performance in simpler cases, which validates the applicability of deep-learning also in the model-based regime. The code for all our implementations is made available at (github link to be provided).
翻訳日:2021-04-05 13:40:56 公開日:2021-04-01
# 記憶可能性:情報ユーティリティのイメージ計算可能な尺度

Memorability: An image-computable measure of information utility ( http://arxiv.org/abs/2104.00805v1 )

ライセンス: Link先を確認
Zoya Bylinskii, Lore Goetschalckx, Anelise Newman, Aude Oliva(参考訳) 画像中のピクセルと、それらが構成するオブジェクト、シーン、アクションは、画像が記憶可能か忘れられるかを決定する。 記憶力は画像によって異なるが、個々の観察者からは独立している。 オブザーバ独立性は、画像計算可能な情報量であり、自動予測に適している。 本章では,人間の行動データに対して画像の記憶性を正確に予測する最新のアルゴリズムを,原画素からセマンティックラベルまでの様々なスケールの画像特徴を用いて,計算レンズを用いて記憶可能性にズームインする。 我々は、顔、物体、シーンの記憶力に関するアルゴリズムと可視化の設計、および静的シーンを超えてアクションやビデオに一般化するアルゴリズムについて論じる。 記憶可能性予測分野における現在のフロントランナーである最先端のディープラーニングアプローチについて紹介する。 予測を超えて、最近のA.I.を示す。 視覚的記憶力の生成と修正にはアプローチが利用できる。 最後に,視覚ストリームのフィルタリングから拡張現実インターフェースの強化に至るまで,記憶可能性に有効な計算アプリケーションをプレビューする。

The pixels in an image, and the objects, scenes, and actions that they compose, determine whether an image will be memorable or forgettable. While memorability varies by image, it is largely independent of an individual observer. Observer independence is what makes memorability an image-computable measure of information, and eligible for automatic prediction. In this chapter, we zoom into memorability with a computational lens, detailing the state-of-the-art algorithms that accurately predict image memorability relative to human behavioral data, using image features at different scales from raw pixels to semantic labels. We discuss the design of algorithms and visualizations for face, object, and scene memorability, as well as algorithms that generalize beyond static scenes to actions and videos. We cover the state-of-the-art deep learning approaches that are the current front runners in the memorability prediction space. Beyond prediction, we show how recent A.I. approaches can be used to create and modify visual memorability. Finally, we preview the computational applications that memorability can power, from filtering visual streams to enhancing augmented reality interfaces.
翻訳日:2021-04-05 13:39:30 公開日:2021-04-01
# RIS支援衛星IoT通信におけるチャネル推定のためのグラフ注意ネットワーク

Graph Attention Networks for Channel Estimation in RIS-assisted Satellite IoT Communications ( http://arxiv.org/abs/2104.00735v1 )

ライセンス: Link先を確認
K\"ur\c{s}at Tekb{\i}y{\i}k, G\"une\c{s} Karabulut Kurt, Ali R{\i}za Ekti, Halim Yanikomeroglu(参考訳) モノのインターネット(IoT)ネットワークをグローバルに接続する上で,DtS(Direct-to-Satellite)通信の重要性が高まっている。 しかし、地球上の密集した衛星ネットワークの比較的長い距離は、高い経路損失を引き起こす。 さらに、ビームフォーミング、トラッキング、等化といった高度な操作をIoTデバイスで部分的に行う必要があるため、ハードウェアの複雑さとIoTデバイスの高容量バッテリーの必要性が増大する。 再構成可能なインテリジェントサーフェス(RIS)は、エネルギー効率を高め、IoTデバイスの代わりに送信環境上で複雑な信号処理を行う可能性がある。 しかし、RISはインシデント信号の位相を変更するためにカスケードチャネルの情報を必要とする。 本研究は,困難チャネル推定問題に対するグラフアテンションネットワーク(GAT)を提案し,GATチャネル推定の下で異なるRIS構成のためのDtS IoTネットワークの性能について検討する。

Direct-to-satellite (DtS) communication has gained importance recently to support globally connected Internet of things (IoT) networks. However, relatively long distances of densely deployed satellite networks around the Earth cause a high path loss. In addition, since high complexity operations such as beamforming, tracking and equalization have to be performed in IoT devices partially, both the hardware complexity and the need for high-capacity batteries of IoT devices increase. The reconfigurable intelligent surfaces (RISs) have the potential to increase the energy-efficiency and to perform complex signal processing over the transmission environment instead of IoT devices. But, RISs need the information of the cascaded channel in order to change the phase of the incident signal. This study proposes graph attention networks (GATs) for the challenging channel estimation problem and examines the performance of DtS IoT networks for different RIS configurations under GAT channel estimation.
翻訳日:2021-04-05 13:39:12 公開日:2021-04-01
# 自己教師付き対応学習の再考 : 映像フレームレベルの類似性の観点から

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective ( http://arxiv.org/abs/2103.17263v2 )

ライセンス: Link先を確認
Jiarui Xu, Xiaolong Wang(参考訳) 時空間対応のための良い表現を学ぶことは、オブジェクトバウンディングボックスの追跡やビデオオブジェクトのピクセルセグメンテーションの実行など、様々なコンピュータビジョンタスクの鍵となる。 大規模に対応するための一般化可能な表現を学習するために、オブジェクトレベルまたはパッチレベルの類似性学習を明示的に行うために、様々な自己教師付きプレテキストタスクを提案する。 従来の文献に従わず、ビデオフレームレベルの類似性(vfs)学習、すなわち単にビデオフレームの比較から学習することを用いて対応を学習することを提案する。 我々の研究は、画像レベルのコントラスト学習と視覚認識のための類似学習の成功に触発されている。 我々の仮説は、表現が認識に適している場合、類似のオブジェクトや部品間の対応を見つけるために畳み込みの特徴が必要であるというものである。 以上の結果から,VFS は OTB ビジュアルオブジェクトトラッキングと DAVIS ビデオオブジェクトセグメンテーションの両方に対して,最先端の自己監督アプローチを超越していることがわかった。 VFSで何が重要かを詳細に分析し、画像およびフレームレベルの類似性学習における新しい特性を明らかにする。 プロジェクトページは \href{https://jerryxu.net/VFS}{https://jerryxu.net/VFS} で公開されている。

Learning a good representation for space-time correspondence is the key for various computer vision tasks, including tracking object bounding boxes and performing video object pixel segmentation. To learn generalizable representation for correspondence in large-scale, a variety of self-supervised pretext tasks are proposed to explicitly perform object-level or patch-level similarity learning. Instead of following the previous literature, we propose to learn correspondence using Video Frame-level Similarity (VFS) learning, i.e, simply learning from comparing video frames. Our work is inspired by the recent success in image-level contrastive learning and similarity learning for visual recognition. Our hypothesis is that if the representation is good for recognition, it requires the convolutional features to find correspondence between similar objects or parts. Our experiments show surprising results that VFS surpasses state-of-the-art self-supervised approaches for both OTB visual object tracking and DAVIS video object segmentation. We perform detailed analysis on what matters in VFS and reveals new properties on image and frame level similarity learning. Project page is available at \href{https://jerryxu.net/VFS}{https://jerryxu.net/VFS}.
翻訳日:2021-04-05 10:29:33 公開日:2021-04-01
# ResNetによるCOVID-19画像分類のための半教師付き学習

Semi-supervised Learning for COVID-19 Image Classification via ResNet ( http://arxiv.org/abs/2103.06140v2 )

ライセンス: Link先を確認
Lucy Nwosu, Xiangfang Li, Lijun Qian, Seungchan Kim, Xishuang Dong(参考訳) コロナウイルス感染症2019(COVID-19)は200か国以上で進行中の世界的なパンデミックであり、国際社会全体で大きな公衆衛生上の懸念をもたらしている。 X線画像データの解析は、タイムリーかつ正確なスクリーニングと新型コロナウイルス対策において重要な役割を果たす可能性がある。 監視された深層学習は、X線画像データセットから新型コロナウイルスの病態を認識するためにうまく応用されている。 しかし、新型コロナウイルス(COVID-19)の流行などの新興イベントのデータ分析には適用できないことが多いため、モデルのトレーニングには相当量の注釈付きX線画像が必要である。 本稿では,この課題に対処するために,covid-19画像分類のための残留ニューラルネットワーク(resnet)に基づく2経路半教師付き深層学習モデルssresnetを提案する。 さらに,データ不均衡を解決するために,学習過程におけるマイノリティクラスに対して高重みを割り当てる重み付き教師付き損失を設計した。 大規模X線画像データセット COVIDx による実験結果から,ラベル付きトレーニング画像がほとんどない場合でも,提案モデルが有望な性能を達成可能であることが示された。

Coronavirus disease 2019 (COVID-19) is an ongoing global pandemic in over 200 countries and territories, which has resulted in a great public health concern across the international community. Analysis of X-ray imaging data can play a critical role in timely and accurate screening and fighting against COVID-19. Supervised deep learning has been successfully applied to recognize COVID-19 pathology from X-ray imaging datasets. However, it requires a substantial amount of annotated X-ray images to train models, which is often not applicable to data analysis for emerging events such as COVID-19 outbreak, especially in the early stage of the outbreak. To address this challenge, this paper proposes a two-path semi-supervised deep learning model, ssResNet, based on Residual Neural Network (ResNet) for COVID-19 image classification, where two paths refer to a supervised path and an unsupervised path, respectively. Moreover, we design a weighted supervised loss that assigns higher weight for the minority classes in the training process to resolve the data imbalance. Experimental results on a large-scale of X-ray image dataset COVIDx demonstrate that the proposed model can achieve promising performance even when trained on very few labeled training images.
翻訳日:2021-04-05 00:54:13 公開日:2021-04-01
# (参考訳) Bigfootの縮小 - wav2vec 2.0フットプリント削減

Shrinking Bigfoot: Reducing wav2vec 2.0 footprint ( http://arxiv.org/abs/2103.15760v2 )

ライセンス: CC BY 4.0
Zilun Peng, Akshay Budhkar, Ilana Tuil, Jason Levy, Parinaz Sobhani, Raphael Cohen, Jumana Nassour(参考訳) Wav2vec 2.0は、音声波形を潜在表現にマッピングする最先端音声認識モデルである。 wav2vec 2.0の最大のバージョンは、3億1700万のパラメータを含んでいる。 したがって、wav2vec 2.0の推論遅延はプロダクションにおけるボトルネックとなり、高いコストと環境のフットプリントにつながる。 wav2vecのプロダクション環境への適用性を改善するため、大規模言語モデルのドメインから借用した複数のモデル圧縮手法について検討する。 教師と教師のアプローチを用いて,wav2vec 2.0モデルの知識を2倍高速で4.8倍小さい学生モデルに抽出した。 この性能向上は、ワードエラー率(WER)の7%の低下で達成される。 我々の量子化モデルは元のモデルより3.6倍小さく、WERの0.1%しか劣化しない。 私たちの知る限りでは、wav2vec 2.0を圧縮した最初の作品です。

Wav2vec 2.0 is a state-of-the-art speech recognition model which maps speech audio waveforms into latent representations. The largest version of wav2vec 2.0 contains 317 million parameters. Hence, the inference latency of wav2vec 2.0 will be a bottleneck in production, leading to high costs and a significant environmental footprint. To improve wav2vec's applicability to a production setting, we explore multiple model compression methods borrowed from the domain of large language models. Using a teacher-student approach, we distilled the knowledge from the original wav2vec 2.0 model into a student model, which is 2 times faster and 4.8 times smaller than the original model. This increase in performance is accomplished with only a 7% degradation in word error rate (WER). Our quantized model is 3.6 times smaller than the original model, with only a 0.1% degradation in WER. To the best of our knowledge, this is the first work that compresses wav2vec 2.0.
翻訳日:2021-04-03 11:42:07 公開日:2021-04-01
# (参考訳) バイアス緩和手法における批判的課題の検討

An Investigation of Critical Issues in Bias Mitigation Techniques ( http://arxiv.org/abs/2104.00170v1 )

ライセンス: CC BY 4.0
Robik Shrestha, Kushal Kafle and Christopher Kanan(参考訳) ディープラーニングにおける重要な問題は、システムが不適切なバイアスを学習し、マイノリティグループでうまく実行できないことだ。 これにより、バイアスを軽減するために複数のアルゴリズムが作成されました。 しかし,これらの手法がどの程度有効かは明らかでない。 これは、研究プロトコルが論文によって異なり、システムは多くの種類のバイアスをテストできないデータセット上でテストされ、システムは隠れた知識にアクセスしたり、特にテストセットに合わせてチューニングされるためである。 これに対処するために,改良された評価プロトコル,賢明なメトリクス,新たなデータセットを導入して,バイアス緩和アルゴリズムに関する重要な質問と回答を可能にします。 3つのベンチマークデータセットで同じネットワークアーキテクチャとハイパーパラメータ選択ポリシーを用いて、7つの最先端アルゴリズムを評価する。 我々は、複数のバイアス源に対するロバスト性の評価を可能にするBiased MNISTと呼ばれる新しいデータセットを導入する。 隠れバイアスに対するロバスト性を評価するために、Biased MNISTとVQAベンチマークを使用します。 テストセット分布をチューニングするだけでなく、異なるチューニング分布にまたがるロバスト性も研究している。 アルゴリズムは隠れバイアスを悪用し、複数の形式のバイアスにスケールできず、チューニングセットの選択に非常に敏感であることがわかった。 本研究は,今後のバイアス軽減手法のより厳密な評価をコミュニティに導入させるものである。 すべてのデータ、コード、結果は、https://github.com/erobic/bias-mitigatorsで公開されている。

A critical problem in deep learning is that systems learn inappropriate biases, resulting in their inability to perform well on minority groups. This has led to the creation of multiple algorithms that endeavor to mitigate bias. However, it is not clear how effective these methods are. This is because study protocols differ among papers, systems are tested on datasets that fail to test many forms of bias, and systems have access to hidden knowledge or are tuned specifically to the test set. To address this, we introduce an improved evaluation protocol, sensible metrics, and a new dataset, which enables us to ask and answer critical questions about bias mitigation algorithms. We evaluate seven state-of-the-art algorithms using the same network architecture and hyperparameter selection policy across three benchmark datasets. We introduce a new dataset called Biased MNIST that enables assessment of robustness to multiple bias sources. We use Biased MNIST and a visual question answering (VQA) benchmark to assess robustness to hidden biases. Rather than only tuning to the test set distribution, we study robustness across different tuning distributions, which is critical because for many applications the test distribution may not be known during development. We find that algorithms exploit hidden biases, are unable to scale to multiple forms of bias, and are highly sensitive to the choice of tuning set. Based on our findings, we implore the community to adopt more rigorous assessment of future bias mitigation methods. All data, code, and results are publicly available at: https://github.com/erobic/bias-mitigators.
翻訳日:2021-04-03 07:13:50 公開日:2021-04-01
# (参考訳) self-harm: twitterにおける検出とサポート

Self-harm: detection and support on Twitter ( http://arxiv.org/abs/2104.00174v1 )

ライセンス: CC BY 4.0
Muhammad Abubakar Alhassan, Isa Inuwa-Dutse, Bello Shehu Bello, Diane Pennington(参考訳) twitterやfacebookのようなオンラインソーシャルメディアプラットフォームが出現して以来、オンライン参加者が投稿した情報を用いて有用な健康関連研究が行われている。 メンタルヘルス、セルフハーム、抑うつなどの個人の健康関連の問題は、ユーザーがそのようなプラットフォームでストーリーを共有することが多いため研究されている。 オンライン利用者は、オンラインコミュニティからの共感とサポートが、影響を受けた個人を助けるために重要であるため、共有に頼る。 nsi(non-suicidal self-injury)に関連するコンテンツがtwitter上でどのように増殖するかを予備分析した。 そこで我々はtwitterを用いて,nssiの行動に関連のあるデータを収集し,分析し,ユーザを支援する方法を習得する。 独自のクローラを用いて,自己申告ユーザや自傷行為の対処に関心のある関連組織から関連ツイートを検索する。 テキスト分析により,自傷者,自傷者,支援者,回復者,自傷者,危険者の6つの主要カテゴリを識別した。 付与されたカテゴリーがコレクションを支配します。 エンゲージメントの観点から,twitter上で自傷支援団体が投稿した情報に対して,オンラインユーザがどのように反応するかを示す。 最も活発な組織に注目することで、組織の戦略を明らかにする上で有用なテクニックを適用します。 オンライン参加者は、メンタルヘルス関連属性に関連するオンライン投稿に対する強い傾向を示す。 本研究は,ソーシャルメディアを,自傷行為の悪影響を緩和するための積極的な措置を支援するツールとして使用できる,という前提に基づいている。 そこで,本研究では,潜在的ユーザによる自傷行為の防止と,影響を受けたユーザへの支援を,一連のレコメンデーションを通じて提案する。 さらなる研究を支援するために、データセットは興味のある研究者に提供される。

Since the advent of online social media platforms such as Twitter and Facebook, useful health-related studies have been conducted using the information posted by online participants. Personal health-related issues such as mental health, self-harm and depression have been studied because users often share their stories on such platforms. Online users resort to sharing because the empathy and support from online communities are crucial in helping the affected individuals. A preliminary analysis shows how contents related to non-suicidal self-injury (NSSI) proliferate on Twitter. Thus, we use Twitter to collect relevant data, analyse, and proffer ways of supporting users prone to NSSI behaviour. Our approach utilises a custom crawler to retrieve relevant tweets from self-reporting users and relevant organisations interested in combating self-harm. Through textual analysis, we identify six major categories of self-harming users consisting of inflicted, anti-self-harm, support seekers, recovered, pro-self-harm and at risk. The inflicted category dominates the collection. From an engagement perspective, we show how online users respond to the information posted by self-harm support organisations on Twitter. By noting the most engaged organisations, we apply a useful technique to uncover the organisations' strategy. The online participants show a strong inclination towards online posts associated with mental health related attributes. Our study is based on the premise that social media can be used as a tool to support proactive measures to ease the negative impact of self-harm. Consequently, we proffer ways to prevent potential users from engaging in self-harm and support affected users through a set of recommendations. To support further research, the dataset will be made available for interested researchers.
翻訳日:2021-04-03 06:49:08 公開日:2021-04-01
# (参考訳) 想像エージェントの視覚的注意

Visual Attention in Imaginative Agents ( http://arxiv.org/abs/2104.00177v1 )

ライセンス: CC BY 4.0
Samrudhdhi B. Rangrej, James J. Clark(参考訳) 我々は,一連の離散固定を通じて周囲を知覚する反復エージェントを提案する。 それぞれの時間ステップで、エージェントは、固定履歴と一致する様々な妥当なシーンを想像します。 次の固定は、想像上のシーンの内容の不確実性を利用して計画されている。 時間が進むにつれて、エージェントは周囲の内容についてより確実になり、想像されるシーンの多様性は減少する。 エージェントは変分オートエンコーダと正規化フローを使用して構築され、シーン再構成のプロキシタスクで教師なしの方法でトレーニングされる。 想像されたシーンの潜在表現は、高階モジュールによるピクセルレベルおよびシーンレベルタスクの実行に有用である。 エージェントは、様々な2Dおよび3Dデータセットでテストされる。

We present a recurrent agent who perceives surroundings through a series of discrete fixations. At each timestep, the agent imagines a variety of plausible scenes consistent with the fixation history. The next fixation is planned using uncertainty in the content of the imagined scenes. As time progresses, the agent becomes more certain about the content of the surrounding, and the variety in the imagined scenes reduces. The agent is built using a variational autoencoder and normalizing flows, and trained in an unsupervised manner on a proxy task of scene-reconstruction. The latent representations of the imagined scenes are found to be useful for performing pixel-level and scene-level tasks by higher-order modules. The agent is tested on various 2D and 3D datasets.
翻訳日:2021-04-03 06:37:41 公開日:2021-04-01
# (参考訳) 複数物体追跡のための空間時間グラフ変換器

Spatial-Temporal Graph Transformer for Multiple Object Tracking ( http://arxiv.org/abs/2104.00194v1 )

ライセンス: CC BY 4.0
Peng Chu, Jiang Wang, Quanzeng You, Haibin Ling, Zicheng Liu(参考訳) ビデオ内の複数のオブジェクトの追跡は、オブジェクトの空間的-時間的相互作用のモデル化に依存している。 本稿では,オブジェクト間の空間的・時間的相互作用を効率的にモデル化するために,強力なグラフ変換器を利用するSpatial-Temporal Graph Transformer(STGT)を提案する。 stgtは、トラックされたオブジェクトの軌道を疎重み付きグラフの集合として配置し、空間グラフトランスフォーマエンコーダ層、時間的トランスフォーマエンコーダ層、およびこれらのグラフに基づいて空間グラフトランスフォーマデコーダ層を構築することにより、多数のオブジェクトの相互作用を効果的にモデル化する。 STGTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。 追跡速度と精度をさらに向上するため,STGTのモデル化に大量の計算資源を必要とする低スコア検出と長期閉塞を処理するカスケードアソシエーションフレームワークを提案する。 提案手法は,MOT15,MOT16,MOT17,MOT20を含む複数のベンチマークデータセットを用いて評価し,すべてのデータセットに対して最先端のパフォーマンスを実現する。

Tracking multiple objects in videos relies on modeling the spatial-temporal interactions of the objects. In this paper, we propose a solution named Spatial-Temporal Graph Transformer (STGT), which leverages powerful graph transformers to efficiently model the spatial and temporal interactions among the objects. STGT effectively models the interactions of a large number of objects by arranging the trajectories of the tracked objects as a set of sparse weighted graphs, and constructing a spatial graph transformer encoder layer, a temporal transformer encoder layer, and a spatial graph transformer decoder layer based on the graphs. STGT is not only more computationally efficient than the traditional Transformer, but it also achieves better tracking accuracy. To further improve the tracking speed and accuracy, we propose a cascade association framework to handle low-score detections and long-term occlusions that require large computational resources to model in STGT. The proposed method is evaluated on multiple benchmark datasets including MOT15, MOT16, MOT17, and MOT20, and it achieves state-of-the-art performance on all the datasets.
翻訳日:2021-04-03 06:22:07 公開日:2021-04-01
# (参考訳) 同時クラスタリングと一貫性学習による教師なし人物再同定

Unsupervised Person Re-identification via Simultaneous Clustering and Consistency Learning ( http://arxiv.org/abs/2104.00202v1 )

ライセンス: CC BY 4.0
Junhui Yin, Jiayan Qiu, Siqing Zhang, Jiyang Xie, Zhanyu Ma, and Jun Guo(参考訳) 教師なし人物再識別(re-ID)は、教師付き再IDモデルのスケーラビリティ問題を解決する可能性から重要なトピックとなっている。 しかし、既存の手法ではクラスタリングの擬似ラベルを単純に利用して監視を行うため、学習モデルの表現能力を制限するデータ自体のセマンティックな情報を十分に検討していない。 そこで本研究では,学習中の静止画像から視覚的一貫性と時間的一貫性を学習し,教師なし再識別のためのプリテキストタスクを設計し,クラスタリングネットワークが画像を自動的にセマンティッククラスタに分離できるようにする。 具体的には,2つの同一画像の符号化されたビュー間の一致を潜在空間の一貫性損失によって最大化することにより,意味的に意味のある表現を学習する。 一方、2つの符号化されたビューを同じクラスタにグループ化することでモデルを最適化し、ビュー間の視覚的一貫性を高める。 market-1501, dukemtmc-reid, msmt17データセットにおける実験により,提案手法が最先端手法よりも大きなマージンで優れていることが示された。

Unsupervised person re-identification (re-ID) has become an important topic due to its potential to resolve the scalability problem of supervised re-ID models. However, existing methods simply utilize pseudo labels from clustering for supervision and thus have not yet fully explored the semantic information in data itself, which limits representation capabilities of learned models. To address this problem, we design a pretext task for unsupervised re-ID by learning visual consistency from still images and temporal consistency during training process, such that the clustering network can separate the images into semantic clusters automatically. Specifically, the pretext task learns semantically meaningful representations by maximizing the agreement between two encoded views of the same image via a consistency loss in latent space. Meanwhile, we optimize the model by grouping the two encoded views into same cluster, thus enhancing the visual consistency between views. Experiments on Market-1501, DukeMTMC-reID and MSMT17 datasets demonstrate that our proposed approach outperforms the state-of-the-art methods by large margins.
翻訳日:2021-04-03 06:06:57 公開日:2021-04-01
# (参考訳) 学習可能な対称量子化器を用いたマルチビット量子化およびバイナリ化ネットワークの学習

Training Multi-bit Quantized and Binarized Networks with A Learnable Symmetric Quantizer ( http://arxiv.org/abs/2104.00210v1 )

ライセンス: CC BY 4.0
Phuoc Pham, Jacob Abraham, Jaeyong Chung(参考訳) リソース制約のあるデバイスや大規模サービスのためのクラウドプラットフォームにそれらをデプロイするには、ディープニューラルネットワークの重み付けとアクティベーションの定量化が不可欠だ。 双対化は量子化の特別な場合であるが、この極端な場合はしばしばいくつかの訓練困難を生じさせ、特殊なモデルや訓練方法が必要となる。 その結果、近年の量子化手法は二項化を提供していないため、最も資源効率のよい選択肢が失われ、量子化と二項化のネットワークは異なる研究領域となっている。 量子化フレームワークにおける双項化の難しさについて検討し、二項化トレーニングを実現するために必要なものは、対称量子化器、優れた初期化、注意深いハイパーパラメータ選択であることを示す。 これらの手法はマルチビット量子化の大幅な改善にも繋がる。 我々は,resnet-18,-34,mobilenetv2などの様々なアーキテクチャを持つimagenetデータセット上で,unified quantization framework(uniq)を実演する。 マルチビット量子化では、UniQは最先端の精度を達成するために既存の手法より優れている。 バイナライゼーションでは、達成された精度は、元のアーキテクチャを変更することなく既存の最先端の手法に匹敵する。

Quantizing weights and activations of deep neural networks is essential for deploying them in resource-constrained devices, or cloud platforms for at-scale services. While binarization is a special case of quantization, this extreme case often leads to several training difficulties, and necessitates specialized models and training methods. As a result, recent quantization methods do not provide binarization, thus losing the most resource-efficient option, and quantized and binarized networks have been distinct research areas. We examine binarization difficulties in a quantization framework and find that all we need to enable the binary training are a symmetric quantizer, good initialization, and careful hyperparameter selection. These techniques also lead to substantial improvements in multi-bit quantization. We demonstrate our unified quantization framework, denoted as UniQ, on the ImageNet dataset with various architectures such as ResNet-18,-34 and MobileNetV2. For multi-bit quantization, UniQ outperforms existing methods to achieve the state-of-the-art accuracy. In binarization, the achieved accuracy is comparable to existing state-of-the-art methods even without modifying the original architectures.
翻訳日:2021-04-03 05:51:53 公開日:2021-04-01
# (参考訳) ディープネットワークのための高速ジャコビアンベクター製品

Fast Jacobian-Vector Product for Deep Networks ( http://arxiv.org/abs/2104.00219v1 )

ライセンス: CC BY 4.0
Randall Balestriero, Richard Baraniuk(参考訳) ヤコビアンベクター製品(JVP)は、より高速な制約付き最適化、一般化保証付き正規化、敵のサンプル感度評価を含む、近年のディープネットワーク(DN)における多くの発展のバックボーンを形成する。 残念ながら、JVPは現実世界のDNアーキテクチャでは計算コストが高く、DNアーキテクチャを変更する際にJVPプログラムを手動で適応させるのを避けるために自動微分を使用する必要がある。 本研究では,連続的なピースワイドアフィンを用いた任意のDNに対してJVPを高速に計算する新しい手法を提案する(例えば,リーク-ReLU,最大プール,最大アウトなど)。 非線形性 当社の手法は,13ドルのDNアーキテクチャよりも高速で,さまざまなハードウェアにまたがって,平均2ドル(約2万2000円)の速度で実現されている。 さらに、当社のソリューションは自動微分を必要としないため、ソフトウェアへのデプロイが容易で、DNアーキテクチャに依存しないコード行だけを変更する必要があります。

Jacobian-vector products (JVPs) form the backbone of many recent developments in Deep Networks (DNs), with applications including faster constrained optimization, regularization with generalization guarantees, and adversarial example sensitivity assessments. Unfortunately, JVPs are computationally expensive for real world DN architectures and require the use of automatic differentiation to avoid manually adapting the JVP program when changing the DN architecture. We propose a novel method to quickly compute JVPs for any DN that employ Continuous Piecewise Affine (e.g., leaky-ReLU, max-pooling, maxout, etc.) nonlinearities. We show that our technique is on average $2\times$ faster than the fastest alternative over $13$ DN architectures and across various hardware. In addition, our solution does not require automatic differentiation and is thus easy to deploy in software, requiring only the modification of a few lines of codes that do not depend on the DN architecture.
翻訳日:2021-04-03 05:36:23 公開日:2021-04-01
# (参考訳) df^2am: rgb-infrared cross-modality person再同定のためのデュアルレベル特徴融合と親和性モデリング

DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared Cross-modality Person Re-identification ( http://arxiv.org/abs/2104.00226v1 )

ライセンス: CC BY 4.0
Junhui Yin, Zhanyu Ma, Jiyang Xie, Shibo Nie, Kongming Liang, and Jun Guo(参考訳) RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違により難しい課題である。 既存の作品は主に、モダリティにまたがるイメージスタイルや特徴分布の整列によるモダリティ共有グローバル表現の学習に重点を置いているが、身体部分からの局所的特徴と人物像の関係は無視されている。 本稿では,局所的からグローバル的に識別的特徴に注意を向けることで,二値型(局所的およびグローバル的)特徴融合(df^2)モジュールを提案する。 特に、局所的特徴に対する注意は局所的に決定され、すなわち、学習された変換関数をそれ自体に適用する。 一方,人物画像からグローバル特徴の関係をさらに掘り下げるために,最適なモダリティ内およびモダリティ間画像マッチングを得るためのアフィニティモデリング(am)モジュールを提案する。 特に、amは、サンプルの類似性においてクラス内コンパクト性とクラス間分離性を教師付き情報として採用し、モダリティ内およびクラス間サンプル間の親和性をモデル化する。 実験の結果,提案手法は,広く使用されている2つのre-IDデータセットであるSYSU-MM01とRegDBにおいて,最先端の手法よりも高い性能を示した。

RGB-infrared person re-identification is a challenging task due to the intra-class variations and cross-modality discrepancy. Existing works mainly focus on learning modality-shared global representations by aligning image styles or feature distributions across modalities, while local feature from body part and relationships between person images are largely neglected. In this paper, we propose a Dual-level (i.e., local and global) Feature Fusion (DF^2) module by learning attention for discriminative feature from local to global manner. In particular, the attention for a local feature is determined locally, i.e., applying a learned transformation function on itself. Meanwhile, to further mining the relationships between global features from person images, we propose an Affinities Modeling (AM) module to obtain the optimal intra- and inter-modality image matching. Specifically, AM employes intra-class compactness and inter-class separability in the sample similarities as supervised information to model the affinities between intra- and inter-modality samples. Experimental results show that our proposed method outperforms state-of-the-arts by large margins on two widely used cross-modality re-ID datasets SYSU-MM01 and RegDB, respectively.
翻訳日:2021-04-03 05:08:40 公開日:2021-04-01
# (参考訳) あいまいさに潜む:潜在分布マイニングと表情認識のためのペアワイズ不確実性推定

Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition ( http://arxiv.org/abs/2104.00232v1 )

ライセンス: CC0 1.0
Jiahui She, Yibo Hu, Hailin Shi, Jun Wang, Qiu Shen, Tao Mei(参考訳) 顔表情の主観的アノテーションとクラス間類似性により、顔表情認識(FER)における重要な課題の1つは、アノテーションの曖昧さである。 本稿では,潜在分布マイニングとペアワイズ不確実性推定という2つの視点から,アノテーションあいまいな問題に対処するためのdmueという解を提案する。 前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。 後者の場合、インスタンス間の意味的特徴のペアワイズ関係は、インスタンス空間の曖昧さの範囲を推定するために完全に活用される。 提案手法はバックボーンアーキテクチャとは独立であり,推論に余分な負担を伴わない。 実験は、人気のある実世界のベンチマークと合成ノイズデータセットに基づいて行われる。 いずれにせよ、提案したDMUEは安定した性能を達成する。

Due to the subjective annotation and the inherent interclass similarity of facial expressions, one of key challenges in Facial Expression Recognition (FER) is the annotation ambiguity. In this paper, we proposes a solution, named DMUE, to address the problem of annotation ambiguity from two perspectives: the latent Distribution Mining and the pairwise Uncertainty Estimation. For the former, an auxiliary multi-branch learning framework is introduced to better mine and describe the latent distribution in the label space. For the latter, the pairwise relationship of semantic feature between instances are fully exploited to estimate the ambiguity extent in the instance space. The proposed method is independent to the backbone architectures, and brings no extra burden for inference. The experiments are conducted on the popular real-world benchmarks and the synthetic noisy datasets. Either way, the proposed DMUE stably achieves leading performance.
翻訳日:2021-04-03 04:53:35 公開日:2021-04-01
# (参考訳) 視覚分類のための教師なし領域拡張

Unsupervised Domain Expansion for Visual Categorization ( http://arxiv.org/abs/2104.00233v1 )

ライセンス: CC BY 4.0
Jie Wang and Kaibin Tian and Dayong Ding and Gang Yang and Xirong Li(参考訳) 付加的なアノテーションを必要とせずに視覚的分類を新しいドメインに拡張することは、マルチメディアインテリジェンスにとって長年の関心事である。 これまで、この課題はunsupervised domain adaptation (uda)によって解決されてきた。 ソースドメインからのラベル付きデータと対象ドメインからのラベルなしデータを考えると、UDAは識別とドメイン不変の両方の深い表現を求めます。 UDAは対象ドメインに重点を置いているが、テスト例がどのドメインから来ているかは分かっていないため、ソースドメインとターゲットドメインの両方のパフォーマンスが重要であると論じる。 本稿では,未ラベルデータを用いて対象領域の深層モデルを適用することを目的とした,unsupervised domain expansion (UDE) と呼ばれる新たなタスクを提案することにより,UDAを拡張した。 UDEタスクの一般的な方法として知識蒸留ドメイン拡張(KDDE)を提案する。 そのドメイン適応モジュールは既存のモデルでもインスタンス化できる。 我々は知識蒸留に基づく学習機構を開発し、KDDEはソースとターゲットドメインが等しく扱われる単一の目的を最適化することができる。 Office-HomeとDomainNetの2つの主要なベンチマークに関する大規模な実験は、KDDEがUDAタスクとUDEタスクの両方において、DDC、DANN、DAAN、CDANの4つの競合ベースラインと好適に比較していることを示している。 また、本研究では、現在のUDAモデルは、ソースドメインにおける顕著なパフォーマンス損失を犠牲にして、ターゲットドメインにおけるパフォーマンスを改善することも明らかにした。

Expanding visual categorization into a novel domain without the need of extra annotation has been a long-term interest for multimedia intelligence. Previously, this challenge has been approached by unsupervised domain adaptation (UDA). Given labeled data from a source domain and unlabeled data from a target domain, UDA seeks for a deep representation that is both discriminative and domain-invariant. While UDA focuses on the target domain, we argue that the performance on both source and target domains matters, as in practice which domain a test example comes from is unknown. In this paper we extend UDA by proposing a new task called unsupervised domain expansion (UDE), which aims to adapt a deep model for the target domain with its unlabeled data, meanwhile maintaining the model's performance on the source domain. We propose Knowledge Distillation Domain Expansion (KDDE) as a general method for the UDE task. Its domain-adaptation module can be instantiated with any existing model. We develop a knowledge distillation based learning mechanism, enabling KDDE to optimize a single objective wherein the source and target domains are equally treated. Extensive experiments on two major benchmarks, i.e., Office-Home and DomainNet, show that KDDE compares favorably against four competitive baselines, i.e., DDC, DANN, DAAN, and CDAN, for both UDA and UDE tasks. Our study also reveals that the current UDA models improve their performance on the target domain at the cost of noticeable performance loss on the source domain.
翻訳日:2021-04-03 04:36:24 公開日:2021-04-01
# (参考訳) 低資源インド語における多言語およびコードスイッチングASR課題

Multilingual and code-switching ASR challenges for low resource Indian languages ( http://arxiv.org/abs/2104.00235v1 )

ライセンス: CC BY 4.0
Anuj Diwan, Rakesh Vaideeswaran, Sanket Shah, Ankita Singh, Srinivasa Raghavan, Shreya Khare, Vinit Unni, Saurabh Vyas, Akash Rajpuria, Chiranjeevi Yarra, Ashish Mittal, Prasanta Kumar Ghosh, Preethi Jyothi, Kalika Bali, Vivek Seshadri, Sunayana Sitaram, Samarth Bharadwaj, Jai Nanavati, Raoul Nanavati, Karthik Sankaranarayanan, Tejaswi Seeram and Basil Abraham(参考訳) 近年,低量のラベル付きコーパスを多言語で活用することにより,音声認識システムが複数の低リソース言語に対応できる多言語自動音声認識(ASR)への関心が高まっている。 今日の世界では多言語主義が一般的になり、コードスイッチング ASR にも関心が高まっている。 コードスイッチングでは、複数の言語が単一の文内または文間で自由に交換される。 低リソース多言語およびコードスイッチングASRの成功は、しばしばアコースティックス、言語特性、利用可能なデータ量、そしてこれらがASRシステムの構築においてどのように慎重に検討されているかという点で様々な言語に依存する。 この課題では、ヒンディー語、マラティー語、オディア語、タミル語、テルグ語、グジャラート語、ベンガル語という合計7つのインドの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に焦点を合わせたいと思います。 この目的のために,Hindi- English と Bengali- English の2つのコード交換言語対を含む,列車とテストセットからなる約600時間の音声データを提供する。 また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。

Recently, there is increasing interest in multilingual automatic speech recognition (ASR) where a speech recognition system caters to multiple low resource languages by taking advantage of low amounts of labeled corpora in multiple languages. With multilingualism becoming common in today's world, there has been increasing interest in code-switching ASR as well. In code-switching, multiple languages are freely interchanged within a single sentence or between sentences. The success of low-resource multilingual and code-switching ASR often depends on the variety of languages in terms of their acoustics, linguistic characteristics as well as the amount of data available and how these are carefully considered in building the ASR system. In this challenge, we would like to focus on building multilingual and code-switching ASR systems through two different subtasks related to a total of seven Indian languages, namely Hindi, Marathi, Odia, Tamil, Telugu, Gujarati and Bengali. For this purpose, we provide a total of ~600 hours of transcribed speech data, comprising train and test sets, in these languages including two code-switched language pairs, Hindi-English and Bengali-English. We also provide a baseline recipe for both the tasks with a WER of 30.73% and 32.45% on the test sets of multilingual and code-switching subtasks, respectively.
翻訳日:2021-04-03 04:08:33 公開日:2021-04-01
# (参考訳) DNNトレーニングにおける記憶行動のピンポイント化

Pinpointing the Memory Behaviors of DNN Training ( http://arxiv.org/abs/2104.00258v1 )

ライセンス: CC BY 4.0
Jiansong Li, Xiao Dong, Guangli Li, Peng Zhao, Xueying Wang, Xiaobing Chen, Xianzhi Yu, Yongxin Yang, Zihan Jiang, Wei Cao, Lei Liu, Xiaobing Feng(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは通常、DNNアクセラレータのデバイスメモリ容量が制限されているため、メモリ不足である。 DNNトレーニングのメモリ挙動を特徴付けることは、デバイスのメモリ圧力を最適化するために重要である。 本研究では,ランタイムシステムのメモリアロケータを計測することにより,トレーニング中のGPUの各デバイスメモリブロックのメモリ挙動を特定する。 以上の結果から,デバイスメモリブロックのメモリアクセスパターンは安定であり,反復的に従うことが示唆された。 これらの観測は、生のメモリアクセスパターンの観点から、将来のメモリ効率トレーニングの最適化に有用である。

The training of deep neural networks (DNNs) is usually memory-hungry due to the limited device memory capacity of DNN accelerators. Characterizing the memory behaviors of DNN training is critical to optimize the device memory pressures. In this work, we pinpoint the memory behaviors of each device memory block of GPU during training by instrumenting the memory allocators of the runtime system. Our results show that the memory access patterns of device memory blocks are stable and follow an iterative fashion. These observations are useful for the future optimization of memory-efficient training from the perspective of raw memory access patterns.
翻訳日:2021-04-03 03:55:04 公開日:2021-04-01
# (参考訳) 翻訳の適切性判定のための翻訳過誤の検出

Detecting over/under-translation errors for determining adequacy in human translations ( http://arxiv.org/abs/2104.00267v1 )

ライセンス: CC BY 4.0
Prabhakar Gupta, Ridha Juneja, Anil Nelakanti, Tamojit Chatterjee(参考訳) 本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。 我々は機械翻訳(MT)の出力に制限を課しておらず、特に人間の生成した翻訳パイプラインでアプリケーションをターゲットにしています。 本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。 我々は、合成学習データに基づくモデルを学ぶことで、参照翻訳なしでこれを実現する。 事前学習した言語モデルから学習した様々な分類ネットワークと、最高のハイブリッドネットワークである gru + cnn を比較し、89.3%の精度を8言語で評価した。

We present a novel approach to detecting over and under translations (OT/UT) as part of adequacy error checks in translation evaluation. We do not restrict ourselves to machine translation (MT) outputs and specifically target applications with human generated translation pipeline. The goal of our system is to identify OT/UT errors from human translated video subtitles with high error recall. We achieve this without reference translations by learning a model on synthesized training data. We compare various classification networks that we trained on embeddings from pre-trained language model with our best hybrid network of GRU + CNN achieving 89.3% accuracy on high-quality human-annotated evaluation data in 8 languages.
翻訳日:2021-04-03 03:48:42 公開日:2021-04-01
# (参考訳) コンパクトサポートニューラルネットワーク

The Compact Support Neural Network ( http://arxiv.org/abs/2104.00269v1 )

ライセンス: CC BY 4.0
Adrian Barbu, Hongyu Mou(参考訳) ニューラルネットワークは多くの分野で人気があり有用であるが、トレーニングデータから離れた例に対して高い信頼性の応答を与えるという問題がある。 これにより、ニューラルネットワークは、重大な間違いを犯しながら予測に非常に自信を持ち、自動運転や宇宙探査などの安全クリティカルなアプリケーションに対する信頼性を制限します。 本稿では,標準的なドット生成系ニューロンとRBFニューロンを2つの極端な形状パラメータのケースとして用いたニューロン一般化について述べる。 活性化関数としてReLUを用いると、コンパクトな支持を持つ新しいニューロンが得られ、その出力は有界領域の外側でゼロとなる。 トレーニングされた標準ニューラルネットワークから始めて、必要な値まで形状パラメータを徐々に増加させることで、そのようなニューロンによるニューラルネットワークのトレーニングの難しさを回避する方法を示す。 標準ベンチマークデータセットの実験を通じて, 提案手法が期待されていることを示し, 分布内サンプルの精度が良好でありながら, 分布外サンプルの信頼度も低いことが示唆された。

Neural networks are popular and useful in many fields, but they have the problem of giving high confidence responses for examples that are away from the training data. This makes the neural networks very confident in their prediction while making gross mistakes, thus limiting their reliability for safety-critical applications such as autonomous driving, space exploration, etc. In this paper, we present a neuron generalization that has the standard dot-product-based neuron and the RBF neuron as two extreme cases of a shape parameter. Using ReLU as the activation function we obtain a novel neuron that has compact support, which means its output is zero outside a bounded domain. We show how to avoid difficulties in training a neural network with such neurons, by starting with a trained standard neural network and gradually increasing the shape parameter to the desired value. Through experiments on standard benchmark datasets, we show the promise of the proposed approach, in that it can have good prediction accuracy on in-distribution samples while being able to consistently detect and have low confidence on out-of-distribution samples.
翻訳日:2021-04-03 03:39:35 公開日:2021-04-01
# (参考訳) サンスクリットにおけるニューラルワード埋め込みの評価

Evaluating Neural Word Embeddings for Sanskrit ( http://arxiv.org/abs/2104.00270v1 )

ライセンス: CC BY 4.0
Jivnesh Sandhan, Om Adideva, Digumarthi Komal, Laxmidhar Behera, and Pawan Goyal(参考訳) 近年、教師付き学習パラダイムの驚くべきパフォーマンスは、サンスクリット計算言語学者からかなりの注目を集めている。 その結果、サンスクリットのコミュニティは、様々な下流自然言語処理(NLP)タスクのためのタスク固有のラベル付きデータを構築するために、有望な努力を払っている。 これらのアプローチの主な構成要素は、単語埋め込みの表現である。 単語埋め込みは、容易に手に入らないデータから学んだ知識を転送し、低リソース設定でのタスク固有のパフォーマンスを改善するのに役立つ。 過去10年間、サンスクリットのデジタル化の分野は大いに興奮してきた。 このような手軽な資源を効果的に活用するには、サンスクリット語に対する単語埋め込みアプローチの体系的な研究が不可欠である。 本研究では,単語埋め込みの有効性について検討する。 単語の埋め込みを幅広いカテゴリに分類し、体系的な実験を促進し、4つの本質的なタスクで評価する。 我々はサンスクリット語に対する埋め込みアプローチ(もともとサンスクリット語以外の言語に対して提案された)の有効性と言語による様々な課題について検討する。

Recently, the supervised learning paradigm's surprisingly remarkable performance has garnered considerable attention from Sanskrit Computational Linguists. As a result, the Sanskrit community has put laudable efforts to build task-specific labeled data for various downstream Natural Language Processing (NLP) tasks. The primary component of these approaches comes from representations of word embeddings. Word embedding helps to transfer knowledge learned from readily available unlabelled data for improving task-specific performance in low-resource setting. Last decade, there has been much excitement in the field of digitization of Sanskrit. To effectively use such readily available resources, it is very much essential to perform a systematic study on word embedding approaches for the Sanskrit language. In this work, we investigate the effectiveness of word embeddings. We classify word embeddings in broad categories to facilitate systematic experimentation and evaluate them on four intrinsic tasks. We investigate the efficacy of embeddings approaches (originally proposed for languages other than Sanskrit) for Sanskrit along with various challenges posed by language.
翻訳日:2021-04-03 03:26:43 公開日:2021-04-01
# (参考訳) 多国間機械翻訳ツール、データおよび事前学習モデル

Many-to-English Machine Translation Tools, Data, and Pretrained Models ( http://arxiv.org/abs/2104.00290v1 )

ライセンス: CC BY 4.0
Thamme Gowda, Zhao Zhang, Chris A Mattmann, Jonathan May(参考訳) 世界には7000以上の言語があるが、ほとんどの翻訳研究はいくつかの高ソース言語をターゲットにしている。 商用翻訳システムは100言語以下しかサポートせず、これらのモデルを低リソース言語に転送することができない。 本研究では,機械翻訳研究に有用なツールとして,MTData,NLCodec,RTGを提案する。 本稿では,500言語から英語への翻訳が可能な多言語ニューラルマシン翻訳モデルを構築し,その有用性を示す。 この多言語モデルを,サービスとして,あるいは低リソース言語へのトランスファー学習の親モデルとして,簡単にダウンロード可能かつ使用可能にする。

While there are more than 7000 languages in the world, most translation research efforts have targeted a few high-resource languages. Commercial translation systems support only one hundred languages or fewer, and do not make these models available for transfer to low resource languages. In this work, we present useful tools for machine translation research: MTData, NLCodec, and RTG. We demonstrate their usefulness by creating a multilingual neural machine translation model capable of translating from 500 source languages to English. We make this multilingual model readily downloadable and usable as a service, or as a parent model for transfer-learning to even lower-resource languages.
翻訳日:2021-04-03 03:05:07 公開日:2021-04-01
# (参考訳) 学生は最高の教師です:マルチエクイットによるエグジットセンブル蒸留

Students are the Best Teacher: Exit-Ensemble Distillation with Multi-Exits ( http://arxiv.org/abs/2104.00299v1 )

ライセンス: CC BY 4.0
Hojung Lee, Jong-Seok Lee(参考訳) 本稿では,事前学習した教師ネットワークを使わずに,畳み込みニューラルネットワーク(CNN)の分類性能を向上させるための知識蒸留に基づく学習手法を提案する。 提案手法は,従来のCNNの中央に補助分類器(出口と呼ばれる)を付加するマルチエグジットアーキテクチャを利用して,早期推論結果を得る。 本手法は,蒸留ターゲットとして出口のアンサンブルを用いてネットワークを訓練し,ネットワーク全体の分類性能を大幅に向上させる。 教師が生徒にのみ教えるという従来の「蒸留」とは違って,生徒は他の生徒や教師もより良く学ぶことができることを示し,知識蒸留の新しいパラダイムを提案する。 実験により,提案手法は,様々なCNNアーキテクチャ(VGG,ResNet,ResNeXt,WideResNetなど)の分類性能を大幅に向上することを示す。 さらに,提案手法は,安定性の向上とともに学習の収束を早めることができる。 私たちのコードはgithubで入手できる。

This paper proposes a novel knowledge distillation-based learning method to improve the classification performance of convolutional neural networks (CNNs) without a pre-trained teacher network, called exit-ensemble distillation. Our method exploits the multi-exit architecture that adds auxiliary classifiers (called exits) in the middle of a conventional CNN, through which early inference results can be obtained. The idea of our method is to train the network using the ensemble of the exits as the distillation target, which greatly improves the classification performance of the overall network. Our method suggests a new paradigm of knowledge distillation; unlike the conventional notion of distillation where teachers only teach students, we show that students can also help other students and even the teacher to learn better. Experimental results demonstrate that our method achieves significant improvement of classification performance on various popular CNN architectures (VGG, ResNet, ResNeXt, WideResNet, etc.). Furthermore, the proposed method can expedite the convergence of learning with improved stability. Our code will be available on Github.
翻訳日:2021-04-03 02:43:03 公開日:2021-04-01
# (参考訳) MeanShift++: セグメンテーションとオブジェクトトラッキングのアプリケーションによる極めて高速なモード探索

MeanShift++: Extremely Fast Mode-Seeking With Applications to Segmentation and Object Tracking ( http://arxiv.org/abs/2104.00303v1 )

ライセンス: CC BY 4.0
Jennifer Jang, Heinrich Jiang(参考訳) MeanShiftは、機械学習の幅広いアプリケーションで使われている一般的なモード探索クラスタリングアルゴリズムである。 しかし、反復毎に2倍のランタイムがあるため、制限的に遅いことが知られている。 提案するmeanshift++は,meanshiftに基づく非常に高速なモード探索アルゴリズムであり,計算コストの高い隣人探索を,隣接するグリッドセルの密度重み付け平均に置き換えることで,平均シフトステップを高速化する。 さらに,この格子を用いた密度推定手法には理論的保証が伴うことを示した。 ランタイムは点数で線形であり、次元で指数関数的であるため、画像のセグメンテーションやオブジェクト追跡といった低次元アプリケーションではMeanShift++が理想的である。 meanshift++は、ベンチマークデータセットとほぼ同一の画像セグメンテーションで競合するクラスタリング結果によって、 meanshiftよりも1万倍以上高速であることが、広範な実験的分析で示されている。 最後に,オブジェクト追跡の有望な結果を示す。

MeanShift is a popular mode-seeking clustering algorithm used in a wide range of applications in machine learning. However, it is known to be prohibitively slow, with quadratic runtime per iteration. We propose MeanShift++, an extremely fast mode-seeking algorithm based on MeanShift that uses a grid-based approach to speed up the mean shift step, replacing the computationally expensive neighbors search with a density-weighted mean of adjacent grid cells. In addition, we show that this grid-based technique for density estimation comes with theoretical guarantees. The runtime is linear in the number of points and exponential in dimension, which makes MeanShift++ ideal on low-dimensional applications such as image segmentation and object tracking. We provide extensive experimental analysis showing that MeanShift++ can be more than 10,000x faster than MeanShift with competitive clustering results on benchmark datasets and nearly identical image segmentations as MeanShift. Finally, we show promising results for object tracking.
翻訳日:2021-04-03 02:31:53 公開日:2021-04-01
# (参考訳) マイクロビデオリメンデーションのための多目的間高次相互作用のモデル化

Modeling High-order Interactions across Multi-interests for Micro-video Reommendation ( http://arxiv.org/abs/2104.00305v1 )

ライセンス: CC BY 4.0
Dong Yao, Shengyu Zhang, Zhou Zhao, Wenyan Fan, Jieming Zhu, Xiuqiang He, Fei Wu(参考訳) パーソナライズドレコメンデーションシステムは様々なビデオプラットフォームで普及している。 多くの効果的な方法が提案されているが、そのほとんどは、見るマイクロビデオ間のユーザのマルチレベルな関心や依存関係をうまく捉えていなかった。 これらの問題を解決するために,ユーザの関心表現を強化するセルフオーバーCoアテンションモジュールを提案する。 特に、まず、異なるレベルの相関パターンをモデル化するためにコアテンションを使用し、次に特定のレベルの相関パターンをモデル化するために自己アテンションを使用します。 フィルタされた公開データセットの実験結果から,提案モジュールが有用であることが確認された。

Personalized recommendation system has become pervasive in various video platform. Many effective methods have been proposed, but most of them didn't capture the user's multi-level interest trait and dependencies between their viewed micro-videos well. To solve these problems, we propose a Self-over-Co Attention module to enhance user's interest representation. In particular, we first use co-attention to model correlation patterns across different levels and then use self-attention to model correlation patterns within a specific level. Experimental results on filtered public datasets verify that our presented module is useful.
翻訳日:2021-04-03 02:03:17 公開日:2021-04-01
# (参考訳) 非バイアスシーングラフ生成のための適応メッセージパッシングを用いた2部グラフネットワーク

Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2104.00308v1 )

ライセンス: CC BY 4.0
Rongjie Li, Songyang Zhang, Bo Wan, Xuming He(参考訳) シーングラフ生成は、幅広い視覚的応用を伴う重要な視覚的理解タスクである。 最近の大きな進歩にもかかわらず、本質的なロングテールのクラス分布と大きなクラス内変異のため、依然として困難である。 そこで本研究では,不偏シーングラフ生成のための適応的メッセージ伝搬機構を備えた,信頼度対応二部グラフニューラルネットワークを提案する。 さらに,グラフネットワークのトレーニングにおいて不均衡なデータ分散問題を軽減するための,効率的な双方向データ再サンプリング戦略を提案する。 提案手法は,Visual GenomeやOpen Images V4/V6など,いくつかの課題のあるデータセットに対して,従来の手法よりも優れた,あるいは競合的な性能を実現している。

Scene graph generation is an important visual understanding task with a broad range of vision applications. Despite recent tremendous progress, it remains challenging due to the intrinsic long-tailed class distribution and large intra-class variation. To address these issues, we introduce a novel confidence-aware bipartite graph neural network with adaptive message propagation mechanism for unbiased scene graph generation. In addition, we propose an efficient bi-level data resampling strategy to alleviate the imbalanced data distribution problem in training our graph network. Our approach achieves superior or competitive performance over previous methods on several challenging datasets, including Visual Genome, Open Images V4/V6, demonstrating its effectiveness and generality.
翻訳日:2021-04-03 01:59:36 公開日:2021-04-01
# (参考訳) 中性記事生成によるメディアバイアスの軽減

Mitigating Media Bias through Neutral Article Generation ( http://arxiv.org/abs/2104.00336v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Yejin Bang, Andrea Madotto, Pascale Fung(参考訳) メディアの偏りは政治的分極の増大につながるため、自動緩和法の必要性が高まっている。 既存の緩和作業は、様々なニュース報道を提供するために複数のニュースメディアからの記事を表示しているが、表示された各記事固有のバイアスを中和することはない。 そこで本稿では,バランスのとれた情報やバイアスのない情報へのより効率的なアクセスを容易にするために,複数のバイアスのある記事から単一中和記事を生成するタスクを提案する。 本稿では、新しいデータセットneuwsをコンパイルし、自動評価メトリックを定義し、提案するタスクの出発点として、ベースラインと複数の分析を提供する。 最後に、測定値と人間の判断の一致を示すために、人間による評価を得る。

Media bias can lead to increased political polarization, and thus, the need for automatic mitigation methods is growing. Existing mitigation work displays articles from multiple news outlets to provide diverse news coverage, but without neutralizing the bias inherent in each of the displayed articles. Therefore, we propose a new task, a single neutralized article generation out of multiple biased articles, to facilitate more efficient access to balanced and unbiased information. In this paper, we compile a new dataset NeuWS, define an automatic evaluation metric, and provide baselines and multiple analyses to serve as a solid starting point for the proposed task. Lastly, we obtain a human evaluation to demonstrate the alignment between our metric and human judgment.
翻訳日:2021-04-03 01:42:41 公開日:2021-04-01
# (参考訳) 宇宙空間における広域6次元物体ポーズ推定

Wide-Depth-Range 6D Object Pose Estimation in Space ( http://arxiv.org/abs/2104.00337v1 )

ライセンス: CC BY 4.0
Yinlin Hu, Sebastien Speierer, Wenzel Jakob, Pascal Fua, Mathieu Salzmann(参考訳) 空間における6次元ポーズ推定は、地球環境下では一般的ではないユニークな課題をもたらす。 最も顕著な違いの1つは、大気散乱の欠如であり、照明条件を複雑にしながら物体を遠くから見ることができる。 現在利用可能なベンチマークデータセットは、この側面に十分な重点を置いておらず、主にターゲットを近くで描写している。 大規模変動下でのポーズ推定に取り組む事前作業は、最初の見積もりスケールに対する2段階のアプローチと、サイズ変更されたイメージパッチでのポーズ推定に依存する。 代わりに,拡張性がより堅牢な,単一ステージの階層型エンドツーエンドトレーサブルネットワークを提案する。 宇宙で撮影された画像に類似した画像だけでなく、標準ベンチマークでも既存のアプローチを上回っていることを実証する。

6D pose estimation in space poses unique challenges that are not commonly encountered in the terrestrial setting. One of the most striking differences is the lack of atmospheric scattering, allowing objects to be visible from a great distance while complicating illumination conditions. Currently available benchmark datasets do not place a sufficient emphasis on this aspect and mostly depict the target in close proximity. Prior work tackling pose estimation under large scale variations relies on a two-stage approach to first estimate scale, followed by pose estimation on a resized image patch. We instead propose a single-stage hierarchical end-to-end trainable network that is more robust to scale variations. We demonstrate that it outperforms existing approaches not only on images synthesized to resemble images taken in space but also on standard benchmarks.
翻訳日:2021-04-03 01:39:28 公開日:2021-04-01
# (参考訳) 鏡の中の人間を観て3次元人間のポーズを再構築する

Reconstructing 3D Human Pose by Watching Humans in the Mirror ( http://arxiv.org/abs/2104.00340v1 )

ライセンス: CC BY 4.0
Qi Fang, Qing Shuai, Junting Dong, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,鏡を通して人物と人物の像を見ることができる1つの画像から3次元人間のポーズを再構築する新たな課題を紹介する。 単一視点からの3次元ポーズ推定の一般的なシナリオと比較すると、ミラー反射は深さのあいまいさを解消するための追加の視点を提供する。 ミラー対称性の制約を利用して正確な3次元ポーズ再構成を行う最適化手法を開発した。 また,単一画像中の点から鏡面の正常点を推定する手法も提案する。 提案手法を検証するために,多種多様な対象,ポーズ,背景をカバーするmirrored-humanという大規模データセットを収集した。 実験により,再構成した3次元ポーズを疑似接地としてミラー付き人間で学習すると,既存の1視点3次元ポーズ推定器の精度と一般化性が大幅に向上することが示された。

In this paper, we introduce the new task of reconstructing 3D human pose from a single image in which we can see the person and the person's image through a mirror. Compared to general scenarios of 3D pose estimation from a single view, the mirror reflection provides an additional view for resolving the depth ambiguity. We develop an optimization-based approach that exploits mirror symmetry constraints for accurate 3D pose reconstruction. We also provide a method to estimate the surface normal of the mirror from vanishing points in the single image. To validate the proposed approach, we collect a large-scale dataset named Mirrored-Human, which covers a large variety of human subjects, poses and backgrounds. The experiments demonstrate that, when trained on Mirrored-Human with our reconstructed 3D poses as pseudo ground-truth, the accuracy and generalizability of existing single-view 3D pose estimators can be largely improved.
翻訳日:2021-04-03 01:26:23 公開日:2021-04-01
# (参考訳) SpectralNET:ハイパースペクトル画像分類のための空間スペクトルウェーブレットCNNの探索

SpectralNET: Exploring Spatial-Spectral WaveletCNN for Hyperspectral Image Classification ( http://arxiv.org/abs/2104.00341v1 )

ライセンス: CC BY 4.0
Tanmay Chakraborty and Utkarsh Trehan(参考訳) 畳み込みニューラルネットワーク(CNN)を用いたハイパースペクトル画像(HSI)分類は,現在の文献に広く見られる。 アプローチはSVMから2D CNN、3D CNN、3D-2D CNNまで様々である。 3D-2D CNN と FuSENet の他に,HSI 分類タスクにおいてスペクトル特徴と空間特徴の両方を同時に考慮していないため,性能が低下する。 3D CNNは計算的に重く、広く使われていないが、2D CNNは画像の多重解像度処理を考慮せず、空間的特徴に限定している。 3D-2D CNNは、スペクトルと空間の特徴をモデル化しようとするが、その性能は複数のデータセットに当てはまる。 本稿では,マルチ解像度HSI分類のための2次元CNNのバリエーションであるウェーブレットCNNであるSpectralNETを提案する。 ウェーブレットCNNはウェーブレット変換の層を用いてスペクトル特徴を出力する。 ウェーブレット変換の計算は3D CNNの計算よりも軽量である。 抽出されたスペクトル特徴は2d cnnと接続され、空間特徴を持ち出し、分類のための空間スペクトル特徴ベクトルを生成する。 全体として、高精度で多解像度HSIデータを分類できる優れたモデルが達成されている。 ベンチマークデータセットにおけるspectrumnetによる実験、すなわち Indian Pines、University of Pavia、Salinas Scenesは、最先端の手法に関して提案されているSpectralNETの優位性を確認している。 コードはhttps://github.com/tanmay-ty/SpectralNETで公開されている。

Hyperspectral Image (HSI) classification using Convolutional Neural Networks (CNN) is widely found in the current literature. Approaches vary from using SVMs to 2D CNNs, 3D CNNs, 3D-2D CNNs. Besides 3D-2D CNNs and FuSENet, the other approaches do not consider both the spectral and spatial features together for HSI classification task, thereby resulting in poor performances. 3D CNNs are computationally heavy and are not widely used, while 2D CNNs do not consider multi-resolution processing of images, and only limits itself to the spatial features. Even though 3D-2D CNNs try to model the spectral and spatial features their performance seems limited when applied over multiple dataset. In this article, we propose SpectralNET, a wavelet CNN, which is a variation of 2D CNN for multi-resolution HSI classification. A wavelet CNN uses layers of wavelet transform to bring out spectral features. Computing a wavelet transform is lighter than computing 3D CNN. The spectral features extracted are then connected to the 2D CNN which bring out the spatial features, thereby creating a spatial-spectral feature vector for classification. Overall a better model is achieved that can classify multi-resolution HSI data with high accuracy. Experiments performed with SpectralNET on benchmark dataset, i.e. Indian Pines, University of Pavia, and Salinas Scenes confirm the superiority of proposed SpectralNET with respect to the state-of-the-art methods. The code is publicly available in https://github.com/tanmay-ty/SpectralNET.
翻訳日:2021-04-03 01:13:41 公開日:2021-04-01
# (参考訳) TrajeVAE -- 軌道からの制御可能な人体運動生成

TrajeVAE -- Controllable Human Motion Generation from Trajectories ( http://arxiv.org/abs/2104.00351v1 )

ライセンス: CC BY-SA 4.0
Kacper Kania, Marek Kowalski, Tomasz Trzci\'nski(参考訳) 可塑性で制御可能な人間の3Dモーションアニメーションの生成は、しばしば熟練アーティストの手動介入を必要とする長年の問題である。 既存の機械学習アプローチは、ユーザーが将来の動きに関する部分的な情報を入力できるようにすることで、このプロセスを半自動化しようとする。 しかし、これらは2つの重要な方法で制限されている: 過去のフレームにポーズ予測をベースとしており、将来のポーズを制御していないか、ユーザが出力のきめ細かい制御を妨げている単一のトラジェクトリのみを入力できる。 この2つの問題を緩和するために, 将来のポーズ予測の問題を空間と時間におけるポーズ完了に再構成し, 軌道が欠落したジョイントでポーズとして表現する。 このようなフレームワークは、将来のポーズ予測のために設計された他のニューラルネットワークに一般化できることを示す。 このフレームワークでトレーニングされると、モデルは任意の数の軌跡からシーケンスを予測できる。 この概念を活用するために,3次元アニメーションのための多目的フレームワークを提供する新しいトランスフォーマー型アーキテクチャであるTrajeVAEを提案する。 TrajeVAEは、過去のポーズを精度で予測するトラジェクトリベースの参照手法や手法よりも優れていることを示す。 また、初期ポーズのみを設けた場合でも、合理的な将来のポーズを予測できることも示している。

The generation of plausible and controllable 3D human motion animations is a long-standing problem that often requires a manual intervention of skilled artists. Existing machine learning approaches try to semi-automate this process by allowing the user to input partial information about the future movement. However, they are limited in two significant ways: they either base their pose prediction on past prior frames with no additional control over the future poses or allow the user to input only a single trajectory that precludes fine-grained control over the output. To mitigate these two issues, we reformulate the problem of future pose prediction into pose completion in space and time where trajectories are represented as poses with missing joints. We show that such a framework can generalize to other neural networks designed for future pose prediction. Once trained in this framework, a model is capable of predicting sequences from any number of trajectories. To leverage this notion, we propose a novel transformer-like architecture, TrajeVAE, that provides a versatile framework for 3D human animation. We demonstrate that TrajeVAE outperforms trajectory-based reference approaches and methods that base their predictions on past poses in terms of accuracy. We also show that it can predict reasonable future poses even if provided only with an initial pose.
翻訳日:2021-04-03 01:02:58 公開日:2021-04-01
# (参考訳) 逆問題に対する効率的かつ微分可能な影計算

Efficient and Differentiable Shadow Computation for Inverse Problems ( http://arxiv.org/abs/2104.00359v1 )

ライセンス: CC BY 4.0
Linjie Lyu, Marc Habermann, Lingjie Liu, Mallikarjun B R, Ayush Tewari, Christian Theobalt(参考訳) 画像ベースの逆問題への関心が高まっている。 逆問題に対する従来の最適化ベースのソリューションの恩恵を受けるだけでなく、基底真理アノテーションによるデータのトレーニングが難しい学習ベースのアプローチの自己スーパービジョンを可能にする。 しかし、既存の差別化可能なレンダラーは、シーンの異なる点からの光源の可視性をモデル化しないか、画像の影に責任を持つか、あるいは数千回にわたって深いアーキテクチャを訓練するのに使用されるには遅すぎる。 そこで本研究では,可視性とソフトシャドー計算のための高精度かつ効率的な手法を提案する。 本手法は,照明と視認性の球面調和近似に基づいており,球面は球面と近似している。 これにより、レイトレーシングに基づく方法に比べて、シャドー計算の効率が大幅に向上する。 この定式化は微分可能であり, テクスチャ, 照明, 剛体ポーズ, および画像からの幾何学的変形回復などの逆問題に対して, 解析・合成最適化を用いて解くことができる。

Differentiable rendering has received increasing interest for image-based inverse problems. It can benefit traditional optimization-based solutions to inverse problems, but also allows for self-supervision of learning-based approaches for which training data with ground truth annotation is hard to obtain. However, existing differentiable renderers either do not model visibility of the light sources from the different points in the scene, responsible for shadows in the images, or are too slow for being used to train deep architectures over thousands of iterations. To this end, we propose an accurate yet efficient approach for differentiable visibility and soft shadow computation. Our approach is based on the spherical harmonics approximations of the scene illumination and visibility, where the occluding surface is approximated with spheres. This allows for a significantly more efficient shadow computation compared to methods based on ray tracing. As our formulation is differentiable, it can be used to solve inverse problems such as texture, illumination, rigid pose, and geometric deformation recovery from images using analysis-by-synthesis optimization.
翻訳日:2021-04-03 00:42:45 公開日:2021-04-01
# (参考訳) 対人学習によるフェデレーションフットショット学習

Federated Few-Shot Learning with Adversarial Learning ( http://arxiv.org/abs/2104.00365v1 )

ライセンス: CC BY 4.0
Chenyou Fan and Jianwei Huang(参考訳) 私たちは、多くのモバイルデバイス上で実践的な学習タスクのための統一された機械学習モデルの開発に興味があります。 これは、タスクが異なる間にデータが不足し分散しているモバイルコンピューティングのシナリオで一般的に発生する状況である。 本稿では,少数のラベル付きサンプルで未認識のデータクラスを分類可能な,少数ショットの分類モデルを学ぶためのfederated few-shot learning(fedfsl)フレームワークを提案する。 federated learning戦略により、federated learningはデータのプライバシーと通信効率を維持しながら、多くのデータソースを活用できる。 1) 既存のフェデレートされた学習アプローチを直接使うと、クライアントモデルが生み出した誤った決定境界に繋がる可能性があるし、2) クライアントと同じような決定境界を制約することは、タスクの訓練に過度に適合するが、見当たらないタスクにうまく適応しない。 これらの問題に対処するために,クライアントモデルのばらつきを最小限に抑えて,ローカル更新の定期化を提案する。 また,攻撃的手法でトレーニングを定式化し,クライアントモデルを最適化して,見当たらないデータサンプルをよりよく表現できる識別的特徴空間を作成する。 直観を実証し,学習ビジョンタスクで10%以上,言語タスクで5%以上,ベースラインよりも優れたアプローチを示す実験を行った。

We are interested in developing a unified machine learning model over many mobile devices for practical learning tasks, where each device only has very few training data. This is a commonly encountered situation in mobile computing scenarios, where data is scarce and distributed while the tasks are distinct. In this paper, we propose a federated few-shot learning (FedFSL) framework to learn a few-shot classification model that can classify unseen data classes with only a few labeled samples. With the federated learning strategy, FedFSL can utilize many data sources while keeping data privacy and communication efficiency. There are two technical challenges: 1) directly using the existing federated learning approach may lead to misaligned decision boundaries produced by client models, and 2) constraining the decision boundaries to be similar over clients would overfit to training tasks but not adapt well to unseen tasks. To address these issues, we propose to regularize local updates by minimizing the divergence of client models. We also formulate the training in an adversarial fashion and optimize the client models to produce a discriminative feature space that can better represent unseen data samples. We demonstrate the intuitions and conduct experiments to show our approaches outperform baselines by more than 10% in learning vision tasks and 5% in language tasks.
翻訳日:2021-04-03 00:29:26 公開日:2021-04-01
# (参考訳) FeTaQA:無料のテーブル質問回答

FeTaQA: Free-form Table Question Answering ( http://arxiv.org/abs/2104.00369v1 )

ライセンス: CC BY-SA 4.0
Linyong Nan, Chiachun Hsieh, Ziming Mao, Xi Victoria Lin, Neha Verma, Rui Zhang, Wojciech Kry\'sci\'nski, Nick Schoelkopf, Riley Kong, Xiangru Tang, Murori Mutuma, Ben Rosand, Isabel Trindade, Renusree Bandaru, Jacob Cunningham, Caiming Xiong, Dragomir Radev(参考訳) 既存のテーブル質問応答データセットには、システムのクエリおよびスキーマ理解能力を主に評価する豊富な事実的質問が含まれているが、関連する短い形式の回答の制約のために、複雑な推論と情報の統合を必要とする質問を含まない。 これらの問題に対処し,テーブル質問応答の完全な課題を示すために,10K Wikipediaベースのテーブル,質問,自由形式の回答,テーブルセルのサポートなどを備えた新しいデータセットFeTaQAを導入する。 FeTaQAは、構造化された知識ソースから複数の不連続な事実を検索、推論、統合した後、自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問応答設定が得られる。 情報源からの短いテキストのコピーで回答が広まるテキスト上の生成的QAのデータセットとは異なり、データセットの回答はエンティティとその高レベルな関係を含む人間による説明である。 提案手法は,意味解析に基づくQAシステムに基づくパイプライン手法と,大規模な事前学習されたテキスト生成モデルに基づくエンドツーエンド手法の2つのベンチマーク手法であり,FeTaQAが両手法に挑戦することを示す。

Existing table question answering datasets contain abundant factual questions that primarily evaluate the query and schema comprehension capability of a system, but they fail to include questions that require complex reasoning and integration of information due to the constraint of the associated short-form answers. To address these issues and to demonstrate the full challenge of table question answering, we introduce FeTaQA, a new dataset with 10K Wikipedia-based {table, question, free-form answer, supporting table cells} pairs. FeTaQA yields a more challenging table question answering setting because it requires generating free-form text answers after retrieval, inference, and integration of multiple discontinuous facts from a structured knowledge source. Unlike datasets of generative QA over text in which answers are prevalent with copies of short text spans from the source, answers in our dataset are human-generated explanations involving entities and their high-level relations. We provide two benchmark methods for the proposed task: a pipeline method based on semantic-parsing-based QA systems and an end-to-end method based on large pretrained text generation models, and show that FeTaQA poses a challenge for both methods.
翻訳日:2021-04-03 00:10:24 公開日:2021-04-01
# (参考訳) 視覚知的エージェントのためのコモンセンス空間推論

Commonsense Spatial Reasoning for Visually Intelligent Agents ( http://arxiv.org/abs/2104.00387v1 )

ライセンス: CC BY-SA 4.0
Agnese Chiatti, Gianluca Bardaro, Enrico Motta, Enrico Daga(参考訳) サービスロボットは、複雑で急速に変化する環境を確実に理解することが期待されている。 認知の観点からは、人間のような視覚知能を示すために必要な適切な推論能力と背景知識が必要である。 特に、我々の先行研究は、世界の物体間の空間的関係を推論する能力は、視覚知的エージェントの開発において重要な要件であることを示した。 本稿では,実世界のロボット応用に適したコモンセンス空間推論のためのフレームワークを提案する。 質的空間推論に対する従来のアプローチとは異なり、提案された枠組みはロボットの視点とオブジェクト指向のバリエーションに頑健である。 提案フレームワークの空間的関係は、英語の典型的なオブジェクト構成を記述するために使われるコモンセンス述語の種類にマッピングされる。 さらに,この形式的に定義されたフレームワークを具体的な空間データベースに実装する方法を示す。

Service robots are expected to reliably make sense of complex, fast-changing environments. From a cognitive standpoint, they need the appropriate reasoning capabilities and background knowledge required to exhibit human-like Visual Intelligence. In particular, our prior work has shown that the ability to reason about spatial relations between objects in the world is a key requirement for the development of Visually Intelligent Agents. In this paper, we present a framework for commonsense spatial reasoning which is tailored to real-world robotic applications. Differently from prior approaches to qualitative spatial reasoning, the proposed framework is robust to variations in the robot's viewpoint and object orientation. The spatial relations in the proposed framework are also mapped to the types of commonsense predicates used to describe typical object configurations in English. In addition, we also show how this formally-defined framework can be implemented in a concrete spatial database.
翻訳日:2021-04-02 23:53:40 公開日:2021-04-01
# (参考訳) 動的平衡有向ネットワーク上の分散支持ベクトルマシン

Distributed support-vector-machine over dynamic balanced directed networks ( http://arxiv.org/abs/2104.00399v1 )

ライセンス: CC BY 4.0
Mohammadreza Doostmohammadian, Alireza Aghasi, Themistoklis Charalambous, and Usman A. Khan(参考訳) 本稿では,分散SVM(Support-Vector-Machines)によるバイナリ分類問題を考察し,エージェントのネットワークを限られたデータでトレーニングし,グローバルデータベースのSVM分類器を協調的に学習する。 エージェントは、生のデータではなく、分類器パラメータと局所損失関数の勾配に関する処理情報のみを共有する。 既存の研究とは対照的に,ネットワークトポロジの変化を離散ジャンプに組み込む連続時間アルゴリズムを提案する。 このハイブリッドな性質は、基礎となるCTプロセスの離散化によって生じるチャットの除去を可能にする。 提案アルゴリズムは,行列摂動理論の引数を用いて,時間変化重み付き有向グラフ上でSVM分類器に収束することを示す。

In this paper, we consider the binary classification problem via distributed Support-Vector-Machines (SVM), where the idea is to train a network of agents, with limited share of data, to cooperatively learn the SVM classifier for the global database. Agents only share processed information regarding the classifier parameters and the gradient of the local loss functions instead of their raw data. In contrast to the existing work, we propose a continuous-time algorithm that incorporates network topology changes in discrete jumps. This hybrid nature allows us to remove chattering that arises because of the discretization of the underlying CT process. We show that the proposed algorithm converges to the SVM classifier over time-varying weight balanced directed graphs by using arguments from the matrix perturbation theory.
翻訳日:2021-04-02 23:32:59 公開日:2021-04-01
# (参考訳) 量子ケースベース推論(qcbr)

quantum Case-Based Reasoning (qCBR) ( http://arxiv.org/abs/2104.00409v1 )

ライセンス: CC BY 4.0
Parfait Atchade-Adelomou, Daniel Casado-Fauli, Elisabet Golobardes-Ribe and Xavier Vilasis-Cardona(参考訳) Case-Based Reasoning (CBR)は、問題解決のための人工知能のアプローチであり、大きな成功記録がある。 本稿では,量子ケースベース推論(quantum case-based reasoning, qcbr)パラダイムを用いて,cbrの重要なプロセスを改善することを提案する。 その焦点は、平均精度、スケーラビリティ、オーバーラップに対する耐性の点で古典的な考え方を改善した変分原理に基づくqCBRの設計と実装である。 提案するqcbrと古典的なcbrの比較研究を,重複を伴う組合せ最適化問題のサンプルとして社会労働者問題に対して行った。 このアルゴリズムの量子実現性はdocplexでモデル化され、ibmqコンピュータでテストされ、qiboフレームワークで実験された。

Case-Based Reasoning (CBR) is an artificial intelligence approach to problem-solving with a good record of success. This article proposes using Quantum Computing to improve some of the key processes of CBR defining so a Quantum Case-Based Reasoning (qCBR) paradigm. The focus is set on designing and implementing a qCBR based on the variational principle that improves its classical counterpart in terms of average accuracy, scalability and tolerance to overlapping. A comparative study of the proposed qCBR with a classic CBR is performed for the case of the Social Workers' Problem as a sample of a combinatorial optimization problem with overlapping. The algorithm's quantum feasibility is modelled with docplex and tested on IBMQ computers, and experimented on the Qibo framework.
翻訳日:2021-04-02 23:18:50 公開日:2021-04-01
# (参考訳) ディープラーニングを用いた潜在空間データ同化

Latent Space Data Assimilation by using Deep Learning ( http://arxiv.org/abs/2104.00430v1 )

ライセンス: CC BY 4.0
Mathis Peyron, Anthony Fillion, Selime G\"urol, Victor Marchais, Serge Gratton, Pierre Boudier and Gael Goret(参考訳) データ・アシミレーション(DA)を低コストで行うことは、地球系のモデリング、特に膨大な量の観測が可能なビッグデータにおいて、主要な関心事である。 PDEの解を近似するニューラルネットワーク技術を活用し,ディープラーニング(DL)手法をDAフレームワークに組み込む。 より正確には、オートエンコーダ(AE)が提供する潜時構造を利用して、潜時空間にモデル誤差(ETKF-Q)を持つアンサンブル変換カルマンフィルタを設計する。 モデルダイナミクスは、代理ニューラルネットワークを介して潜在空間内でも伝播する。 このETKF-Q-Latentアルゴリズム(後にETKF-Q-Lと呼ばれる)は、ロレンツ96方程式の調整された命令バージョンでテストされ、拡張ロレンツ96系と呼ばれる。 このシステムに基づく数値実験により、ETKF-Q-Lアプローチはともに計算コストを低減し、ETKF-Qのような最先端のアルゴリズムよりも精度が高いことが証明された。

Performing Data Assimilation (DA) at a low cost is of prime concern in Earth system modeling, particularly at the time of big data where huge quantities of observations are available. Capitalizing on the ability of Neural Networks techniques for approximating the solution of PDE's, we incorporate Deep Learning (DL) methods into a DA framework. More precisely, we exploit the latent structure provided by autoencoders (AEs) to design an Ensemble Transform Kalman Filter with model error (ETKF-Q) in the latent space. Model dynamics are also propagated within the latent space via a surrogate neural network. This novel ETKF-Q-Latent (thereafter referred to as ETKF-Q-L) algorithm is tested on a tailored instructional version of Lorenz 96 equations, named the augmented Lorenz 96 system: it possesses a latent structure that accurately represents the observed dynamics. Numerical experiments based on this particular system evidence that the ETKF-Q-L approach both reduces the computational cost and provides better accuracy than state of the art algorithms, such as the ETKF-Q.
翻訳日:2021-04-02 23:01:19 公開日:2021-04-01
# (参考訳) 物体検出のためのアンカープルーニング

Anchor Pruning for Object Detection ( http://arxiv.org/abs/2104.00432v1 )

ライセンス: CC BY 4.0
Maxim Bonnaerens, Matthias Freiberger, Joni Dambre(参考訳) 本稿では1段アンカー型検出器における物体検出のためのアンカープルーニングを提案する。 プルーニング技術は畳み込みニューラルネットワークの計算コスト削減に広く用いられているが、ほとんどの計算が頻繁に行われるバックボーンネットワークの最適化に重点を置いている。 この作業では、オブジェクト検出のための追加のpruningテクニック、具体的には、anchor pruningをデモします。 より効率的なバックボーンネットワークと、非最大抑制などの後処理ステップがボトルネックになり得る組込みシステムへのオブジェクト検出の展開が増えているため、検出ヘッドで使用されるアンカーの影響がますます重要になっている。 本研究では,物体検出ヘッド内のアンカーの多くを,精度を損なうことなく除去できることを示す。 さらなる再訓練により、アンカープルーニングは精度を向上させることができる。 SSDとMS COCOの大規模な実験により、検出ヘッドの効率は最大44%向上し、精度は向上した。 RetinaNet と PASCAL VOC のさらなる実験により,本手法の有効性が示された。 また,アンカーの初期形状に関連するハイパーパラメータを除去するために,アンカープルーニングとともに使用できる'オーバーアンカー化'モデルを導入する。

This paper proposes anchor pruning for object detection in one-stage anchor-based detectors. While pruning techniques are widely used to reduce the computational cost of convolutional neural networks, they tend to focus on optimizing the backbone networks where often most computations are. In this work we demonstrate an additional pruning technique, specifically for object detection: anchor pruning. With more efficient backbone networks and a growing trend of deploying object detectors on embedded systems where post-processing steps such as non-maximum suppression can be a bottleneck, the impact of the anchors used in the detection head is becoming increasingly more important. In this work, we show that many anchors in the object detection head can be removed without any loss in accuracy. With additional retraining, anchor pruning can even lead to improved accuracy. Extensive experiments on SSD and MS COCO show that the detection head can be made up to 44% more efficient while simultaneously increasing accuracy. Further experiments on RetinaNet and PASCAL VOC show the general effectiveness of our approach. We also introduce `overanchorized' models that can be used together with anchor pruning to eliminate hyperparameters related to the initial shape of anchors.
翻訳日:2021-04-02 22:33:04 公開日:2021-04-01
# (参考訳) ニューラルネットワークのロバスト性評価と学習に向けて

Towards Evaluating and Training Verifiably Robust Neural Networks ( http://arxiv.org/abs/2104.00447v1 )

ライセンス: CC BY 4.0
Zhaoyang Lyu, Minghao Guo, Tong Wu, Guodong Xu, Kehuan Zhang, Dahua Lin(参考訳) 近年の研究では、インターバルバウンド伝搬(IBP)が、信頼性の高いニューラルネットワークのトレーニングに利用できることが示されている。 タイトな線形緩和に基づくバウンディングメソッドであるcrownは、これらのネットワークに非常にゆるやかな境界を与えることが多い。 また、ほとんどのニューロンがIPBトレーニングプロセス中に死亡し、ネットワークの表現能力を損なう可能性があることも観察した。 本稿では, IBP と CROWN の関係について検討し, 適切な境界線を選択する場合, CROWN が IBP よりも常に密であることを示す。 我々はさらに,大規模ネットワークを検証し,ippよりも低い検証誤差を得るために使用できる,クラウン・リニア・バウンド・伝播(lbp)の緩和版を提案する。 また,新たな活性化関数parameterized ramp function(parameterized ramp function,paramramp)を設計した。 我々は、MNIST、CIFAR-10、Tiny-ImageNetのParamRampアクティベーションによる広範な実験を行い、最先端のロバスト性を実現する。 コードと付録はhttps://github.com/ZhaoyangLyu/VerifiablyRobustNNで入手できる。

Recent works have shown that interval bound propagation (IBP) can be used to train verifiably robust neural networks. Reseachers observe an intriguing phenomenon on these IBP trained networks: CROWN, a bounding method based on tight linear relaxation, often gives very loose bounds on these networks. We also observe that most neurons become dead during the IBP training process, which could hurt the representation capability of the network. In this paper, we study the relationship between IBP and CROWN, and prove that CROWN is always tighter than IBP when choosing appropriate bounding lines. We further propose a relaxed version of CROWN, linear bound propagation (LBP), that can be used to verify large networks to obtain lower verified errors than IBP. We also design a new activation function, parameterized ramp function (ParamRamp), which has more diversity of neuron status than ReLU. We conduct extensive experiments on MNIST, CIFAR-10 and Tiny-ImageNet with ParamRamp activation and achieve state-of-the-art verified robustness. Code and the appendix are available at https://github.com/ZhaoyangLyu/VerifiablyRobustNN.
翻訳日:2021-04-02 22:14:29 公開日:2021-04-01
# (参考訳) 等変層GANを用いた非教師付き前地背景セグメンテーション

Unsupervised Foreground-Background Segmentation with Equivariant Layered GANs ( http://arxiv.org/abs/2104.00483v1 )

ライセンス: CC BY 4.0
Yu Yang, Hakan Bilen, Qiran Zou, Wing Yin Cheung, Xiangyang Ji(参考訳) 本稿では,gansから生成された合成擬似セグメンテーションデータセット上でセグメンテーションネットワークを訓練し,注記のない画像の集合から学習し,前景と背景を明示的に不一致させる教師なし前景セグメンテーション手法を提案する。 表層・背景層を効率よく生成し, 新規画像の合成に重ね合わせるため, 提案した等変層状GANは, 先行層状GANと比較して, 以下の2つの面で改善されている。 1)前の摂動戦略を拡張し、合成画像から前景のプライベートコードを復元するプライベートコード復元を導入することにより、前景と背景の絡み合いを改善する。 2) 層状GANの潜伏空間は, 提案した等分散損失を最小限に抑え, 解釈可能な潜伏符号と前景と背景のゆがみを改善することで正規化される。 本手法はCaltech-UCSD Birds や LSUN Car などの教師なしオブジェクトセグメンテーションデータセットを用いて評価し,最先端の性能を実現する。

We propose an unsupervised foreground-background segmentation method via training a segmentation network on the synthetic pseudo segmentation dataset generated from GANs, which are trained from a collection of images without annotations to explicitly disentangle foreground and background. To efficiently generate foreground and background layers and overlay them to compose novel images, the construction of such GANs is fulfilled by our proposed Equivariant Layered GAN, whose improvement, compared to the precedented layered GAN, is embodied in the following two aspects. (1) The disentanglement of foreground and background is improved by extending the previous perturbation strategy and introducing private code recovery that reconstructs the private code of foreground from the composite image. (2) The latent space of the layered GANs is regularized by minimizing our proposed equivariance loss, resulting in interpretable latent codes and better disentanglement of foreground and background. Our methods are evaluated on unsupervised object segmentation datasets including Caltech-UCSD Birds and LSUN Car, achieving state-of-the-art performance.
翻訳日:2021-04-02 21:57:00 公開日:2021-04-01
# (参考訳) 生成逆ネットワークにおける線形意味論

Linear Semantics in Generative Adversarial Networks ( http://arxiv.org/abs/2104.00487v1 )

ライセンス: CC BY 4.0
Jianjin Xu, Changxi Zheng(参考訳) GAN(Generative Adversarial Networks)は高品質な画像を生成することができるが、合成画像の意味を明示することは困難である。 本研究では,GANのセマンティック表現をよりよく理解し,GANの生成プロセスにおけるセマンティック制御を実現することを目的とする。 興味深いことに、よく訓練されたganは、内部特徴マップのイメージセマンティクスを驚くほど単純な方法でエンコードしている。 この単純さを検証するために、さまざまなGANとデータセットに関する広範な実験を行い、この単純さのおかげで、ラベル付き画像の少ない数(8)からトレーニングされたGANのセマンティックセマンティックセマンティックセマンティクスモデルを学ぶことができる。 最後に,本研究の成果を活かし,意味条件サンプリングと意味画像編集という2つの手法を提案する。 トレーニングされたGANと8つのセマンティックアノテーションが与えられた場合、ユーザは、ユーザが提供するセマンティックレイアウトの対象となる多様なイメージを生成し、合成されたイメージセマンティクスを制御することができる。 私たちはそのコードを公開しました。

Generative Adversarial Networks (GANs) are able to generate high-quality images, but it remains difficult to explicitly specify the semantics of synthesized images. In this work, we aim to better understand the semantic representation of GANs, and thereby enable semantic control in GAN's generation process. Interestingly, we find that a well-trained GAN encodes image semantics in its internal feature maps in a surprisingly simple way: a linear transformation of feature maps suffices to extract the generated image semantics. To verify this simplicity, we conduct extensive experiments on various GANs and datasets; and thanks to this simplicity, we are able to learn a semantic segmentation model for a trained GAN from a small number (e.g., 8) of labeled images. Last but not least, leveraging our findings, we propose two few-shot image editing approaches, namely Semantic-Conditional Sampling and Semantic Image Editing. Given a trained GAN and as few as eight semantic annotations, the user is able to generate diverse images subject to a user-provided semantic layout, and control the synthesized image semantics. We have made the code publicly available.
翻訳日:2021-04-02 21:38:43 公開日:2021-04-01
# (参考訳) PyVertical: マルチヘッドスプリットNNのための垂直フェデレーション学習フレームワーク

PyVertical: A Vertical Federated Learning Framework for Multi-headed SplitNN ( http://arxiv.org/abs/2104.00489v1 )

ライセンス: CC BY 4.0
Daniele Romanini, Adam James Hall, Pavlos Papadopoulos, Tom Titcombe, Abbas Ismail, Tudor Cebere, Robert Sandmann, Robin Roehm, Michael A. Hoeh(参考訳) 分割ニューラルネットワークを用いた垂直連合学習を支援するフレームワークであるPyVerticalを紹介する。 提案フレームワークにより、データサイエンティストは、複数の所有者間で垂直に分割されたデータフィーチャ上のニューラルネットワークを、所有者のデバイスに生のデータを保持しながらトレーニングすることができる。 異なるデータセットのパーティション間で共有されるエンティティをリンクするために、データポイントに関連するIDにPrivate Set Intersectionを使用する。 そこで,提案手法の有効性を示すために,mnist分類タスク用に,データサンプルを2つのデータ所有者とデータサイエンティストに垂直に分散した,単純な二頭分割ニューラルネットワークのトレーニングを行った。

We introduce PyVertical, a framework supporting vertical federated learning using split neural networks. The proposed framework allows a data scientist to train neural networks on data features vertically partitioned across multiple owners while keeping raw data on an owner's device. To link entities shared across different datasets' partitions, we use Private Set Intersection on IDs associated with data points. To demonstrate the validity of the proposed framework, we present the training of a simple dual-headed split neural network for a MNIST classification task, with data samples vertically distributed across two data owners and a data scientist.
翻訳日:2021-04-02 21:19:03 公開日:2021-04-01
# (参考訳) 機械学習によるクロニアン磁気圏再接続分類

Machine Learning Applications to Kronian Magnetospheric Reconnection Classification ( http://arxiv.org/abs/2104.00496v1 )

ライセンス: CC BY-SA 4.0
Tadhg M. Garton, Caitriona M. Jackman, Andy W. Smith, Kiley L. Yeakel, Shane A. Maloney and Jon Vandegriff(参考訳) 土星の磁気圏における磁気リコネクションの産物は、主に磁場の南北成分の特徴的な偏差を通して磁気センサ観測で同定される。 これらの磁気偏向は、観測衛星を急速に通過する再接続時に生じるプラズマ構造によって引き起こされる。 これらのシグネチャの同定は長い間目によって行われており、最近では半自動的な方法によって行われているが、これらの方法は必要な人間の検証ステップによって制限されることが多い。 本稿では,KRTP(Kronocentric radial-theta-phi)座標のカッシーニ探査機が観測した3つの磁場成分とクロニアン磁気圏における再結合の証拠を入力として,完全に自動化された教師付きニューラルネットワークモデルを提案する。 このモデルは、プラズモイド、進行する圧縮領域、双極子化に分類された合計2093の分類イベントを含む3年間の観測をカバーする再結合事象のカタログから構成されている。 このニューラルネットワークモデルは、2010年1月に高い精度(87%)、真のスキルスコア(0.76)、ハイドケスキルスコア(0.73)でテストされた大規模なカッシーニデータセットにおける再接続イベントを迅速に識別することができる。 このモデルから、カッシーニの土星近傍の磁気圏における磁気再結合現象の完全なカタログ化と検証が可能となった。

The products of magnetic reconnection in Saturn's magnetotail are identified in magnetometer observations primarily through characteristic deviations in the north-south component of the magnetic field. These magnetic deflections are caused by travelling plasma structures created during reconnection rapidly passing over the observing spacecraft. Identification of these signatures have long been performed by eye, and more recently through semi-automated methods, however these methods are often limited through a required human verification step. Here, we present a fully automated, supervised learning, feed forward neural network model to identify evidence of reconnection in the Kronian magnetosphere with the three magnetic field components observed by the Cassini spacecraft in Kronocentric radial-theta-phi (KRTP) coordinates as input. This model is constructed from a catalogue of reconnection events which covers three years of observations with a total of 2093 classified events, categorized into plasmoids, travelling compression regions and dipolarizations. This neural network model is capable of rapidly identifying reconnection events in large time-span Cassini datasets, tested against the full year 2010 with a high level of accuracy (87%), true skill score (0.76), and Heidke skill score (0.73). From this model, a full cataloguing and examination of magnetic reconnection events in the Kronian magnetosphere across Cassini's near Saturn lifetime is now possible.
翻訳日:2021-04-02 21:10:17 公開日:2021-04-01
# (参考訳) 時系列予測のためのモデル選択:異なる推定器の実証分析

Model Selection for Time Series Forecasting: Empirical Analysis of Different Estimators ( http://arxiv.org/abs/2104.00584v1 )

ライセンス: CC BY 4.0
Vitor Cerqueira, Luis Torgo, Carlos Soares(参考訳) 予測モデルの評価は予測分析において重要なタスクである。 このプロセスは、観察が時間的依存性を示す時系列データでは特に困難である。 いくつかの研究では、与えられた予測モデルによって生じる真の損失を近似するために、異なる性能推定方法が互いにどのように比較されるかを分析している。 しかしながら、これらの研究はモデル選択に対する推定者がどのように振る舞うかについて言及していない。 本稿では,時系列予測タスクにおけるモデル選択のための一連の推定手法を比較する。 我々は2つの主な質問に答えようとしている: (i) 推定者によって選択できる最良のモデルがどれくらいあるか; (ii) そうでない場合のパフォーマンス損失は何か。 実験の結果,最適解選択のための推定器の精度は低く,モデル選択過程に伴う全体的な予測性能の損失は1.2%から2.3%であることがわかった。 また,試料サイズなどいくつかの要因が,推定器の相対的性能において重要であることも分かった。

Evaluating predictive models is a crucial task in predictive analytics. This process is especially challenging with time series data where the observations show temporal dependencies. Several studies have analysed how different performance estimation methods compare with each other for approximating the true loss incurred by a given forecasting model. However, these studies do not address how the estimators behave for model selection: the ability to select the best solution among a set of alternatives. We address this issue and compare a set of estimation methods for model selection in time series forecasting tasks. We attempt to answer two main questions: (i) how often is the best possible model selected by the estimators; and (ii) what is the performance loss when it does not. We empirically found that the accuracy of the estimators for selecting the best solution is low, and the overall forecasting performance loss associated with the model selection process ranges from 1.2% to 2.3%. We also discovered that some factors, such as the sample size, are important in the relative performance of the estimators.
翻訳日:2021-04-02 20:48:53 公開日:2021-04-01
# (参考訳) 実世界深層学習におけるモデル選択の影響

Model Selection's Disparate Impact in Real-World Deep Learning Applications ( http://arxiv.org/abs/2104.00606v1 )

ライセンス: CC BY 4.0
Jessica Zosa Forde, A. Feder Cooper, Kweku Kwegyir-Aggrey, Chris De Sa and Michael Littman(参考訳) アルゴリズム的公平性は、自動決定結果におけるバイアスデータの役割を強調している。 最近、MLパイプラインの他のステージにおける公平性に関連するバイアスの源泉に注意が向けられている。 このような偏見の1つ、モデル選択における人間の嗜好は、人口集団間で異なる影響を及ぼす役割において、未解明のままである、と我々は主張する。 実世界の医療画像データに基づいてトレーニングされた深層学習モデルを用いて、我々の主張を実証的に検証し、モデル比較のためのメトリクスの選択は、モデル選択の結果を著しくバイアスできると主張する。

Algorithmic fairness has emphasized the role of biased data in automated decision outcomes. Recently, there has been a shift in attention to sources of bias that implicate fairness in other stages in the ML pipeline. We contend that one source of such bias, human preferences in model selection, remains under-explored in terms of its role in disparate impact across demographic groups. Using a deep learning model trained on real-world medical imaging data, we verify our claim empirically and argue that choice of metric for model comparison can significantly bias model selection outcomes.
翻訳日:2021-04-02 20:15:13 公開日:2021-04-01
# (参考訳) 透明物体の深さ補完のためのRGB-D局所インシシシット関数

RGB-D Local Implicit Function for Depth Completion of Transparent Objects ( http://arxiv.org/abs/2104.00622v1 )

ライセンス: CC BY 4.0
Luyang Zhu, Arsalan Mousavian, Yu Xiang, Hammad Mazhar, Jozef van Eenbergen, Shoubhik Debnath, Dieter Fox(参考訳) ロボット工学における知覚法の大部分は、RGB-Dカメラによって提供される深度情報を必要とする。 しかし、標準的な3Dセンサーは、屈折や光の吸収によって透明な物体の深さを捉えられない。 本稿では,単一のrgb-d画像から透明物体の奥行き補完を行う新しい手法を提案する。 このアプローチの鍵となるのは、ray-voxelペア上に構築された、局所的な暗黙的なニューラルネットワーク表現です。 この表現に基づいて、ノイズの多いRGB-D入力を伴って、欠損深さを完了できる新しいフレームワークを提案する。 さらに, 自己補正改良モデルを用いて, 深さ推定を反復的に改善する。 パイプライン全体をトレーニングするために、透明なオブジェクトを持つ大規模な合成データセットを構築します。 実験により,本手法は合成データと実データの両方において,現在の最先端手法よりも有意に優れた性能を示す。 さらに,提案手法は,従来のベストメソッドであるClearGraspと比較して,推論速度を20倍に向上させる。 コードとデータセットはhttps://research.nvidia.com/publication/2021-03_RGB-D-Local-Implicitで公開される。

Majority of the perception methods in robotics require depth information provided by RGB-D cameras. However, standard 3D sensors fail to capture depth of transparent objects due to refraction and absorption of light. In this paper, we introduce a new approach for depth completion of transparent objects from a single RGB-D image. Key to our approach is a local implicit neural representation built on ray-voxel pairs that allows our method to generalize to unseen objects and achieve fast inference speed. Based on this representation, we present a novel framework that can complete missing depth given noisy RGB-D input. We further improve the depth estimation iteratively using a self-correcting refinement model. To train the whole pipeline, we build a large scale synthetic dataset with transparent objects. Experiments demonstrate that our method performs significantly better than the current state-of-the-art methods on both synthetic and real world data. In addition, our approach improves the inference speed by a factor of 20 compared to the previous best method, ClearGrasp. Code and dataset will be released at https://research.nvidia.com/publication/2021-03_RGB-D-Local-Implicit.
翻訳日:2021-04-02 20:05:27 公開日:2021-04-01
# (参考訳) Fast DCTTS: 効率的な深層畳み込みテキスト音声合成

Fast DCTTS: Efficient Deep Convolutional Text-to-Speech ( http://arxiv.org/abs/2104.00624v1 )

ライセンス: CC BY 4.0
Minsu Kang, Jihyun Lee, Simin Kim and Injung Kim(参考訳) 本稿では,1つのCPUスレッド上で音声をリアルタイムに合成するエンドツーエンド音声合成器Fast DCTTSを提案する。 提案モデルは,複数のネットワーク削減と忠実度向上技術を適用した,慎重に調整された軽量ネットワークで構成されている。 さらに, 計算効率とゲーティング機構の正規化効果を両立させることのできる, 新たなグループ・ハイウェイの活性化手法を提案する。 また、出力メル-スペクトログラムの忠実度を測定するために、Elastic mel-cepstral distortion (EMCD)と呼ばれる新しい測定基準を導入する。 実験では,加速技術が速度および音声品質に与える影響を解析した。 ベースラインモデルと比較すると,MOSは2.62から2.74に改善され,計算量は1.76%,パラメータは2.75%であった。 シングルCPUスレッドの速度は7.45倍改善され、GPUなしでリアルタイムでメルスペクトルを生成することができる。

We propose an end-to-end speech synthesizer, Fast DCTTS, that synthesizes speech in real time on a single CPU thread. The proposed model is composed of a carefully-tuned lightweight network designed by applying multiple network reduction and fidelity improvement techniques. In addition, we propose a novel group highway activation that can compromise between computational efficiency and the regularization effect of the gating mechanism. As well, we introduce a new metric called Elastic mel-cepstral distortion (EMCD) to measure the fidelity of the output mel-spectrogram. In experiments, we analyze the effect of the acceleration techniques on speed and speech quality. Compared with the baseline model, the proposed model exhibits improved MOS from 2.62 to 2.74 with only 1.76% computation and 2.75% parameters. The speed on a single CPU thread was improved by 7.45 times, which is fast enough to produce mel-spectrogram in real time without GPU.
翻訳日:2021-04-02 19:46:16 公開日:2021-04-01
# (参考訳) 高濃度特徴を有する教師付き機械学習における正規化対象符号化は従来の手法を上回る

Regularized target encoding outperforms traditional methods in supervised machine learning with high cardinality features ( http://arxiv.org/abs/2104.00629v1 )

ライセンス: CC BY 4.0
Florian Pargent, Florian Pfisterer, Janek Thomas, Bernd Bischl(参考訳) ほとんどの機械学習(ML)アルゴリズムは数値入力用に設計されているため、分類変数を効率的に符号化することは、データ解析において重要な側面である。 しばしば遭遇する問題は高濃度の特徴である。 無秩序なカテゴリー予測変数で 多数のレベルがあります 分類変数の数値表現を導出する手法について検討し,その後のML応用に適用できることを示す。 これらのテクニックがその後のアルゴリズムの予測性能に与える影響に注目し、可能であれば、そのテクニックをいつ使うかのベストプラクティスを導き出す。 大規模ベンチマーク実験を行い,回帰,バイナリ,マルチクラス分類設定のデータセットを用いて,5つのmlアルゴリズム(lasso,random forest,gradient boosting,k-nearest neighbors, support vector machine)と異なる符号化戦略を比較した。 我々の研究全体を通して、ターゲットエンコーディングの正規化バージョン(すなわち、)。 新しい数値的特徴としてトレーニングセットの特徴レベルに基づく目標予測を使用することで、一貫して最高の結果が得られます。 整数にレベルをマップするために不合理な仮定をする伝統的なエンコーディング(例) 整数エンコーディング) またはレベル(おそらくターゲット情報に基づいて)の数を減少させる。 リーフエンコーディング) バイナリインジケータ変数(ワンホットまたはダミーエンコーディング)を作成する前には、あまり効果がなかった。

Because most machine learning (ML) algorithms are designed for numerical inputs, efficiently encoding categorical variables is a crucial aspect during data analysis. An often encountered problem are high cardinality features, i.e. unordered categorical predictor variables with a high number of levels. We study techniques that yield numeric representations of categorical variables which can then be used in subsequent ML applications. We focus on the impact of those techniques on a subsequent algorithm's predictive performance, and -- if possible -- derive best practices on when to use which technique. We conducted a large-scale benchmark experiment, where we compared different encoding strategies together with five ML algorithms (lasso, random forest, gradient boosting, k-nearest neighbours, support vector machine) using datasets from regression, binary- and multiclass- classification settings. Throughout our study, regularized versions of target encoding (i.e. using target predictions based on the feature levels in the training set as a new numerical feature) consistently provided the best results. Traditional encodings that make unreasonable assumptions to map levels to integers (e.g. integer encoding) or to reduce the number of levels (possibly based on target information, e.g. leaf encoding) before creating binary indicator variables (one-hot or dummy encoding) were not as effective.
翻訳日:2021-04-02 19:35:27 公開日:2021-04-01
# (参考訳) マイクロロボット制御のための残留モデル学習

Residual Model Learning for Microrobot Control ( http://arxiv.org/abs/2104.00631v1 )

ライセンス: CC BY 4.0
Joshua Gruenstein, Tao Chen, Neel Doshi, Pulkit Agrawal(参考訳) マイクロロボットの大部分は、従来のモデルベースコントローラの実用性を制限するため、分析的にモデル化が難しい適合材料を用いて構築されている。 マイクロロボットのデータ収集の課題とシミュレーションモデルと実際のロボット間の大きなエラーは、現在のモデルベース学習とシミュレート・トゥ・リアル・トランスファー手法の適用を困難にしている。 本稿では、近似モデルを利用して正確なロボットモデルの学習に伴うサンプルの複雑さを大幅に低減するフレームワーク残差モデル学習(RML)を提案する。 RMLを用いて、受動的に収集された12秒間の相互作用データを用いて、Harvard Ambulatory MicroRobot(HAMR)のモデルを学ぶことができる。 学習モデルは、モデルレス強化学習アルゴリズムを用いて歩行と回転の学習に「プロキシシミュレータ」として活用できるほど正確である。 RMLは、非常に少量のインタラクションデータから学習するための一般的なフレームワークを提供しており、我々のHAMRによる実験は、RMLが既存の技術を大幅に上回っていることを明らかに示しています。

A majority of microrobots are constructed using compliant materials that are difficult to model analytically, limiting the utility of traditional model-based controllers. Challenges in data collection on microrobots and large errors between simulated models and real robots make current model-based learning and sim-to-real transfer methods difficult to apply. We propose a novel framework residual model learning (RML) that leverages approximate models to substantially reduce the sample complexity associated with learning an accurate robot model. We show that using RML, we can learn a model of the Harvard Ambulatory MicroRobot (HAMR) using just 12 seconds of passively collected interaction data. The learned model is accurate enough to be leveraged as "proxy-simulator" for learning walking and turning behaviors using model-free reinforcement learning algorithms. RML provides a general framework for learning from extremely small amounts of interaction data, and our experiments with HAMR clearly demonstrate that RML substantially outperforms existing techniques.
翻訳日:2021-04-02 19:01:11 公開日:2021-04-01
# (参考訳) repose:6次元ポーズ推定のためのリアルタイム反復レンダリングと改良

RePOSE: Real-Time Iterative Rendering and Refinement for 6D Object Pose Estimation ( http://arxiv.org/abs/2104.00633v1 )

ライセンス: CC BY 4.0
Shun Iwase, Xingyu Liu, Rawal Khirodkar, Rio Yokota, Kris M. Kitani(参考訳) 反復的なポーズ補正は6次元オブジェクトポーズ推定のための重要な処理ステップであり、その性能は画像表現の選択に大きく依存する。 ディープ畳み込みニューラルネットワーク(CNN)によって学習された画像表現は、現在、オブジェクトキーポイント位置を堅牢にエンコードできるため、選択方法となっている。 しかし、cnnベースの画像表現は、入力画像に対して1回、レンダリングされた画像に対して複数回、深層ネットワークを用いて画像特徴を抽出する必要があるため、反復的なポーズ改善に使用する計算コストがかかる。 レンダリングされたRGB画像から画像特徴を抽出するためにCNNを使う代わりに、より深い特徴画像を直接描画することを提案する。 我々はこの深層テクスチャレンダリングと呼び、浅い多層パーセプトロンを使用して、オブジェクトのビュー不変の画像表現を直接回帰する。 ポーズの推定とテクスチャの深いレンダリングを用いて,画像表現を1ミリ秒未満でレンダリングする。 この画像表現は、微分可能なレバンス・マルカルト最適化ネットワークを追加し、6Dポーズアライメント誤差をバックプロパゲートすることにより、非線形6Dポーズ推定を容易に行えるように最適化されている。 本手法は6次元ポーズ推定のためのリアルタイム反復レンダリング・リファインメントアルゴリズムであるreposeと呼ぶ。 reposeは71fpsで動作し、occupion linemodデータセットで51.6%の最先端精度を達成している。これは以前の技術よりも4.1%の絶対的な改善であり、ycbビデオデータセットでの同等の性能で、他のポーズリファインメントメソッドよりもはるかに高速である。

The use of iterative pose refinement is a critical processing step for 6D object pose estimation, and its performance depends greatly on one's choice of image representation. Image representations learned via deep convolutional neural networks (CNN) are currently the method of choice as they are able to robustly encode object keypoint locations. However, CNN-based image representations are computational expensive to use for iterative pose refinement, as they require that image features are extracted using a deep network, once for the input image and multiple times for rendered images during the refinement process. Instead of using a CNN to extract image features from a rendered RGB image, we propose to directly render a deep feature image. We call this deep texture rendering, where a shallow multi-layer perceptron is used to directly regress a view invariant image representation of an object. Using an estimate of the pose and deep texture rendering, our system can render an image representation in under 1ms. This image representation is optimized such that it makes it easier to perform nonlinear 6D pose estimation by adding a differentiable Levenberg-Marquardt optimization network and back-propagating the 6D pose alignment error. We call our method, RePOSE, a Real-time Iterative Rendering and Refinement algorithm for 6D POSE estimation. RePOSE runs at 71 FPS and achieves state-of-the-art accuracy of 51.6% on the Occlusion LineMOD dataset - a 4.1% absolute improvement over the prior art, and comparable performance on the YCB-Video dataset with a much faster runtime than the other pose refinement methods.
翻訳日:2021-04-02 18:42:55 公開日:2021-04-01
# (参考訳) HLE-UPC at SemEval-2021 Task 5: Multi-Depth DistilBERT for Toxic Spans Detection

HLE-UPC at SemEval-2021 Task 5: Multi-Depth DistilBERT for Toxic Spans Detection ( http://arxiv.org/abs/2104.00639v1 )

ライセンス: CC BY 4.0
Rafel Palliser, Albert Rial(参考訳) 本稿ではSemEval-2021 Task 5: Toxic Spans Detectionについて述べる。 このタスクの目的は、テキストを有害にするスパンを検出することであり、これはいくつかの理由から複雑な作業である。 第一に、本質的な毒性の主観性、第二に、毒性が必ずしも侮辱や犯罪のような単一の言葉から来るのではなく、時には個人的に有害でない言葉によって形成された表現全体から生じる。 単一単語と多単語表現の両方に焦点をあてたこのアイデアに従えば、異なる層からの埋め込みを用いて最終的な毒性を推定するマルチディープス DistilBERT モデルがもたらす影響について検討する。 その結果,複数の深度からの情報を利用することで,モデルの性能が向上することが示唆された。 最後に,最良のモデルを定性的に分析する。

This paper presents our submission to SemEval-2021 Task 5: Toxic Spans Detection. The purpose of this task is to detect the spans that make a text toxic, which is a complex labour for several reasons. Firstly, because of the intrinsic subjectivity of toxicity, and secondly, due to toxicity not always coming from single words like insults or offends, but sometimes from whole expressions formed by words that may not be toxic individually. Following this idea of focusing on both single words and multi-word expressions, we study the impact of using a multi-depth DistilBERT model, which uses embeddings from different layers to estimate the final per-token toxicity. Our quantitative results show that using information from multiple depths boosts the performance of the model. Finally, we also analyze our best model qualitatively.
翻訳日:2021-04-02 18:04:49 公開日:2021-04-01
# (参考訳) frozen in time: エンド・ツー・エンド検索のためのジョイントビデオと画像エンコーダ

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval ( http://arxiv.org/abs/2104.00650v1 )

ライセンス: CC BY 4.0
Max Bain, Arsha Nagrani, G\"ul Varol, Andrew Zisserman(参考訳) 本研究の目的はビデオテキスト検索であり,特にテキストからビデオへの効率的な検索を可能にする組込みである。 この領域における課題は、視覚アーキテクチャの設計とトレーニングデータの性質であり、howto100mのような利用可能な大規模ビデオテキストトレーニングデータセットはうるさいため、大規模な計算によってのみ競合性能が達成される。 本稿ではこれらの課題に対処する。 本研究では,大規模画像と映像キャプションデータセットを併用したエンドツーエンドの学習モデルを提案する。 我々のモデルは、最近のViTおよびTimeformerアーキテクチャの適応と拡張であり、空間と時間の両方に注意を払っている。 モデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立して、あるいは共同でトレーニングすることができる。 ビデオの「凍った」スナップショットとして画像を扱うことから始まるカリキュラム学習スケジュールでトレーニングされ、ビデオデータセットでトレーニングされた場合、徐々に時間的コンテキストの増大に対応するように学習される。 また、新たにWebVid-2Mというビデオテキスト事前学習データセットも提供しています。 MSR-VTT, MSVD, DiDeMo, LSMDCなどの標準ダウンストリームビデオ検索ベンチマークにおいて, 精度の低いデータセットのトレーニングを行った結果, 最新の結果が得られた。

Our objective in this work is video-text retrieval - in particular a joint embedding that enables efficient text-to-video retrieval. The challenges in this area include the design of the visual architecture and the nature of the training data, in that the available large scale video-text training datasets, such as HowTo100M, are noisy and hence competitive performance is achieved only at scale through large amounts of compute. We address both these challenges in this paper. We propose an end-to-end trainable model that is designed to take advantage of both large-scale image and video captioning datasets. Our model is an adaptation and extension of the recent ViT and Timesformer architectures, and consists of attention in both space and time. The model is flexible and can be trained on both image and video text datasets, either independently or in conjunction. It is trained with a curriculum learning schedule that begins by treating images as 'frozen' snapshots of video, and then gradually learns to attend to increasing temporal context when trained on video datasets. We also provide a new video-text pretraining dataset WebVid-2M, comprised of over two million videos with weak captions scraped from the internet. Despite training on datasets that are an order of magnitude smaller, we show that this approach yields state-of-the-art results on standard downstream video-retrieval benchmarks including MSR-VTT, MSVD, DiDeMo and LSMDC.
翻訳日:2021-04-02 17:55:20 公開日:2021-04-01
# (参考訳) ビジネスプロセス管理自動化のための条件文認識と分割

Recognizing and Splitting Conditional Sentences for Automation of Business Processes Management ( http://arxiv.org/abs/2104.00660v1 )

ライセンス: CC BY 4.0
Ngoc Phuoc An Vo, Irene Manotas, Octavian Popescu, Algimantas Cerniauskas, Vadim Sheinin(参考訳) ビジネスプロセス管理(Business Process Management、BPM)は、ビジネスプロセスを発見し、分析し、再設計し、監視し、管理する分野である。 BPMの最も重要なタスクの1つは、文書からビジネスプロセスを発見し、モデル化することである。 本稿では,1) 専門文書から条件文を認識すること,2) 条件文から条件文と結果節を抽出する境界を見つけること,3) 結果節をアクションやコンシークエンスとして分類すること,そして,後にビジネスプロセスモデルにおける新たなステップを自動生成するのに役立つこと,からなるエンドツーエンドの問題を解決するシステムを提案する。 新しいデータセットを作成し、3つのモデルがこの問題を解決する。 最適モデルでは, 条件, 行動, 結果の抽出を行うために, 精度, リコール, F1に対して, 83.82, 87.84, 85.75の有望な結果を得た。

Business Process Management (BPM) is the discipline which is responsible for management of discovering, analyzing, redesigning, monitoring, and controlling business processes. One of the most crucial tasks of BPM is discovering and modelling business processes from text documents. In this paper, we present our system that resolves an end-to-end problem consisting of 1) recognizing conditional sentences from technical documents, 2) finding boundaries to extract conditional and resultant clauses from each conditional sentence, and 3) categorizing resultant clause as Action or Consequence which later helps to generate new steps in our business process model automatically. We created a new dataset and three models solve this problem. Our best model achieved very promising results of 83.82, 87.84, and 85.75 for Precision, Recall, and F1, respectively, for extracting Condition, Action, and Consequence clauses using Exact Match metric.
翻訳日:2021-04-02 17:34:01 公開日:2021-04-01
# (参考訳) ニューラルネットワーク翻訳蒸留データのサンプリングとフィルタリング

Sampling and Filtering of Neural Machine Translation Distillation Data ( http://arxiv.org/abs/2104.00664v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar(参考訳) ニューラルマシン翻訳の蒸留や盗みのシナリオのほとんどにおいて、目標はターゲットモデル(教師)のパフォーマンスを維持することである。 教師モデルの最も高い意味を持つ仮説は、新しいモデル(学生)の訓練によく用いられる。 参照翻訳も利用可能であれば、より良い仮説(参照に関して)がアップサンプリングされ、弱い仮説は削除またはアンダーサンプリングされる。 本稿では, 標準MT評価指標を用いて, 英語からチェコ語, 英語, ドイツ語のMTモデルへのランドスケープ(プルーニング, 仮説アップサンプリング, アンダーサンプリング, 重複, およびそれらの組み合わせ)の抽出の重要性について検討する。 注意深いアップサンプリングと元のデータの組み合わせは、オリジナルのデータや合成データ、あるいはそれらの直接的な組み合わせのトレーニングに比べて、パフォーマンスが向上することを示す。

In most of neural machine translation distillation or stealing scenarios, the goal is to preserve the performance of the target model (teacher). The highest-scoring hypothesis of the teacher model is commonly used to train a new model (student). If reference translations are also available, then better hypotheses (with respect to the references) can be upsampled and poor hypotheses either removed or undersampled. This paper explores the importance sampling method landscape (pruning, hypothesis upsampling and undersampling, deduplication and their combination) with English to Czech and English to German MT models using standard MT evaluation metrics. We show that careful upsampling and combination with the original data leads to better performance when compared to training only on the original or synthesized data or their direct combination.
翻訳日:2021-04-02 17:27:02 公開日:2021-04-01
# (参考訳) 病理画像解析のための深層多解辞書学習

Deep Multi-Resolution Dictionary Learning for Histopathology Image Analysis ( http://arxiv.org/abs/2104.00669v1 )

ライセンス: CC BY 4.0
Nima Hatami and Mohsin Bilal and Nasir Rajpoot(参考訳) 多ギガピクセルの組織像に存在する様々な種類の組織を認識する問題は、計算病理学のボトムアップ分析パラダイムにおいて、腫瘍微小環境の下流解析に重要な基礎的前提条件である。 本稿では組織像における組織表現型化の問題を解決するための深層辞書学習手法を提案する。 複数の空間解像度の深いテクスチャ記述子を活用するために,Deep Multi-Resolution Dictionary Learning (deepMRDL)を提案する。 提案手法の有効性は, 異なる臓器(大腸癌, 乳癌, 乳腺リンパ節)から得られた4つのベンチマーク組織像データセット, および課題(がんグレーディング, 組織表現型, 腫瘍検出, 組織型分類)を用いて実験的に検証した。 また,提案フレームワークは市販のCNNモデルの多くを用いて,効率的な深層テクスチャ記述子を生成することができることを示す。

The problem of recognizing various types of tissues present in multi-gigapixel histology images is an important fundamental pre-requisite for downstream analysis of the tumor microenvironment in a bottom-up analysis paradigm for computational pathology. In this paper, we propose a deep dictionary learning approach to solve the problem of tissue phenotyping in histology images. We propose deep Multi-Resolution Dictionary Learning (deepMRDL) in order to benefit from deep texture descriptors at multiple different spatial resolutions. We show the efficacy of the proposed approach through extensive experiments on four benchmark histology image datasets from different organs (colorectal cancer, breast cancer and breast lymphnodes) and tasks (namely, cancer grading, tissue phenotyping, tumor detection and tissue type classification). We also show that the proposed framework can employ most off-the-shelf CNNs models to generate effective deep texture descriptors.
翻訳日:2021-04-02 17:17:34 公開日:2021-04-01
# (参考訳) 局所条件ラミアンスフィールドを用いた無拘束シーン生成

Unconstrained Scene Generation with Locally Conditioned Radiance Fields ( http://arxiv.org/abs/2104.00670v1 )

ライセンス: CC BY 4.0
Terrance DeVries, Miguel Angel Bautista, Nitish Srivastava, Graham W. Taylor, Joshua M. Susskind(参考訳) 我々は,複雑で現実的な屋内シーンの配信を学ぶという課題に挑戦する。 本稿では,生成シーンネットワーク(GSN)を導入し,シーンを自由移動カメラからレンダリング可能な多数の局所放射場に分解する方法について述べる。 私たちのモデルは、新しいシーンの生成や、スパースな2d観察のみのシーンの完了に先立って使用することが可能です。 近年の研究では、放射場の生成モデルがマルチビュー一貫性やビュー依存照明などの特性をキャプチャできることが示されている。 しかし、これらのモデルは車や顔のような単一の物体の観察に特化している。 リアルな屋内環境の大きさと複雑さのため、既存のモデルはそれらを適切に捉えるための表現能力が欠けている。 本手法は,細部や多様性を保ちつつ,より大きく複雑なシーンにスケールし,観察した視点と大きく異なる視点から高品質なレンダリングを可能にする。 既存のモデルと比較すると、GSNは複数の異なるシーンデータセット間で定量的に高品質なシーンレンダリングを生成する。

We tackle the challenge of learning a distribution over complex, realistic, indoor scenes. In this paper, we introduce Generative Scene Networks (GSN), which learns to decompose scenes into a collection of many local radiance fields that can be rendered from a free moving camera. Our model can be used as a prior to generate new scenes, or to complete a scene given only sparse 2D observations. Recent work has shown that generative models of radiance fields can capture properties such as multi-view consistency and view-dependent lighting. However, these models are specialized for constrained viewing of single objects, such as cars or faces. Due to the size and complexity of realistic indoor environments, existing models lack the representational capacity to adequately capture them. Our decomposition scheme scales to larger and more complex scenes while preserving details and diversity, and the learned prior enables high-quality rendering from viewpoints that are significantly different from observed viewpoints. When compared to existing models, GSN produces quantitatively higher-quality scene renderings across several different scene datasets.
翻訳日:2021-04-02 16:57:49 公開日:2021-04-01
# (参考訳) クロスバリデーション(cross-validation): 見積もりはどのようなもので、どの程度うまく機能するのか?

Cross-validation: what does it estimate and how well does it do it? ( http://arxiv.org/abs/2104.00673v1 )

ライセンス: CC BY 4.0
Stephen Bates and Trevor Hastie and Robert Tibshirani(参考訳) クロスバリデーションは予測誤差を推定するために広く使われている手法であるが、その振る舞いは複雑であり、完全には理解されていない。 理想的には、クロスバリデーションがモデルの予測エラーを予測し、トレーニングデータに適合すると考える必要がある。 これは、通常の最小二乗に適合する線形モデルの場合ではなく、同じ集団から引き出された他の目に見えない訓練セットに適合するモデルの平均予測誤差を推定する。 さらに,データ分割,ブートストラップ,mallowのcpなど,予測誤差の最も一般的な推定値に対してこの現象が発生することを示す。 次に、クロスバリデーションから導かれる予測誤差の標準信頼区間は、所望のレベルをはるかに下回る範囲を持つ可能性がある。 各データポイントはトレーニングとテストの両方に使用されるため、各フォールドについて測定されたアキュラティの間に相関があり、通常の分散の推定は小さすぎる。 本研究では,この差分をより正確に推定するためのネスト型クロスバリデーション手法を導入し,従来のクロスバリデーション間隔が失敗する例の多くにおいて,この修正がほぼ正しいカバレッジを持つ間隔につながることを示す。 最後に,単純なデータ分割による予測精度のための信頼区間を生成する場合,信頼区間を無効にするため,結合データに対するモデルの再適合は避けるべきであることを示す。

Cross-validation is a widely-used technique to estimate prediction error, but its behavior is complex and not fully understood. Ideally, one would like to think that cross-validation estimates the prediction error for the model at hand, fit to the training data. We prove that this is not the case for the linear model fit by ordinary least squares; rather it estimates the average prediction error of models fit on other unseen training sets drawn from the same population. We further show that this phenomenon occurs for most popular estimates of prediction error, including data splitting, bootstrapping, and Mallow's Cp. Next, the standard confidence intervals for prediction error derived from cross-validation may have coverage far below the desired level. Because each data point is used for both training and testing, there are correlations among the measured accuracies for each fold, and so the usual estimate of variance is too small. We introduce a nested cross-validation scheme to estimate this variance more accurately, and show empirically that this modification leads to intervals with approximately correct coverage in many examples where traditional cross-validation intervals fail. Lastly, our analysis also shows that when producing confidence intervals for prediction accuracy with simple data splitting, one should not re-fit the model on the combined data, since this invalidates the confidence intervals.
翻訳日:2021-04-02 16:36:32 公開日:2021-04-01
# (参考訳) PhySG:物理に基づく材料編集とリライティングのための球面ガウスの逆レンダリング

PhySG: Inverse Rendering with Spherical Gaussians for Physics-based Material Editing and Relighting ( http://arxiv.org/abs/2104.00674v1 )

ライセンス: CC BY 4.0
Kai Zhang, Fujun Luan, Qianqian Wang, Kavita Bala, Noah Snavely(参考訳) 本稿では,完全微分可能なレンダラを備え,rgb入力画像から形状,材料,照明をスクラッチから再構築可能な,エンドツーエンドの逆レンダリングパイプラインphysgを提案する。 本手法は球状ガウスの混合物を用いて鏡面brdfと環境照明を表現し,多層パーセプトロンとしてパラメータ化された符号付き距離関数として幾何学を表現する。 球面ガウシアンを用いることで、光輸送の近似を効率的に解けるようになり、自然で静的な照明下で捉えた非ランベルト反射率に挑戦する場面で機能する。 我々は合成データと実データの両方を用いて,新しい視点のレンダリングを可能にするだけでなく,物質や照明の物理ベースの外観編集を可能にすることを実証した。

We present PhySG, an end-to-end inverse rendering pipeline that includes a fully differentiable renderer and can reconstruct geometry, materials, and illumination from scratch from a set of RGB input images. Our framework represents specular BRDFs and environmental illumination using mixtures of spherical Gaussians, and represents geometry as a signed distance function parameterized as a Multi-Layer Perceptron. The use of spherical Gaussians allows us to efficiently solve for approximate light transport, and our method works on scenes with challenging non-Lambertian reflectance captured under natural, static illumination. We demonstrate, with both synthetic and real data, that our reconstructions not only enable rendering of novel viewpoints, but also physics-based appearance editing of materials and illumination.
翻訳日:2021-04-02 16:35:15 公開日:2021-04-01
# (参考訳) ダイエットにNeRFを施す: 連続的に一貫性のあるFew-Shotビューの合成

Putting NeRF on a Diet: Semantically Consistent Few-Shot View Synthesis ( http://arxiv.org/abs/2104.00677v1 )

ライセンス: CC BY-SA 4.0
Ajay Jain and Matthew Tancik and Pieter Abbeel(参考訳) 数枚の画像から推定した3次元ニューラルシーン表現であるDietNeRFを提案する。 neural radiance fields (nerf) はマルチビュー一貫性を通じてシーンの連続的なボリューム表現を学習し、レイキャスティングによって新たな視点からレンダリングすることができる。 NeRFは、多くの画像が与えられた場合、幾何や細部を再構築する能力があり、360{\deg}のシーンに挑戦するためには最大100まであるが、わずかな入力ビューしか得られない場合、画像再構成の目的に対する退化的な解決策を見出すことが多い。 撮影品質を向上させるため,DietNeRFを提案する。 我々は,新しいポーズにおけるリアルなレンダリングを促進する補助的なセマンティック一貫性損失を導入する。 DietNeRFは、(1)同じポーズから与えられた入力ビューを正しくレンダリングし、(2)異なるランダムなポーズ間で高いレベルのセマンティック属性にマッチするように、個々のシーンでトレーニングされる。 意味喪失により任意のポーズからDietNeRFを監督することができます。 我々はこれらの意味をクリップなどの事前学習されたビジュアルエンコーダで抽出し,自然言語によるwebから抽出した何億もの多彩な2d写真から学習した視覚トランスフォーマである。 実験では、DietheNeRFは、スクラッチから学習した時に、わずかなショットビュー合成の知覚的品質を改善し、マルチビューデータセットで事前トレーニングされた際に、1つの観察画像で新しいビューをレンダリングすることができる。

We present DietNeRF, a 3D neural scene representation estimated from a few images. Neural Radiance Fields (NeRF) learn a continuous volumetric representation of a scene through multi-view consistency, and can be rendered from novel viewpoints by ray casting. While NeRF has an impressive ability to reconstruct geometry and fine details given many images, up to 100 for challenging 360{\deg} scenes, it often finds a degenerate solution to its image reconstruction objective when only a few input views are available. To improve few-shot quality, we propose DietNeRF. We introduce an auxiliary semantic consistency loss that encourages realistic renderings at novel poses. DietNeRF is trained on individual scenes to (1) correctly render given input views from the same pose, and (2) match high-level semantic attributes across different, random poses. Our semantic loss allows us to supervise DietNeRF from arbitrary poses. We extract these semantics using a pre-trained visual encoder such as CLIP, a Vision Transformer trained on hundreds of millions of diverse single-view, 2D photographs mined from the web with natural language supervision. In experiments, DietNeRF improves the perceptual quality of few-shot view synthesis when learned from scratch, can render novel views with as few as one observed image when pre-trained on a multi-view dataset, and produces plausible completions of completely unobserved regions.
翻訳日:2021-04-02 16:18:25 公開日:2021-04-01
# (参考訳) トランスフォーマによる無群3次元物体検出

Group-Free 3D Object Detection via Transformers ( http://arxiv.org/abs/2104.00678v1 )

ライセンス: CC BY 4.0
Ze Liu, Zheng Zhang, Yue Cao, Han Hu, Xin Tong(参考訳) 近年,3次元点雲からの3次元物体の直接検出が注目されている。 不規則なポイントクラウドからオブジェクト表現を抽出するために、既存のメソッドは通常、ポイントをオブジェクト候補に割り当てるためにポイントグループ化ステップを踏む。 しかし,手作りグルーピング方式による不正確な点割当ては,3次元物体検出の性能を低下させる。 本稿では,3次元点雲から直接3次元物体を検出できる簡易かつ効果的な方法を提案する。 各オブジェクト候補に局所的なポイントをグループ化する代わりに、この方法は、各ポイントの貢献がネットワークトレーニングで自動的に学習されるtransformers \cite{vaswani2017attention}の注意機構の助けを借りて、ポイントクラウド内のすべてのポイントからオブジェクトの特徴を計算する。 アテンション・スタッキング・スキームが改良され、異なる段階のオブジェクト特徴を融合させ、より正確なオブジェクト検出結果を生成する。 ベルやホイッスルが少なく,ScanNet V2とSUN RGB-Dの2つのベンチマークで最先端の3Dオブジェクト検出性能を実現する。 コードとモデルは \url{https://github.com/zeliu98/Group-Free-3D} で公開されている。

Recently, directly detecting 3D objects from 3D point clouds has received increasing attention. To extract object representation from an irregular point cloud, existing methods usually take a point grouping step to assign the points to an object candidate so that a PointNet-like network could be used to derive object features from the grouped points. However, the inaccurate point assignments caused by the hand-crafted grouping scheme decrease the performance of 3D object detection. In this paper, we present a simple yet effective method for directly detecting 3D objects from the 3D point cloud. Instead of grouping local points to each object candidate, our method computes the feature of an object from all the points in the point cloud with the help of an attention mechanism in the Transformers \cite{vaswani2017attention}, where the contribution of each point is automatically learned in the network training. With an improved attention stacking scheme, our method fuses object features in different stages and generates more accurate object detection results. With few bells and whistles, the proposed method achieves state-of-the-art 3D object detection performance on two widely used benchmarks, ScanNet V2 and SUN RGB-D. The code and models are publicly available at \url{https://github.com/zeliu98/Group-Free-3D}
翻訳日:2021-04-02 15:39:46 公開日:2021-04-01
# (参考訳) 細粒度分類のための半教師付き学習の現実的評価

A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained Classification ( http://arxiv.org/abs/2104.00679v1 )

ライセンス: CC BY 4.0
Jong-Chyi Su and Zezhou Cheng and Subhransu Maji(参考訳) そこで本研究では,クラス不均衡がかなり高く,新しいクラスの画像を含むリアルなベンチマークにおいて,半教師付き学習(SSL)の有効性を評価する。 本ベンチマークは,Aves分類とFungi分類から抽出した2つの詳細な分類データセットからなる。 最近提案されたSSLメソッドは大きなメリットがあり、ディープネットワークをゼロからトレーニングする際のパフォーマンスを向上させるために、クラス外のデータを効果的に利用することができる。 しかし、彼らのパフォーマンスは、いくつかの例から学ぶための代替アプローチであるトランスファーラーニングベースラインと比較すると劣っている。 さらに、転送設定では、既存のSSLメソッドは改善を提供するが、クラス外の存在はしばしば有害である。 この設定では、標準の微調整と蒸留ベースの自己訓練が最も堅牢である。 我々の研究は、現実的なデータセットの専門家による半教師付き学習が、現在文献で広く使われているものとは異なる戦略を必要とする可能性を示唆している。

We evaluate the effectiveness of semi-supervised learning (SSL) on a realistic benchmark where data exhibits considerable class imbalance and contains images from novel classes. Our benchmark consists of two fine-grained classification datasets obtained by sampling classes from the Aves and Fungi taxonomy. We find that recently proposed SSL methods provide significant benefits, and can effectively use out-of-class data to improve performance when deep networks are trained from scratch. Yet their performance pales in comparison to a transfer learning baseline, an alternative approach for learning from a few examples. Furthermore, in the transfer setting, while existing SSL methods provide improvements, the presence of out-of-class is often detrimental. In this setting, standard fine-tuning followed by distillation-based self-training is the most robust. Our work suggests that semi-supervised learning with experts on realistic datasets may require different strategies than those currently prevalent in the literature.
翻訳日:2021-04-02 15:22:52 公開日:2021-04-01
# (参考訳) LoFTR: 変圧器による検出不要な局所特徴マッチング

LoFTR: Detector-Free Local Feature Matching with Transformers ( http://arxiv.org/abs/2104.00680v1 )

ライセンス: CC BY 4.0
Jiaming Sun, Zehong Shen, Yuang Wang, Hujun Bao, Xiaowei Zhou(参考訳) 局所画像特徴マッチングのための新しい手法を提案する。 画像の特徴の検出,記述,マッチングを逐次行う代わりに,まず,粗いレベルでピクセルワイドなマッチングを確立し,その後,良好なマッチングを細かなレベルで洗練することを提案する。 文の検索にコストボリュームを用いる高密度な手法とは対照的に,トランスフォーマーの自己と横断的な注意層を用いて,両画像に条件付き特徴記述子を得る。 Transformerによって提供されるグローバルな受容場は、通常、特徴検出器が繰り返し可能な関心点を生成するのに苦労する低テクスチャ領域で密マッチングを生成することができる。 屋内および屋外のデータセットに関する実験では、LoFTRは最先端の手法よりも大きなマージンで優れていることが示された。 LoFTRはまた、公表された方法の中で、視覚的ローカライゼーションの2つの公開ベンチマークで第1位である。

We present a novel method for local image feature matching. Instead of performing image feature detection, description, and matching sequentially, we propose to first establish pixel-wise dense matches at a coarse level and later refine the good matches at a fine level. In contrast to dense methods that use a cost volume to search correspondences, we use self and cross attention layers in Transformer to obtain feature descriptors that are conditioned on both images. The global receptive field provided by Transformer enables our method to produce dense matches in low-texture areas, where feature detectors usually struggle to produce repeatable interest points. The experiments on indoor and outdoor datasets show that LoFTR outperforms state-of-the-art methods by a large margin. LoFTR also ranks first on two public benchmarks of visual localization among the published methods.
翻訳日:2021-04-02 15:06:04 公開日:2021-04-01
# (参考訳) NeuralRecon:モノクロビデオからのリアルタイムコヒーレント3D再構成

NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video ( http://arxiv.org/abs/2104.00681v1 )

ライセンス: CC BY 4.0
Jiaming Sun, Yiming Xie, Linghao Chen, Xiaowei Zhou, Hujun Bao(参考訳) 本稿では,モノクロ映像からのリアルタイム3次元シーン再構成のためのNeuralReconという新しいフレームワークを提案する。 各キーフレーム上で個別に一視点深度マップを推定し、後で融合させる従来の手法とは異なり、ニューラルネットワークにより、各ビデオフラグメントに対してスパースTSDFボリュームとして表される局所曲面を直接再構成することを提案する。 ゲートリカレントユニットに基づく学習ベースのTSDF融合モジュールは、ネットワークが以前のフラグメントから機能をフューズするために使用される。 この設計により、ネットワークは3d表面の前の局所的な滑らかさと大域的な形状を連続的に再現し、正確でコヒーレントでリアルタイムな表面再構成を可能にする。 ScanNetと7-Scenesのデータセットの実験により、我々のシステムは精度と速度の両方で最先端の手法より優れています。 我々の知る限りでは、これは、密集した3次元幾何学をリアルタイムで再構築できる最初の学習ベースシステムである。

We present a novel framework named NeuralRecon for real-time 3D scene reconstruction from a monocular video. Unlike previous methods that estimate single-view depth maps separately on each key-frame and fuse them later, we propose to directly reconstruct local surfaces represented as sparse TSDF volumes for each video fragment sequentially by a neural network. A learning-based TSDF fusion module based on gated recurrent units is used to guide the network to fuse features from previous fragments. This design allows the network to capture local smoothness prior and global shape prior of 3D surfaces when sequentially reconstructing the surfaces, resulting in accurate, coherent, and real-time surface reconstruction. The experiments on ScanNet and 7-Scenes datasets show that our system outperforms state-of-the-art methods in terms of both accuracy and speed. To the best of our knowledge, this is the first learning-based system that is able to reconstruct dense coherent 3D geometry in real-time.
翻訳日:2021-04-02 14:50:13 公開日:2021-04-01
# (参考訳) スパース・リワード課題に対するタッチベース好奇心

Touch-based Curiosity for Sparse-Reward Tasks ( http://arxiv.org/abs/2104.00442v1 )

ライセンス: CC BY 4.0
Sai Rajeswar, Cyril Ibrahim, Nitin Surya, Florian Golemo, David Vazquez, Aaron Courville, Pedro O. Pinheiro(参考訳) 多くの現実世界のロボットは、握り手の力/トルクセンサーにアクセスでき、触覚センサーは、接触に富む動きを伴うタスクにしばしば必要である。 本研究では,タッチフィードバックのミスマッチからサプライズを活用し,難解な強化学習タスクの探索を指導する。 当社のアプローチであるタッチベースの好奇心(toc)は、目に見えるオブジェクトのインタラクションがどのようなものであるかを学習します。 期待と経験が一致しない相互作用に報いることで、探索を奨励します。 提案手法では,タスクに依存しない最初の探索段階をタスク学習段階とし,元のインタラクションにタスク報酬を付与する。 我々は、タッチ集約型ロボットアームタスク(例)において、アプローチをテストする。 物体を押したり 扉を開けたり) これもこの作業の一部としてリリースします シミュレーション環境での複数の実験を通して,本手法は,疎い報酬と好奇心だけでこれらの困難な課題を学習できることを実証した。 クロスモーダルアプローチを単一モダリティ(タッチまたは視覚のみ)のアプローチや、他の好奇心に基づく手法と比較し、この手法がより良く、よりサンプル効率があることを確認します。

Robots in many real-world settings have access to force/torque sensors in their gripper and tactile sensing is often necessary in tasks that involve contact-rich motion. In this work, we leverage surprise from mismatches in touch feedback to guide exploration in hard sparse-reward reinforcement learning tasks. Our approach, Touch-based Curiosity (ToC), learns what visible objects interactions are supposed to "feel" like. We encourage exploration by rewarding interactions where the expectation and the experience don't match. In our proposed method, an initial task-independent exploration phase is followed by an on-task learning phase, in which the original interactions are relabeled with on-task rewards. We test our approach on a range of touch-intensive robot arm tasks (e.g. pushing objects, opening doors), which we also release as part of this work. Across multiple experiments in a simulated setting, we demonstrate that our method is able to learn these difficult tasks through sparse reward and curiosity alone. We compare our cross-modal approach to single-modality (touch- or vision-only) approaches as well as other curiosity-based methods and find that our method performs better and is more sample-efficient.
翻訳日:2021-04-02 14:13:35 公開日:2021-04-01
# ラベルの平滑化は本当に知識の蒸留とは相容れないか:実証的研究

Is Label Smoothing Truly Incompatible with Knowledge Distillation: An Empirical Study ( http://arxiv.org/abs/2104.00676v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Zechun Liu and Dejia Xu and Zitian Chen and Kwang-Ting Cheng and Marios Savvides(参考訳) 本研究はラベル平滑化が知識蒸留と相容れないという最近発見された視点を実証的に明らかにすることを目的としている。 まず,この不整合性向上の背景にある動機,すなわちラベルスムーズ化が教師のロジット間の相対情報を消去することから始める。 ラベルの平滑化が意味的に類似したクラスと異なるクラスの分布にどのように影響するか,新たな関連について述べる。 次に,サンプル表現における消去情報の度合いを定量的に測定する指標を提案する。 その後、画像分類、バイナリネットワーク、ニューラルマシン翻訳に関する大規模な分析、可視化、包括的な実験を通じて、その一方的側面と不完全性について研究する。 最後に,ラベル平滑化の効果が失われる状況について概説する。 プロジェクトページ: http://zhiqiangshen.com/projects/LS_and_KD/index.html

This work aims to empirically clarify a recently discovered perspective that label smoothing is incompatible with knowledge distillation. We begin by introducing the motivation behind on how this incompatibility is raised, i.e., label smoothing erases relative information between teacher logits. We provide a novel connection on how label smoothing affects distributions of semantically similar and dissimilar classes. Then we propose a metric to quantitatively measure the degree of erased information in sample's representation. After that, we study its one-sidedness and imperfection of the incompatibility view through massive analyses, visualizations and comprehensive experiments on Image Classification, Binary Networks, and Neural Machine Translation. Finally, we broadly discuss several circumstances wherein label smoothing will indeed lose its effectiveness. Project page: http://zhiqiangshen.com/projects/LS_and_KD/index.html.
翻訳日:2021-04-02 13:57:59 公開日:2021-04-01
# Storchastic: 一般的な確率的自動微分のためのフレームワーク

Storchastic: A Framework for General Stochastic Automatic Differentiation ( http://arxiv.org/abs/2104.00428v1 )

ライセンス: Link先を確認
Emile van Krieken, Jakub M. Tomczak, Annette ten Teije(参考訳) モデリング者は、勾配計算を定義することなく複雑なディープラーニングモデルを実装するために計算グラフの自動微分を使用する。 しかし、モデラーはしばしばサンプリング手法を用いて強化学習や変分推論のような難解な期待を推定する。 これらのサンプリングステップを通じて勾配を推定する現在の方法は限られており、連続確率変数と微分可能関数にのみ適用できるか、単純なが高分散スコア関数推定器しか使用できない。 このような制約を克服するために,確率計算グラフの自動微分のための新しいフレームワークであるstorchasticを紹介する。 storchasticでは、各サンプリングステップで様々な勾配推定方法を選択することで、勾配推定のばらつきを最適に低減することができる。 さらに,任意の次勾配の推定には確率論的に偏りがなく,分散還元法を高次勾配推定に一般化する。 最後に、PyTorchライブラリとしてStorchasticを実装します。

Modelers use automatic differentiation of computation graphs to implement complex Deep Learning models without defining gradient computations. However, modelers often use sampling methods to estimate intractable expectations such as in Reinforcement Learning and Variational Inference. Current methods for estimating gradients through these sampling steps are limited: They are either only applicable to continuous random variables and differentiable functions, or can only use simple but high variance score-function estimators. To overcome these limitations, we introduce Storchastic, a new framework for automatic differentiation of stochastic computation graphs. Storchastic allows the modeler to choose from a wide variety of gradient estimation methods at each sampling step, to optimally reduce the variance of the gradient estimates. Furthermore, Storchastic is provably unbiased for estimation of any-order gradients, and generalizes variance reduction techniques to higher-order gradient estimates. Finally, we implement Storchastic as a PyTorch library.
翻訳日:2021-04-02 13:57:44 公開日:2021-04-01
# Avalanche: 継続的学習のためのエンドツーエンドライブラリ

Avalanche: an End-to-End Library for Continual Learning ( http://arxiv.org/abs/2104.00405v1 )

ライセンス: Link先を確認
Vincenzo Lomonaco, Lorenzo Pellegrini, Andrea Cossu, Antonio Carta, Gabriele Graffieti, Tyler L. Hayes, Matthias De Lange, Marc Masana, Jary Pomponi, Gido van de Ven, Martin Mundt, Qi She, Keiland Cooper, Jeremy Forest, Eden Belouadah, Simone Calderara, German I. Parisi, Fabio Cuzzolin, Andreas Tolias, Simone Scardapane, Luca Antiga, Subutai Amhad, Adrian Popescu, Christopher Kanan, Joost van de Weijer, Tinne Tuytelaars, Davide Bacciu, Davide Maltoni(参考訳) 非定常データストリームから継続的に学習することは長年の目標であり、機械学習の課題である。 近年,特に深層学習コミュニティにおいて,継続的な学習への関心が高まっている。 しかし、アルゴリズム的なソリューションは、標準ベンチマークの結果でさえ再現が難しい異なる設定で再実装、評価、移植することがしばしば困難である。 本稿では,pytorchに基づく継続的学習研究のためのオープンソースライブラリであるavalancheを提案する。 avalancheは、継続的学習アルゴリズムの高速プロトタイピング、トレーニング、再現可能な評価のための共有かつ協調的なコードベースを提供するように設計されている。

Learning continually from non-stationary data streams is a long-standing goal and a challenging problem in machine learning. Recently, we have witnessed a renewed and fast-growing interest in continual learning, especially within the deep learning community. However, algorithmic solutions are often difficult to re-implement, evaluate and port across different settings, where even results on standard benchmarks are hard to reproduce. In this work, we propose Avalanche, an open-source end-to-end library for continual learning research based on PyTorch. Avalanche is designed to provide a shared and collaborative codebase for fast prototyping, training, and reproducible evaluation of continual learning algorithms.
翻訳日:2021-04-02 13:57:28 公開日:2021-04-01
# ビデオからの半教師あり学習のためのマルチビュー擬似ラベル

Multiview Pseudo-Labeling for Semi-supervised Learning from Video ( http://arxiv.org/abs/2104.00682v1 )

ライセンス: Link先を確認
Bo Xiong, Haoqi Fan, Kristen Grauman, Christoph Feichtenhofer(参考訳) 映像における半教師あり学習のための外観情報と動き情報という形態の相補的なビューを利用する新しいフレームワークである,ビデオ学習に対する多視点擬似ラベル方式を提案する。 補完的なビューは、純粋な教師なしデータよりも強力なビデオ表現を学ぶために、ラベルなしビデオの信頼性の高い擬似ラベルを得るのに役立つ。 提案手法は複数のビューを対象とするが,出現と動きの入力間で共有されるモデルを学習するので,設計上,推論時に計算オーバーヘッドを発生しない。 複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。

We present a multiview pseudo-labeling approach to video learning, a novel framework that uses complementary views in the form of appearance and motion information for semi-supervised learning in video. The complementary views help obtain more reliable pseudo-labels on unlabeled video, to learn stronger video representations than from purely supervised data. Though our method capitalizes on multiple views, it nonetheless trains a model that is shared across appearance and motion input and thus, by design, incurs no additional computation overhead at inference time. On multiple video recognition datasets, our method substantially outperforms its supervised counterpart, and compares favorably to previous work on standard benchmarks in self-supervised video representation learning.
翻訳日:2021-04-02 13:57:17 公開日:2021-04-01
# 正常対adversarial--関係抽出のためのadversarial sampleの解析

Normal vs. Adversarial: Salience-based Analysis of Adversarial Samples for Relation Extraction ( http://arxiv.org/abs/2104.00312v1 )

ライセンス: Link先を確認
Luoqiu Li, Xiang Chen, Ningyu Zhang, Shumin Deng, Xin Xie, Chuanqi Tan, Mosha Chen, Fei Huang, Huajun Chen(参考訳) 最近のニューラルベース関係抽出アプローチは、ベンチマークデータセットで有望な改善を達成しているが、敵攻撃に対する脆弱性を報告している。 今のところ、主に敵のサンプルの生成や敵の攻撃の防御に焦点を当てているが、通常のサンプルと敵のサンプルの違いについてはほとんど分かっていない。 そこで本研究では, 塩分に基づく手法を応用し, その逆のサンプルを解析する第一歩を踏み出す。 その結果,サリエンストークンは逆方向の摂動と直接相関していることがわかった。 さらに,相手の摂動は,訓練セットに存在しないトークンか,関係ラベルに関連付けられた表面的手がかりかを見いだす。 ある程度は、我々のアプローチは、敵のサンプルに対するキャラクターを明らかにします。 オープンソースのテストベッド“DiagnoseAdv”をリリースします。

Recent neural-based relation extraction approaches, though achieving promising improvement on benchmark datasets, have reported their vulnerability towards adversarial attacks. Thus far, efforts mostly focused on generating adversarial samples or defending adversarial attacks, but little is known about the difference between normal and adversarial samples. In this work, we take the first step to leverage the salience-based method to analyze those adversarial samples. We observe that salience tokens have a direct correlation with adversarial perturbations. We further find the adversarial perturbations are either those tokens not existing in the training set or superficial cues associated with relation labels. To some extent, our approach unveils the characters against adversarial samples. We release an open-source testbed, "DiagnoseAdv".
翻訳日:2021-04-02 13:56:57 公開日:2021-04-01
# wakavt:和歌生成のための逐次変分トランスフォーマ

WakaVT: A Sequential Variational Transformer for Waka Generation ( http://arxiv.org/abs/2104.00426v1 )

ライセンス: Link先を確認
Yuka Takeishi, Mingxuan Niu, Jing Luo, Zhong Jin, Xinyu Yang(参考訳) 詩の生成は人工知能にとって長年の課題だった。 和歌世代においては、俳句世代に注目する研究者も多いが、和歌世代に注目する研究者は少ない。 日本語詩作成における自然言語生成システムの創造的可能性を探るため,ユーザが指定したキーワードを自動生成する新たな和歌生成モデルであるWakaVTを提案する。 まず, 形状制約を満たすために, 加法マスクに基づくアプローチを提案する。 次に、トランスと変分オートエンコーダの構造を一体化し、生成コンテンツの品質を高める。 特に,新鮮さと多様性を得るために,若さデータにおける単語レベルの変動を効果的にキャプチャする潜伏変数列を用いる。 さらに,フラレンシー,コヒーレンス,有意義性の観点から言語品質を向上させるために,和歌の階層的言語構造を適切にモデル化する融合多レベル自己照応機構を提案する。 我々の知る限りでは、トランスフォーマおよび/または変分オートエンコーダに基づくモデルによる和歌生成を最初に調査する。 客観評価の結果と主観評価の結果は,本モデルがベースラインを著しく上回ることを示した。

Poetry generation has long been a challenge for artificial intelligence. In the scope of Japanese poetry generation, many researchers have paid attention to Haiku generation, but few have focused on Waka generation. To further explore the creative potential of natural language generation systems in Japanese poetry creation, we propose a novel Waka generation model, WakaVT, which automatically produces Waka poems given user-specified keywords. Firstly, an additive mask-based approach is presented to satisfy the form constraint. Secondly, the structures of Transformer and variational autoencoder are integrated to enhance the quality of generated content. Specifically, to obtain novelty and diversity, WakaVT employs a sequence of latent variables, which effectively captures word-level variability in Waka data. To improve linguistic quality in terms of fluency, coherence, and meaningfulness, we further propose the fused multilevel self-attention mechanism, which properly models the hierarchical linguistic structure of Waka. To the best of our knowledge, we are the first to investigate Waka generation with models based on Transformer and/or variational autoencoder. Both objective and subjective evaluation results demonstrate that our model outperforms baselines significantly.
翻訳日:2021-04-02 13:56:44 公開日:2021-04-01
# アフリカ言語の名前資源のためのウィキデータマイニング

Mining Wikidata for Name Resources for African Languages ( http://arxiv.org/abs/2104.00558v1 )

ライセンス: Link先を確認
Jonne S\"alev\"a and Constantine Lignos(参考訳) この研究は、共通のエンティティタイプ(個人、場所、組織)に対応するウィキデータ由来の名前リストのリソースを提供することで、アフリカの言語のための言語技術のさらなる発展を支援する。 Wikidataを名簿として最初に発掘したわけではないが、我々のアプローチはスケーラビリティと複製性を強調し、ラテン文字を使用しない言語におけるデータ品質の問題に対処する。 28のアフリカの言語で 約9千万の名前をリストしています 我々は、データ、それを生成するのに使われたプロセス、その制限を説明し、公開のためにソフトウェアとデータを提供する。 最後に,この資源を生産する上での倫理的考察と,その類型について論じる。

This work supports further development of language technology for the languages of Africa by providing a Wikidata-derived resource of name lists corresponding to common entity types (person, location, and organization). While we are not the first to mine Wikidata for name lists, our approach emphasizes scalability and replicability and addresses data quality issues for languages that do not use Latin scripts. We produce lists containing approximately 1.9 million names across 28 African languages. We describe the data, the process used to produce it, and its limitations, and provide the software and data for public use. Finally, we discuss the ethical considerations of producing this resource and others of its kind.
翻訳日:2021-04-02 13:56:27 公開日:2021-04-01
# 実世界情報ニーズに対するエビデンスに基づく検証

Evidence-based Verification for Real World Information Needs ( http://arxiv.org/abs/2104.00640v1 )

ライセンス: Link先を確認
James Thorne, Max Glockner, Gisela Vallejo, Andreas Vlachos, Iryna Gurevych(参考訳) クレーム検証は、証拠に対する文書の妥当性を予測するタスクである。 従来の大規模データセットでは、タスクを分類としてモデル化したり、証拠の取得の必要性を無視したり、研究目的のために構築されたりする。 本稿では,実世界の情報ニーズを表す証拠を付加した10,987件のクレームを検索エンジンクエリから抽出した新たなクレーム検証データセットを提案する。 それぞれの主張について、Wikipediaの全記事から、セクションと文レベルの粒度の両方でアノテートする。 本アノテーションは,姿勢分類と証拠抽出と補足認識の2つの補完的アプローチの比較を可能にする。 総合評価では,この2つのアプローチの精度に有意な差は認められなかった。 これにより,クレームの妥当性を予測した場合の正確性を維持しつつ,エンドユーザーの根拠を要約するためにエビデンス抽出を利用することができる。 数百の文を含む難解な主張と証拠文書によって、我々のデータセットは、過去の研究で捉えられなかった興味深い課題を、トランスファーラーニング実験を通じて提示する。 このタスクに関するさらなる研究をサポートするために、コードとデータをリリースします。

Claim verification is the task of predicting the veracity of written statements against evidence. Previous large-scale datasets model the task as classification, ignoring the need to retrieve evidence, or are constructed for research purposes, and may not be representative of real-world needs. In this paper, we introduce a novel claim verification dataset with instances derived from search-engine queries, yielding 10,987 claims annotated with evidence that represent real-world information needs. For each claim, we annotate evidence from full Wikipedia articles with both section and sentence-level granularity. Our annotation allows comparison between two complementary approaches to verification: stance classification, and evidence extraction followed by entailment recognition. In our comprehensive evaluation, we find no significant difference in accuracy between these two approaches. This enables systems to use evidence extraction to summarize a rationale for an end-user while maintaining the accuracy when predicting a claim's veracity. With challenging claims and evidence documents containing hundreds of sentences, our dataset presents interesting challenges that are not captured in previous work -- evidenced through transfer learning experiments. We release code and data to support further research on this task.
翻訳日:2021-04-02 13:56:18 公開日:2021-04-01
# Blur Kernel Spaceによる画像劣化の探索

Explore Image Deblurring via Blur Kernel Space ( http://arxiv.org/abs/2104.00317v1 )

ライセンス: Link先を確認
Phong Tran and Anh Tran and Quynh Phung and Minh Hoai(参考訳) 本稿では,鮮明な画像対の任意のデータセットのぼやけた演算子を,ぼやけたカーネル空間に符号化する手法を提案する。 In-the-wild blur operator にエンコードされたカーネル空間が十分近いと仮定し、ブラインド画像の劣化に対する交互最適化アルゴリズムを提案する。 符号化された空間内のカーネルによって見えないぼかし演算子を近似し、対応するシャープイメージを検索する。 最近のディープラーニングベースの手法と異なり、システムは目に見えないぼかしのカーネルを処理できるが、古典的な手法でよく見られるぼかし演算子の複雑な手作りの事前処理は回避できる。 この手法の設計のため、符号化されたカーネル空間は完全に微分可能であり、ディープニューラルネットワークモデルに容易に適用できる。 さらに、任意のデータセットから既存のぼかし演算子を新しいドメインに転送することで、ぼかし合成に使用できる。 最後に,提案手法の有効性を確認する実験結果を提供する。

This paper introduces a method to encode the blur operators of an arbitrary dataset of sharp-blur image pairs into a blur kernel space. Assuming the encoded kernel space is close enough to in-the-wild blur operators, we propose an alternating optimization algorithm for blind image deblurring. It approximates an unseen blur operator by a kernel in the encoded space and searches for the corresponding sharp image. Unlike recent deep-learning-based methods, our system can handle unseen blur kernel, while avoiding using complicated handcrafted priors on the blur operator often found in classical methods. Due to the method's design, the encoded kernel space is fully differentiable, thus can be easily adopted in deep neural network models. Moreover, our method can be used for blur synthesis by transferring existing blur operators from a given dataset into a new domain. Finally, we provide experimental results to confirm the effectiveness of the proposed method.
翻訳日:2021-04-02 13:56:00 公開日:2021-04-01
# マルチ時間センチネル-2衛星画像を用いた土地被覆分類のための自己注意型ネットワークのドメイン逆トレーニング

Domain-Adversarial Training of Self-Attention Based Networks for Land Cover Classification using Multi-temporal Sentinel-2 Satellite Imagery ( http://arxiv.org/abs/2104.00564v1 )

ライセンス: Link先を確認
Martini Mauro, Vittorio Mazzia, Aleem Khaliq, Marcello Chiaberge(参考訳) 大規模リモートセンシングラベル付きデータの利用が増加し、研究者は土地被覆と作物分類(LC&CC)の正確で正確なデータ駆動モデルを開発するようになった。 さらに,自己アテンションとイントロスペクション機構の導入により,深層学習手法は,多スペクトル領域における長時間の時系列処理において,計算要求を含む有望な結果を示した。 それにもかかわらず、ほとんどの実用的なアプリケーションはラベル付きデータに依存しておらず、この分野では、調査は収集されたサンプル数に厳格な制限を与える時間消費ソリューションである。 さらに、大気条件と特定の地理的領域特性は、その領域に利用可能なデータセットでトレーニングされたモデルの直接適用を許さない、関連する領域間隙を構成する。 本稿では,異なる地理的領域間の領域差を橋渡しするディープニューラルネットワークの対角トレーニングについて検討する。 特に,マルチスペクトル・マルチ時間データに対するドメイン適応の徹底的な解析を行い,ラベル付きデータが利用できない異なるターゲット領域にLC&CCの最先端自己注意モデルを適用する利点を正確に強調する。 広汎な実験により,抽出した特徴の分布に顕著な相違が認められたソース領域とターゲット領域にドメイン・アドバイザリ・トレーニングを適用した。

The increasing availability of large-scale remote sensing labeled data has prompted researchers to develop increasingly precise and accurate data-driven models for land cover and crop classification (LC&CC). Moreover, with the introduction of self-attention and introspection mechanisms, deep learning approaches have shown promising results in processing long temporal sequences in the multi-spectral domain with a contained computational request. Nevertheless, most practical applications cannot rely on labeled data, and in the field, surveys are a time consuming solution that poses strict limitations to the number of collected samples. Moreover, atmospheric conditions and specific geographical region characteristics constitute a relevant domain gap that does not allow direct applicability of a trained model on the available dataset to the area of interest. In this paper, we investigate adversarial training of deep neural networks to bridge the domain discrepancy between distinct geographical zones. In particular, we perform a thorough analysis of domain adaptation applied to challenging multi-spectral, multi-temporal data, accurately highlighting the advantages of adapting state-of-the-art self-attention based models for LC&CC to different target zones where labeled data are not available. Extensive experimentation demonstrated significant performance and generalization gain in applying domain-adversarial training to source and target regions with marked dissimilarities between the distribution of extracted features.
翻訳日:2021-04-02 13:55:45 公開日:2021-04-01
# 南アフリカの言語に対する低リソースニューラルマシン翻訳

Low-Resource Neural Machine Translation for South-Eastern African Languages ( http://arxiv.org/abs/2104.00366v1 )

ライセンス: Link先を確認
Evander Nyoni and Bruce A. Bassett(参考訳) 低リソースのアフリカの言語は、データ不足のため、ニューラルマシン翻訳の進歩から完全には恩恵を受けていない。 この課題に動機づけられて、3つのバントゥー語(shona、isixhosa、isizulu)と英語でゼロショット学習、転送学習、多言語学習を比較した。 私たちの主なターゲットは英語からイシズル語への翻訳で、たった3万文のペアで、私たちの他のコーパスの平均サイズの28%です。 BLEUスコアが5.2の英語-isi-Xhosaと英語-isi-Shona親モデルに基づく英-isi-Zulu変換学習における言語類似性の重要性を示す。 次に,多言語学習がデータ集合の転送学習とゼロショット学習の両方を上回っており,ベースラインである9.9,6.1,2.0に比べてbleuスコアが向上していることを示す。 我々の最良のモデルは、以前のSOTA BLEUスコアも10以上改善します。

Low-resource African languages have not fully benefited from the progress in neural machine translation because of a lack of data. Motivated by this challenge we compare zero-shot learning, transfer learning and multilingual learning on three Bantu languages (Shona, isiXhosa and isiZulu) and English. Our main target is English-to-isiZulu translation for which we have just 30,000 sentence pairs, 28% of the average size of our other corpora. We show the importance of language similarity on the performance of English-to-isiZulu transfer learning based on English-to-isiXhosa and English-to-Shona parent models whose BLEU scores differ by 5.2. We then demonstrate that multilingual learning surpasses both transfer learning and zero-shot learning on our dataset, with BLEU score improvements relative to the baseline English-to-isiZulu model of 9.9, 6.1 and 2.0 respectively. Our best model also improves the previous SOTA BLEU score by more than 10.
翻訳日:2021-04-02 13:55:21 公開日:2021-04-01
# グループベースサブセットスキャンによる生成モデルの創造性評価

Towards creativity characterization of generative models via group-based subset scanning ( http://arxiv.org/abs/2104.00479v1 )

ライセンス: Link先を確認
Celia Cintas, Payel Das, Brian Quanz, Skyler Speakman, Victor Akinwande, Pin-Yu Chen(参考訳) 変分オートエンコーダ(VAE)のような深い生成モデルは、計算創造性の研究に広く用いられている。 しかし、そのようなモデルは、散在的生成を妨げ、散発的なサンプル生成を回避し、創造性を制限している。 このように、人間の創造性の研究を生成的深層学習技術に取り入れることで、アウトプットをより魅力的で人間らしくする機会が得られる。 創造性研究に向けた生成モデルの出現を見る限り、これらのモデルから創造的なアウトプットを特徴づける機械学習ベースのサロゲートメトリクスの必要性は不可欠である。 生成モデルの隠れ層における異常なノードアクティベーションのサブセットを検出し,創造プロセスを定量化し,検出し,特徴付けるグループベースサブセットスキャンを提案する。 オリジナル、典型的にはデコードされ、「創造的にデコードされた」(das et al 2020)画像データセットを用いた実験により、提案するサブセットスコア分布は、画素空間よりも活性化空間における創造的プロセスの検出に有用であることが判明した。 さらに, 創造的なサンプルは, 通常のサンプルや非創造的なサンプルよりも大きな異常部分を生成することがわかった。 創造的復号プロセスで強調されるノードアクティベーションは、通常のサンプル生成に責任を持つものとは異なる。

Deep generative models, such as Variational Autoencoders (VAEs), have been employed widely in computational creativity research. However, such models discourage out-of-distribution generation to avoid spurious sample generation, limiting their creativity. Thus, incorporating research on human creativity into generative deep learning techniques presents an opportunity to make their outputs more compelling and human-like. As we see the emergence of generative models directed to creativity research, a need for machine learning-based surrogate metrics to characterize creative output from these models is imperative. We propose group-based subset scanning to quantify, detect, and characterize creative processes by detecting a subset of anomalous node-activations in the hidden layers of generative models. Our experiments on original, typically decoded, and "creatively decoded" (Das et al 2020) image datasets reveal that the proposed subset scores distribution is more useful for detecting creative processes in the activation space rather than the pixel space. Further, we found that creative samples generate larger subsets of anomalies than normal or non-creative samples across datasets. The node activations highlighted during the creative decoding process are different from those responsible for normal sample generation.
翻訳日:2021-04-02 13:54:01 公開日:2021-04-01
# 交通予測のためのベイズグラフ畳み込みネットワーク

Bayesian Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2104.00488v1 )

ライセンス: Link先を確認
Jun Fu, Wei Zhou, Zhibo Chen(参考訳) 近年,様々な注意に基づくメカニズムを用いてトラヒックデータから潜在グラフ構造を学習する適応グラフ畳み込みネットワークに基づくトラヒック予測手法が注目されている。 しかし,(1)道路網のトポロジーの先行性を無視すること,(2)否定的な空間的関係の存在を無視すること,(3)グラフ構造の不確実性に関する調査を欠くこと,などにより,交通条件間の空間的関係をよりよく記述できることは限られている。 本稿では,これらの問題を緩和するためのベイズグラフ畳み込みネットワーク(BGCN)フレームワークを提案する。 この枠組みの下では、グラフ構造はパラメトリック生成モデルからランダムな実現と見なされ、その後部は道路ネットワークと交通データの観測トポロジを用いて推定される。 特に、パラメトリック生成モデルは、(1)道路間の観測された物理的接続からベイズ的手法で潜在的な空間的関係を発見できる定数隣接行列、(2)交通データからエンドツーエンドでグローバル共有空間的相関を学習し、負の空間的相関をモデル化できる学習可能な隣接行列の2つの部分からなる。 グラフ構造の後部は、パラメトリックグラフ構造上でモンテカルロのドロップアウトを実行することで近似される。 実世界の5つのデータセットにおいて,本手法の有効性を検証し,bgcnが最先端の手法よりも優れた性能を達成できることを実験的に証明した。

Recently, adaptive graph convolutional network based traffic prediction methods, learning a latent graph structure from traffic data via various attention-based mechanisms, have achieved impressive performance. However, they are still limited to find a better description of spatial relationships between traffic conditions due to: (1) ignoring the prior of the observed topology of the road network; (2) neglecting the presence of negative spatial relationships; and (3) lacking investigation on uncertainty of the graph structure. In this paper, we propose a Bayesian Graph Convolutional Network (BGCN) framework to alleviate these issues. Under this framework, the graph structure is viewed as a random realization from a parametric generative model, and its posterior is inferred using the observed topology of the road network and traffic data. Specifically, the parametric generative model is comprised of two parts: (1) a constant adjacency matrix which discovers potential spatial relationships from the observed physical connections between roads using a Bayesian approach; (2) a learnable adjacency matrix that learns a global shared spatial correlations from traffic data in an end-to-end fashion and can model negative spatial correlations. The posterior of the graph structure is then approximated by performing Monte Carlo dropout on the parametric graph structure. We verify the effectiveness of our method on five real-world datasets, and the experimental results demonstrate that BGCN attains superior performance compared with state-of-the-art methods.
翻訳日:2021-04-02 13:53:39 公開日:2021-04-01
# NeRF-VAE:3次元シーン生成モデルを考慮した幾何学

NeRF-VAE: A Geometry Aware 3D Scene Generative Model ( http://arxiv.org/abs/2104.00587v1 )

ライセンス: Link先を確認
Adam R. Kosiorek, Heiko Strathmann, Daniel Zoran, Pol Moreno, Rosalia Schneider, So\v{n}a Mokr\'a, Danilo J. Rezende(参考訳) 本研究では,NeRFによる幾何学的構造を組み込んだ3次元シーン生成モデルNeRF-VAEを提案する。 NeRFとは対照的に、私たちのモデルはシーン間の共有構造を考慮しており、償却推論を使用して、新しいシーンの構造を -- 再トレーニングすることなく -- 推測することができる。 NeRF-VAEの明示的な3Dレンダリングプロセスは、幾何学的構造に欠ける畳み込みベースのレンダリングと、以前の生成モデルとはさらに対照的である。 我々のモデルは、レイディアンスフィールド上の分布を潜在シーン表現に条件付けすることで学習するVAEである。 一度訓練すると、NeRF-VAEは、非常に少ない入力画像を用いて、これまで見えない3D環境から幾何学的に一貫性のあるシーンを推測、描画できることを示す。 さらに、NeRF-VAEは、畳み込みモデルではあり得ないが、分布外カメラによく当てはまることを実証する。 最後に,NeRF-VAEデコーダのアテンションに基づくコンディショニング機構を導入し,モデル性能を向上させる。

We propose NeRF-VAE, a 3D scene generative model that incorporates geometric structure via NeRF and differentiable volume rendering. In contrast to NeRF, our model takes into account shared structure across scenes, and is able to infer the structure of a novel scene -- without the need to re-train -- using amortized inference. NeRF-VAE's explicit 3D rendering process further contrasts previous generative models with convolution-based rendering which lacks geometric structure. Our model is a VAE that learns a distribution over radiance fields by conditioning them on a latent scene representation. We show that, once trained, NeRF-VAE is able to infer and render geometrically-consistent scenes from previously unseen 3D environments using very few input images. We further demonstrate that NeRF-VAE generalizes well to out-of-distribution cameras, while convolutional models do not. Finally, we introduce and study an attention-based conditioning mechanism of NeRF-VAE's decoder, which improves model performance.
翻訳日:2021-04-02 13:53:13 公開日:2021-04-01
# 混合型合成データの保持率とプライバシー評価

Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic Data ( http://arxiv.org/abs/2104.00635v1 )

ライセンス: Link先を確認
Michael Platzer and Thomas Reutterer(参考訳) aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重する高忠実度データ共有を可能にするという約束がますます認識されている。 しかし、生成した合成データセットの品質を適切に評価することは、まだオープンな課題である。 混合型表データに対する合成データソリューションの信頼性とプライバシーリスクを定量化する,ホールトアウトに基づく経験的評価フレームワークを導入,実証する。 忠実度の測定は、低次元の辺縁分布の統計距離に基づいており、合成データセットの代表性のためにモデルフリーで共有しやすい経験的計量を提供する。 トレーニングデータに対して、個人レベルから最も近い記録までの距離を計算することにより、プライバシリスクを評価する。 合成サンプルがホールドアウトデータと同等のトレーニングであることを示すことにより、合成者が実際にパターンを一般化し、個々のトレーニングレコードから独立していることの強い証拠が得られる。 4つの混合型データセットにまたがる7つの異なる合成データソリューションのためのフレームワークを実証し、これらを従来の統計開示手法と比較する。 結果は、これらの新興の合成データジェネレータのプライバシーだけでなく、忠実度を体系的に評価する必要性を浮き彫りにしている。

AI-based data synthesis has seen rapid progress over the last several years, and is increasingly recognized for its promise to enable privacy-respecting high-fidelity data sharing. However, adequately evaluating the quality of generated synthetic datasets is still an open challenge. We introduce and demonstrate a holdout-based empirical assessment framework for quantifying the fidelity as well as the privacy risk of synthetic data solutions for mixed-type tabular data. Measuring fidelity is based on statistical distances of lower-dimensional marginal distributions, which provide a model-free and easy-to-communicate empirical metric for the representativeness of a synthetic dataset. Privacy risk is assessed by calculating the individual-level distances to closest record with respect to the training data. By showing that the synthetic samples are just as close to the training as to the holdout data, we yield strong evidence that the synthesizer indeed learned to generalize patterns and is independent of individual training records. We demonstrate the presented framework for seven distinct synthetic data solutions across four mixed-type datasets and compare these to more traditional statistical disclosure techniques. The results highlight the need to systematically assess the fidelity just as well as the privacy of these emerging class of synthetic data generators.
翻訳日:2021-04-02 13:52:54 公開日:2021-04-01
# ダイナミックサイロ:Covid-19パンデミック前後における組織内通信ネットワークのモジュール性

Dynamic Silos: Modularity in intra-organizational communication networks before and during the Covid-19 pandemic ( http://arxiv.org/abs/2104.00641v1 )

ライセンス: Link先を確認
Jonathan Larson, Tiona Zuzul, Emily Cox Pahnke, Neha Parikh Shah, Patrick Bourke, Nicholas Caurvina, Fereshteh Amini, Youngser Park, Joshua Vogelstein, Jeffrey Weston, Christopher White, and Carey E. Priebe(参考訳) 世界中の職場でのコミュニケーションは、Covid-19や在宅勤務、リモートワークの興隆によって大幅に変化した。 2019年から2020年までのネットワークコミュニティ構造の変化を調べるために、世界中の4000の組織で360億通以上のメールから集約された匿名化されたメタデータを分析しました。 2020年の間、世界中の組織はモジュール性の向上によって、よりサイロ化されていました。 このシフトは安定性の低下と並行しており、組織的サイロはメンバーシップが安定していなかったことを示している。 組織のパフォーマンスとイノベーションに対する、これらのネットワーク変更(動的サイロ)の影響に関する最初の洞察を提供する。

Workplace communications around the world were drastically altered by Covid-19, work-from-home orders, and the rise of remote work. We analyze aggregated, anonymized metadata from over 360 billion emails within over 4000 organizations worldwide to examine changes in network community structures from 2019 through 2020. We find that, during 2020, organizations around the world became more siloed, evidenced by increased modularity. This shift was concurrent with decreased stability, indicating that organizational siloes had less stable membership. We provide initial insights into the implications of these network changes -- which we term dynamic silos -- for organizational performance and innovation.
翻訳日:2021-04-02 13:52:35 公開日:2021-04-01
# リモートセンシングシーン分類のための小型マルチブランチアンサンブルネットワークにおける組込み自己蒸留

Embedded Self-Distillation in Compact Multi-Branch Ensemble Network for Remote Sensing Scene Classification ( http://arxiv.org/abs/2104.00222v1 )

ライセンス: Link先を確認
Qi Zhao, Yujing Ma, Shuchang Lyu, Lijiang Chen(参考訳) リモートセンシング(RS)画像シーン分類タスクは、異なる地理的要素の異なる特徴から干渉されるため、多くの課題に直面している。 そこで本研究では,最終出力ロジットと中間特徴マップの特徴を融合することにより特徴表現能力を向上させるマルチブランチアンサンブルネットワークを提案する。 しかし、単に分岐を追加するだけでモデルの複雑さが増し、推論効率が低下する。 本稿では, 自己蒸留(sd)法を組み込んで, アンサンブルネットワークからメインブランチへ知識を伝達する。 SDを最適化することで、メインブランチはアンサンブルネットワークとしての性能が向上する。 推論の間、モデル全体を単純化するために他のブランチをカットできます。 本稿では,エンド・ツー・エンドで訓練可能なコンパクトなマルチブランチアンサンブルネットワークを最初に設計する。 次に,出力ロジットと特徴マップにSD法を挿入する。 従来の手法と比較して,提案するアーキテクチャ (ESD-MBENet) は,コンパクトな設計による分類精度に強く依存する。 3つのベンチマークrsデータセットであるnwpu-resisc45とuc-mercedに対して、vgg16、resnet50、drknet121という3つの古典的なベースラインモデルによる広範な実験が行われた。 その結果,提案するESD-MBENetは従来のSOTAモデルよりも精度が高いことがわかった。 さらに, 豊富な可視化分析により, より説得力と解釈性が向上した。

Remote sensing (RS) image scene classification task faces many challenges due to the interference from different characteristics of different geographical elements. To solve this problem, we propose a multi-branch ensemble network to enhance the feature representation ability by fusing features in final output logits and intermediate feature maps. However, simply adding branches will increase the complexity of models and decline the inference efficiency. On this issue, we embed self-distillation (SD) method to transfer knowledge from ensemble network to main-branch in it. Through optimizing with SD, main-branch will have close performance as ensemble network. During inference, we can cut other branches to simplify the whole model. In this paper, we first design compact multi-branch ensemble network, which can be trained in an end-to-end manner. Then, we insert SD method on output logits and feature maps. Compared to previous methods, our proposed architecture (ESD-MBENet) performs strongly on classification accuracy with compact design. Extensive experiments are applied on three benchmark RS datasets AID, NWPU-RESISC45 and UC-Merced with three classic baseline models, VGG16, ResNet50 and DenseNet121. Results prove that our proposed ESD-MBENet can achieve better accuracy than previous state-of-the-art (SOTA) complex models. Moreover, abundant visualization analysis make our method more convincing and interpretable.
翻訳日:2021-04-02 13:51:51 公開日:2021-04-01
# LaPred: 動的エージェントのマルチモーダル未来軌道のレーン認識予測

LaPred: Lane-Aware Prediction of Multi-Modal Future Trajectories of Dynamic Agents ( http://arxiv.org/abs/2104.00249v1 )

ライセンス: Link先を確認
ByeoungDo Kim, Seong Hyeon Park, Seokhwan Lee, Elbek Khoshimjonov, Dongsuk Kum, Junsoo Kim, Jeong Soo Kim, Jun Won Choi(参考訳) 本稿では,動的エージェント(ターゲットエージェントと呼ばれる)の現在の状態と過去の状態と,その環境に関する情報から,将来的な動きを予測する問題に対処する。 ターゲットエージェントを取り巻く静的環境と動的環境の両方でコンテキスト情報を活用し,交通状況において意味のある多様な軌道サンプルを生成する予測モデルを開発することが最重要である。 本稿では,意味地図から抽出したインスタンスレベルのレーンエンティティを用いて,複数モーダルな将来の軌跡の予測を行う,LaPredネットワークと呼ばれる新しい予測モデルを提案する。 ターゲットエージェントの近傍にある各レーン候補に対して、lapredは、レーンと隣接するエージェントの軌道に関するジョイント特徴を抽出する。 そして、各レーン候補の特徴を、対象エージェントが追従する可能性のあるレーン候補を特定する自己教師学習タスクを通じて学習した注意重みと融合させる。 インスタンスレベルのレーン情報を用いて、LaPredは2次元ラスタ画像ベースの手法よりも環境に適合する軌道を生成し、複数のレーン候補が与えられた様々な将来の軌道を生成することができる。 公開nuScenesデータセットとArgoverseデータセットで実施された実験は、提案したLaPredメソッドが既存の予測モデルを大幅に上回り、ベンチマークで最先端のパフォーマンスを達成することを示した。

In this paper, we address the problem of predicting the future motion of a dynamic agent (called a target agent) given its current and past states as well as the information on its environment. It is paramount to develop a prediction model that can exploit the contextual information in both static and dynamic environments surrounding the target agent and generate diverse trajectory samples that are meaningful in a traffic context. We propose a novel prediction model, referred to as the lane-aware prediction (LaPred) network, which uses the instance-level lane entities extracted from a semantic map to predict the multi-modal future trajectories. For each lane candidate found in the neighborhood of the target agent, LaPred extracts the joint features relating the lane and the trajectories of the neighboring agents. Then, the features for all lane candidates are fused with the attention weights learned through a self-supervised learning task that identifies the lane candidate likely to be followed by the target agent. Using the instance-level lane information, LaPred can produce the trajectories compliant with the surroundings better than 2D raster image-based methods and generate the diverse future trajectories given multiple lane candidates. The experiments conducted on the public nuScenes dataset and Argoverse dataset demonstrate that the proposed LaPred method significantly outperforms the existing prediction models, achieving state-of-the-art performance in the benchmarks.
翻訳日:2021-04-02 13:51:29 公開日:2021-04-01
# ドメイン不変な逆学習

Domain Invariant Adversarial Learning ( http://arxiv.org/abs/2104.00322v1 )

ライセンス: Link先を確認
Matan Levi, Idan Attias, Aryeh Kontorovich(参考訳) 敵対的な例の発見は、ディープニューラルネットワークの最も基本的な脆弱性の1つを明らかにした。 この本質的な弱点に取り組むために導入された様々な技術の中で、敵対的訓練は堅牢性を達成するための最も一般的で効率的な戦略であることが示されている。 通常は、ロバストと自然の損失のバランスをとる。 本研究では,ドメイン不変の特徴表現を強制することによって,ロバストな性能と自然な性能のトレードオフを改善することを目的とする。 本稿では,ロバストかつ領域不変である特徴表現を学習する,ドメイン不変逆学習(dial)と呼ばれる新しい逆学習法を提案する。 DIALは、自然領域とその対応する敵領域上でDANN(Domain Adversarial Neural Network)の変種を使用する。 ソースドメインが自然例から成り、対象ドメインが逆摂動例である場合、本手法は自然例と敵対例とを区別しないように制約された特徴表現を学習し、より良い表現を実現する。 我々は,現在最先端の対人訓練法と比較して,頑健さと自然な精度を両立させることで,その利点を実証する。

The discovery of adversarial examples revealed one of the most basic vulnerabilities of deep neural networks. Among the variety of techniques introduced to tackle this inherent weakness, adversarial training was shown to be the most common and efficient strategy to achieve robustness. It is usually done by balancing the robust and natural losses. In this work, we aim to achieve better trade-off between robust and natural performances by enforcing a domain invariant feature representation. We present a new adversarial training method, called Domain Invariant Adversarial Learning (DIAL) that learns a feature representation which is both robust and domain invariant. DIAL uses a variant of Domain Adversarial Neural Network (DANN) on the natural domain and its corresponding adversarial domain. In a case where the source domain consists of natural examples and the target domain is the adversarially perturbed examples, our method learns a feature representation constrained not to discriminate between the natural and adversarial examples, and can therefore achieve better representation. We demonstrate our advantage by improving both robustness and natural accuracy compared to current state-of-the-art adversarial training methods.
翻訳日:2021-04-02 13:51:05 公開日:2021-04-01
# 意味空間認識GANを用いたテキストから画像生成

Text to Image Generation with Semantic-Spatial Aware GAN ( http://arxiv.org/abs/2104.00567v1 )

ライセンス: Link先を確認
Wentong Liao, Kai Hu, Michael Ying Yang, Bodo Rosenhahn(参考訳) text to image generation(t2i)モデルは、テキスト記述と意味的に一致するフォトリアリスティックな画像を生成することを目的としている。 GAN(Generative Adversarial Network)の最近の進歩に基づき、既存のT2Iモデルは大きな進歩を遂げた。 しかし, 生成した画像の綿密な検査では, 1) 条件バッチ正規化法は局所的意味論を無視した画像特徴マップ全体に等しく適用され, 2) テキストエンコーダは訓練中に固定され, 画像生成のためのより良いテキスト表現を学ぶために, 画像生成者と共同で訓練すべきである。 これらの制約に対処するために,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。 具体的には,(1)テキストに条件づけられた意味適応変換を学習し,テキストの特徴と画像特徴を効果的に融合し,(2)現在のテキスト・イメージ融合プロセスに依存する弱教師付き方法でマスクマップを学習し,空間的に変換を導く,新たな意味空間認識畳み込みネットワークを提案する。 難解なCOCOとCUBの鳥のデータセットに関する実験は、最近の最先端のアプローチに対して、視覚的忠実度と入力テキスト記述との整合性の両方に関して、我々の手法の利点を実証している。

A text to image generation (T2I) model aims to generate photo-realistic images which are semantically consistent with the text descriptions. Built upon the recent advances in generative adversarial networks (GANs), existing T2I models have made great progress. However, a close inspection of their generated images reveals two major limitations: (1) The condition batch normalization methods are applied on the whole image feature maps equally, ignoring the local semantics; (2) The text encoder is fixed during training, which should be trained with the image generator jointly to learn better text representations for image generation. To address these limitations, we propose a novel framework Semantic-Spatial Aware GAN, which is trained in an end-to-end fashion so that the text encoder can exploit better text information. Concretely, we introduce a novel Semantic-Spatial Aware Convolution Network, which (1) learns semantic-adaptive transformation conditioned on text to effectively fuse text features and image features, and (2) learns a mask map in a weakly-supervised way that depends on the current text-image fusion process in order to guide the transformation spatially. Experiments on the challenging COCO and CUB bird datasets demonstrate the advantage of our method over the recent state-of-the-art approaches, regarding both visual fidelity and alignment with input text description.
翻訳日:2021-04-02 13:50:46 公開日:2021-04-01
# simpoe:3次元ポーズ推定のためのシミュレート文字制御

SimPoE: Simulated Character Control for 3D Human Pose Estimation ( http://arxiv.org/abs/2104.00683v1 )

ライセンス: Link先を確認
Ye Yuan, Shih-En Wei, Tomas Simon, Kris Kitani, Jason Saragih(参考訳) 単眼ビデオからの3次元人間の運動の正確な推定には、運動学(身体運動)と運動学(身体運動)の両方をモデル化する必要がある。 これを実演するために,画像に基づく動力学的推論と物理に基づく動的モデリングを統合した3次元人文推定のためのシミュレーションベースのアプローチであるSimPoEを提案する。 SimPoEは、現在のフレームポーズ推定と次のイメージフレームを入力として、物理シミュレーションされた文字を制御して次のフレームポーズ推定を出力するポリシーを学ぶ。 このポリシーは、2Dキーポイントを使用して次のフレームのキネマティックポーズ推定を反復的に洗練する学習可能なキネマティックポーズ改善ユニットを含む。 この洗練されたキネマティックなポーズに基づいて、ポリシーはキャラクタのダイナミクスベースの制御(例えばジョイントトルク)を計算し、現在のポーズ推定を次のフレームのポーズ推定に進める。 この設計は、運動的ポーズリファインメントユニットとダイナミクスベースの制御生成ユニットを結合し、強化学習と共同で学習し、正確かつ物理的に評価可能なポーズ推定を実現する。 さらに,キャラクタの動特性パラメータをキャラクタの状態に基づいて動的に調整し,より正確なポーズ推定を行うメタ制御機構を提案する。 大規模動作データセットを用いた実験により,本手法が身体的妥当性を確保しつつ,精度を向上することを示す。

Accurate estimation of 3D human motion from monocular video requires modeling both kinematics (body motion without physical forces) and dynamics (motion with physical forces). To demonstrate this, we present SimPoE, a Simulation-based approach for 3D human Pose Estimation, which integrates image-based kinematic inference and physics-based dynamics modeling. SimPoE learns a policy that takes as input the current-frame pose estimate and the next image frame to control a physically-simulated character to output the next-frame pose estimate. The policy contains a learnable kinematic pose refinement unit that uses 2D keypoints to iteratively refine its kinematic pose estimate of the next frame. Based on this refined kinematic pose, the policy learns to compute dynamics-based control (e.g., joint torques) of the character to advance the current-frame pose estimate to the pose estimate of the next frame. This design couples the kinematic pose refinement unit with the dynamics-based control generation unit, which are learned jointly with reinforcement learning to achieve accurate and physically-plausible pose estimation. Furthermore, we propose a meta-control mechanism that dynamically adjusts the character's dynamics parameters based on the character state to attain more accurate pose estimates. Experiments on large-scale motion datasets demonstrate that our approach establishes the new state of the art in pose accuracy while ensuring physical plausibility.
翻訳日:2021-04-02 13:50:16 公開日:2021-04-01
# MIMO構造のためのデータ駆動最適化追従制御ヒューリスティック:バランスシステムのケーススタディ

Data-Driven Optimized Tracking Control Heuristic for MIMO Structures: A Balance System Case Study ( http://arxiv.org/abs/2104.00199v1 )

ライセンス: Link先を確認
Ning Wang, Mohammed Abouheaf, Wail Gueaieb(参考訳) データ駆動計算ヒューリスティックは、そのダイナミクスを事前に知ることなくmimoシステムを制御するために提案されている。 ヒューリスティックは、2入力の2出力バランスシステムで示される。 ニューラルネットワークとヒューリスティックを受け入れる自己調整型非線形しきい値を統合し、動的コスト関数を最適化しながら、システムの所望の過渡特性と定常特性を妥協する。 ヒューリスティックは、複数の相互作用するPID制御ループの制御ゲインを決定する。 ニューラルネットワークは、客観的コスト関数のような重み付き導関数の最適化を訓練する。 開発機構の性能は、PID-Riccatiを併用した他のコントローラと比較される。 提案された制御スキームの有意義な特徴の1つは、システムダイナミクスの事前知識を必要としないことである。 しかし、これらは最適化アルゴリズムによって探索空間として使用される制御ゲインの既知安定領域に依存している。 制御機構は異なる設計要件に対応する最適化基準を用いて検証される。

A data-driven computational heuristic is proposed to control MIMO systems without prior knowledge of their dynamics. The heuristic is illustrated on a two-input two-output balance system. It integrates a self-adjusting nonlinear threshold accepting heuristic with a neural network to compromise between the desired transient and steady state characteristics of the system while optimizing a dynamic cost function. The heuristic decides on the control gains of multiple interacting PID control loops. The neural network is trained upon optimizing a weighted-derivative like objective cost function. The performance of the developed mechanism is compared with another controller that employs a combined PID-Riccati approach. One of the salient features of the proposed control schemes is that they do not require prior knowledge of the system dynamics. However, they depend on a known region of stability for the control gains to be used as a search space by the optimization algorithm. The control mechanism is validated using different optimization criteria which address different design requirements.
翻訳日:2021-04-02 13:49:27 公開日:2021-04-01
# 入力空間近傍でのニューラルタンジェントカーネルの学習

Learning with Neural Tangent Kernels in Near Input Sparsity Time ( http://arxiv.org/abs/2104.00415v1 )

ライセンス: Link先を確認
Amir Zandieh(参考訳) neural tangent kernel (ntk) は、勾配降下による最小二乗損失の下で訓練された無限に広いニューラルネットワークの挙動を特徴付ける(jacot et al., 2018)。 しかし、その重要性にもかかわらず、カーネルメソッドのスーパークワッドラティックランタイムは、大規模学習タスクにおけるNTKの使用を制限する。 ntkを用いてカーネルマシンを高速化するために,入力データをランダム化された低次元特徴空間にマッピングし,変換データの内部積をntk評価に近似する近似入力スパーシティタイムアルゴリズムを提案する。 さらに,NTK(Arora et al., 2019)の畳み込みを近似する特徴マップを提案する。 従来の大規模回帰・分類タスクでは,NTKカーネルを用いたNNとNystrom法より訓練された線形回帰器が優れていることを示す。

The Neural Tangent Kernel (NTK) characterizes the behavior of infinitely wide neural nets trained under least squares loss by gradient descent (Jacot et al., 2018). However, despite its importance, the super-quadratic runtime of kernel methods limits the use of NTK in large-scale learning tasks. To accelerate kernel machines with NTK, we propose a near input sparsity time algorithm that maps the input data to a randomized low-dimensional feature space so that the inner product of the transformed data approximates their NTK evaluation. Furthermore, we propose a feature map for approximating the convolutional counterpart of the NTK (Arora et al., 2019), which can transform any image using a runtime that is only linear in the number of pixels. We show that in standard large-scale regression and classification tasks a linear regressor trained on our features outperforms trained NNs and Nystrom method with NTK kernels.
翻訳日:2021-04-02 13:49:16 公開日:2021-04-01
# fairmodels: バイアス検出、可視化、緩和のための柔軟なツール

fairmodels: A Flexible Tool For Bias Detection, Visualization, And Mitigation ( http://arxiv.org/abs/2104.00507v1 )

ライセンス: Link先を確認
Jakub Wi\'sniewski, Przemys{\l}aw Biecek(参考訳) 機械学習の意思決定システムは、私たちの生活に普遍化しつつある。 デートアプリから借り手の評価まで、アルゴリズムは私たちの幸福と未来の両方に影響します。 しかし、一般的にこれらのシステムは失敗しない。 さらに、複雑な予測モデルは、差別の増大につながる可能性のある歴史的データに存在する社会的偏見を本当に学ぼうとしている。 責任を持ってモデルを作成したいのであれば、潜在的な差別の観点から、モデルの詳細な検証のためのツールが必要です。 この記事では、公平性を検証し、分類モデルのバイアスを簡単かつ柔軟な方法で排除するRパッケージフェアモデルを紹介します。 Fairmodelsパッケージはバイアス検出、可視化、緩和に対するモデルに依存しないアプローチを提供する。 実装された関数セットと公正度メトリクスは、異なる視点からモデル公正性検証を可能にする。 このパッケージには、モデルの差別を減らそうとするバイアス緩和の一連の方法が含まれている。 このパッケージは単一のモデルを調べるだけでなく、複数のモデルの比較を容易にするように設計されている。

Machine learning decision systems are getting omnipresent in our lives. From dating apps to rating loan seekers, algorithms affect both our well-being and future. Typically, however, these systems are not infallible. Moreover, complex predictive models are really eager to learn social biases present in historical data that can lead to increasing discrimination. If we want to create models responsibly then we need tools for in-depth validation of models also from the perspective of potential discrimination. This article introduces an R package fairmodels that helps to validate fairness and eliminate bias in classification models in an easy and flexible fashion. The fairmodels package offers a model-agnostic approach to bias detection, visualization and mitigation. The implemented set of functions and fairness metrics enables model fairness validation from different perspectives. The package includes a series of methods for bias mitigation that aim to diminish the discrimination in the model. The package is designed not only to examine a single model, but also to facilitate comparisons between multiple models.
翻訳日:2021-04-02 13:49:02 公開日:2021-04-01
# 画像デノイジングのための深い潜在部分空間の学習

Learning Deep Latent Subspaces for Image Denoising ( http://arxiv.org/abs/2104.00253v1 )

ライセンス: Link先を確認
Yunhao Yang, Yuhan Zheng, Yi Wang and Chandrajit Bajaj(参考訳) ほとんどのカメラ画像に異質性が存在する。 この異質性は、様々なモアレリング、モーションブラリング、カラーブレッシング、レンズベースの投影歪みとして画像空間全体に現れる。 さらに、これらの画像アーティファクトの組み合わせは、取得した画像内の小さなピクセルまたは大きなピクセル近傍に存在することができる。 現在のカメラ画像処理パイプラインは、深く訓練されたバージョンを含む、画像全体に均一に適用される単一のフィルタを適用する問題を修正する傾向がある。 これは特に、エンコーダ-デコーダ型ディープアーキテクチャがタスクのためにトレーニングされたときに当てはまる。 本稿では,異種画像アーティファクトフィルタリング問題を解くための構造化深層学習モデルを提案する。 Patch Subspace Variational Autoencoder (PS-VAE) をカメラISP向けに深層学習モデルと呼ぶ。 PS-VAEは画像内の均一な歪みレベルや類似のアーチファクトタイプを前提としない。 むしろ、我々のモデルは、画像から抽出した異なるパッチを、複数の潜在部分空間(例えば、)のアーティファクトタイプと歪みレベルにクラスタリングすることを試みる。 モアレリングアーティファクトは、しばしばガウス運動のぼかしアーティファクトよりも高次元の潜在歪みである。 各画像のパッチは、以前の混合モデルを使用して、適切な潜在サブスペース内のソフトクラスタにエンコードされる。 PS-VAEのデコーダは、各ソフトクラスタ内の各イメージパッチに対して教師なしの方法で訓練される。 実験により, 改良された異種フィルタリングにより得られる柔軟性と性能を実証した。 従来の1-encoder-one-decoderアーキテクチャと比較した。

Heterogeneity exists in most camera images. This heterogeneity manifests itself across the image space as varied Moire ringing, motion-blur, color-bleaching or lens based projection distortions. Moreover, combinations of these image artifacts can be present in small or large pixel neighborhoods, within an acquired image. Current camera image processing pipelines, including deep trained versions, tend to rectify the issue applying a single filter that is homogeneously applied to the entire image. This is also particularly true when an encoder-decoder type deep architecture is trained for the task. In this paper, we present a structured deep learning model that solves the heterogeneous image artifact filtering problem. We call our deep trained model the Patch Subspace Variational Autoencoder (PS-VAE) for Camera ISP. PS-VAE does not necessarily assume uniform image distortion levels nor similar artifact types within the image. Rather, our model attempts to learn to cluster different patches extracted from images into artifact type and distortion levels, within multiple latent subspaces (e.g. Moire ringing artifacts are often a higher dimensional latent distortion than a Gaussian motion blur artifact). Each image's patches are encoded into soft-clusters in their appropriate latent sub-space, using a prior mixture model. The decoders of the PS-VAE are also trained in an unsupervised manner for each of the image patches in each soft-cluster. Our experimental results demonstrates the flexibility and performance that one can achieve through improved heterogeneous filtering. We compare our results to a conventional one-encoder-one-decoder architecture.
翻訳日:2021-04-02 13:47:52 公開日:2021-04-01
# 情報入力特徴の同定によるCOVID-19および胸部病理モデル予測の解説

Explaining COVID-19 and Thoracic Pathology Model Predictions by Identifying Informative Input Features ( http://arxiv.org/abs/2104.00411v1 )

ライセンス: Link先を確認
Ashkan Khakzar, Yang Zhang, Wejdene Mansour, Yuezhi Cai, Yawei Li, Yucheng Zhang, Seong Tae Kim, Nassir Navab(参考訳) ニューラルネットワークは胸部X線上の分類および回帰タスクにおいて顕著な性能を示した。 臨床ルーチンに対する信頼を確立するためには,ネットワークの予測メカニズムを解釈する必要がある。 解釈に対する主要なアプローチは特徴帰属である。 特徴帰属法は、出力予測における入力特徴の重要性を識別する。 情報ボトルネックアトリビューション(iba)法に基づいて,ネットワークの出力と高い相互情報を有する胸部x線領域の予測を行う。 オリジナルIBAは十分な予測情報を持つ入力領域を特定する。 我々はすべての情報領域を特定するために逆IAAを提案する。 したがって、胸部X線診断に望ましい性質であるX線で、病理の予測方法が強調される。 さらに,回帰モデルを説明するための回帰IBAを提案する。 回帰ibaを用いて,累積的重大度スコアラベルに基づくモデルが,異なるx線領域の重大度を暗黙的に学習することを観察した。 最後に,高分解能かつより詳細な帰属/従属マップを生成するための多層IAAを提案する。 我々は,NIH Chest X-ray8 と BrixIA のデータセット上で,人中心的(地中構造に基づく)解釈可能性指標と人依存的特徴重要度指標の両方を用いて,本手法の評価を行った。 コードは公開されている。

Neural networks have demonstrated remarkable performance in classification and regression tasks on chest X-rays. In order to establish trust in the clinical routine, the networks' prediction mechanism needs to be interpretable. One principal approach to interpretation is feature attribution. Feature attribution methods identify the importance of input features for the output prediction. Building on Information Bottleneck Attribution (IBA) method, for each prediction we identify the chest X-ray regions that have high mutual information with the network's output. Original IBA identifies input regions that have sufficient predictive information. We propose Inverse IBA to identify all informative regions. Thus all predictive cues for pathologies are highlighted on the X-rays, a desirable property for chest X-ray diagnosis. Moreover, we propose Regression IBA for explaining regression models. Using Regression IBA we observe that a model trained on cumulative severity score labels implicitly learns the severity of different X-ray regions. Finally, we propose Multi-layer IBA to generate higher resolution and more detailed attribution/saliency maps. We evaluate our methods using both human-centric (ground-truth-based) interpretability metrics, and human-independent feature importance metrics on NIH Chest X-ray8 and BrixIA datasets. The Code is publicly available.
翻訳日:2021-04-02 13:47:29 公開日:2021-04-01
# 不確かさを考慮した不動船舶の軌道追尾 -積分強化学習アプローチ-

Trajectory Tracking of Underactuated Sea Vessels With Uncertain Dynamics: An Integral Reinforcement Learning Approach ( http://arxiv.org/abs/2104.00190v1 )

ライセンス: Link先を確認
Mohammed Abouheaf, Wail Gueaieb, Md. Suruz Miah, Davide Spinello(参考訳) 船舶のような未作動のシステムは、独立した作動力によって十分に一致しない動きの度合いを持っている。 さらに、最適舵と推力制御信号を決定するために、下層の軌道追従制御問題が複雑化する。 これにより、古典的最適追従法と適応制御法を用いて、誤差力学方程式に付随する難解ないくつかの制約を課す。 統合強化学習に基づくオンライン機械学習機構を提案し,システム力学の部分的事前知識を用いた非線形追跡問題の解法を提案する。 作動力は、容器のサージと角速度に関連する革新的な時間差方程式を用いて決定される。 このソリューションは、適応的批評家と勾配降下アプローチを用いて実現されるオンライン価値反復プロセスを用いて実装される。 適応学習機構は、望ましい参照追跡シナリオに反応して、よく機能し、対話的な特徴を示した。

Underactuated systems like sea vessels have degrees of motion that are insufficiently matched by a set of independent actuation forces. In addition, the underlying trajectory-tracking control problems grow in complexity in order to decide the optimal rudder and thrust control signals. This enforces several difficult-to-solve constraints that are associated with the error dynamical equations using classical optimal tracking and adaptive control approaches. An online machine learning mechanism based on integral reinforcement learning is proposed to find a solution for a class of nonlinear tracking problems with partial prior knowledge of the system dynamics. The actuation forces are decided using innovative forms of temporal difference equations relevant to the vessel's surge and angular velocities. The solution is implemented using an online value iteration process which is realized by employing means of the adaptive critics and gradient descent approaches. The adaptive learning mechanism exhibited well-functioning and interactive features in react to different desired reference-tracking scenarios.
翻訳日:2021-04-02 13:46:53 公開日:2021-04-01
# 球面上の浅水方程式に対する物理インフォームドニューラルネットワーク

Physics-informed neural networks for the shallow-water equations on the sphere ( http://arxiv.org/abs/2104.00615v1 )

ライセンス: Link先を確認
Alex Bihlo and Roman O. Popovych(参考訳) 球面上の浅水方程式の解法として物理インフォームドニューラルネットワークを提案する。 物理インフォームドニューラルネットワークは、所定の初期および境界データとともに微分方程式を満足するように訓練されており、有限差分、有限体積、スペクトル法といった従来の数値的手法と比較して微分方程式を解くための代替手法とみなすことができる。 球面上の浅水方程式に対する物理インフォームドニューラルネットワークのトレーニング困難について検討し、比較的長い時間間隔のテストケースに取り組むための簡易なマルチモデルアプローチを提案する。 ウィリアムソンらによって提唱された最も顕著なテストケースを解決することで,この手法の能力を示す。 [J.Comput] Phys 102, 211-224, 1992].

We propose the use of physics-informed neural networks for solving the shallow-water equations on the sphere. Physics-informed neural networks are trained to satisfy the differential equations along with the prescribed initial and boundary data, and thus can be seen as an alternative approach to solving differential equations compared to traditional numerical approaches such as finite difference, finite volume or spectral methods. We discuss the training difficulties of physics-informed neural networks for the shallow-water equations on the sphere and propose a simple multi-model approach to tackle test cases of comparatively long time intervals. We illustrate the abilities of the method by solving the most prominent test cases proposed by Williamson et al. [J. Comput. Phys. 102, 211-224, 1992].
翻訳日:2021-04-02 13:46:38 公開日:2021-04-01
# 高次元微分プライベートemアルゴリズム:手法と近最適統計量保証

High-Dimensional Differentially-Private EM Algorithm: Methods and Near-Optimal Statistical Guarantees ( http://arxiv.org/abs/2104.00245v1 )

ライセンス: Link先を確認
Zhe Zhang and Linjun Zhang(参考訳) 本稿では,高次元潜在変数モデルにおける微分プライベート期待最大化(em)アルゴリズムを設計するための汎用フレームワークを開発した。 提案した枠組みの統計的保証を導出し、ガウス混合、回帰の混合、および欠落した共変量との回帰の3つの特定のモデルに適用する。 各モデルにおいて,微分プライバシー制約付き収束の最適速度を定式化し,提案アルゴリズムが対数係数まで最適であることを示す。 高次元設定のために開発された技術ツールを古典的な低次元潜在変数モデルに拡張し、この設定で差分プライバシーを保証する近似EMアルゴリズムを提案する。 シミュレーション研究と実データ解析は,本研究の成果を裏付けるものである。

In this paper, we develop a general framework to design differentially private expectation-maximization (EM) algorithms in high-dimensional latent variable models, based on the noisy iterative hard-thresholding. We derive the statistical guarantees of the proposed framework and apply it to three specific models: Gaussian mixture, mixture of regression, and regression with missing covariates. In each model, we establish the near-optimal rate of convergence with differential privacy constraints, and show the proposed algorithm is minimax rate optimal up to logarithm factors. The technical tools developed for the high-dimensional setting are then extended to the classic low-dimensional latent variable models, and we propose a near rate-optimal EM algorithm with differential privacy guarantees in this setting. Simulation studies and real data analysis are conducted to support our results.
翻訳日:2021-04-02 13:46:24 公開日:2021-04-01
# 質問応答のための部分グラフ認識関係と方向調整の統合

Integrating Subgraph-aware Relation and DirectionReasoning for Question Answering ( http://arxiv.org/abs/2104.00218v1 )

ライセンス: Link先を確認
Xu Wang, Shuai Zhao, Bo Cheng, Jiale Han, Yingting Li, Hao Yang, Ivan Sekulic, Guoshun Nan(参考訳) 知識ベース(KB)上の質問回答(QA)モデルは、エンティティ間の関係情報を利用してより正確な回答を提供することができる。 有効ではあるが、これらのモデルのほとんどは、異なる質問関連KBサブグラフに対する回答を得るために、固定関係表現のみに依存する。 したがって、これらの部分グラフの豊富な構造化情報は、関係表現ベクトルによって見落とされうる。 一方、グラフの回答予測に有効であることが証明された推論の方向情報は、既存の研究で完全には検討されていない。 これらの課題に対処するために、各サブグラフ内の関係を付加ノードに変換して構造情報を学習するリレーショナル更新指向型アンサーセレクタ(RDAS)を提案する。 さらに,方向情報を利用して推論能力を向上させる。 実験結果から,2つの広く使用されているデータセットに対して,本モデルによる大幅な改善が得られた。

Question Answering (QA) models over Knowledge Bases (KBs) are capable of providing more precise answers by utilizing relation information among entities. Although effective, most of these models solely rely on fixed relation representations to obtain answers for different question-related KB subgraphs. Hence, the rich structured information of these subgraphs may be overlooked by the relation representation vectors. Meanwhile, the direction information of reasoning, which has been proven effective for the answer prediction on graphs, has not been fully explored in existing work. To address these challenges, we propose a novel neural model, Relation-updated Direction-guided Answer Selector (RDAS), which converts relations in each subgraph to additional nodes to learn structure information. Additionally, we utilize direction information to enhance the reasoning ability. Experimental results show that our model yields substantial improvements on two widely used datasets.
翻訳日:2021-04-02 13:45:46 公開日:2021-04-01
# 発話のための高次元分布意味空間

High-dimensional distributed semantic spaces for utterances ( http://arxiv.org/abs/2104.00424v1 )

ライセンス: Link先を確認
Jussi Karlgren and Pentti Kanerva(参考訳) 高次元分散意味空間は、人間の生成したデータに関連する多くのタスクの視覚的、聴覚的、語彙的情報を集約し処理するのに有用かつ効果的であることが証明されている。 人間の言語は、多種多様な特徴、語彙的および構成的項目、および様々なタイプの文脈的および談話固有のデータを使用しており、これらは全て、コミュニケーション情報の様々な側面を表現するために相互作用する。 これらの機能のいくつかは、主にローカルで、例えば組織にとって有用である。 述語における議論の構造;他のものは言論の過程で永続的であり、内容の合理的な理解を達成するために必要なものである。 本稿では,言語情報を表現するための数学的原理と行動学的に妥当なアプローチに基づいて,構成や文脈データなどの特徴を含む発話・テキストレベルの高次元表現モデルについて述べる。 この表現の実装は、以前語彙言語項目に使われたランダムインデックスモデルの直接的な拡張である。 本論文は,従属解析や連続表現などの記号的表現の橋渡しとして好適な,固定次元の共通積分フレームワークにおいて,実装されたモデルが言語的特徴を広範囲に表すことができることを示す。 分類器や機械学習のアプローチで。 これは、ベクトルの連想メモリを伴う強力な計算代数学を構成するベクトルの演算によって達成される。 本稿では,フレームワークの技術的概要と,様々な言語的特徴にどのように適用できるかの具体例を紹介する。

High-dimensional distributed semantic spaces have proven useful and effective for aggregating and processing visual, auditory, and lexical information for many tasks related to human-generated data. Human language makes use of a large and varying number of features, lexical and constructional items as well as contextual and discourse-specific data of various types, which all interact to represent various aspects of communicative information. Some of these features are mostly local and useful for the organisation of e.g. argument structure of a predication; others are persistent over the course of a discourse and necessary for achieving a reasonable level of understanding of the content. This paper describes a model for high-dimensional representation for utterance and text level data including features such as constructions or contextual data, based on a mathematically principled and behaviourally plausible approach to representing linguistic information. The implementation of the representation is a straightforward extension of Random Indexing models previously used for lexical linguistic items. The paper shows how the implemented model is able to represent a broad range of linguistic features in a common integral framework of fixed dimensionality, which is computationally habitable, and which is suitable as a bridge between symbolic representations such as dependency analysis and continuous representations used e.g. in classifiers or further machine-learning approaches. This is achieved with operations on vectors that constitute a powerful computational algebra, accompanied with an associative memory for the vectors. The paper provides a technical overview of the framework and a worked through implemented example of how it can be applied to various types of linguistic features.
翻訳日:2021-04-02 13:45:32 公開日:2021-04-01
# 小さなイベントログによるビジネスプロセス監視手法の評価

Evaluating Predictive Business Process Monitoring Approaches on Small Event Logs ( http://arxiv.org/abs/2104.00362v1 )

ライセンス: Link先を確認
Martin K\"appel, Stefan Jablonski, Stefan Sch\"onig(参考訳) 予測的なビジネスプロセス監視は、実行中のプロセスインスタンスが実行時にその完了までどのように展開されるかを予測することです。 提案されたアプローチのほとんどは、さまざまな機械学習(ML)技術に依存している。 過去数年間、これらのアプローチの比較研究、レビュー、ベンチマークが公開され、異なる予測ターゲットに対してうまく適用できることが明らかになった。 ml技術は質的かつ定量的に十分なデータセットを必要とする。 しかし、量的に不十分なデータセットしか利用できないビジネスプロセス管理(BPM)には多くの状況があります。 bpmのコンテキストにおけるデータ不足の問題は、いまだに無視されている。 したがって、比較研究やベンチマークでは、小さなデータセットを持つ環境での予測ビジネスプロセス監視技術の性能を調査していない。 本稿では,既存の手法と小規模データセットの適合性を比較するための評価フレームワークを開発し,予測的ビジネスプロセスモニタリングにおける最先端手法への適用例を示す。

Predictive business process monitoring is concerned with the prediction how a running process instance will unfold up to its completion at runtime. Most of the proposed approaches rely on a wide number of different machine learning (ML) techniques. In the last years numerous comparative studies, reviews, and benchmarks of such approaches where published and revealed that they can be successfully applied for different prediction targets. ML techniques require a qualitatively and quantitatively sufficient data set. However, there are many situations in business process management (BPM) where only a quantitatively insufficient data set is available. The problem of insufficient data in the context of BPM is still neglected. Hence, none of the comparative studies or benchmarks investigates the performance of predictive business process monitoring techniques in environments with small data sets. In this paper an evaluation framework for comparing existing approaches with regard to their suitability for small data sets is developed and exemplarily applied to state-of-the-art approaches in predictive business process monitoring.
翻訳日:2021-04-02 13:44:44 公開日:2021-04-01
# エゴと目標車両の道路勾配を用いた車間距離推定の効率化と効率化

Improved and efficient inter-vehicle distance estimation using road gradients of both ego and target vehicles ( http://arxiv.org/abs/2104.00169v1 )

ライセンス: Link先を確認
Muhyun Back, Jinkyu Lee, Kyuho Bae, Sung Soo Hwang, Il Yong Chun(参考訳) 先進運転支援システムと自律運転では,エゴ車と目標車との距離を推定することが重要である。 既存の車間距離推定法では、エゴと目標車両は同じ地上を走行していると仮定する。 しかし、実際の運転環境では、異なる地上機で運転することができる。 本稿では,2次元物体検出深層ネットを用いて,emph{both} ego車両と目標車両の道路勾配を推定し,車間距離推定手法を提案する。 数値実験により, 深層深部推定法と比較して, 距離推定精度と時間複雑性が有意に向上することを示した。

In advanced driver assistant systems and autonomous driving, it is crucial to estimate distances between an ego vehicle and target vehicles. Existing inter-vehicle distance estimation methods assume that the ego and target vehicles drive on a same ground plane. In practical driving environments, however, they may drive on different ground planes. This paper proposes an inter-vehicle distance estimation framework that can consider slope changes of a road forward, by estimating road gradients of \emph{both} ego vehicle and target vehicles and using a 2D object detection deep net. Numerical experiments demonstrate that the proposed method significantly improves the distance estimation accuracy and time complexity, compared to deep learning-based depth estimation methods.
翻訳日:2021-04-02 13:43:38 公開日:2021-04-01
# 効率的な活動認識推定のための選択的特徴圧縮

Selective Feature Compression for Efficient Activity Recognition Inference ( http://arxiv.org/abs/2104.00179v1 )

ライセンス: Link先を確認
Chunhui Liu, Xinyu Li, Hao Chen, Davide Modolo, Joseph Tighe(参考訳) ほとんどのアクション認識ソリューションは、情報的時間的クリップを正確にカバーするために高密度サンプリングに依存している。 時間領域の探索は、現実世界のアプリケーションには高価である。 本研究では,トリミングビデオにおける現在の動作認識バックボーンの推論効率の向上に焦点をあて,非インフォーマティブな機能をドロップすることで,ひとつのアクションモデルが適切な情報領域をカバーできることを示す。 本稿では,モデル推論効率を大幅に向上させる行動認識推論戦略であるsfc(selective feature compression)を提案する。 カーネルサイズを圧縮しチャネル次元を小さくする以前の研究とは違い、バックボーンパラメータを変更することなく時空間次元で特徴フローを圧縮することを提案する。 Kinetics-400, UCF101, ActivityNet を用いた実験により, SFC は, 一般的に使用されている30種類の高密度サンプリング法と比較して, 推論速度を6~7倍, メモリ使用量を5~6倍に低減し, またTop1 の精度もわずかに向上した。 我々は,SFCとそのすべての構成要素を定量的に定性的に評価し,SFCが重要な映像領域への参加を学習し,行動認識の課題に適さない時間的特徴をドロップする方法を示す。

Most action recognition solutions rely on dense sampling to precisely cover the informative temporal clip. Extensively searching temporal region is expensive for a real-world application. In this work, we focus on improving the inference efficiency of current action recognition backbones on trimmed videos, and illustrate that one action model can also cover then informative region by dropping non-informative features. We present Selective Feature Compression (SFC), an action recognition inference strategy that greatly increase model inference efficiency without any accuracy compromise. Differently from previous works that compress kernel sizes and decrease the channel dimension, we propose to compress feature flow at spatio-temporal dimension without changing any backbone parameters. Our experiments on Kinetics-400, UCF101 and ActivityNet show that SFC is able to reduce inference speed by 6-7x and memory usage by 5-6x compared with the commonly used 30 crops dense sampling procedure, while also slightly improving Top1 Accuracy. We thoroughly quantitatively and qualitatively evaluate SFC and all its components and show how does SFC learn to attend to important video regions and to drop temporal features that are uninformative for the task of action recognition.
翻訳日:2021-04-02 13:43:26 公開日:2021-04-01
# less is more: jpegから直接ニューラルネットワークを高速化する

Less is More: Accelerating Faster Neural Networks Straight from JPEG ( http://arxiv.org/abs/2104.00185v1 )

ライセンス: Link先を確認
Samuel Felipe dos Santos and Jurandy Almeida(参考訳) ほとんどの画像データは圧縮形式で保存されることが多く、JPEGが最も広く使われている。 このデータを畳み込みニューラルネットワーク(cnn)に供給するには、高い計算負荷とメモリ使用を要求するrgbピクセルを得るために、予備復号処理が必要である。 このため,JPEG圧縮データを処理するためのCNNの設計が近年注目されている。 多くの既存の作品において、典型的なCNNアーキテクチャはRGBピクセルではなくDCT係数で学習しやすいように適応されている。 効果はあるが、アーキテクチャの変更は計算コストを上げるか、DCT入力から関連する情報を無視する。 本稿では,DCT入力に対して設計されたCNNの高速化方法について検討し,DCT入力を最大限に活用することにより,計算複雑性を低減するための学習戦略を活用する。 実験はImageNetデータセットを用いて行った。 その結果、データ駆動方式で全てのdct入力を組み合わせる方法を学ぶことは、手で捨てるよりも良いことを示し、その層の減少と組み合わせることで、精度を維持しながら計算コストを削減できることが証明された。

Most image data available are often stored in a compressed format, from which JPEG is the most widespread. To feed this data on a convolutional neural network (CNN), a preliminary decoding process is required to obtain RGB pixels, demanding a high computational load and memory usage. For this reason, the design of CNNs for processing JPEG compressed data has gained attention in recent years. In most existing works, typical CNN architectures are adapted to facilitate the learning with the DCT coefficients rather than RGB pixels. Although they are effective, their architectural changes either raise the computational costs or neglect relevant information from DCT inputs. In this paper, we examine different ways of speeding up CNNs designed for DCT inputs, exploiting learning strategies to reduce the computational complexity by taking full advantage of DCT inputs. Our experiments were conducted on the ImageNet dataset. Results show that learning how to combine all DCT inputs in a data-driven fashion is better than discarding them by hand, and its combination with a reduction of layers has proven to be effective for reducing the computational costs while retaining accuracy.
翻訳日:2021-04-02 13:43:01 公開日:2021-04-01
# 皮膚内視鏡および臨床画像における皮膚病変のマルチラベル分類とメラノーマ診断のためのグラフベースカテゴリ間・インターモダリティネットワーク

Graph-Based Intercategory and Intermodality Network for Multilabel Classification and Melanoma Diagnosis of Skin Lesions in Dermoscopy and Clinical Images ( http://arxiv.org/abs/2104.00201v1 )

ライセンス: Link先を確認
Xiaohang Fu, Lei Bi, Ashnil Kumar, Michael Fulham, and Jinman Kim(参考訳) メラノーマの同定には, 臨床および皮膚内視鏡検査で得られた皮膚病変の画像の統合的解析が関与する。 皮膚内視鏡画像は、マクロな臨床像を補う表面の視覚構造を詳細に観察する。 メラノーマの診断は一般に7-point visual category checklist (7pc)に基づいている。 7pcには、特徴の共有、相関、診断へのカテゴリの寄与など、分類を支援するカテゴリ間の固有の関係が含まれている。 手動の分類は主観的であり、生体内および生体内変動の傾向が強い。 これにより、診断を改善する自動化手法が提案される。 現在の最先端の手法は、単一の画像のモダリティに焦点を合わせ、他方からの情報を無視するか、あるいは両方のモダリティからの補完情報を十分に活用しない。 さらに、7PCにおけるカテゴリ間関係を利用する方法も存在しない。 本研究では,2つのモジュールでグラフベースの相互カテゴリ間ネットワーク(GIIN)を提案する。 グラフベースリレーショナルモジュール(grm)は、グラフネットワークでカテゴリ表現を符号化することにより、カテゴリ間関係、モード間関係を活用し、皮膚内視鏡から視覚構造詳細を優先する。 カテゴリ埋め込み学習モジュール(CELM)は、各カテゴリに特化した表現をキャプチャし、GRMをサポートする。 本手法は,dermoscopy-clinical imageの公開データセットを用いた分類性能の向上に有効であることを示し,7pc分類と診断における最先端技術を上回ることを示す。

The identification of melanoma involves an integrated analysis of skin lesion images acquired using the clinical and dermoscopy modalities. Dermoscopic images provide a detailed view of the subsurface visual structures that supplement the macroscopic clinical images. Melanoma diagnosis is commonly based on the 7-point visual category checklist (7PC). The 7PC contains intrinsic relationships between categories that can aid classification, such as shared features, correlations, and the contributions of categories towards diagnosis. Manual classification is subjective and prone to intra- and interobserver variability. This presents an opportunity for automated methods to improve diagnosis. Current state-of-the-art methods focus on a single image modality and ignore information from the other, or do not fully leverage the complementary information from both modalities. Further, there is not a method to exploit the intercategory relationships in the 7PC. In this study, we address these issues by proposing a graph-based intercategory and intermodality network (GIIN) with two modules. A graph-based relational module (GRM) leverages intercategorical relations, intermodal relations, and prioritises the visual structure details from dermoscopy by encoding category representations in a graph network. The category embedding learning module (CELM) captures representations that are specialised for each category and support the GRM. We show that our modules are effective at enhancing classification performance using a public dataset of dermoscopy-clinical images, and show that our method outperforms the state-of-the-art at classifying the 7PC categories and diagnosis.
翻訳日:2021-04-02 13:42:42 公開日:2021-04-01
# 擬似地層真理採掘による二相弱教師対象検出

Two-phase weakly supervised object detection with pseudo ground truth mining ( http://arxiv.org/abs/2104.00231v1 )

ライセンス: Link先を確認
Jun Wang(参考訳) 画像レベルのデータセットのみを用いて検出器を訓練することを目的としたweakly supervised object detection(wsod)は、研究者の注目を集めている。 本プロジェクトでは,強力な検出器と純粋なwsodモデルを統合する2相wsodアーキテクチャに焦点を当てる。 2相WSODにおける第2相検出器として用いられる代表検出器の有効性について検討し,2相WSODアーキテクチャを提案する。 さらに,第2相検出器の訓練に用いる擬似基底真理(PGT)を確立するための戦略を提案する。 上位1つの境界ボックスをPGTとみなす以前の研究とは異なり、我々はPGTアノテーションを確立するためにより多くの境界ボックスを考える。 これにより、PGTの低リコールに起因する学習問題が軽減される。 また,第2検出器の訓練中にPGTを改良する戦略を提案する。 我々の戦略は、特定の時期における訓練を中断し、第2相検出器の出力によってpgtを精錬する。 その後、アルゴリズムは、サスペンション前と同じ勾配と重みでトレーニングを継続する。 本手法の有効性を検証するため,PASCAL VOC 2007データセットを用いて実験を行った。 その結果,二相構造は単一pclモデルと比較して49.17%から53.21%に改善した。 さらに、最高PGT生成戦略は0.7%のmAPインクリメントを得る。 最高のリファインメント戦略は、パフォーマンスを1.74%向上させる。 これらの手法を全て適用した最良の結果は55.231% mAPであり、これは最先端のパフォーマンスである。

Weakly Supervised Object Detection (WSOD), aiming to train detectors with only image-level dataset, has arisen increasing attention for researchers. In this project, we focus on two-phase WSOD architecture which integrates a powerful detector with a pure WSOD model. We explore the effectiveness of some representative detectors utilized as the second-phase detector in two-phase WSOD and propose a two-phase WSOD architecture. In addition, we present a strategy to establish the pseudo ground truth (PGT) used to train the second-phase detector. Unlike previous works that regard top one bounding boxes as PGT, we consider more bounding boxes to establish the PGT annotations. This alleviates the insufficient learning problem caused by the low recall of PGT. We also propose some strategies to refine the PGT during the training of the second detector. Our strategies suspend the training in specific epoch, then refine the PGT by the outputs of the second-phase detector. After that, the algorithm continues the training with the same gradients and weights as those before suspending. Elaborate experiments are conduceted on the PASCAL VOC 2007 dataset to verify the effectiveness of our methods. As results demonstrate, our two-phase architecture improves the mAP from 49.17% to 53.21% compared with the single PCL model. Additionally, the best PGT generation strategy obtains a 0.7% mAP increment. Our best refinement strategy boosts the performance by 1.74% mAP. The best results adopting all of our methods achieve 55.231% mAP which is the state-of-the-art performance.
翻訳日:2021-04-02 13:42:19 公開日:2021-04-01
# 静止画像からの自己教師ありモーション学習

Self-supervised Motion Learning from Static Images ( http://arxiv.org/abs/2104.00240v1 )

ライセンス: Link先を確認
Ziyuan Huang, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Rong Jin, Marcelo Ang(参考訳) 動きはピクセルの動きとしてビデオに反映され、アクションは基本的に前景と背景の間の一貫性のない動きのパターンである。 動作をよく区別するため、特に時空間相互作用が複雑である場合には、目立った動き領域を正確に特定することが重要となる。 しかし、既存の動画の動作情報のほとんどは、優れた動作表現を持つモデルのラベル付けや訓練が難しいため、アノテーションのために大量の人的労働を必要とする。 本稿では,自己教師型学習によってこの問題に対処する。 具体的には、静的画像(MoSI)から動きを学ぶことを提案する。 モデルは、MoSIによって生成された擬似動作を分類することにより、動き情報を符号化することを学ぶ。 さらに、疑似動作に静的マスクを導入し、局所的な動きパターンを作成することにより、モデルに適切な分類のための注目すべき動き領域を付加させ、下流データセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証する。 その結果、学習された動き表現は、複雑なシーンや動き、すなわちアクション認識の理解を必要とするタスクのパフォーマンスを高める。 大規模な実験は、MoSIによって達成された一貫性と伝達可能な改善を示している。 コードはすぐにリリースされる。

Motions are reflected in videos as the movement of pixels, and actions are essentially patterns of inconsistent motions between the foreground and the background. To well distinguish the actions, especially those with complicated spatio-temporal interactions, correctly locating the prominent motion areas is of crucial importance. However, most motion information in existing videos are difficult to label and training a model with good motion representations with supervision will thus require a large amount of human labour for annotation. In this paper, we address this problem by self-supervised learning. Specifically, we propose to learn Motion from Static Images (MoSI). The model learns to encode motion information by classifying pseudo motions generated by MoSI. We furthermore introduce a static mask in pseudo motions to create local motion patterns, which forces the model to additionally locate notable motion areas for the correct classification.We demonstrate that MoSI can discover regions with large motion even without fine-tuning on the downstream datasets. As a result, the learned motion representations boost the performance of tasks requiring understanding of complex scenes and motions, i.e., action recognition. Extensive experiments show the consistent and transferable improvements achieved by MoSI. Codes will be soon released.
翻訳日:2021-04-02 13:41:57 公開日:2021-04-01
# 雑音領域適応のための発散最適化

Divergence Optimization for Noisy Universal Domain Adaptation ( http://arxiv.org/abs/2104.00246v1 )

ライセンス: Link先を確認
Qing Yu, Atsushi Hashimoto, Yoshitaka Ushiku(参考訳) ユニバーサルドメイン適応 (unida) はラベル豊富なソースドメインから学習した知識をラベル集合に制約なくラベル-スカース対象ドメインに転送するために提案されている。 しかし、実際には、リソースが限られたソースドメイン内の完全なラベル付きデータを大量に取得することは困難である。 既存のUniDAメソッドは、正しいアノテーションを持つソースサンプルに依存しており、実世界のアプリケーションを大幅に制限します。 そこで,本研究では,対象ドメインからのノイズラベル付きデータと,対象ドメインからの未知のクラス分布を持つ未ラベルデータを用いて分類器を訓練する,Noisy UniDAと呼ばれる新しい現実的な設定について考察する。 本稿では,全ての問題を同時に解くために,両頭部畳み込みニューラルネットワークフレームワークを提案する。 我々のネットワークは1つの共通特徴生成器と2つの決定境界を持つ分類器で構成されている。 2つの分類器の出力のばらつきを最適化することにより、ノイズの多いソースサンプルを検出し、ターゲットドメインの"未知"クラスを見つけ、ソースとターゲットドメインの分布を調整できる。 異なるドメイン適応設定の広範囲な評価において、提案手法は、ほとんどの設定において、既存の手法を大きく上回っている。

Universal domain adaptation (UniDA) has been proposed to transfer knowledge learned from a label-rich source domain to a label-scarce target domain without any constraints on the label sets. In practice, however, it is difficult to obtain a large amount of perfectly clean labeled data in a source domain with limited resources. Existing UniDA methods rely on source samples with correct annotations, which greatly limits their application in the real world. Hence, we consider a new realistic setting called Noisy UniDA, in which classifiers are trained with noisy labeled data from the source domain and unlabeled data with an unknown class distribution from the target domain. This paper introduces a two-head convolutional neural network framework to solve all problems simultaneously. Our network consists of one common feature generator and two classifiers with different decision boundaries. By optimizing the divergence between the two classifiers' outputs, we can detect noisy source samples, find "unknown" classes in the target domain, and align the distribution of the source and target domains. In an extensive evaluation of different domain adaptation settings, the proposed method outperformed existing methods by a large margin in most settings.
翻訳日:2021-04-02 13:41:41 公開日:2021-04-01
# Mesh Graphormer

Mesh Graphormer ( http://arxiv.org/abs/2104.00272v1 )

ライセンス: Link先を確認
Kevin Lin, Lijuan Wang, Zicheng Liu(参考訳) グラフ畳み込み強化変換器であるMesh Graphormerを1枚の画像から3次元の人間のポーズとメッシュ再構成を行う。 近年、トランスフォーマーとグラフ畳み込みニューラルネットワーク(gcnn)は、ヒトのメッシュ再構成に有望な進歩を示している。 トランスフォーマーベースのアプローチは、3次元メッシュ頂点と身体関節の間の非局所的相互作用のモデル化に有効であるが、gcnnは予め特定されたメッシュトポロジーに基づいた近傍頂点相互作用の活用に優れている。 本稿では,グラフ畳み込みと自己アテンションを組み合わせて局所的相互作用と大域的相互作用をモデル化する方法について検討する。 実験の結果,提案手法であるMesh Graphormerは,Human3.6M, 3DPW, FreiHANDデータセットを含む複数のベンチマークにおいて,従来の最先端手法よりも大幅に優れていた。

We present a graph-convolution-reinforced transformer, named Mesh Graphormer, for 3D human pose and mesh reconstruction from a single image. Recently both transformers and graph convolutional neural networks (GCNNs) have shown promising progress in human mesh reconstruction. Transformer-based approaches are effective in modeling non-local interactions among 3D mesh vertices and body joints, whereas GCNNs are good at exploiting neighborhood vertex interactions based on a pre-specified mesh topology. In this paper, we study how to combine graph convolutions and self-attentions in a transformer to model both local and global interactions. Experimental results show that our proposed method, Mesh Graphormer, significantly outperforms the previous state-of-the-art methods on multiple benchmarks, including Human3.6M, 3DPW, and FreiHAND datasets
翻訳日:2021-04-02 13:41:22 公開日:2021-04-01
# CUPID:ビデオ・ランゲージ表現学習のための事前学習データの適応的キュレーション

CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning ( http://arxiv.org/abs/2104.00285v1 )

ライセンス: Link先を確認
Luowei Zhou, Jingjing Liu, Yu Cheng, Zhe Gan, Lei Zhang(参考訳) この研究はビデオ言語による事前学習と表現学習に関するものである。 このユビキタスなトレーニングスキームでは、モデルはまず、特定の下流タスクに転送する前に、大きな未完のソースコーパスからペアのビデオやテキスト(ビデオクリップや副タイトルなど)を事前トレーニングします。 この2段階トレーニングプロセスは、ソースデータとターゲットデータ(例えば、指導的調理ビデオと映画)の間に有能なドメインギャップが存在する場合に特に顕著な事前訓練モデルの一般化能力に関する疑問を必然的に提起する。 本稿では,まず,事前学習対象(コントラスト型対再構成型)のドメイン間差に対する感度について述べる。 そこで本研究では,対象データにソースデータをフィルタリング,適応させることで,ドメイン間ギャップを埋める,シンプルで効果的なフレームワークであるCUPIDを提案する。 包括的実験により、ドメイン中心のデータのかなり小さなサブセットでの事前トレーニングは、ランダムサンプリングや完全な事前トレーニングデータセットの活用と比較して、ソースとターゲットのドメインギャップを効果的に閉鎖し、大幅なパフォーマンス向上を達成できることが示された。 CUPIDは、テキスト・ツー・ビデオ検索[72, 37]、ビデオ質問応答[36]、ビデオキャプション[72]など、複数のビデオ言語およびビデオタスクにまたがって、新しい最先端のパフォーマンスを提供する。

This work concerns video-language pre-training and representation learning. In this now ubiquitous training scheme, a model first performs pre-training on paired videos and text (e.g., video clips and accompanied subtitles) from a large uncurated source corpus, before transferring to specific downstream tasks. This two-stage training process inevitably raises questions about the generalization ability of the pre-trained model, which is particularly pronounced when a salient domain gap exists between source and target data (e.g., instructional cooking videos vs. movies). In this paper, we first bring to light the sensitivity of pre-training objectives (contrastive vs. reconstructive) to domain discrepancy. Then, we propose a simple yet effective framework, CUPID, to bridge this domain gap by filtering and adapting source data to the target data, followed by domain-focused pre-training. Comprehensive experiments demonstrate that pre-training on a considerably small subset of domain-focused data can effectively close the source-target domain gap and achieve significant performance gain, compared to random sampling or even exploiting the full pre-training dataset. CUPID yields new state-of-the-art performance across multiple video-language and video tasks, including text-to-video retrieval [72, 37], video question answering [36], and video captioning [72], with consistent performance lift over different pre-training methods.
翻訳日:2021-04-02 13:41:05 公開日:2021-04-01
# ビデオアノテーションなしでインスタンスを追跡する学習

Learning to Track Instances without Video Annotations ( http://arxiv.org/abs/2104.00287v1 )

ライセンス: Link先を確認
Yang Fu, Sifei Liu, Umar Iqbal, Shalini De Mello, Humphrey Shi, Jan Kautz(参考訳) 複数のインスタンスのセグメンテーションマスクの追跡は研究されているが,1)大規模かつフレームワイドなアノテーションの要求,2)2段階のアプローチの複雑さという2つの根本的な課題に直面している。 これらの課題を解決するために,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。 インスタンスの対照的な目的によって、各インスタンスを他のインスタンスと区別する埋め込みを学びます。 画像のみをトレーニングしても,学習した特徴表現はインスタンスの出現変動に頑健であり,フレーム間でオブジェクトを着実に追跡できることを示す。 我々は、ラベルなしビデオからの対応を自己監督的に学習することで、埋め込みのトラッキング能力をさらに強化する。 さらに、このモジュールをシングルステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合し、2段階のネットワークと比較して追跡の計算の複雑さを大幅に削減した。 YouTube-VIS と PoseTrack のデータセットで実験を行う。 ビデオアノテーションを使わずに、提案手法は、多くの完全教師付き手法と同等あるいはそれ以上の性能を達成できる。

Tracking segmentation masks of multiple instances has been intensively studied, but still faces two fundamental challenges: 1) the requirement of large-scale, frame-wise annotation, and 2) the complexity of two-stage approaches. To resolve these challenges, we introduce a novel semi-supervised framework by learning instance tracking networks with only a labeled image dataset and unlabeled video sequences. With an instance contrastive objective, we learn an embedding to discriminate each instance from the others. We show that even when only trained with images, the learned feature representation is robust to instance appearance variations, and is thus able to track objects steadily across frames. We further enhance the tracking capability of the embedding by learning correspondence from unlabeled videos in a self-supervised manner. In addition, we integrate this module into single-stage instance segmentation and pose estimation frameworks, which significantly reduce the computational complexity of tracking compared to two-stage networks. We conduct experiments on the YouTube-VIS and PoseTrack datasets. Without any video annotation efforts, our proposed method can achieve comparable or even better performance than most fully-supervised methods.
翻訳日:2021-04-02 13:40:37 公開日:2021-04-01
# 適応テキスト領域表現を用いた任意形テキスト検出

Arbitrary-Shaped Text Detection withAdaptive Text Region Representation ( http://arxiv.org/abs/2104.00297v1 )

ライセンス: Link先を確認
Xiufeng Jiang, Shugong Xu (Fellow, IEEE), Shunqing Zhang (Senior Member, IEEE), and Shan Cao(参考訳) コンピュータビジョンにおける重要なタスクであるテキスト検出/局所化は、畳み込みニューラルネットワークによる方法論と性能の大幅な進歩を目撃している。 しかし、一般的な方法の大多数は長方形や四角形を使ってテキスト領域を記述している。 これらの表現は固有の欠点、特に密接な隣接テキストと緩やかな地域テキスト境界に関するものであり、通常は任意の形のテキストを検出するのが困難である。 本稿では, 隣接したテキストを任意形状で高精度に検出できる, 頑健なパイプラインを用いた新しいテキスト領域表現法を提案する。 テキストインスタンスは、適応型中央テキスト領域マスクと、中央テキスト領域と全テキスト領域との伸長比とからなると考えられる。 より具体的には、我々のパイプラインは適応的な中央テキスト領域と対応する拡張比をトレーニング戦略で生成し、続いて、対応する拡張比で中央テキスト領域を全テキストインスタンスに拡張する新しい後処理アルゴリズムを提案する。 我々は,新しいテキスト領域表現が有効であることを実証し,そのパイプラインが近接するテキストインスタンスの構内形状を正確に検出できることを示した。 共通データセットにおける実験結果はoに優れた性能を示す

Text detection/localization, as an important task in computer vision, has witnessed substantialadvancements in methodology and performance with convolutional neural networks. However, the vastmajority of popular methods use rectangles or quadrangles to describe text regions. These representationshave inherent drawbacks, especially relating to dense adjacent text and loose regional text boundaries,which usually cause difficulty detecting arbitrarily shaped text. In this paper, we propose a novel text regionrepresentation method, with a robust pipeline, which can precisely detect dense adjacent text instances witharbitrary shapes. We consider a text instance to be composed of an adaptive central text region mask anda corresponding expanding ratio between the central text region and the full text region. More specifically,our pipeline generates adaptive central text regions and corresponding expanding ratios with a proposedtraining strategy, followed by a new proposed post-processing algorithm which expands central text regionsto the complete text instance with the corresponding expanding ratios. We demonstrated that our new textregion representation is effective, and that the pipeline can precisely detect closely adjacent text instances ofarbitrary shapes. Experimental results on common datasets demonstrate superior performance o
翻訳日:2021-04-02 13:40:20 公開日:2021-04-01
# EfficientNetV2: より小さなモデルと高速トレーニング

EfficientNetV2: Smaller Models and Faster Training ( http://arxiv.org/abs/2104.00298v1 )

ライセンス: Link先を確認
Mingxing Tan, Quoc V. Le(参考訳) 本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。 学習速度とパラメータ効率を共同で最適化するために,学習認識型ニューラルネットワークの探索とスケーリングを組み合わせたモデルを開発した。 モデルはFused-MBConvのような新しいオペに富んだ検索空間から検索された。 実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。 トレーニング中に画像サイズを徐々に増やすことで、トレーニングをさらに加速することができるが、精度が低下することが多い。 この精度低下を補うために,正規化(例えば,ドロップアウトとデータ拡張)を適応的に調整し,高速なトレーニングと精度の両立を可能にすることを提案する。 プログレッシブラーニングでは、当社のEfficientNetV2は、ImageNetとCIFAR/Cars/Flowersデータセットで以前のモデルよりも大幅に優れています。 同じImageNet21kで事前トレーニングを行うことで、当社のEfficientNetV2は、ImageNet ILSVRC2012で87.3%のトップ-1の精度を達成し、最新のViTを2.0%上回り、同じコンピューティングリソースを使用して5x-11倍高速にトレーニングします。 コードはhttps://github.com/google/automl/ efficientnetv2で入手できる。

This paper introduces EfficientNetV2, a new family of convolutional networks that have faster training speed and better parameter efficiency than previous models. To develop this family of models, we use a combination of training-aware neural architecture search and scaling, to jointly optimize training speed and parameter efficiency. The models were searched from the search space enriched with new ops such as Fused-MBConv. Our experiments show that EfficientNetV2 models train much faster than state-of-the-art models while being up to 6.8x smaller. Our training can be further sped up by progressively increasing the image size during training, but it often causes a drop in accuracy. To compensate for this accuracy drop, we propose to adaptively adjust regularization (e.g., dropout and data augmentation) as well, such that we can achieve both fast training and good accuracy. With progressive learning, our EfficientNetV2 significantly outperforms previous models on ImageNet and CIFAR/Cars/Flowers datasets. By pretraining on the same ImageNet21k, our EfficientNetV2 achieves 87.3% top-1 accuracy on ImageNet ILSVRC2012, outperforming the recent ViT by 2.0% accuracy while training 5x-11x faster using the same computing resources. Code will be available at https://github.com/google/automl/efficientnetv2.
翻訳日:2021-04-02 13:40:00 公開日:2021-04-01
# Selective Pseudo LabelingとProgressive Self-Trainingによる半教師付きドメイン適応

Semi-Supervised Domain Adaptation via Selective Pseudo Labeling and Progressive Self-Training ( http://arxiv.org/abs/2104.00319v1 )

ライセンス: Link先を確認
Yoonhyung Kim and Changick Kim(参考訳) ドメイン適応 (da) は、知識をラベル不足のソースドメインからラベル対応対象ドメインに転送する表現学習手法である。 初期の手法のほとんどは教師なしDA(UDA)に重点を置いているが、最近は半教師なしDA(SSDA)の研究もいくつか提案されている。 SSDAでは,少数のラベル付き対象画像がトレーニング用に付与され,これらのデータの有効性が以前の研究で実証された。 しかし、従来のSSDAアプローチでは、通常の監視された損失を埋め込むためにのみ、これらのデータを採用していた。 本稿では,この観察に基づいて,ssaのラベル付きターゲット画像をさらに活用する新しい手法を提案する。 具体的には、ラベル付きターゲット画像を用いて、ラベルなしターゲット画像の擬似ラベルを選択的に生成する。 また,疑似ラベルが必然的にうるさいという観測に基づいて,ラベルノイズロバスト学習方式を適用し,ネットワークと疑似ラベルの集合を順次更新する。 広範な実験結果から,提案手法は他の最先端ssda法よりも優れていた。

Domain adaptation (DA) is a representation learning methodology that transfers knowledge from a label-sufficient source domain to a label-scarce target domain. While most of early methods are focused on unsupervised DA (UDA), several studies on semi-supervised DA (SSDA) are recently suggested. In SSDA, a small number of labeled target images are given for training, and the effectiveness of those data is demonstrated by the previous studies. However, the previous SSDA approaches solely adopt those data for embedding ordinary supervised losses, overlooking the potential usefulness of the few yet informative clues. Based on this observation, in this paper, we propose a novel method that further exploits the labeled target images for SSDA. Specifically, we utilize labeled target images to selectively generate pseudo labels for unlabeled target images. In addition, based on the observation that pseudo labels are inevitably noisy, we apply a label noise-robust learning scheme, which progressively updates the network and the set of pseudo labels by turns. Extensive experimental results show that our proposed method outperforms other previous state-of-the-art SSDA methods.
翻訳日:2021-04-02 13:39:37 公開日:2021-04-01
# 教師なし視覚表現学習のためのJigsawクラスタリング

Jigsaw Clustering for Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2104.00323v1 )

ライセンス: Link先を確認
Pengguang Chen, Shu Liu, Jiaya Jia(参考訳) 教師なし表現学習と対照学習は大きな成功を収めた。 この一連のメソッドは、各トレーニングバッチを複製してコントラストペアを構築し、各トレーニングバッチとその拡張バージョンを同時に転送し、追加の計算に繋がる。 本論文では,各トレーニングバッチを前進させるだけで,トレーニングコストを削減できる新しいjigsawクラスタリングプリテキストタスクを提案する。 本手法は画像内と画像間の両方からの情報を活用し、従来のシングルバッチベースの情報よりも大きなマージンで勝る。 トレーニングバッチの半分しか使用していない場合、対照的な学習方法にさえ匹敵する。 提案手法は,訓練中の複数のバッチは不要であり,単一バッチ非教師なし手法の今後の研究への扉を開くものである。 ImageNetデータセットでトレーニングしたモデルでは,線形分類による最先端の結果が得られ,従来の単一バッチ手法よりも2.6%向上した。 COCOデータセットに転送されたモデルは、トレーニングバッチの半分でMoCo v2を0.4%上回る。 我々の事前学習モデルは、CIFAR-10とCIFAR-100データセットでそれぞれ0.9%と4.1%の教師付きImageNetモデルより優れています。 コードはhttps://github.com/Jia-Research-Lab/JigsawClusteringで入手できる。

Unsupervised representation learning with contrastive learning achieved great success. This line of methods duplicate each training batch to construct contrastive pairs, making each training batch and its augmented version forwarded simultaneously and leading to additional computation. We propose a new jigsaw clustering pretext task in this paper, which only needs to forward each training batch itself, and reduces the training cost. Our method makes use of information from both intra- and inter-images, and outperforms previous single-batch based ones by a large margin. It is even comparable to the contrastive learning methods when only half of training batches are used. Our method indicates that multiple batches during training are not necessary, and opens the door for future research of single-batch unsupervised methods. Our models trained on ImageNet datasets achieve state-of-the-art results with linear classification, outperforming previous single-batch methods by 2.6%. Models transferred to COCO datasets outperform MoCo v2 by 0.4% with only half of the training batches. Our pretrained models outperform supervised ImageNet pretrained models on CIFAR-10 and CIFAR-100 datasets by 0.9% and 4.1% respectively. Code is available at https://github.com/Jia-Research-Lab/JigsawClustering
翻訳日:2021-04-02 13:39:17 公開日:2021-04-01
# STMTrack: 時空間メモリネットワークによるテンプレートなしのビジュアルトラッキング

STMTrack: Template-free Visual Tracking with Space-time Memory Networks ( http://arxiv.org/abs/2104.00324v1 )

ライセンス: Link先を確認
Zhihong Fu, Qingjie Liu, Zehua Fu, Yunhong Wang(参考訳) オフライントレーニングされたシアームトラッカーの性能向上は,第1フレームから切り出されたテンプレートの固定情報がほぼ完全に採掘されているため,近年は難しくなっているが,ターゲットの外観変化に抵抗する能力は乏しい。 テンプレート更新機構を持つ既存のトラッカーは、時間を要する数値最適化と複雑な手設計の戦略を頼りに、競合する性能を達成する。 本稿では,標的に関する歴史的情報を十分に活用し,追跡時の外観変化への適応性を高めることのできる,時空間記憶ネットワーク上に構築した新たな追跡フレームワークを提案する。 具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。 さらに、メモリネットワークのピクセルレベルの類似度計算により、ターゲットのバウンディングボックスをより正確に生成することができる。 otb-2015、trackingnet、got-10k、lasot、uav123、vot2018など、多くの競合トラッカとの広範な実験と比較によって、37fpsで動作中の従来の最先端のリアルタイムメソッドよりも優れています。 コードはhttps://github.com/fzh0917/stmtrackで入手できる。

Boosting performance of the offline trained siamese trackers is getting harder nowadays since the fixed information of the template cropped from the first frame has been almost thoroughly mined, but they are poorly capable of resisting target appearance changes. Existing trackers with template updating mechanisms rely on time-consuming numerical optimization and complex hand-designed strategies to achieve competitive performance, hindering them from real-time tracking and practical applications. In this paper, we propose a novel tracking framework built on top of a space-time memory network that is competent to make full use of historical information related to the target for better adapting to appearance variations during tracking. Specifically, a novel memory mechanism is introduced, which stores the historical information of the target to guide the tracker to focus on the most informative regions in the current frame. Furthermore, the pixel-level similarity computation of the memory network enables our tracker to generate much more accurate bounding boxes of the target. Extensive experiments and comparisons with many competitive trackers on challenging large-scale benchmarks, OTB-2015, TrackingNet, GOT-10k, LaSOT, UAV123, and VOT2018, show that, without bells and whistles, our tracker outperforms all previous state-of-the-art real-time methods while running at 37 FPS. The code is available at https://github.com/fzh0917/STMTrack.
翻訳日:2021-04-02 13:38:59 公開日:2021-04-01
# 有名な企業はロゴにもっと文字を使う:ロゴのテキスト領域の大規模分析

Famous Companies Use More Letters in Logo:A Large-Scale Analysis of Text Area in Logo ( http://arxiv.org/abs/2104.00327v1 )

ライセンス: Link先を確認
Shintaro Nishi, Takeaki Kadota, Seiichi Uchida(参考訳) 本稿では,近年の深層学習技術を用いて,LDD-logoデータセットからの多数のロゴ画像を分析し,ロゴ画像の設計動向だけでなく,所有企業との関係も理解している。 特に,ロゴ画像とテキスト領域,テキスト領域とtwitterのフォロワー数,ロゴ画像とフォロワー数との間に,3つの相関関係に注目した。 テキスト面積比と企業のフォロワー数との間には, 有意な相関関係がみられた。 さらに, ロゴ画像とフォロワー数との相関関係を, 深部回帰法と深部ランキング法で求めることができる。

This paper analyzes a large number of logo images from the LLD-logo dataset, by recent deep learning-based techniques, to understand not only design trends of logo images and but also the correlation to their owner company. Especially, we focus on three correlations between logo images and their text areas, between the text areas and the number of followers on Twitter, and between the logo images and the number of followers. Various findings include the weak positive correlation between the text area ratio and the number of followers of the company. In addition, deep regression and deep ranking methods can catch correlations between the logo images and the number of followers.
翻訳日:2021-04-02 13:38:33 公開日:2021-04-01
# UC2: 共通言語間クロスモーダルビジョン・ランゲージ事前訓練

UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training ( http://arxiv.org/abs/2104.00332v1 )

ライセンス: Link先を確認
Mingyang Zhou, Luowei Zhou, Shuohang Wang, Yu Cheng, Linjie Li, Zhou Yu, Jingjing Liu(参考訳) 視覚と言語の事前学習は、視覚と言語の間のマルチモーダル表現を学ぶことで素晴らしい成功を収めた。 この成功を非英語言語に一般化するために、言語間相互モーダル表現学習のための最初の機械翻訳拡張フレームワークUC2を紹介する。 画像データセットの多言語キャプションの不足問題に対処するため,機械翻訳(MT)により,既存の英語のみのデータセットを他の言語で拡張する。 次に、標準のマスキング言語モデリングと画像テキストマッチングトレーニング対象を多言語設定に拡張し、異なる言語間のアライメントを共有ビジュアルコンテキスト(イメージをピボットとして使用する)でキャプチャする。 画像の埋め込み空間とすべての言語を学習しやすくするため,MT強調データを利用したMRTM(Masked Region-to-Token Modeling)とVTLM(Visual Translation Language Modeling)という2つの新しい事前学習タスクを提案する。 多言語画像テキスト検索と多言語視覚質問応答ベンチマークの評価により,提案手法は,英語タスクにおける単言語前学習モデルと同等の性能を維持しつつ,多言語非英語ベンチマークにおいて,新たな最先端を実現した。

Vision-and-language pre-training has achieved impressive success in learning multimodal representations between vision and language. To generalize this success to non-English languages, we introduce UC2, the first machine translation-augmented framework for cross-lingual cross-modal representation learning. To tackle the scarcity problem of multilingual captions for image datasets, we first augment existing English-only datasets with other languages via machine translation (MT). Then we extend the standard Masked Language Modeling and Image-Text Matching training objectives to multilingual setting, where alignment between different languages is captured through shared visual context (i.e, using image as pivot). To facilitate the learning of a joint embedding space of images and all languages of interest, we further propose two novel pre-training tasks, namely Masked Region-to-Token Modeling (MRTM) and Visual Translation Language Modeling (VTLM), leveraging MT-enhanced translated data. Evaluation on multilingual image-text retrieval and multilingual visual question answering benchmarks demonstrates that our proposed framework achieves new state-of-the-art on diverse non-English benchmarks while maintaining comparable performance to monolingual pre-trained models on English tasks.
翻訳日:2021-04-02 13:38:23 公開日:2021-04-01
# 複雑なシーン画像生成のための爆発的関係

Exploiting Relationship for Complex-scene Image Generation ( http://arxiv.org/abs/2104.00356v1 )

ライセンス: Link先を確認
Tianyu Hua, Hongdong Zheng, Yalong Bai, Wei Zhang, Xiao-Ping Zhang, Tao Mei(参考訳) GAN(Generative Adversarial Networks)の大幅な進歩により、言語入力に基づく現実的な単一オブジェクト画像生成が容易になった。 しかし、複雑なシーン生成(複数のオブジェクト間の様々な相互作用)は、レイアウトや外観の多様な構成のため、いまだに乱雑なレイアウトやオブジェクトの歪みに悩まされている。 従来のメソッドはほとんどがオブジェクト駆動であり、複雑なシーンイメージにおいて重要な役割を果たす相互関係を無視する。 本研究は、複数のオブジェクトがシーングラフとして相互に関連づけられる、関係を意識した複雑なシーン画像生成を探求する。 関係の助けを借りて、生成フレームワークに3つの大きなアップデートを提案する。 第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。 標準的な位置回帰と比較すると、相対的なスケールと距離はより信頼性の高いターゲットとなる。 第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。 第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。 本手法は,画像中の複数のオブジェクトの相互作用を考慮し,妥当なレイアウトとオブジェクトを合成する傾向がある。 視覚ゲノムとHICO-DETデータセットによる実験結果から,提案手法はISとFIDの指標で先行技術よりも有意に優れていた。 本手法は, ユーザ調査と視覚検査により, 複雑なシーンの論理レイアウトや外観生成に有効である。

The significant progress on Generative Adversarial Networks (GANs) has facilitated realistic single-object image generation based on language input. However, complex-scene generation (with various interactions among multiple objects) still suffers from messy layouts and object distortions, due to diverse configurations in layouts and appearances. Prior methods are mostly object-driven and ignore their inter-relations that play a significant role in complex-scene images. This work explores relationship-aware complex-scene image generation, where multiple objects are inter-related as a scene graph. With the help of relationships, we propose three major updates in the generation framework. First, reasonable spatial layouts are inferred by jointly considering the semantics and relationships among objects. Compared to standard location regression, we show relative scales and distances serve a more reliable target. Second, since the relations between objects significantly influence an object's appearance, we design a relation-guided generator to generate objects reflecting their relationships. Third, a novel scene graph discriminator is proposed to guarantee the consistency between the generated image and the input scene graph. Our method tends to synthesize plausible layouts and objects, respecting the interplay of multiple objects in an image. Experimental results on Visual Genome and HICO-DET datasets show that our proposed method significantly outperforms prior arts in terms of IS and FID metrics. Based on our user study and visual inspection, our method is more effective in generating logical layout and appearance for complex-scenes.
翻訳日:2021-04-02 13:38:00 公開日:2021-04-01
# クロスタスクシナジーを用いたオンラインマルチオブジェクトトラッキング

Online Multiple Object Tracking with Cross-Task Synergy ( http://arxiv.org/abs/2104.00380v1 )

ライセンス: Link先を確認
Song Guo, Jingya Wang, Xinchao Wang, Dacheng Tao(参考訳) 現代のオンラインマルチオブジェクトトラッキング(MOT)手法は通常、トラッキング性能を改善するために2つの方向に焦点を当てる。 1つは、前のフレームからの追跡情報に基づいて、入ってくるフレームの新しい位置を予測し、もう1つは、より識別的なアイデンティティ埋め込みを生成して、データアソシエーションを強化することである。 1つのフレームワーク内で両方の方向を結合して、2つのタスクとして処理する作業もあるため、相互利益はほとんど得られない。 本稿では,位置予測と埋め込み関係の相乗効果を考慮した新しい統一モデルを提案する。 2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。 具体的には、注意モジュールによって、予測がターゲットに焦点をあて、邪魔者を減らすことができるため、より信頼性の高い埋め込みを関連付けて抽出することができる。 一方で、このような信頼性の高い埋め込みは、メモリアグリゲーションによるアイデンティティ認識を促進し、アテンションモジュールを強化し、ドリフトを抑制する。 このように、位置予測と埋め込みアソシエーションの相乗効果が達成され、オクルージョンに対する強い堅牢性をもたらす。 大規模な実験により,MOTChallengeベンチマーク上での既存手法に対する提案手法の優位性を実証した。 私たちのコードとモデルはhttps://github.com/songguocode/TADAMで公開されています。

Modern online multiple object tracking (MOT) methods usually focus on two directions to improve tracking performance. One is to predict new positions in an incoming frame based on tracking information from previous frames, and the other is to enhance data association by generating more discriminative identity embeddings. Some works combined both directions within one framework but handled them as two individual tasks, thus gaining little mutual benefits. In this paper, we propose a novel unified model with synergy between position prediction and embedding association. The two tasks are linked by temporal-aware target attention and distractor attention, as well as identity-aware memory aggregation model. Specifically, the attention modules can make the prediction focus more on targets and less on distractors, therefore more reliable embeddings can be extracted accordingly for association. On the other hand, such reliable embeddings can boost identity-awareness through memory aggregation, hence strengthen attention modules and suppress drifts. In this way, the synergy between position prediction and embedding association is achieved, which leads to strong robustness to occlusions. Extensive experiments demonstrate the superiority of our proposed model over a wide range of existing methods on MOTChallenge benchmarks. Our code and models are publicly available at https://github.com/songguocode/TADAM.
翻訳日:2021-04-02 13:37:38 公開日:2021-04-01
# 正確な追跡のためのターゲット変換回帰

Target Transformed Regression for Accurate Tracking ( http://arxiv.org/abs/2104.00403v1 )

ライセンス: Link先を確認
Yutao Cui, Cheng Jiang, Limin Wang and Gangshan Wu(参考訳) 正確な追跡は、ビデオ中のターゲットの外観の変化、ポーズとビューの変化、および幾何学的変形のために依然として難しい課題である。 最近のアンカーフリートラッカーは効率的な回帰機構を提供するが、正確な境界ボックス推定はできない。 これらの問題に対処するため,本論文では,TREG(Target Transformed Regression)と呼ばれるTransformer-alike回帰分岐を用いて,正確なアンカーフリートラッキングを行う。 TREGのコアとなるのは、ターゲットテンプレートと検索領域の要素間のペアワイズ関係をモデル化し、その結果のターゲット拡張視覚表現を正確なバウンディングボックス回帰に利用することである。 この対象のコンテキスト化表現は、対象の関連情報を強化して、ボックス境界を正確に特定し、局所的かつ高密度なマッチング機構により、ある程度オブジェクトの変形に対処することができる。 さらに,信頼性の高いテンプレートを選択するための簡単なオンラインテンプレート更新機構を考案し,出現変動のロバスト性や対象の時間的変形を増大させる。 VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT, TrackingNetなどのビジュアルトラッキングベンチマークの実験結果は、TREGが30FPSで動作しながら、LaSOTで0.640の成功率を達成したことを示す。 コードとモデルはhttps://github.com/MCG-NJU/TREGで公開される。

Accurate tracking is still a challenging task due to appearance variations, pose and view changes, and geometric deformations of target in videos. Recent anchor-free trackers provide an efficient regression mechanism but fail to produce precise bounding box estimation. To address these issues, this paper repurposes a Transformer-alike regression branch, termed as Target Transformed Regression (TREG), for accurate anchor-free tracking. The core to our TREG is to model pair-wise relation between elements in target template and search region, and use the resulted target enhanced visual representation for accurate bounding box regression. This target contextualized representation is able to enhance the target relevant information to help precisely locate the box boundaries, and deal with the object deformation to some extent due to its local and dense matching mechanism. In addition, we devise a simple online template update mechanism to select reliable templates, increasing the robustness for appearance variations and geometric deformations of target in time. Experimental results on visual tracking benchmarks including VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT and TrackingNet demonstrate that TREG obtains the state-of-the-art performance, achieving a success rate of 0.640 on LaSOT, while running at around 30 FPS. The code and models will be made available at https://github.com/MCG-NJU/TREG.
翻訳日:2021-04-02 13:37:18 公開日:2021-04-01
# ブラインド超解像のための教師なし劣化表現学習

Unsupervised Degradation Representation Learning for Blind Super-Resolution ( http://arxiv.org/abs/2104.00416v1 )

ライセンス: Link先を確認
Longguang Wang, Yingqian Wang, Xiaoyu Dong, Qingyu Xu, Jungang Yang, Wei An, Yulan Guo(参考訳) 既存のcnnベースのスーパーレゾリューション(sr)法は、劣化が固定され知られているという仮定に基づいて開発されている(例えば、bicubic downsampling)。 しかし、実際の劣化が仮定と異なる場合、これらの手法は深刻な性能低下に苦しむ。 実世界の様々な未知の劣化に対処するため、従来の手法ではSR画像の再構成に劣化推定を頼っていた。 それでも、劣化推定法は通常時間を要するため、大きな推定誤差のためにSR故障につながる可能性がある。 本稿では,暗黙的劣化推定を伴わない盲点SRのための教師なし劣化表現学習手法を提案する。 具体的には、画素空間における明示的な推定よりも、表現空間における様々な劣化を区別するために抽象表現を学ぶ。 さらに、学習した表現に基づいて様々な劣化に柔軟に対応可能な劣化認識SR(DASR)ネットワークを導入する。 本手法は, 識別表現を抽出し, 正確な劣化情報を得ることができることを示す。 合成画像と実画像の両方で実験した結果,本ネットワークはブラインドsrタスクの最先端の性能を達成できた。 コードは、https://github.com/LongguangWang/DASR.comで入手できる。

Most existing CNN-based super-resolution (SR) methods are developed based on an assumption that the degradation is fixed and known (e.g., bicubic downsampling). However, these methods suffer a severe performance drop when the real degradation is different from their assumption. To handle various unknown degradations in real-world applications, previous methods rely on degradation estimation to reconstruct the SR image. Nevertheless, degradation estimation methods are usually time-consuming and may lead to SR failure due to large estimation errors. In this paper, we propose an unsupervised degradation representation learning scheme for blind SR without explicit degradation estimation. Specifically, we learn abstract representations to distinguish various degradations in the representation space rather than explicit estimation in the pixel space. Moreover, we introduce a Degradation-Aware SR (DASR) network with flexible adaption to various degradations based on the learned representations. It is demonstrated that our degradation representation learning scheme can extract discriminative representations to obtain accurate degradation information. Experiments on both synthetic and real images show that our network achieves state-of-the-art performance for the blind SR task. Code is available at: https://github.com/LongguangWang/DASR.
翻訳日:2021-04-02 13:36:47 公開日:2021-04-01
# SCALoss: ボックス回帰をバウンディングするためのサイドとコーナーアライメントの損失

SCALoss: Side and Corner Aligned Loss for Bounding Box Regression ( http://arxiv.org/abs/2104.00462v1 )

ライセンス: Link先を確認
Tu Zheng, Shuai Zhao, Yang Liu, Zili Liu, Deng Cai(参考訳) 境界ボックスの回帰は、オブジェクト検出において重要な要素である。 最近の研究は、IoU(Intersection over Union)を損失として最適化することで、有望なパフォーマンスを示している。 しかし、IoUベースの損失は、重なり合いの低い有界箱の場合、勾配がなくなる問題があり、これらの単純なケースは容易に無視できる。 本稿では,2つのバウンディングボックスのサイドオーバーラップを最大化することで,バウンディングボックスの低オーバーラップに対してよりペナルティを課すサイドオーバーラップ(so)ロスを提案する。 さらに、収束を高速化するために、コーナー距離(CD)を目的関数に追加する。 Side Overlap と Corner Distance を組み合わせることで,新たな回帰目標関数 Side と Corner Align Loss (SCALoss) が得られる。 SCALossはIoU損失とよく相関しており、評価指標にもメリットがあるが、重複の少ないケースではペナルティが増大する。 包括的類似性尺度として機能し、ローカライズ性能の向上と収束速度の向上に寄与する。 COCOとPASCAL VOCベンチマークの実験によると、SCALossは、YOLOV3、SSD、Reppoints、Faster-RCNNなどの一般的なオブジェクト検出器で、一貫した改善と、$\ell_n$損失とIoUベースの損失を上回り得る。

Bounding box regression is an important component in object detection. Recent work has shown the promising performance by optimizing the Intersection over Union (IoU) as loss. However, IoU-based loss has the gradient vanish problem in the case of low overlapping bounding boxes, and the model could easily ignore these simple cases. In this paper, we propose Side Overlap (SO) loss by maximizing the side overlap of two bounding boxes, which puts more penalty for low overlapping bounding box cases. Besides, to speed up the convergence, the Corner Distance (CD) is added into the objective function. Combining the Side Overlap and Corner Distance, we get a new regression objective function, Side and Corner Align Loss (SCALoss). The SCALoss is well-correlated with IoU loss, which also benefits the evaluation metric but produces more penalty for low-overlapping cases. It can serve as a comprehensive similarity measure, leading the better localization performance and faster convergence speed. Experiments on COCO and PASCAL VOC benchmarks show that SCALoss can bring consistent improvement and outperform $\ell_n$ loss and IoU based loss with popular object detectors such as YOLOV3, SSD, Reppoints, Faster-RCNN.
翻訳日:2021-04-02 13:36:31 公開日:2021-04-01
# ロングテール認識のための校正の改善

Improving Calibration for Long-Tailed Recognition ( http://arxiv.org/abs/2104.00466v1 )

ライセンス: Link先を確認
Zhisheng Zhong, Jiequan Cui, Shu Liu, Jiaya Jia(参考訳) 深層ニューラルネットワークは、トレーニングデータセットがかなりクラス不均衡である場合、パフォーマンスが悪くなる可能性がある。 近年,2段階の手法が表現学習と分類学習を分離し,性能が向上している。 しかし、いまだに誤診の重大な問題がある。 そこで我々は,このようなシナリオにおけるキャリブレーションと性能を改善する2つの手法を設計した。 クラスの予測確率分布がクラスインスタンス数に強く関連していることから,クラスに対する自信の度合いの相違に対処し,分類器学習を改善するラベル認識スムーシングを提案する。 サンプルの異なる2つのステージ間のデータセットバイアスについて、デカップリングフレームワークにおけるシフトバッチ正規化を提案する。 提案手法は,CIFAR-10-LT,CIFAR-100-LT,ImageNet-LT,Places-LT,iNaturalist 2018など,複数の一般的な長周期認識ベンチマークデータセットに新たなレコードを設定した。 コードはhttps://github.com/Jia-Research-Lab/MiSLASで入手できる。

Deep neural networks may perform poorly when training datasets are heavily class-imbalanced. Recently, two-stage methods decouple representation learning and classifier learning to improve performance. But there is still the vital issue of miscalibration. To address it, we design two methods to improve calibration and performance in such scenarios. Motivated by the fact that predicted probability distributions of classes are highly related to the numbers of class instances, we propose label-aware smoothing to deal with different degrees of over-confidence for classes and improve classifier learning. For dataset bias between these two stages due to different samplers, we further propose shifted batch normalization in the decoupling framework. Our proposed methods set new records on multiple popular long-tailed recognition benchmark datasets, including CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, Places-LT, and iNaturalist 2018. Code will be available at https://github.com/Jia-Research-Lab/MiSLAS.
翻訳日:2021-04-02 13:36:01 公開日:2021-04-01
# 局所的・大域的形状の階層構造を学習した一視点3次元再構成における一般化

Fostering Generalization in Single-view 3D Reconstruction by Learning a Hierarchy of Local and Global Shape Priors ( http://arxiv.org/abs/2104.00476v1 )

ライセンス: Link先を確認
Jan Bechtold, Maxim Tatarchenko, Volker Fischer, Thomas Brox(参考訳) 単一視点の3dオブジェクトの再構築は大きな進歩を遂げているが、訓練中に目に見えない新しい形状に一般化する手法はいまだに苦戦している。 一般的なアプローチは、主に学習されたグローバルな形に頼り、したがって詳細な局所的な観察を無視している。 本研究では,地中真理入力深度マップから,様々な局地性レベルの事前階層を学習することでこの問題に対処する。 局所前置法を活用すれば,入力観測を効率的に利用することが可能となり,新しい形状の可視領域の一般化が向上する。 同時に、局所的および大域的プリエントの組み合わせにより、観察されていない部分の有意義な幻覚が実現され、一貫した3d形状が得られる。 階層的アプローチがグローバルアプローチよりもはるかに優れていることを示す。 クラスの異なるインスタンス間だけでなく、クラス間でも一般化し、オブジェクトの配置を見えなくする。

Single-view 3D object reconstruction has seen much progress, yet methods still struggle generalizing to novel shapes unseen during training. Common approaches predominantly rely on learned global shape priors and, hence, disregard detailed local observations. In this work, we address this issue by learning a hierarchy of priors at different levels of locality from ground truth input depth maps. We argue that exploiting local priors allows our method to efficiently use input observations, thus improving generalization in visible areas of novel shapes. At the same time, the combination of local and global priors enables meaningful hallucination of unobserved parts resulting in consistent 3D shapes. We show that the hierarchical approach generalizes much better than the global approach. It generalizes not only between different instances of a class but also across classes and to unseen arrangements of objects.
翻訳日:2021-04-02 13:35:45 公開日:2021-04-01
# sketch2mesh: スケッチからの3d形状の再構築と編集

Sketch2Mesh: Reconstructing and Editing 3D Shapes from Sketches ( http://arxiv.org/abs/2104.00482v1 )

ライセンス: Link先を確認
Benoit Guillard and Edoardo Remelli and Pierre Yvernay and Pascal Fua(参考訳) 2Dのスケッチから3Dの形状を再構築することは、長い間オープンな問題だった。 本稿では,メッシュ変換のためのスケッチにエンコーダ/デコーダアーキテクチャを用いる。 これにより、潜在パラメトリゼーションを利用して3Dメッシュを表現・洗練し、プロジェクションがスケッチで概略された外部の輪郭にマッチするようにします。 このアプローチはデプロイが容易であり、スタイル変更に堅牢であり、効果的であることを示します。 また、一本のペンストロークしか持たない形状の精細化にも使用できる。 我々は、手書きと合成の両方でスケッチの最先端の手法と比較し、それらよりも優れていることを示す。

Reconstructing 3D shape from 2D sketches has long been an open problem because the sketches only provide very sparse and ambiguous information. In this paper, we use an encoder/decoder architecture for the sketch to mesh translation. This enables us to leverage its latent parametrization to represent and refine a 3D mesh so that its projections match the external contours outlined in the sketch. We will show that this approach is easy to deploy, robust to style changes, and effective. Furthermore, it can be used for shape refinement given only single pen strokes. We compare our approach to state-of-the-art methods on sketches -- both hand-drawn and synthesized -- and demonstrate that we outperform them.
翻訳日:2021-04-02 13:35:29 公開日:2021-04-01
# 深部2次元構造-運動からの再考

Deep Two-View Structure-from-Motion Revisited ( http://arxiv.org/abs/2104.00556v1 )

ライセンス: Link先を確認
Jianyuan Wang, Yiran Zhong, Yuchao Dai, Stan Birchfield, Kaihao Zhang, Nikolai Smolyanskiy, Hongdong Li(参考訳) 2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。 既存のディープラーニングベースのアプローチは、2つの連続するフレームから絶対的なポーズスケールを復元するか、1つのイメージから深度マップを予測することで問題を定式化する。 対照的に,我々は古典的パイプラインの適切さを活かし,深部2視点sfmの問題を再考する。 本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。 提案手法は,KITTI深度,KITTI VO,MVS,Scenes11,SUN3Dデータセットの相対的ポーズと深度推定において,最先端の2次元SfM手法よりも優れていることを示す。

Two-view structure-from-motion (SfM) is the cornerstone of 3D reconstruction and visual SLAM. Existing deep learning-based approaches formulate the problem by either recovering absolute pose scales from two consecutive frames or predicting a depth map from a single image, both of which are ill-posed problems. In contrast, we propose to revisit the problem of deep two-view SfM by leveraging the well-posedness of the classic pipeline. Our method consists of 1) an optical flow estimation network that predicts dense correspondences between two frames; 2) a normalized pose estimation module that computes relative camera poses from the 2D optical flow correspondences, and 3) a scale-invariant depth estimation network that leverages epipolar geometry to reduce the search space, refine the dense correspondences, and estimate relative depth maps. Extensive experiments show that our method outperforms all state-of-the-art two-view SfM methods by a clear margin on KITTI depth, KITTI VO, MVS, Scenes11, and SUN3D datasets in both relative pose and depth estimation.
翻訳日:2021-04-02 13:35:17 公開日:2021-04-01
# LED2-Net:微分深度レンダリングによる単眼360度レイアウト推定

LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth Rendering ( http://arxiv.org/abs/2104.00568v1 )

ライセンス: Link先を確認
Fu-En Wang, Yu-Hsuan Yeh, Min Sun, Wei-Chen Chiu, Yi-Hsuan Tsai(参考訳) 部屋配置推定では大きな進歩があったが、ほとんどの手法は3次元空間の部屋構造を利用するよりも2次元画素座標の損失を減らすことを目的としている。 部屋のレイアウトを3Dで再構築するために,パノラマの水平線の深さを予測する問題として,360度レイアウト推定のタスクを定式化する。 具体的には、レイアウトから深度予測への変換を微分可能とし、3次元の幾何情報を活用しながらエンド・ツー・エンドのトレーニングを可能にするための微分可能な深度レンダリング手法を提案する。 提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。 さらに,本定式化により,深度データセットの事前学習が可能となり,レイアウト推定モデルの一般化性が向上する。

Although significant progress has been made in room layout estimation, most methods aim to reduce the loss in the 2D pixel coordinate rather than exploiting the room structure in the 3D space. Towards reconstructing the room layout in 3D, we formulate the task of 360 layout estimation as a problem of predicting depth on the horizon line of a panorama. Specifically, we propose the Differentiable Depth Rendering procedure to make the conversion from layout to depth prediction differentiable, thus making our proposed model end-to-end trainable while leveraging the 3D geometric information, without the need of providing the ground truth depth. Our method achieves state-of-the-art performance on numerous 360 layout benchmark datasets. Moreover, our formulation enables a pre-training step on the depth dataset, which further improves the generalizability of our layout estimation model.
翻訳日:2021-04-02 13:34:56 公開日:2021-04-01
# 多様性誘導型サーチスペーススライキングによるワンショットニューラルアンサンブルアーキテクチャ検索

One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search Space Shrinking ( http://arxiv.org/abs/2104.00597v1 )

ライセンス: Link先を確認
Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling(参考訳) 顕著な進歩にもかかわらず、ほとんどのニューラルアーキテクチャサーチ(NAS)手法は、1つの正確で堅牢なアーキテクチャを探すことに重点を置いている。 一般化能力と性能が向上したモデルをさらに構築するために、通常モデルアンサンブルが採用され、単独モデルよりも優れた性能を発揮する。 モデルアンサンブルの利点に触発されて,強力なモデルを見つけるための代替方法として,複数の多様なモデルを同時に探索することを提案する。 アンサンブルの検索は簡単ではなく、2つの大きな課題がある。 本稿では,この2つの課題を解決する一発ニューラルアンサンブル・アーキテクチャ・サーチ(neas)ソリューションを提案する。 第1の課題として,探索空間の縮小を導くために,候補演算子のポテンシャルと多様性を考慮し,新たな多様性に基づく指標を提案する。 第2の課題として,異なるモデル間の階層共有を効率向上のために学習する新たな探索次元を実現する。 ImageNetの実験は、我々のソリューションがスーパーネットのランキングアンサンブルアーキテクチャの能力を向上させることを明らかに示し、さらに検索結果の改善につながった。 検出されたアーキテクチャは、MobileNetV3やEfficientNetファミリのような、整列した設定下での最先端技術よりも優れたパフォーマンスを実現する。 さらに,COCO検出ベンチマークにおける検索アーキテクチャの一般化能力とロバスト性を評価し,MobileNetV3と比較してAPの3.1%の改善を実現した。 コードとモデルはhttps://github.com/researchmm/neasで入手できる。

Despite remarkable progress achieved, most neural architecture search (NAS) methods focus on searching for one single accurate and robust architecture. To further build models with better generalization capability and performance, model ensemble is usually adopted and performs better than stand-alone models. Inspired by the merits of model ensemble, we propose to search for multiple diverse models simultaneously as an alternative way to find powerful models. Searching for ensembles is non-trivial and has two key challenges: enlarged search space and potentially more complexity for the searched model. In this paper, we propose a one-shot neural ensemble architecture search (NEAS) solution that addresses the two challenges. For the first challenge, we introduce a novel diversity-based metric to guide search space shrinking, considering both the potentiality and diversity of candidate operators. For the second challenge, we enable a new search dimension to learn layer sharing among different models for efficiency purposes. The experiments on ImageNet clearly demonstrate that our solution can improve the supernet's capacity of ranking ensemble architectures, and further lead to better search results. The discovered architectures achieve superior performance compared with state-of-the-arts such as MobileNetV3 and EfficientNet families under aligned settings. Moreover, we evaluate the generalization ability and robustness of our searched architecture on the COCO detection benchmark and achieve a 3.1% improvement on AP compared with MobileNetV3. Codes and models are available at https://github.com/researchmm/NEAS.
翻訳日:2021-04-02 13:34:43 公開日:2021-04-01
# マスクヘッドアーキテクチャが新しいクラスセグメンテーションに与える影響

The surprising impact of mask-head architecture on novel class segmentation ( http://arxiv.org/abs/2104.00613v1 )

ライセンス: Link先を確認
Vighnesh Birodkar, Zhichao Lu, Siyang Li, Vivek Rathod, Jonathan Huang(参考訳) 現在のインスタンスセグメンテーションモデルは、大規模なアノテートデータセットでトレーニングする場合は非常に正確だが、大規模なマスクアノテーションの収集は非常に高価である。 部分教師付きインスタンスセグメンテーションの問題に対処し、すべてのカテゴリに対して(非常に安価で)有界なボックスをトレーニングできるが、マスクはカテゴリのサブセットにのみ使用できる。 本研究では,特徴地図に微分可能な切り分けを適用し,得られた作物に基づいてマスクを予測する,人気のあるモデル群に注目した。 このファミリー内では、トレーニング中にマスクを観察しないクラスへの一般化において、マスクヘッドのアーキテクチャが驚くほど重要な役割を果たすことを示す。 多くのアーキテクチャは、完全に教師付きモードでトレーニングした場合も同様に機能するが、新しいクラスを劇的に異なる方法で一般化することが多い。 この現象を強いマスク一般化効果と呼び、2-4層からなる典型的なマスクヘッドをはるかに深いオフザシェルフアーキテクチャに置き換える(例)。 ResNet, Hourglass Model)。 また,マスクヘッドアーキテクチャを選択すれば,従来の文献で提案された特別なモジュールや損失を必要とせずに,部分的に監督されたCOCOベンチマーク上でSOTA結果が得られることを示す。 最後に、我々の効果が一般的なことを示し、基礎となる検出手法(例)にまたがって保持する。 アンカーベース、アンカーベース、またはアンカーフリー、または全く検出できない)および異なるバックボーンネットワーク。 コードと事前トレーニングされたモデルは、https://git.io/deepmac.orgで入手できる。

Instance segmentation models today are very accurate when trained on large annotated datasets, but collecting mask annotations at scale is prohibitively expensive. We address the partially supervised instance segmentation problem in which one can train on (significantly cheaper) bounding boxes for all categories but use masks only for a subset of categories. In this work, we focus on a popular family of models which apply differentiable cropping to a feature map and predict a mask based on the resulting crop. Within this family, we show that the architecture of the mask-head plays a surprisingly important role in generalization to classes for which we do not observe masks during training. While many architectures perform similarly when trained in fully supervised mode, we show that they often generalize to novel classes in dramatically different ways. We call this phenomenon the strong mask generalization effect, which we exploit by replacing the typical mask-head of 2-4 layers with significantly deeper off-the-shelf architectures (e.g. ResNet, Hourglass models). We also show that the choice of mask-head architecture alone can lead to SOTA results on the partially supervised COCO benchmark without the need of specialty modules or losses proposed by prior literature. Finally, we demonstrate that our effect is general, holding across underlying detection methodologies, (e.g. both anchor-based or anchor free or no detector at all) and across different backbone networks. Code and pre-trained models are available at https://git.io/deepmac.
翻訳日:2021-04-02 13:34:20 公開日:2021-04-01
# 映像表現学習のための構成可能拡張符号化

Composable Augmentation Encoding for Video Representation Learning ( http://arxiv.org/abs/2104.00616v1 )

ライセンス: Link先を確認
Chen Sun, Arsha Nagrani, Yonglong Tian and Cordelia Schmid(参考訳) 自己教師型ビデオ表現学習におけるコントラスト手法に着目した。 対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。 これらの手法は、ビュー選択機構(例えば、時間的シフトのあるフレームをサンプリングする)に対する表現的不変性の集合を暗黙的に仮定し、これらの不変性(時間的情報から恩恵を受けるきめ細かいビデオアクション認識)に違反する下流タスクのパフォーマンスを低下させる可能性がある。 この制限を克服するために、コントラスト学習のためのビデオ表現を投影する際のモデルに、構成可能な拡張符号化(CATE)として、拡張パラメータ化(データビューの作成に使用される時間シフトの値など)のシーケンスを明示的に提供する「拡張対応」コントラスト学習フレームワークを提案する。 本手法で学習した表現は,特定の空間的あるいは時間的拡張に関する貴重な情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。

We focus on contrastive methods for self-supervised video representation learning. A common paradigm in contrastive learning is to construct positive pairs by sampling different data views for the same instance, with different data instances as negatives. These methods implicitly assume a set of representational invariances to the view selection mechanism (eg, sampling frames with temporal shifts), which may lead to poor performance on downstream tasks which violate these invariances (fine-grained video action recognition that would benefit from temporal information). To overcome this limitation, we propose an 'augmentation aware' contrastive learning framework, where we explicitly provide a sequence of augmentation parameterisations (such as the values of the time shifts used to create data views) as composable augmentation encodings (CATE) to our model when projecting the video representations for contrastive learning. We show that representations learned by our method encode valuable information about specified spatial or temporal augmentation, and in doing so also achieve state-of-the-art performance on a number of video benchmarks.
翻訳日:2021-04-02 13:33:59 公開日:2021-04-01
# クロスドメインFew-Shot学習のためのモジュール適応

Modular Adaptation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2104.00619v1 )

ライセンス: Link先を確認
Xiao Lin, Meng Ye, Yunye Gong, Giedrius Buracas, Nikoletta Basiou, Ajay Divakaran, Yi Yao(参考訳) 事前訓練された表現の適応は、限られた例で新しい下流タスクを学ぶためのゴートレシピとなっている。 文学は表現学習を通じて大きな成功を収めてきたが,本研究では,適応プロセスの適切な設計により,下流タスクの実質的な性能向上も達成できることを示す。 具体的には,sof(state-of-the-art)適応法を逐次的に選択的に実行するモジュール適応法を提案する。 異なる下流タスクは異なるタイプの適応を必要とする可能性があるため、モジュール適応は下流タスクに基づいて最も適切なモジュールの動的構成を可能にする。 さらに、既存のクロスドメイン5ウェイkショットベンチマーク(miniimagenet -> cubなど)の拡張として、10の異なるデータセットからのデータを含む新しいハイウェイ(~100)kショットベンチマークを作成します。 このベンチマークは多様なドメインセットを提供し、ImageNetから学んだより強力な表現の使用を可能にする。 実験の結果,下流タスクへの適応プロセスのカスタマイズにより,ファインタニングやプロトタイプネットワークのベースラインよりも5ショットの分類精度が3.1%向上した。

Adapting pre-trained representations has become the go-to recipe for learning new downstream tasks with limited examples. While literature has demonstrated great successes via representation learning, in this work, we show that substantial performance improvement of downstream tasks can also be achieved by appropriate designs of the adaptation process. Specifically, we propose a modular adaptation method that selectively performs multiple state-of-the-art (SOTA) adaptation methods in sequence. As different downstream tasks may require different types of adaptation, our modular adaptation enables the dynamic configuration of the most suitable modules based on the downstream task. Moreover, as an extension to existing cross-domain 5-way k-shot benchmarks (e.g., miniImageNet -> CUB), we create a new high-way (~100) k-shot benchmark with data from 10 different datasets. This benchmark provides a diverse set of domains and allows the use of stronger representations learned from ImageNet. Experimental results show that by customizing adaptation process towards downstream tasks, our modular adaptation pipeline (MAP) improves 3.1% in 5-shot classification accuracy over baselines of finetuning and Prototypical Networks.
翻訳日:2021-04-02 13:33:35 公開日:2021-04-01
# 動画からのインタラクション認識のための動作ガイド付注意融合

Motion Guided Attention Fusion to Recognize Interactions from Videos ( http://arxiv.org/abs/2104.00646v1 )

ライセンス: Link先を確認
Tae Soo Kim, Jonathan Jones, Gregory D. Hager(参考訳) 本稿では,ビデオからのきめ細かいインタラクションを認識するための双方向アプローチを提案する。 従来の二重ストリームアプローチの成功に基づいて構築するが、物体の静的表現と動的表現を区別し、物体検出経路と物体検出経路を分離することにより、その相互作用を明示する。 次に,新しいモーションガイド型アテンション・フュージョン・モジュールを用いて,動作経路のボトムアップ特徴と物体検出から抽出した特徴を融合し,動作の時間的側面を学習する。 提案手法は外見を効果的に一般化し,アクターが未確認のオブジェクトと相互作用する動作を認識する。 提案手法は, 既存の最先端手法に勝る, something-something-v2データセットから合成動作認識タスクを用いて検証する。 また,ikea-asmデータセット上で様々なikea家具を組み立てた人間の認識において,最先端のパフォーマンスを示すことにより,実世界のタスクにうまく一般化できることを示す。

We present a dual-pathway approach for recognizing fine-grained interactions from videos. We build on the success of prior dual-stream approaches, but make a distinction between the static and dynamic representations of objects and their interactions explicit by introducing separate motion and object detection pathways. Then, using our new Motion-Guided Attention Fusion module, we fuse the bottom-up features in the motion pathway with features captured from object detections to learn the temporal aspects of an action. We show that our approach can generalize across appearance effectively and recognize actions where an actor interacts with previously unseen objects. We validate our approach using the compositional action recognition task from the Something-Something-v2 dataset where we outperform existing state-of-the-art methods. We also show that our method can generalize well to real world tasks by showing state-of-the-art performance on recognizing humans assembling various IKEA furniture on the IKEA-ASM dataset.
翻訳日:2021-04-02 13:33:13 公開日:2021-04-01
# In&Out : GANインバージョンによる横画像出力

In&Out : Diverse Image Outpainting via GAN Inversion ( http://arxiv.org/abs/2104.00675v1 )

ライセンス: Link先を確認
Yen-Chi Cheng, Chieh Hubert Lin, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Ming-Hsuan Yang(参考訳) image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。 隣接するピクセルとのコヒーレントな方法で、欠落したピクセルを埋めることと比較すると、問題は周囲のピクセルに制約されないため、より多様な方法で得られる。 既存の画像出力方式は、条件付き画像から画像への変換タスクとして問題を起こし、しばしば入力画像で利用可能なコンテンツを複製することで、繰り返し構造やテクスチャを生成する。 本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。 我々のジェネレータは、画像中の個々の位置だけでなく、彼らのジョイント潜在コードに条件付きマイクロパッチをレンダリングする。 イメージをオーバーペイントするために、利用可能なパッチを復元するだけでなく、パッチベースの生成によって様々なアウトパインを合成する複数の潜在コードを求める。 これにより、塗装された領域におけるよりリッチな構造と内容が得られる。 さらに, カテゴリ入力の条件を上回ることにより, フレキシブルなユーザ制御を実現する。 広範な実験結果から,提案手法は既存のイン・イン・アウト・ペインティング法に好適な効果を示し,高い視覚品質と多様性を示した。

Image outpainting seeks for a semantically consistent extension of the input image beyond its available content. Compared to inpainting -- filling in missing pixels in a way coherent with the neighboring pixels -- outpainting can be achieved in more diverse ways since the problem is less constrained by the surrounding pixels. Existing image outpainting methods pose the problem as a conditional image-to-image translation task, often generating repetitive structures and textures by replicating the content available in the input image. In this work, we formulate the problem from the perspective of inverting generative adversarial networks. Our generator renders micro-patches conditioned on their joint latent code as well as their individual positions in the image. To outpaint an image, we seek for multiple latent codes not only recovering available patches but also synthesizing diverse outpainting by patch-based generation. This leads to richer structure and content in the outpainted regions. Furthermore, our formulation allows for outpainting conditioned on the categorical input, thereby enabling flexible user controls. Extensive experimental results demonstrate the proposed method performs favorably against existing in- and outpainting methods, featuring higher visual quality and diversity.
翻訳日:2021-04-02 13:32:57 公開日:2021-04-01
# Tsallis Divergence を用いた変分推定 MPC

Variational Inference MPC using Tsallis Divergence ( http://arxiv.org/abs/2104.00241v1 )

ライセンス: Link先を確認
Ziyi Wang, Oswin So, Jason Gibson, Bogdan Vlahov, Manan S. Gandhi, Guan-Horng Liu and Evangelos A. Theodorou(参考訳) 本稿では,拡張型 tsallis 発散を用いた変分推論・確率的最適制御のための一般化フレームワークを提案する。 変形した指数関数を最適度推定関数に組み込むことにより、変分推論モデル予測制御、モデル予測経路積分制御、クロスエントロピー法、スタイン変分参照モデル予測制御などの先行処理を特別に含む新しいツァリス変分推論モデル予測制御アルゴリズムが導出される。 提案アルゴリズムはコスト/リワード変換を効果的に制御することができ、関連するコストの平均と分散の低減の点で優れた性能を特徴とする。 上記の特徴は,提案アルゴリズムのリスク感度のレベルに関する理論的および数値的な解析と,3つの異なるポリシーパラメータを持つ5つのロボットシステムのシミュレーション実験によって支持される。

In this paper, we provide a generalized framework for Variational Inference-Stochastic Optimal Control by using thenon-extensive Tsallis divergence. By incorporating the deformed exponential function into the optimality likelihood function, a novel Tsallis Variational Inference-Model Predictive Control algorithm is derived, which includes prior works such as Variational Inference-Model Predictive Control, Model Predictive PathIntegral Control, Cross Entropy Method, and Stein VariationalInference Model Predictive Control as special cases. The proposed algorithm allows for effective control of the cost/reward transform and is characterized by superior performance in terms of mean and variance reduction of the associated cost. The aforementioned features are supported by a theoretical and numerical analysis on the level of risk sensitivity of the proposed algorithm as well as simulation experiments on 5 different robotic systems with 3 different policy parameterizations.
翻訳日:2021-04-02 13:31:06 公開日:2021-04-01
# ディープラーニングにおけるモデル推論にPythonを使用する

Using Python for Model Inference in Deep Learning ( http://arxiv.org/abs/2104.00254v1 )

ライセンス: Link先を確認
Zachary DeVito, Jason Ansel, Will Constable, Michael Suo, Ailing Zhang, Kim Hazelwood(参考訳) Pythonはディープニューラルネットワークのトレーニングのためのデファクト言語となり、科学計算ライブラリをPyTorchやTensorFlowといったテンソル計算のための効率的なライブラリと結合した。 しかし、モデルが推論に使用される場合、通常はパフォーマンスとパッケージングの制約を満たすために、TensorFlowグラフまたはTorchScriptプログラムとしてPythonから抽出される。 抽出過程は時間がかかり、高速なプロトタイピングを阻害する。 我々は、Pythonで推論を実行しながら、これらのパフォーマンスとパッケージングの制約を満たす方法を示す。 特に,単一プロセス内で複数のPythonインタプリタを使用して,スケーラブルな推論を実現し,ネイティブPythonコードとデータの両方を含むモデル用の新しいコンテナフォーマットを記述する。 このアプローチは、モデル抽出のステップをなくすことで、モデルデプロイメントのストーリーを単純化し、既存のパフォーマンス向上のPythonライブラリとの統合を簡単にする。 Github上で人気のPyTorchモデルのスイートで設計を評価し、推論フォーマットでどのようにパッケージ化できるかを示し、パフォーマンスをTorchScriptと比較した。 より大きなモデルでは、パッケージ化されたpythonモデルはtorchscriptと同じパフォーマンスで、pythonのオーバーヘッドがある小さなモデルでは、マルチインタープリタアプローチによって、推論のスケーラビリティが保たれます。

Python has become the de-facto language for training deep neural networks, coupling a large suite of scientific computing libraries with efficient libraries for tensor computation such as PyTorch or TensorFlow. However, when models are used for inference they are typically extracted from Python as TensorFlow graphs or TorchScript programs in order to meet performance and packaging constraints. The extraction process can be time consuming, impeding fast prototyping. We show how it is possible to meet these performance and packaging constraints while performing inference in Python. In particular, we present a way of using multiple Python interpreters within a single process to achieve scalable inference and describe a new container format for models that contains both native Python code and data. This approach simplifies the model deployment story by eliminating the model extraction step, and makes it easier to integrate existing performance-enhancing Python libraries. We evaluate our design on a suite of popular PyTorch models on Github, showing how they can be packaged in our inference format, and comparing their performance to TorchScript. For larger models, our packaged Python models perform the same as TorchScript, and for smaller models where there is some Python overhead, our multi-interpreter approach ensures inference is still scalable.
翻訳日:2021-04-02 13:30:51 公開日:2021-04-01
# 不完全csi下の無線ネットワーク上での連合学習の収束時間について

On the Convergence Time of Federated Learning Over Wireless Networks Under Imperfect CSI ( http://arxiv.org/abs/2104.00331v1 )

ライセンス: Link先を確認
Francesco Pase, Marco Giordani, Michele Zorzi(参考訳) フェデレートラーニング(FL)は、データをローカライズしながら共有モデルを協調訓練する無線ネットワークのための魅力的な分散ソリューションとして最近登場した。 一般的なアプローチとして、既存のfl法は、トレーニングフェーズ中にチャネル状態情報(csi)の完全な知識を想定する傾向がある。 さらに、文献分析では、フェデレーションモデルのトレーニングに参加している一定の数のクライアントを考慮するか、モデルデータを送信するために、すべてのクライアントが最大到達率で動作していると仮定するかのどちらかである。 本稿では,不完全なCSIの下での収束時間を最小化するために,チャネル統計をバイアスとするトレーニングプロセスを提案する。 シミュレーション実験により,最小限の事前定義された送信速度を維持できないクライアントからのモデル更新を無視することにより,トレーニング時間を短縮できることを示した。 また,学習過程に関わるクライアント数とモデル精度とのトレードオフを,異なる流行状態の関数として検討した。

Federated learning (FL) has recently emerged as an attractive decentralized solution for wireless networks to collaboratively train a shared model while keeping data localized. As a general approach, existing FL methods tend to assume perfect knowledge of the Channel State Information (CSI) during the training phase, which may not be easy to acquire in case of fast fading channels. Moreover, literature analyses either consider a fixed number of clients participating in the training of the federated model, or simply assume that all clients operate at the maximum achievable rate to transmit model data. In this paper, we fill these gaps by proposing a training process that takes channel statistics as a bias to minimize the convergence time under imperfect CSI. Numerical experiments demonstrate that it is possible to reduce the training time by neglecting model updates from clients that cannot sustain a minimum predefined transmission rate. We also examine the trade-off between number of clients involved in the training process and model accuracy as a function of different fading regimes.
翻訳日:2021-04-02 13:30:32 公開日:2021-04-01
# TRS: グラディエント多様性とモデル平滑性の向上による伝達可能性の低減

TRS: Transferability Reduced Ensemble via Encouraging Gradient Diversity and Model Smoothness ( http://arxiv.org/abs/2104.00671v1 )

ライセンス: Link先を確認
Zhuolin Yang, Linyi Li, Xiaojun Xu, Shiliang Zuo, Qian Chen, Benjamin Rubinstein, Ce Zhang, Bo Li(参考訳) 敵の移動可能性(adversarial transferability)は、敵の例の興味深い特性であり、あるモデルに対して作られた摂動は、別のモデルファミリーやトレーニングプロセスから生じる可能性のある他のモデルにも有効である。 mlシステムを敵の攻撃からより良く守るために、いくつかの疑問が提起されている。 そのような転送可能性の制限は可能か? アンサンブルMLモデルの堅牢性を改善するために、転送可能性を低減する方法はあるか? これらの質問に答えるために,まずモデル間の伝達可能性の十分条件を理論的に解析し,そのロバスト性を改善するためにアンサンブル内の伝達可能性を低減するための実用的なアルゴリズムを提案する。 我々の理論解析は、異なるモデルの勾配間の直交性だけが低い対角移動性を保証するには不十分であることを示している。 特に, 勾配直交性とモデル平滑性に基づく低リスク分類器に対して, モデル勾配類似性に基づく逆移動可能性の下/上限を提供する。 勾配直交条件下では、スムーズな分類器は低い対角移動性を保証する。 さらに,モデルスムーズさとベースモデル間の勾配直交性を強制することにより,トランスファービリティの低いロバストアンサンブルをトレーニングするための効果的なトランスファービリティ低減スムーズアンサンブル(TRS)トレーニング戦略を提案する。 提案するtrsは,異なるデータセット上の他の最先端のベースラインと比較することにより,trsの広範な実験を行い,提案手法がすべてのベースラインを大きく上回ることを示した。 我々は、これらの対向トランスファビリティ特性を考慮に入れた堅牢なMLモデル開発に向けた将来の研究に刺激を与えると信じている。

Adversarial Transferability is an intriguing property of adversarial examples -- a perturbation that is crafted against one model is also effective against another model, which may arise from a different model family or training process. To better protect ML systems against adversarial attacks, several questions are raised: what are the sufficient conditions for adversarial transferability? Is it possible to bound such transferability? Is there a way to reduce the transferability in order to improve the robustness of an ensemble ML model? To answer these questions, we first theoretically analyze sufficient conditions for transferability between models and propose a practical algorithm to reduce transferability within an ensemble to improve its robustness. Our theoretical analysis shows only the orthogonality between gradients of different models is not enough to ensure low adversarial transferability: the model smoothness is also an important factor. In particular, we provide a lower/upper bound of adversarial transferability based on model gradient similarity for low risk classifiers based on gradient orthogonality and model smoothness. We demonstrate that under the condition of gradient orthogonality, smoother classifiers will guarantee lower adversarial transferability. Furthermore, we propose an effective Transferability Reduced Smooth-ensemble(TRS) training strategy to train a robust ensemble with low transferability by enforcing model smoothness and gradient orthogonality between base models. We conduct extensive experiments on TRS by comparing with other state-of-the-art baselines on different datasets, showing that the proposed TRS outperforms all baselines significantly. We believe our analysis on adversarial transferability will inspire future research towards developing robust ML models taking these adversarial transferability properties into account.
翻訳日:2021-04-02 13:30:13 公開日:2021-04-01
# AdaPool: モデルレスディープ強化学習と変更点検出を用いた日次適応フリート管理フレームワーク

AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free Deep Reinforcement Learning and Change Point Detection ( http://arxiv.org/abs/2104.00203v1 )

ライセンス: Link先を確認
Marina Haliem, Vaneet Aggarwal and Bharat Bhargava(参考訳) 本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。 深層強化学習(Deep Reinforcement Learning, RL)は、経験の分布の変化の時間スケールに依存しないため、破滅的な忘れ込みに悩まされる。 RLアルゴリズムはマルコフ決定過程(MDP)において最適ポリシーに収束することが保証されているが、これは静的環境の存在にのみ当てはまる。 しかし、この仮定は非常に限定的である。 ライドシェアリングやトラヒックコントロールといった現実の多くの問題では、RLメソッドが最適以下の決定しか得られない、非常にダイナミックな環境に対処しています。 この問題を高ダイナミックな環境で緩和するために、(1)経験の分布の変化を検出するオンラインディリクレ変化点検出(ODCP)アルゴリズムを採用し、(2)日中のパターンを認識し、基礎環境の変化に応じて情報伝達決定を行うディープQネットワーク(DQN)エージェントを開発した。 提案手法は,週毎にパターンを修正するのではなく,MDPが変化したことを自動で検出し,新しいモデルの結果を使用する。 また, 配車時の適応論理に加えて, オンライン需要, 車両能力, 位置に基づいて, 車両毎の最適経路を動的に生成する動的かつ需要対応の車両通行者マッチングおよび経路計画フレームワークを提案する。 ニューヨーク市税の公的データセットの評価は、当社のアプローチが艦隊利用の改善に有効であることを示しており、艦隊の50%未満は、最大90%の要求に応えつつ、利益の最大化とアイドルタイムの最小化を実現している。

This paper introduces an adaptive model-free deep reinforcement approach that can recognize and adapt to the diurnal patterns in the ride-sharing environment with car-pooling. Deep Reinforcement Learning (RL) suffers from catastrophic forgetting due to being agnostic to the timescale of changes in the distribution of experiences. Although RL algorithms are guaranteed to converge to optimal policies in Markov decision processes (MDPs), this only holds in the presence of static environments. However, this assumption is very restrictive. In many real-world problems like ride-sharing, traffic control, etc., we are dealing with highly dynamic environments, where RL methods yield only sub-optimal decisions. To mitigate this problem in highly dynamic environments, we (1) adopt an online Dirichlet change point detection (ODCP) algorithm to detect the changes in the distribution of experiences, (2) develop a Deep Q Network (DQN) agent that is capable of recognizing diurnal patterns and making informed dispatching decisions according to the changes in the underlying environment. Rather than fixing patterns by time of week, the proposed approach automatically detects that the MDP has changed, and uses the results of the new model. In addition to the adaptation logic in dispatching, this paper also proposes a dynamic, demand-aware vehicle-passenger matching and route planning framework that dynamically generates optimal routes for each vehicle based on online demand, vehicle capacities, and locations. Evaluation on New York City Taxi public dataset shows the effectiveness of our approach in improving the fleet utilization, where less than 50% of the fleet are utilized to serve the demand of up to 90% of the requests, while maximizing profits and minimizing idle times.
翻訳日:2021-04-02 13:29:24 公開日:2021-04-01
# 展望、調査、トレンド: 自律運転バーチャルテストのための公共運転データセットとツールセット

Perspective, Survey and Trends: Public Driving Datasets and Toolsets for Autonomous Driving Virtual Test ( http://arxiv.org/abs/2104.00273v1 )

ライセンス: Link先を確認
Pengliang Ji, Li Ruan, Yunzhi Xue, Limin Xiao, Qian Dong(参考訳) 初期の安全性と信頼性保証のメリットから、自動運転のバーチャルテストは、現実のシナリオでのクローズドループテストに比べて注目を集めている。 自律運転データセットとツールセットの可用性と品質は、自律運転システムのボトルネックを診断し、システムパフォーマンスを改善するための前提であるが、データセットとツールセットの多様性とプライバシーのために、それらの視点と品質の収集と特徴付けは、時間を要するだけでなく、ますます困難になっている。 本稿では,まず,自律走行テストのための体系的文献レビュー(slr)アプローチを提案し,2000年から2020年までの既存の公開データセットとツールセットの概要を紹介する。 シナリオに関する定量的な知見や展望、傾向推論、35の自動運転テストツールセットと70のテストデータセットによる提案も紹介されている。 私たちの知る限りでは、SLAベースの調査アプローチを使用して、データセットとツールセットの両方に関する最近の経験的な調査を初めて実施しています。 マルチフェイス分析と新たな知見により,システム設計者,実践者,ユーザにとって有用であると考えられる洞察が明らかにされるだけでなく,データセットやツールセットに関する自律運転調査において,系統的調査分析に関するさらなる研究が促進される。

Owing to the merits of early safety and reliability guarantee, autonomous driving virtual testing has recently gains increasing attention compared with closed-loop testing in real scenarios. Although the availability and quality of autonomous driving datasets and toolsets are the premise to diagnose the autonomous driving system bottlenecks and improve the system performance, due to the diversity and privacy of the datasets and toolsets, collecting and featuring the perspective and quality of them become not only time-consuming but also increasingly challenging. This paper first proposes a Systematic Literature Review (SLR) approach for autonomous driving tests, then presents an overview of existing publicly available datasets and toolsets from 2000 to 2020. Quantitative findings with the scenarios concerned, perspectives and trend inferences and suggestions with 35 automated driving test tool sets and 70 test data sets are also presented. To the best of our knowledge, we are the first to perform such recent empirical survey on both the datasets and toolsets using a SLA based survey approach. Our multifaceted analyses and new findings not only reveal insights that we believe are useful for system designers, practitioners and users, but also can promote more researches on a systematic survey analysis in autonomous driving surveys on dataset and toolsets.
翻訳日:2021-04-02 13:28:52 公開日:2021-04-01
# ヒューマンai共同創造システム設計における9つの落とし穴

Nine Potential Pitfalls when Designing Human-AI Co-Creative Systems ( http://arxiv.org/abs/2104.00358v1 )

ライセンス: Link先を確認
Daniel Buschek, Lukas Mecke, Florian Lehmann, Hai Dang(参考訳) 本稿では,利用者の興味に有益な生成モデルによる人間とAIの共創の実現に向けた潜在的な落とし穴について検討する。 特に、文献と、HCIとAIの交差点で働く研究者としての経験に基づいて、9つの潜在的な落とし穴のセットを収集しました。 それぞれの落とし穴を例で説明し、それに取り組むためのアイデアを提案する。 すべての落とし穴を振り返って,今後の研究の方向性について考察し,結論づける。 このコレクションでは、創造的な実践などに対する、関連する仮定と潜在的な副作用に注目しながら、共同創造的な相互作用における人間とAIの役割に関する批判的で建設的な議論に貢献したいと考えています。

This position paper examines potential pitfalls on the way towards achieving human-AI co-creation with generative models in a way that is beneficial to the users' interests. In particular, we collected a set of nine potential pitfalls, based on the literature and our own experiences as researchers working at the intersection of HCI and AI. We illustrate each pitfall with examples and suggest ideas for addressing it. Reflecting on all pitfalls, we discuss and conclude with implications for future research directions. With this collection, we hope to contribute to a critical and constructive discussion on the roles of humans and AI in co-creative interactions, with an eye on related assumptions and potential side-effects for creative practices and beyond.
翻訳日:2021-04-02 13:28:31 公開日:2021-04-01
# 文脈的需要予測のためのセマンティックXAI

Semantic XAI for contextualized demand forecasting explanations ( http://arxiv.org/abs/2104.00452v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec and Dunja Mladeni\'c(参考訳) 本稿ではセマンティック技術とAIに基づく説明可能なAIのための新しいアーキテクチャを提案する。 需要予測の領域のアーキテクチャを調整し、実世界のケーススタディでそれを検証します。 提供された説明は、特定の予測、関連するメディアイベント、関心のある外部データセットに関するメタデータに関連する特徴を記述する概念を組み合わせる。 知識グラフは、より抽象的なレベルで特徴情報を伝達する概念を提供する。 それらを使用することで、需要予測モデルに関するセンシティブな詳細を説明できない。 説明はまた、適切な動作可能な次元を強調する。 私たちは、知識グラフでドメイン知識、予測値、予測説明をリンクします。 このユースケースのために開発したオントロジーとデータセットは、さらなる研究のために公開されています。

The paper proposes a novel architecture for explainable AI based on semantic technologies and AI. We tailor the architecture for the domain of demand forecasting and validate it on a real-world case study. The provided explanations combine concepts describing features relevant to a particular forecast, related media events, and metadata regarding external datasets of interest. The knowledge graph provides concepts that convey feature information at a higher abstraction level. By using them, explanations do not expose sensitive details regarding the demand forecasting models. The explanations also emphasize actionable dimensions where suitable. We link domain knowledge, forecasted values, and forecast explanations in a Knowledge Graph. The ontology and dataset we developed for this use case are publicly available for further research.
翻訳日:2021-04-02 13:28:21 公開日:2021-04-01
# fusing rgbd tracking and segmentation tree sampling for multi-hypothesis volumetric segmentation

Fusing RGBD Tracking and Segmentation Tree Sampling for Multi-Hypothesis Volumetric Segmentation ( http://arxiv.org/abs/2104.00205v1 )

ライセンス: Link先を確認
Andrew Price, Kun Huang, Dmitry Berenson(参考訳) 近年のシーンセグメンテーションの急速な進歩にもかかわらず, 3次元セグメンテーション法は, 厳密な閉塞がある場合に限定されている。 鍵となる課題は、(部分的に)オクルードされたオブジェクトのセグメント境界を推定することである。 本研究では,シーンのあいまいさをトラッキングし,シーンと対話しながら推定値を時間とともに調整する,シーン変更におけるボリュームセグメンテーションの新しい手法であるMultihypothesis Segmentation Tracking (MST)を提案する。 1)セグメンテーションツリーから可能なセグメンテーションをサンプリングする新しい方法、2)複数のセグメンテーション推定で結果を追跡する新しいアプローチである。 これらの手法により、MSTは時間とともにセグメンテーション状態を追跡し、新しいオブジェクトなどの新しい情報を組み込むことができる。 本手法は,シミュレーションおよび現実におけるいくつかの乱雑なテーブルトップ環境において評価する。 以上の結果から,MSTは全テストシーンにおいてベースラインよりも優れていた。

Despite rapid progress in scene segmentation in recent years, 3D segmentation methods are still limited when there is severe occlusion. The key challenge is estimating the segment boundaries of (partially) occluded objects, which are inherently ambiguous when considering only a single frame. In this work, we propose Multihypothesis Segmentation Tracking (MST), a novel method for volumetric segmentation in changing scenes, which allows scene ambiguity to be tracked and our estimates to be adjusted over time as we interact with the scene. Two main innovations allow us to tackle this difficult problem: 1) A novel way to sample possible segmentations from a segmentation tree; and 2) A novel approach to fusing tracking results with multiple segmentation estimates. These methods allow MST to track the segmentation state over time and incorporate new information, such as new objects being revealed. We evaluate our method on several cluttered tabletop environments in simulation and reality. Our results show that MST outperforms baselines in all tested scenes.
翻訳日:2021-04-02 13:27:12 公開日:2021-04-01
# 自然言語ビデオのローカライズに関する調査研究

A Survey on Natural Language Video Localization ( http://arxiv.org/abs/2104.00234v1 )

ライセンス: Link先を確認
Xinfang Liu, Xiushan Nie (Member, IEEE), Zhifang Tan, Jie Guo, Yilong Yin(参考訳) テキストクエリに意味的に対応したビデオからターゲットモーメントを見つけることを目的とした自然言語ビデオローカライゼーション(nlvl)は、新しくて挑戦的なタスクである。 そこで本研究では,まずnlvlのパイプラインを提案するnlvlアルゴリズムの包括的調査を行い,そのパイプラインを教師あり,弱い教師ありの手法に分類し,各手法の長所と短所を分析した。 次に,データセット,評価プロトコル,一般性能解析について述べる。 最後に、既存の手法を要約することで可能な視点を得る。

Natural language video localization (NLVL), which aims to locate a target moment from a video that semantically corresponds to a text query, is a novel and challenging task. Toward this end, in this paper, we present a comprehensive survey of the NLVL algorithms, where we first propose the pipeline of NLVL, and then categorize them into supervised and weakly-supervised methods, following by the analysis of the strengths and weaknesses of each kind of methods. Subsequently, we present the dataset, evaluation protocols and the general performance analysis. Finally, the possible perspectives are obtained by summarizing the existing methods.
翻訳日:2021-04-02 13:26:54 公開日:2021-04-01
# 畳み込みニューラルネットワークを用いた高画質低線量CT再構成

High-quality Low-dose CT Reconstruction Using Convolutional Neural Networks with Spatial and Channel Squeeze and Excitation ( http://arxiv.org/abs/2104.00325v1 )

ライセンス: Link先を確認
Jingfeng Lu, Shuo Wang, Ping Li, Dong Ye(参考訳) 低線量CTは、画像品質を犠牲にして臨床応用における放射線リスクの低減を可能にし、放射線医の診断精度を低下させる。 本研究では,低線量CTによるCT画像再構成のための高画質イメージングネットワーク(HQINet)を提案する。 hqinetは畳み込みエンコーダ-デコーダアーキテクチャであり、エンコーダは3つの連続したスライスから空間情報と時間情報を抽出し、デコーダは中間スライスの空間情報を復元するために用いられた。 我々は,低線量CT画像と投影データ(LDCT-and-Projection-data)の実際の投影データについて実験を行い,提案手法が画像品質において顕著に向上し,ピーク信号対雑音比(PSNR)では5.5dB,相互情報(MI)では0.29となったことを示す。

Low-dose computed tomography (CT) allows the reduction of radiation risk in clinical applications at the expense of image quality, which deteriorates the diagnosis accuracy of radiologists. In this work, we present a High-Quality Imaging network (HQINet) for the CT image reconstruction from Low-dose computed tomography (CT) acquisitions. HQINet was a convolutional encoder-decoder architecture, where the encoder was used to extract spatial and temporal information from three contiguous slices while the decoder was used to recover the spacial information of the middle slice. We provide experimental results on the real projection data from low-dose CT Image and Projection Data (LDCT-and-Projection-data), demonstrating that the proposed approach yielded a notable improvement of the performance in terms of image quality, with a rise of 5.5dB in terms of peak signal-to-noise ratio (PSNR) and 0.29 in terms of mutual information (MI).
翻訳日:2021-04-02 13:26:44 公開日:2021-04-01
# マルチマスクによる単眼深度・自我運動の教師なし学習

Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple Masks ( http://arxiv.org/abs/2104.00431v1 )

ライセンス: Link先を確認
Guangming Wang, Hesheng Wang, Yiling Liu and Weidong Chen(参考訳) 本稿では,モノクロ映像からの複数のマスクを用いた深度・エゴモーションの教師なし学習手法を提案する。 深度推定ネットワークとエゴモーション推定ネットワークは、真理値のない深度とエゴモーションの制約に応じて訓練される。 本手法の主な貢献は、隣接するフレームが互いに投影された際に発生する画素の閉塞と、投影対象撮像面で発生する空白問題を慎重に検討することである。 2つの優れたマスクは、カメラの動きによる画像画素ミスマッチのほとんどを解決するように設計されている。 また,比較的稀な状況が考慮され,繰り返しマスキングが提案されている。 ある程度は、幾何学的関係を利用して、ミスマッチした画素をフィルタリングし、教師なし学習をより効率的かつ正確にする。 KITTIデータセットを用いた実験により,提案手法は深度とエゴモーションの点で優れた性能を示す。 提案手法の一般化能力は,低品質の自転車ビデオデータセットのトレーニングと,KITTIデータセットの評価によって実証され,その結果は依然として良好である。

A new unsupervised learning method of depth and ego-motion using multiple masks from monocular video is proposed in this paper. The depth estimation network and the ego-motion estimation network are trained according to the constraints of depth and ego-motion without truth values. The main contribution of our method is to carefully consider the occlusion of the pixels generated when the adjacent frames are projected to each other, and the blank problem generated in the projection target imaging plane. Two fine masks are designed to solve most of the image pixel mismatch caused by the movement of the camera. In addition, some relatively rare circumstances are considered, and repeated masking is proposed. To some extent, the method is to use a geometric relationship to filter the mismatched pixels for training, making unsupervised learning more efficient and accurate. The experiments on KITTI dataset show our method achieves good performance in terms of depth and ego-motion. The generalization capability of our method is demonstrated by training on the low-quality uncalibrated bike video dataset and evaluating on KITTI dataset, and the results are still good.
翻訳日:2021-04-02 13:26:23 公開日:2021-04-01
# スパースモデリングによる画像生成の改善

Improved Image Generation via Sparse Modeling ( http://arxiv.org/abs/2104.00464v1 )

ライセンス: Link先を確認
Roy Ganz and Michael Elad(参考訳) 近年,画像合成における深層学習コミュニティの関心が高まっている。 今日では、深層生成法、特にGAN(Generative Adversarial Networks)は、現実的な画像の合成が可能な最先端のパフォーマンスを実現している。 生成した画像の品質を改善する努力は広いが、ほとんどの試みは生成部を非相関の「ブラックボックス」と見なしている。 本稿では,画像生成プロセスのより深い理解と設計を実現することを目的とする。 既存のジェネレータは、スパーシティに触発されたモデルに暗黙的に依存していると解釈する。 より具体的には、生成元を畳み込みスパース符号化(CSC)とその多層化(ML-CSC)合成プロセスのマニフェストとみなすことができる。 我々は、この観測を、生成器内で適切に選択されたアクティベーション層にスパース化正規化を明示的に実施することにより、画像合成の改善につながることを示す。 さらに,Deep Image Prior (DIP) 法では,逆問題に対処するジェネレータにも同様の論理と利点が適用されることを示した。

The interest of the deep learning community in image synthesis has grown massively in recent years. Nowadays, deep generative methods, and especially Generative Adversarial Networks (GANs), are leading to state-of-the-art performance, capable of synthesizing images that appear realistic. While the efforts for improving the quality of the generated images are extensive, most attempts still consider the generator part as an uncorroborated "black-box". In this paper, we aim to provide a better understanding and design of the image generation process. We interpret existing generators as implicitly relying on sparsity-inspired models. More specifically, we show that generators can be viewed as manifestations of the Convolutional Sparse Coding (CSC) and its Multi-Layered version (ML-CSC) synthesis processes. We leverage this observation by explicitly enforcing a sparsifying regularization on appropriately chosen activation layers in the generator, and demonstrate that this leads to improved image synthesis. Furthermore, we show that the same rationale and benefits apply to generators serving inverse problems, demonstrated on the Deep Image Prior (DIP) method.
翻訳日:2021-04-02 13:26:07 公開日:2021-04-01
# 一貫性モデリングによるリアルタイムでのニューラルビデオポートレートリライティング

Neural Video Portrait Relighting in Real-time via Consistency Modeling ( http://arxiv.org/abs/2104.00484v1 )

ライセンス: Link先を確認
Longwen Zhang, Qixuan Zhang, Minye Wu, Jingyi Yu, Lan Xu(参考訳) ビデオのポートレートリライティングは、ユーザーの顔写真、特に没入型VR/AR体験に不可欠だ。 近年の進歩は、ビデオの整合性管理の欠如に悩まされ、単分子RGBストリームからの動的照度による一貫した信頼性の回復には至っていない。 本稿では,新しい動的olatデータセットを用いて意味的,時間的,照明的一貫性を協調的にモデル化する,リアルタイム,高品質,コヒーレントな映像ポートレートライトライティングのためのニューラルアプローチを提案する。 本稿では,マルチタスクと対向的な学習戦略を組み合わせるエンコーダ・デコーダアーキテクチャにおける,意味・認識一貫性モデリングのためのハイブリッド構造と照明絡み合いを提案する。 本研究では,フローベース制御による時間的モデリング手法を採用し,共役時間的一貫性を横断的に符号化する。 また,実世界における自然ポートレート光操作の照明一貫性と突然変異をモデル化する照明サンプリング戦略を提案する。 広範にわたる実験により, モバイル・コンピューティングを用いても, コンテンシブ・ビデオ・ポートレートの光編集, ライトライティングへのアプローチの有効性が実証された。

Video portraits relighting is critical in user-facing human photography, especially for immersive VR/AR experience. Recent advances still fail to recover consistent relit result under dynamic illuminations from monocular RGB stream, suffering from the lack of video consistency supervision. In this paper, we propose a neural approach for real-time, high-quality and coherent video portrait relighting, which jointly models the semantic, temporal and lighting consistency using a new dynamic OLAT dataset. We propose a hybrid structure and lighting disentanglement in an encoder-decoder architecture, which combines a multi-task and adversarial training strategy for semantic-aware consistency modeling. We adopt a temporal modeling scheme via flow-based supervision to encode the conjugated temporal consistency in a cross manner. We also propose a lighting sampling strategy to model the illumination consistency and mutation for natural portrait light manipulation in real-world. Extensive experiments demonstrate the effectiveness of our approach for consistent video portrait light-editing and relighting, even using mobile computing.
翻訳日:2021-04-02 13:25:47 公開日:2021-04-01
# 自然言語コマンドに基づく把持検出のための協調ネットワーク

A Joint Network for Grasp Detection Conditioned on Natural Language Commands ( http://arxiv.org/abs/2104.00492v1 )

ライセンス: Link先を確認
Yiye Chen, Ruinian Xu, Yunzhi Lin, and Patricio A. Vela(参考訳) 自然言語のコマンドクエリに基づいて対象オブジェクトを把握するタスクについて検討する。 以前の作業は主に、クエリが与えられたオブジェクトをローカライズすることに焦点を当てていた。 2つのパイプラインのカスケード適用は、個々の出力のあいまいさによって重複する複数オブジェクトのケースでエラーを発生させる。 本研究は,RGB画像およびテキストコマンド入力からの把握を満足するコマンドを直接出力するCommand Grasping Network(CGNet)というモデルを提案する。 vmrdデータセットに基づいて、基底真理(画像、コマンド、把持)タプルを持つデータセットを生成し、提案ネットワークをトレーニングする。 生成したテストセットの実験結果から,CGNetはカスケードされたオブジェクト検索に優れ,検出基準線を大きなマージンで把握することがわかった。 3つの物理実験はCGNetの機能と性能を示す。

We consider the task of grasping a target object based on a natural language command query. Previous work primarily focused on localizing the object given the query, which requires a separate grasp detection module to grasp it. The cascaded application of two pipelines incurs errors in overlapping multi-object cases due to ambiguity in the individual outputs. This work proposes a model named Command Grasping Network(CGNet) to directly output command satisficing grasps from RGB image and textual command inputs. A dataset with ground truth (image, command, grasps) tuple is generated based on the VMRD dataset to train the proposed network. Experimental results on the generated test set show that CGNet outperforms a cascaded object-retrieval and grasp detection baseline by a large margin. Three physical experiments demonstrate the functionality and performance of CGNet.
翻訳日:2021-04-02 13:25:27 公開日:2021-04-01
# 学習外乱マスクを用いた高密度単眼SLAMのフロントエンド

A Front-End for Dense Monocular SLAM using a Learned Outlier Mask Prior ( http://arxiv.org/abs/2104.00562v1 )

ライセンス: Link先を確認
Yihao Zhang and John J. Leonard(参考訳) 単一のRGB画像からの深度予測の最近の成果は、畳み込みニューラルネットワーク(CNN)と古典的同時ローカライゼーションとマッピング(SLAM)アルゴリズムを組み合わせた新しい研究領域に力を入れている。 CNNからの深度予測は、従来のSLAMアルゴリズムの最適化プロセスにおいて合理的な初期点を提供する一方、SLAMアルゴリズムはCNNの予測をさらに改善する。 しかし、現在のCNN-SLAMアプローチのほとんどは、深さ予測のみを生かしているが、CNNの他の製品ではない。 本研究では,ビデオからの奥行きの教師なし学習の副産物である外れ値マスク(outlier mask)を,奥行き推定融合の古典的確率モデルにおいて,SLAMフロントエンドの外れ値耐性追跡性能を向上させるための先行モデルとして用いることを検討する。 一方、以前のCNN-SLAMの作業は特徴ベースのスパースSLAM法に基づいており、CNNからのピクセルごとの密度予測を無駄にしている。 これらのスパース手法とは対照的に、TensorFlowで実装可能な高密度CNN支援SLAMフロントエンドを考案し、屋内および屋外両方のデータセットで評価する。

Recent achievements in depth prediction from a single RGB image have powered the new research area of combining convolutional neural networks (CNNs) with classical simultaneous localization and mapping (SLAM) algorithms. The depth prediction from a CNN provides a reasonable initial point in the optimization process in the traditional SLAM algorithms, while the SLAM algorithms further improve the CNN prediction online. However, most of the current CNN-SLAM approaches have only taken advantage of the depth prediction but not yet other products from a CNN. In this work, we explore the use of the outlier mask, a by-product from unsupervised learning of depth from video, as a prior in a classical probability model for depth estimate fusion to step up the outlier-resistant tracking performance of a SLAM front-end. On the other hand, some of the previous CNN-SLAM work builds on feature-based sparse SLAM methods, wasting the per-pixel dense prediction from a CNN. In contrast to these sparse methods, we devise a dense CNN-assisted SLAM front-end that is implementable with TensorFlow and evaluate it on both indoor and outdoor datasets.
翻訳日:2021-04-02 13:25:12 公開日:2021-04-01
# Sub-GMN:Subgraph Matching Network Model

Sub-GMN: The Subgraph Matching Network Model ( http://arxiv.org/abs/2104.00186v1 )

ライセンス: Link先を確認
Zixun Lan, Limin Yu, Linglong Yuan, Zili Wu, Fei Ma(参考訳) 本稿では,サブグラフマッチングネットワーク(Sub-GMN)と呼ばれるサブグラフマッチングタスクのエンドツーエンド学習に基づく近似手法を提案する。 まず、サブgmnはグラフ表現学習を使用してノードをノードレベルの埋め込みにマッピングし、メトリクス学習とアテンション機構を組み合わせて、データグラフとクエリグラフのマッチしたノードの関係をモデル化する。 従来のサブグラフマッチングタスクのgnnsベースの方法と比較して、sub-gmnはノード対ノードマッチング関係を取得して、クエリグラフとデータグラフからなる入力をテストフェーズで変更することが可能であり、従来のgnnsベースのサブグラフマッチングタスクの方法は固定および不変サブグラフのみをマッチングでき、ノード対ノードマッチング関係を出力することができない。 この論文には2つの貢献がある。 最初のコントリビューションは、Sub-GMNがサブグラフマッチングタスクのための最初の学習ベースのメソッドであり、ノード間マッチング関係を出力できることである。 我々の知る限り、グラフマッチングタスクのクエリやデータグラフの変化を許容しながら、ノード間マッチング関係を出力する形式的なジャーナルでは学習ベースの手法は提案されていない。 第2の貢献は、サブGMNが、精度と実行時間の観点から、従来のGNNベースのサブグラフマッチングタスクよりも優れた実験結果を得たことである。

We propose an end-to-end learning-based approximate method for subgraph matching task, called subgraph matching network (Sub-GMN). First, Sub-GMN uses graph representation learning to map nodes to node-level embedding, and then combines metric learning and attention mechanisms to model the relationship between matched nodes in the data graph and query graph. Compared with the previous GNNs-based method for subgraph matching task, Sub-GMN can obtain the node-to-node matching relationships and allow varying the input composed of query graph and data graph in the test phase, while previous GNNs-based methods for subgraph matching task can only match a fixed and unchanged subgraph and cannot output the node-to-node matching relationships. In this paper, there are two contribution. The first contribution is that Sub-GMN is the first learning based methods for subgraph matching task and can output node-to-node matching relationships. To our best knowledge, no learning based methods have been proposed in formal journals that match subgraphs, and output node-to-node matching relationships, while allow varying query and data graphes for subgraph matching task. The second contribution is that Sub-GMN has achieved better experimental results than previous GNNs-based method for subgraph matching task from the perspective of accuracy and running time.
翻訳日:2021-04-02 13:23:24 公開日:2021-04-01
# Optimizer Fusion: 局所性と並列性を向上した効率的なトレーニング

Optimizer Fusion: Efficient Training with Better Locality and Parallelism ( http://arxiv.org/abs/2104.00237v1 )

ライセンス: Link先を確認
Zixuan Jiang, Jiaqi Gu, Mingjie Liu, Keren Zhu, David Z. Pan(参考訳) 機械学習フレームワークは、ニューラルネットワークのトレーニングに反復オプティマイザを採用する。 従来の熱心な実行は、トレーニング可能なパラメータの更新を前方および後方の計算から分離する。 しかし、このアプローチは、データの局所性や計算並列性の欠如により、非自明なトレーニング時間オーバーヘッドをもたらす。 本研究では,学習中の局所性と並列性をよりよく活用するために,最適化器を前方あるいは後方の計算に融合することを提案する。 提案手法は,フォワード計算,勾配計算,パラメータ更新を並べ替えることで,反復オプティマイザの効率を向上する。 実験の結果,様々な構成で最大20%のトレーニング時間を短縮できることがわかった。 提案手法はオプティマイザアルゴリズムを変更しないため,トレーニングプロセスの一般的な「プラグイン」技術として利用することができる。

Machine learning frameworks adopt iterative optimizers to train neural networks. Conventional eager execution separates the updating of trainable parameters from forward and backward computations. However, this approach introduces nontrivial training time overhead due to the lack of data locality and computation parallelism. In this work, we propose to fuse the optimizer with forward or backward computation to better leverage locality and parallelism during training. By reordering the forward computation, gradient calculation, and parameter updating, our proposed method improves the efficiency of iterative optimizers. Experimental results demonstrate that we can achieve an up to 20% training time reduction on various configurations. Since our methods do not alter the optimizer algorithm, they can be used as a general "plug-in" technique to the training process.
翻訳日:2021-04-02 13:23:01 公開日:2021-04-01
# CycleDRUMS:CycleGANを用いたバスラインの自動ドラムアレンジメント

CycleDRUMS: Automatic Drum Arrangement For Bass Lines Using CycleGAN ( http://arxiv.org/abs/2104.00353v1 )

ライセンス: Link先を確認
Giorgio Barnab\`o, Giovanni Trappolini, Lorenzo Lastilla, Cesare Campagnano, Angela Fan, Fabio Petroni and Fabrizio Silvestri(参考訳) コンピュータベースの音楽生成における2つの研究スレッドは、自律的な音楽制作システムの構築と、ミュージシャンを支援するコンピュータベースの環境の設計である。 シンボリックドメインでは、楽曲を自動アレンジする鍵となる問題は広範囲に研究され、オーディオ領域では比較的少ないシステムがこの問題に対処した。 そこで本研究では,ベースラインが与えられた新しいドラム生成法であるcycledrumsを提案する。 音の波形をメル・スペクトログラムに変換した後、ビートに追従する原音のドラムを自動生成し、入力ベースと直接混合することができる。 我々は,この課題を画像間翻訳問題として定式化し,画像処理用に設計された教師なしスタイル転送フレームワークであるCycleGANで対処した。 生のオーディオとメル・スペクトログラムを配置することで、人間が音楽をどのように知覚するかをより良く表現し、過去1世紀に蓄積された膨大な音楽録音から新たなアレンジメントのために音を描き出せるようになりました。 生成的敵対的ネットワークと音楽生成システムの双方の出力を評価する客観的な方法が存在しないため,提案課題について,部分的には人間(および専門家)の判断に基づいて,さらに評価基準を定めている。 最後に、画像と画像のペア翻訳ネットワークであるPix2Pixで結果を再現し、我々のアプローチがそれより優れていることを示した。

The two main research threads in computer-based music generation are: the construction of autonomous music-making systems, and the design of computer-based environments to assist musicians. In the symbolic domain, the key problem of automatically arranging a piece music was extensively studied, while relatively fewer systems tackled this challenge in the audio domain. In this contribution, we propose CycleDRUMS, a novel method for generating drums given a bass line. After converting the waveform of the bass into a mel-spectrogram, we are able to automatically generate original drums that follow the beat, sound credible and can be directly mixed with the input bass. We formulated this task as an unpaired image-to-image translation problem, and we addressed it with CycleGAN, a well-established unsupervised style transfer framework, originally designed for treating images. The choice to deploy raw audio and mel-spectrograms enabled us to better represent how humans perceive music, and to potentially draw sounds for new arrangements from the vast collection of music recordings accumulated in the last century. In absence of an objective way of evaluating the output of both generative adversarial networks and music generative systems, we further defined a possible metric for the proposed task, partially based on human (and expert) judgement. Finally, as a comparison, we replicated our results with Pix2Pix, a paired image-to-image translation network, and we showed that our approach outperforms it.
翻訳日:2021-04-02 13:22:49 公開日:2021-04-01
# センシング障害にロバストなロボット制御のためのフィードバックとフィードフォワードの最適化アルゴリズム

Optimization Algorithm for Feedback and Feedforward Policies towards Robot Control Robust to Sensing Failures ( http://arxiv.org/abs/2104.00385v1 )

ライセンス: Link先を確認
Taisuke Kobayashi, Kenta Yoshizawa(参考訳) モデルフリーまたは学習に基づく制御、特に強化学習(RL)は複雑なロボットタスクに適用されることが期待される。 従来のRLでは、最適化されるポリシーは状態依存であり、つまり、ポリシーはフィードバック(FB)コントローラの一種である。 このようなfbコントローラでは、状態の正しい観測が必要であるため、障害の検知に敏感である。 このfbコントローラの欠点を軽減するために、フィードバックエラー学習は、その1つをfeedforward(ff)コントローラに統合する。 RLはFB/FFポリシーに対処することで改善できるが、私たちの知る限り、それらを統一的に学習するための方法論は開発されていない。 本稿では,FB/FFポリシーを同時に最適化するための新しい最適化問題を提案する。 制御を推論として着想を得た最適化問題は、合成ポリシーと確率力学モデルによって予測される軌道間のばらつきの最小化と最大化、最適/非最適軌道モデルを考える。 変動法を用いて確率力学モデルを近似することにより、FB/FFポリシー間の規則化を自然に導出する。 数値シミュレーションとロボット実験において,従来のRLと異なる学習法則を用いても,提案手法が安定して構成ポリシーを最適化できることを確認した。 さらに, FFポリシが検知障害に対して堅牢であり, 最適動作を維持できることを実証した。 添付ビデオもyoutubeにアップロードされている: https://youtu.be/zll4uxirmre

Model-free or learning-based control, in particular, reinforcement learning (RL), is expected to be applied for complex robotic tasks. Traditional RL requires a policy to be optimized is state-dependent, that means, the policy is a kind of feedback (FB) controllers. Due to the necessity of correct state observation in such a FB controller, it is sensitive to sensing failures. To alleviate this drawback of the FB controllers, feedback error learning integrates one of them with a feedforward (FF) controller. RL can be improved by dealing with the FB/FF policies, but to the best of our knowledge, a methodology for learning them in a unified manner has not been developed. In this paper, we propose a new optimization problem for optimizing both the FB/FF policies simultaneously. Inspired by control as inference, the optimization problem considers minimization/maximization of divergences between trajectory, predicted by the composed policy and a stochastic dynamics model, and optimal/non-optimal trajectories. By approximating the stochastic dynamics model using variational method, we naturally derive a regularization between the FB/FF policies. In numerical simulations and a robot experiment, we verified that the proposed method can stably optimize the composed policy even with the different learning law from the traditional RL. In addition, we demonstrated that the FF policy is robust to the sensing failures and can hold the optimal motion. Attached video is also uploaded on youtube: https://youtu.be/zLL4uXIRmrE
翻訳日:2021-04-02 13:22:24 公開日:2021-04-01
# マルチタスク正規化ネットワークの学習率

Learning Rates for Multi-task Regularization Networks ( http://arxiv.org/abs/2104.00453v1 )

ライセンス: Link先を確認
Jie Gui and Haizhang Zhang(参考訳) マルチタスク学習は、人工知能とビッグデータの時代に直面する機械学習の重要なトレンドである。 様々なシングルタスク機械学習アルゴリズムの学習率推定に関する膨大な研究にもかかわらず、マルチタスク学習の並列処理は少ない。 本稿では,ベクトル値再現核ヒルベルト空間と行列値再生核の理論に基づくマルチタスク学習の学習率推定に関する数学的解析を行う。 典型的なマルチタスク正規化ネットワークでは、サンプルデータ数とタスク数の両方に依存する明示的な学習率が得られる。 タスク数の増加に伴い、マルチタスク学習アルゴリズムの一般化能力が実際に影響を受けることが明らかになった。

Multi-task learning is an important trend of machine learning in facing the era of artificial intelligence and big data. Despite a large amount of researches on learning rate estimates of various single-task machine learning algorithms, there is little parallel work for multi-task learning. We present mathematical analysis on the learning rate estimate of multi-task learning based on the theory of vector-valued reproducing kernel Hilbert spaces and matrix-valued reproducing kernels. For the typical multi-task regularization networks, an explicit learning rate dependent both on the number of sample data and the number of tasks is obtained. It reveals that the generalization ability of multi-task learning algorithms is indeed affected as the number of tasks increases.
翻訳日:2021-04-02 13:21:59 公開日:2021-04-01
# fpgaプラットフォーム上での自律機械のための省エネルギークアッドカメラ視覚システム

An Energy-Efficient Quad-Camera Visual System for Autonomous Machines on FPGA Platform ( http://arxiv.org/abs/2104.00192v1 )

ライセンス: Link先を確認
Zishen Wan, Yuyang Zhang, Arijit Raychowdhury, Bo Yu, Yanjun Zhang, Shaoshan Liu(参考訳) 過去数年間の商用展開経験では、ローカライゼーションは自律型マシンアプリケーションにおいて重要なタスクであり、大きな加速目標であると見なしています。 本稿では,orb(oriented-fast and rotationd- brief)ベースのfpgaローカライズシステムのためのエネルギー効率の高いハードウェアアーキテクチャの設計と実装について述べる。 マルチセンサ自律型マシンローカライズシステムをサポートするために,ハードウェア同期,フレーム多重化,並列化技術を提案する。 Nvidia TX1とIntel i7と比較して、FPGAベースの実装では、それぞれ5.6xと3.4xのスピードアップ、3.0xと34.6xの消費電力削減を実現しています。

In our past few years' of commercial deployment experiences, we identify localization as a critical task in autonomous machine applications, and a great acceleration target. In this paper, based on the observation that the visual frontend is a major performance and energy consumption bottleneck, we present our design and implementation of an energy-efficient hardware architecture for ORB (Oriented-Fast and Rotated- BRIEF) based localization system on FPGAs. To support our multi-sensor autonomous machine localization system, we present hardware synchronization, frame-multiplexing, and parallelization techniques, which are integrated in our design. Compared to Nvidia TX1 and Intel i7, our FPGA-based implementation achieves 5.6x and 3.4x speedup, as well as 3.0x and 34.6x power reduction, respectively.
翻訳日:2021-04-02 13:20:51 公開日:2021-04-01
# 音声-視覚イベントラインに沿った正のサンプル伝搬

Positive Sample Propagation along the Audio-Visual Event Line ( http://arxiv.org/abs/2104.00239v1 )

ライセンス: Link先を確認
Jinxing Zhou, Liang Zheng, Yiran Zhong, Shijie Hao, Meng Wang(参考訳) 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する。 AVEを含むビデオセグメントをローカライズし,そのカテゴリを同定することを目的としている。 分類器の識別的特徴を学習するためには, 同期の有無に関わらず, 有益(あるいは肯定的)な音声と視覚のセグメントペアを識別し, 無関係なセグメントをフィルタリングすることが重要である。 そこで本研究では,各ペア内の関係性を評価することによって,近縁な音声と視覚のペアを発見・活用する,新たな正のサンプル伝搬(PSP)モジュールを提案する。 これは、各オーディオと視覚セグメント間の全ペア類似度マップを構築し、高い類似度スコアを持つペアからのみ機能を集約することで実現できます。 正のサンプルに対して高い相関性を持つ特徴を抽出するようネットワークに促すため,新しい音声-視覚対類似性損失を提案する。 また,弱教師付き設定における時間相関をよりよく活用する新しい重み付け枝を提案する。 我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現し,提案手法の有効性を検証した。

Visual and audio signals often coexist in natural environments, forming audio-visual events (AVEs). Given a video, we aim to localize video segments containing an AVE and identify its category. In order to learn discriminative features for a classifier, it is pivotal to identify the helpful (or positive) audio-visual segment pairs while filtering out the irrelevant ones, regardless whether they are synchronized or not. To this end, we propose a new positive sample propagation (PSP) module to discover and exploit the closely related audio-visual pairs by evaluating the relationship within every possible pair. It can be done by constructing an all-pair similarity map between each audio and visual segment, and only aggregating the features from the pairs with high similarity scores. To encourage the network to extract high correlated features for positive samples, a new audio-visual pair similarity loss is proposed. We also propose a new weighting branch to better exploit the temporal correlations in weakly supervised setting. We perform extensive experiments on the public AVE dataset and achieve new state-of-the-art accuracy in both fully and weakly supervised settings, thus verifying the effectiveness of our method.
翻訳日:2021-04-02 13:20:35 公開日:2021-04-01
# 反復的コントラスト学習による教師なし音像定位

Unsupervised Sound Localization via Iterative Contrastive Learning ( http://arxiv.org/abs/2104.00315v1 )

ライセンス: Link先を確認
Yan-Bo Lin, Hung-Yu Tseng, Hsin-Ying Lee, Yen-Yu Lin, Ming-Hsuan Yang(参考訳) 音像定位は、視覚シーンにおける音声信号の源を見つけることを目的としている。 しかし、音声からサンプリングされた信号と視覚モダリティとの相関関係を注釈付けるのに手間がかかるため、このタスクのために機械の学習を監督することは困難である。 本研究では,データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。 各イテレーションにおいて,提案手法は,1)前回のイテレーションで予測された画像のローカライズ結果と,2)擬似ラベルとして音声信号から推定される意味的関係を抽出する。 次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係(フレーム内サンプリング)と、ビデオ間で抽出された信号の相関関係(フレーム間関係)を学習する。 我々の反復的戦略は徐々に音像の局所化を促し、非響き領域と参照音声との相関を減少させる。 定量的および定性的な実験結果から,提案手法は音像定位作業において既存の教師なし・弱教師付き手法に対して良好に機能することが示された。

Sound localization aims to find the source of the audio signal in the visual scene. However, it is labor-intensive to annotate the correlations between the signals sampled from the audio and visual modalities, thus making it difficult to supervise the learning of a machine for this task. In this work, we propose an iterative contrastive learning framework that requires no data annotations. At each iteration, the proposed method takes the 1) localization results in images predicted in the previous iteration, and 2) semantic relationships inferred from the audio signals as the pseudo-labels. We then use the pseudo-labels to learn the correlation between the visual and audio signals sampled from the same video (intra-frame sampling) as well as the association between those extracted across videos (inter-frame relation). Our iterative strategy gradually encourages the localization of the sounding objects and reduces the correlation between the non-sounding regions and the reference audio. Quantitative and qualitative experimental results demonstrate that the proposed framework performs favorably against existing unsupervised and weakly-supervised methods on the sound localization task.
翻訳日:2021-04-02 13:20:13 公開日:2021-04-01
# 分散とモデルなしのフェデレーション学習:関数空間における合意に基づく蒸留

Decentralized and Model-Free Federated Learning: Consensus-Based Distillation in Function Space ( http://arxiv.org/abs/2104.00352v1 )

ライセンス: Link先を確認
Akihito Taya, Takayuki Nishio, Masahiro Morikura, Koji Yamamoto(参考訳) 本稿では,マルチホップネットワークを介して接続されたIoEデバイスのための分散FL方式を提案する。 FLはプライバシー保護アルゴリズムの実現手段として注目されているが、分散パラメータ平均化方式を使用する場合の非凸性のため、FLアルゴリズムが最適点に収束することが保証されていない。 したがって、最適な解に収束する分散アルゴリズムを開発する必要がある。 提案アルゴリズムの鍵となる考え方は,パラメータ空間ではなく関数空間に局所予測関数を集約することである。 機械学習タスクは凸関数最適化問題とみなすことができるため、コンセンサスに基づく最適化アルゴリズムは、関数空間で機能するように調整された場合、大域最適化を実現する。 本稿では,まず関数空間における提案アルゴリズムの収束を解析し,その収束をメタアルゴリズムと呼ぶ。 スペクトルグラフ理論は、数値ベクトルと同様の方法で函数空間に適用できることが示されている。 次に、メタアルゴリズムの実装として、NN用のCMFDを開発する。 CMFDは知識蒸留を利用して、パラメータ平均化なしで隣り合うデバイス間の機能集約を実現する。 CMFDの利点の1つは、分散学習者間でNNモデルが異なる場合でも動作することである。 本稿では,CMFDが弱い接続ネットワーク下でのパラメータ集約よりも高い精度を実現することを示す。 CMFDの安定性はパラメータ凝集法よりも高い。

This paper proposes a decentralized FL scheme for IoE devices connected via multi-hop networks. FL has gained attention as an enabler of privacy-preserving algorithms, but it is not guaranteed that FL algorithms converge to the optimal point because of non-convexity when using decentralized parameter averaging schemes. Therefore, a distributed algorithm that converges to the optimal solution should be developed. The key idea of the proposed algorithm is to aggregate the local prediction functions, not in a parameter space but in a function space. Since machine learning tasks can be regarded as convex functional optimization problems, a consensus-based optimization algorithm achieves the global optimum if it is tailored to work in a function space. This paper at first analyzes the convergence of the proposed algorithm in a function space, which is referred to as a meta-algorithm. It is shown that spectral graph theory can be applied to the function space in a similar manner as that of numerical vectors. Then, a CMFD is developed for NN as an implementation of the meta-algorithm. CMFD leverages knowledge distillation to realize function aggregation among adjacent devices without parameter averaging. One of the advantages of CMFD is that it works even when NN models are different among the distributed learners. This paper shows that CMFD achieves higher accuracy than parameter aggregation under weakly-connected networks. The stability of CMFD is also higher than that of parameter aggregation methods.
翻訳日:2021-04-02 13:19:36 公開日:2021-04-01
# 離散不規則な自己スーパービジョン表現からの音声合成

Speech Resynthesis from Discrete Disentangled Self-Supervised Representations ( http://arxiv.org/abs/2104.00355v1 )

ライセンス: Link先を確認
Adam Polyak, Yossi Adi, Jade Copet, Eugene Kharitonov, Kushal Lakhotia, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel Dupoux(参考訳) 音声合成作業に自己教師付き離散表現を用いることを提案する。 そこで, 音声コンテンツ, 韻律情報, 話者識別のための低ビット表現を別々に抽出する。 これにより、音声を制御可能な方法で合成することができる。 我々は,様々な最先端,自己指導型表現学習手法を解析し,再構成品質と非絡み合い特性を考慮して,各手法の利点について光を当てた。 具体的には、F0再構成、話者識別性能(再生と音声変換の両方)、録音の可知性、全体的な品質を主観的人間評価を用いて評価する。 最後に、これらの表現が超軽量音声コーデックにどのように使用できるかを示す。 得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。 オーディオサンプルは以下のリンクで見ることができる。

We propose using self-supervised discrete representations for the task of speech resynthesis. To generate disentangled representation, we separately extract low-bitrate representations for speech content, prosodic information, and speaker identity. This allows to synthesize speech in a controllable manner. We analyze various state-of-the-art, self-supervised representation learning methods and shed light on the advantages of each method while considering reconstruction quality and disentanglement properties. Specifically, we evaluate the F0 reconstruction, speaker identification performance (for both resynthesis and voice conversion), recordings' intelligibility, and overall quality using subjective human evaluation. Lastly, we demonstrate how these representations can be used for an ultra-lightweight speech codec. Using the obtained representations, we can get to a rate of 365 bits per second while providing better speech quality than the baseline methods. Audio samples can be found under the following link: \url{https://resynthesis-ssl.github.io/}.
翻訳日:2021-04-02 13:19:16 公開日:2021-04-01
# 複製か移転か? パラメータサーバにおける非一様アクセス

Replicate or Relocate? Non-Uniform Access in Parameter Servers ( http://arxiv.org/abs/2104.00501v1 )

ライセンス: Link先を確認
Alexander Renz-Wieland, Rainer Gemulla, Zoi Kaoudi, Volker Markl(参考訳) パラメータサーバ(pss)は、大規模機械学習タスクのための分散トレーニングの実装を容易にする。 PSパフォーマンスの重要な課題は、パラメータアクセスが多くの実世界の機械学習タスクにおいて一様でないことである。 非一様性の2つの主要な源としてスキューと非決定主義を同定する。 既存のPSは、全てのパラメータに同じパラメータ管理技術を適用するため、このような一様でないアクセスを管理するのに不適である。 その結果、既存のPSの性能は負の影響を受け、単一ノードのベースラインよりも劣る可能性がある。 本稿では,PSが非一様アクセスを効率的に管理する方法について検討する。 我々は,PSが複数の管理手法をサポートし,各パラメータに適した管理手法を活用することが重要であることを発見した。 ホットスポットパラメータを複製し、アクセス頻度の低いパラメータをリロケーションするPSであるLapse2を提案し、ランダムサンプリングから生じる非決定性を管理するために特殊な手法を用いる。 実験では、Lapse2は既存の単一技術PSを最大1桁の性能で上回り、複数の機械学習タスクに対してほぼ直線的なスケーラビリティを提供しました。

Parameter servers (PSs) facilitate the implementation of distributed training for large machine learning tasks. A key challenge for PS performance is that parameter access is non-uniform in many real-world machine learning tasks, i.e., different parameters exhibit drastically different access patterns. We identify skew and nondeterminism as two major sources for non-uniformity. Existing PSs are ill-suited for managing such non-uniform access because they uniformly apply the same parameter management technique to all parameters. As consequence, the performance of existing PSs is negatively affected and may even fall behind that of single node baselines. In this paper, we explore how PSs can manage non-uniform access efficiently. We find that it is key for PSs to support multiple management techniques and to leverage a well-suited management technique for each parameter. We present Lapse2, a PS that replicates hot spot parameters, relocates less frequently accessed parameters, and employs specialized techniques to manage nondeterminism that arises from random sampling. In our experimental study, Lapse2 outperformed existing, single-technique PSs by up to one order of magnitude and provided near-linear scalability across multiple machine learning tasks.
翻訳日:2021-04-02 13:19:01 公開日:2021-04-01
# 一定の目標関数に対するReLUアクティベーションを持つ人工ニューラルネットワークのトレーニングにおける確率勾配降下の収束の証明

A proof of convergence for stochastic gradient descent in the training of artificial neural networks with ReLU activation for constant target functions ( http://arxiv.org/abs/2104.00277v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Adrian Riekert(参考訳) 本稿では、ReLUを活性化した完全連結フィードフォワード人工ニューラルネットワークのトレーニングにおける確率勾配降下(SGD)最適化法について検討する。 この研究の主な結果は、対象関数が定数であれば、SGD過程のリスクはゼロに収束することを証明している。 確立された収束結果において、考慮された人工ニューラルネットワークは、1つの入力層、1つの隠れ層、1つの出力層で構成される(入力層に$d \in \mathbb{n}$ニューロン、隠れ層に$h \in \mathbb{n}$ニューロン、出力層に1つのニューロン)。 SGDプロセスの学習速度は十分に小さく、SGDプロセスで人工ニューラルネットワークを訓練するために使用される入力データは独立で同一の分散であると仮定する。

In this article we study the stochastic gradient descent (SGD) optimization method in the training of fully-connected feedforward artificial neural networks with ReLU activation. The main result of this work proves that the risk of the SGD process converges to zero if the target function under consideration is constant. In the established convergence result the considered artificial neural networks consist of one input layer, one hidden layer, and one output layer (with $d \in \mathbb{N}$ neurons on the input layer, $H \in \mathbb{N}$ neurons on the hidden layer, and one neuron on the output layer). The learning rates of the SGD process are assumed to be sufficiently small and the input data used in the SGD process to train the artificial neural networks is assumed to be independent and identically distributed.
翻訳日:2021-04-02 13:17:58 公開日:2021-04-01
# (参考訳) データサブサンプリングによる測光赤方偏移のスケーラブルな統計的推定

Scalable Statistical Inference of Photometric Redshift via Data Subsampling ( http://arxiv.org/abs/2103.16041v2 )

ライセンス: CC BY 4.0
Arindam Fadikar, Stefan M. Wild, Jonas Chaves-Montero(参考訳) ビッグデータを扱うことは、従来の統計モデルにおいて大きなボトルネックとなっている。 したがって、正確な点予測が主なターゲットである場合、機械学習モデルはより大きな問題に対して統計モデルよりも好まれる。 しかし、完全な確率的統計モデルは、モデル予測に関連する不確かさを定量化するために、しばしば他のモデルを上回る。 我々は,入力空間における不均衡を考慮に入れたデータの部分集合から学習した統計モデルのアンサンブルからの不確実性を組み合わせた,データ駆動型統計モデリングフレームワークを開発する。 本研究では、宇宙論において、遠方銀河の光を観測する際の赤方偏移の分布を推定する光度赤方偏移推定問題において、空の天体で観測される多変量色情報について示す。 提案手法は,バランスの取れたパーティショニング,グラフベースのデータサブサンプリング,およびガウス過程モデルのアンサンブルのトレーニングを行う。

Handling big data has largely been a major bottleneck in traditional statistical models. Consequently, when accurate point prediction is the primary target, machine learning models are often preferred over their statistical counterparts for bigger problems. But full probabilistic statistical models often outperform other models in quantifying uncertainties associated with model predictions. We develop a data-driven statistical modeling framework that combines the uncertainties from an ensemble of statistical models learned on smaller subsets of data carefully chosen to account for imbalances in the input space. We demonstrate this method on a photometric redshift estimation problem in cosmology, which seeks to infer a distribution of the redshift -- the stretching effect in observing the light of far-away galaxies -- given multivariate color information observed for an object in the sky. Our proposed method performs balanced partitioning, graph-based data subsampling across the partitions, and training of an ensemble of Gaussian process models.
翻訳日:2021-04-02 13:15:36 公開日:2021-04-01
# (参考訳) E-GraphSAGE: グラフニューラルネットワークによる侵入検知システム

E-GraphSAGE: A Graph Neural Network based Intrusion Detection System ( http://arxiv.org/abs/2103.16329v2 )

ライセンス: CC BY 4.0
Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marcus Gallagher, Marius Portmann(参考訳) 本稿では,グラフニューラルネットワーク(GNN)に基づく新しいネットワーク侵入検知システム(NIDS)を提案する。 GNNはディープニューラルネットワークの比較的新しいサブフィールドであり、グラフベースのデータ固有の構造を活用するユニークな能力を持っている。 NIDSのトレーニングと評価データは一般的にフローレコードとして表現され、グラフ形式で自然に表現できる。 これにより,ネットワーク侵入検出を目的としたGNNの探索の可能性とモチベーションが確立され,本論文の焦点となる。 e-graphsage,提案する新しいアプローチは確立されたgraphsageモデルに基づいているが,エッジ分類のエッジ機能をサポートするために必要な修正を提供し,ネットワークフローを良性クラスと攻撃クラスに分類する。 最近の6つのNIDSベンチマークデータセットに基づく広範な実験的評価は、最先端のNIDSと比較して、E-GraphSAGEベースのNIDSの優れた性能を示している。

This paper presents a new network intrusion detection system (NIDS) based on Graph Neural Networks (GNNs). GNNs are a relatively new sub-field of deep neural networks, which have the unique ability to leverage the inherent structure of graph-based data. Training and evaluation data for NIDSs are typically represented as flow records, which can naturally be represented in a graph format. This establishes the potential and motivation for exploring GNNs for the purpose of network intrusion detection, which is the focus of this paper. E-GraphSAGE, our proposed new approach is based on the established GraphSAGE model, but provides the necessary modifications in order to support edge features for edge classification, and hence the classification of network flows into benign and attack classes. An extensive experimental evaluation based on six recent NIDS benchmark datasets shows the excellent performance of our E-GraphSAGE based NIDS in comparison with the state-of-the-art.
翻訳日:2021-04-02 12:14:41 公開日:2021-04-01
# (参考訳) グラフ畳み込みネットワークを用いた弱教師付き画像意味セグメンテーション

Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks ( http://arxiv.org/abs/2103.16762v2 )

ライセンス: CC BY 4.0
Shun-Yi Pan, Cheng-You Lu, Shih-Po Lee, Wen-Hsiao Peng(参考訳) この研究は、画像レベルのクラスラベルに基づく弱教師付きイメージセマンティックセグメンテーションに対処する。 このタスクの一般的なアプローチは、クラスアクティベーションマップ(cams)のアクティベーションスコアをランダムウォーク機構を用いて伝達し、完全な擬似ラベルに到達し、意味セグメンテーションネットワークを完全に教師付きで訓練することである。 しかし、ランダムウォークのフィードフォワード性は、結果として得られる完全な擬似ラベルの品質に正規化を課さない。 この問題を解決するために,我々はGCN(Graph Convolutional Network)ベースの機能伝搬フレームワークを提案する。 半教師付き学習課題として完全な擬似ラベルの生成を定式化し、ラプラシアンとエントロピー正規化損失をバックプロパゲートすることにより、トレーニング画像毎に2層GCNを個別に学習する。 PASCAL VOC 2012データセットの実験結果から,いくつかの最先端ベースラインに対する提案手法の優位性が確認された。 私たちのコードはhttps://github.com/xavier-pan/wsgcnで利用可能です。

This work addresses weakly-supervised image semantic segmentation based on image-level class labels. One common approach to this task is to propagate the activation scores of Class Activation Maps (CAMs) using a random-walk mechanism in order to arrive at complete pseudo labels for training a semantic segmentation network in a fully-supervised manner. However, the feed-forward nature of the random walk imposes no regularization on the quality of the resulting complete pseudo labels. To overcome this issue, we propose a Graph Convolutional Network (GCN)-based feature propagation framework. We formulate the generation of complete pseudo labels as a semi-supervised learning task and learn a 2-layer GCN separately for every training image by back-propagating a Laplacian and an entropy regularization loss. Experimental results on the PASCAL VOC 2012 dataset confirm the superiority of our scheme to several state-of-the-art baselines. Our code is available at https://github.com/Xavier-Pan/WSGCN.
翻訳日:2021-04-02 11:56:46 公開日:2021-04-01
# (参考訳) $\alpha$-geodesical Skew Divergence

$\alpha$-Geodesical Skew Divergence ( http://arxiv.org/abs/2103.17060v2 )

ライセンス: CC BY 4.0
Masanari Kimura and Hideitsu Hino(参考訳) 非対称スキュー発散は、パラメータ $\lambda$ によって決定された次数と他の分布とを混合することによって、分布の1つを滑らかにする。 このような発散はkl発散の近似であり、対象分布がソース分布に関して絶対連続である必要はない。 本稿では,$\alpha$-geodesical skew divergenceと呼ばれるスキュー分岐の情報幾何学的一般化を提案し,その特性について検討する。

The asymmetric skew divergence smooths one of the distributions by mixing it, to a degree determined by the parameter $\lambda$, with the other distribution. Such divergence is an approximation of the KL divergence that does not require the target distribution to be absolutely continuous with respect to the source distribution. In this paper, an information geometric generalization of the skew divergence called the $\alpha$-geodesical skew divergence is proposed, and its properties are studied.
翻訳日:2021-04-02 11:21:22 公開日:2021-04-01
# (参考訳) Chatbotをインターロケータシューズに組み込む - 意図に反応するChatbotを学習するためのフレームワーク

Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention ( http://arxiv.org/abs/2103.16429v3 )

ライセンス: CC BY 4.0
Hsuan Su, Jiun-Hao Jhan, Fan-yun Sun, Saurav Sahay, Hung-yi Lee(参考訳) チャットボットの文学の多くは、チャットボットの流動性とコヒーレンスを改善することに焦点を当てており、チャットボットをより人間らしくすることに注力している。 しかし、人間とチャットボットを本当に区別するものは、ほとんどない -- 人間は、反応が対話者に与える影響を本質的に理解し、対話者の気分を改善するために楽観的な視点を提案するなど、しばしば反応する。 本稿では,人間のような意図を持つチャットボットを訓練するための革新的な枠組みを提案する。 我々のフレームワークには、人間の役割を担う案内チャットボットとインターロケータモデルが含まれていた。 案内チャットボットは意図を割り当て,その意図に合致する応答,例えば,長応答,快楽応答,特定の単語による応答などの応答をインターロケータに誘導するように学習した。 3つの実験的な設定を用いてフレームワークを検証し、4つの異なるメトリクスでガイドボットを評価し、柔軟性と性能の優位性を実証した。 さらに,人間評価の結果は,特定の程度にヒトの反応に影響を与える指導的チャットボットの有効性を十分に裏付けるものである。 コードは一般公開される予定だ。

Most chatbot literature focuses on improving the fluency and coherence of a chatbot, is dedicated to making chatbots more human-like. However, very little work delves into what really separates humans from chatbots -- humans intrinsically understand the effect their responses have on the interlocutor and often respond with an intention such as proposing an optimistic view to make the interlocutor feel better. This paper proposes an innovative framework to train chatbots to possess human-like intentions. Our framework included a guiding chatbot and an interlocutor model that plays the role of humans. The guiding chatbot was assigned an intention and learned to induce the interlocutor to reply with responses matching the intention, for example, long responses, joyful responses, responses with specific words, etc. We examined our framework using three experimental setups and evaluate the guiding chatbot with four different metrics to demonstrated flexibility and performance advantages. Additionally, human evaluation results sufficiently substantiate the guiding chatbot's effectiveness in influencing humans' responses to a certain extent. Code will be made available to the public.
翻訳日:2021-04-02 11:05:23 公開日:2021-04-01
# より良い初期化と短いウォームアップによる高速認定ロバストトレーニング

Fast Certified Robust Training via Better Initialization and Shorter Warmup ( http://arxiv.org/abs/2103.17268v2 )

ライセンス: Link先を確認
Zhouxing Shi, Yihan Wang, Huan Zhang, Jinfeng Yi, Cho-Jui Hsieh(参考訳) 近年,有界伝播に基づく認証逆防御法が,堅牢性を保証するニューラルネットワークのトレーニングのために提案されている。 インターバルバウンド伝搬(IBP)やCROWN-IBPといった最先端(SOTA)の手法は、標準的なニューラルネットワークトレーニングと同様のバッチ単位のトレーニング複雑性を持つが、SOTAのパフォーマンスに到達するには、通常は数百から数千のエポックで長いウォームアップスケジュールが必要であるため、トレーニングには依然として非常にコストがかかる。 本稿では,Xavierや直交初期化などの先行研究で採用されている重み初期化が,もともと標準ネットワークトレーニング用に設計されたもので,初期化時に非常に緩やかに認証された境界が生じるため,より長いウォームアップスケジュールを使わなければならないことを明らかにする。 また,IPPに基づくトレーニングがReLUアクティベーション状態の大幅な不均衡を招き,モデル性能を損なう可能性がある。 以上の結果から,新しいipp初期化法とウォームアップ段階における基本正規化法を導出し,初期化とウォームアップ段階の認定境界を安定化し,ウォームアップスケジュールを大幅に短縮し,relu活性化状態のバランスを改善する。 さらに、バッチ正規化(BN)は、制約分散の安定化とReLUアクティベーション状態の均衡を支援するため、認定トレーニングのために最高の性能のネットワークを構築する上で重要なアーキテクチャ要素であることがわかった。 提案する初期化,正規化,アーキテクチャ変更を組み合わせることで,cifar-10 (\epsilon=\frac{8}{255}$) の65.03%,tinyimagenetの82.13% (\epsilon=\frac{1}{255}$) の検証エラーを非常に短いトレーニングスケジュール (160 と 80 つの総エポック) で取得することが可能となり,数百 から000 のエポックでトレーニングされた文献よりも優れています。

Recently, bound propagation based certified adversarial defense have been proposed for training neural networks with certifiable robustness guarantees. Despite state-of-the-art (SOTA) methods including interval bound propagation (IBP) and CROWN-IBP have per-batch training complexity similar to standard neural network training, to reach SOTA performance they usually need a long warmup schedule with hundreds or thousands epochs and are thus still quite costly for training. In this paper, we discover that the weight initialization adopted by prior works, such as Xavier or orthogonal initialization, which was originally designed for standard network training, results in very loose certified bounds at initialization thus a longer warmup schedule must be used. We also find that IBP based training leads to a significant imbalance in ReLU activation states, which can hamper model performance. Based on our findings, we derive a new IBP initialization as well as principled regularizers during the warmup stage to stabilize certified bounds during initialization and warmup stage, which can significantly reduce the warmup schedule and improve the balance of ReLU activation states. Additionally, we find that batch normalization (BN) is a crucial architectural element to build best-performing networks for certified training, because it helps stabilize bound variance and balance ReLU activation states. With our proposed initialization, regularizers and architectural changes combined, we are able to obtain 65.03% verified error on CIFAR-10 ($\epsilon=\frac{8}{255}$) and 82.13% verified error on TinyImageNet ($\epsilon=\frac{1}{255}$) using very short training schedules (160 and 80 total epochs, respectively), outperforming literature SOTA trained with a few hundreds or thousands epochs.
翻訳日:2021-04-02 10:52:02 公開日:2021-04-01
# ガーナ語のためのNLP

NLP for Ghanaian Languages ( http://arxiv.org/abs/2103.15475v2 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) NLP Ghanaは、最先端のNLP技術とデジタル言語ツールの開発と導入を、ガーナの言語や問題に進めるための、オープンソースの非営利組織である。 本稿では,ガーナにおけるNLPの現状を呈示しながら,いくつかの人気のあるガーナ語を導入することで,組織の取り組みの動機と必要性を最初に提示する。 次に、NLPガーナの組織を紹介し、その目的、作業範囲、採用方法、ガーナのNLPコミュニティで現在行われているコントリビューションについて概説する。

NLP Ghana is an open-source non-profit organization aiming to advance the development and adoption of state-of-the-art NLP techniques and digital language tools to Ghanaian languages and problems. In this paper, we first present the motivation and necessity for the efforts of the organization; by introducing some popular Ghanaian languages while presenting the state of NLP in Ghana. We then present the NLP Ghana organization and outline its aims, scope of work, some of the methods employed and contributions made thus far in the NLP community in Ghana.
翻訳日:2021-04-02 10:51:16 公開日:2021-04-01
# 機械翻訳のための英語-twi並列コーパス

English-Twi Parallel Corpus for Machine Translation ( http://arxiv.org/abs/2103.15625v3 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) 本稿では,25,421文対のAkuapem Twiと英語の並列機械翻訳学習コーパスを提案する。 Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母国語話者が翻訳文の出現を除去するために必要に応じて検証・修正した。 また、下流自然言語処理(NLP)タスクの評価セットとして、697の高品質なクラウドソース文が提供されている。 より大きな人間検証データセットの典型的なユースケースは、akapem twiの機械翻訳モデルのさらなるトレーニングである。 高品質な697クラウドソースデータセットは、twiとtwiから英語モデルへの機械翻訳のためのテストデータセットとして推奨されている。 さらに、クラウドソースされたデータのTwi部分は、表現学習や分類など、他のタスクにも使用することができる。 トレーニングコーパスのトランスフォーマー翻訳モデルを微調整し,クラウドソーステストセットのベンチマークを報告する。

We present a parallel machine translation training corpus for English and Akuapem Twi of 25,421 sentence pairs. We used a transformer-based translator to generate initial translations in Akuapem Twi, which were later verified and corrected where necessary by native speakers to eliminate any occurrence of translationese. In addition, 697 higher quality crowd-sourced sentences are provided for use as an evaluation set for downstream Natural Language Processing (NLP) tasks. The typical use case for the larger human-verified dataset is for further training of machine translation models in Akuapem Twi. The higher quality 697 crowd-sourced dataset is recommended as a testing dataset for machine translation of English to Twi and Twi to English models. Furthermore, the Twi part of the crowd-sourced data may also be used for other tasks, such as representation learning, classification, etc. We fine-tune the transformer translation model on the training corpus and report benchmarks on the crowd-sourced test set.
翻訳日:2021-04-02 10:51:05 公開日:2021-04-01
# 接触した関節剛体に対する高速かつ完全微分可能な物理

Fast and Feature-Complete Differentiable Physics for Articulated Rigid Bodies with Contact ( http://arxiv.org/abs/2103.16021v2 )

ライセンス: Link先を確認
Keenon Werling, Dalton Omens, Jeongseok Lee, Ioannis Exarchos, C. Karen Liu(参考訳) ラグランジアン力学と剛体シミュレーションのためのハードコンタクト制約をサポートする高速で特徴完備な微分可能な物理エンジンを提案する。 私たちの微分可能な物理エンジンは、ロボティクスアプリケーションで一般的に使用される非微分可能な物理シミュレータでのみ使用可能な、完全な機能セットを提供します。 線形相補性問題(LCP)を用いて接触制約を正確に解く。 LCP溶液の疎性を利用した非弾性接触のLCP定式化による効率的で新しい解析勾配を示す。 複素接触幾何学と連続時間弾性衝突を近似する勾配をサポートする。 また,下流最適化タスクがサドルポイントの失速を回避するために,相補性認識勾配を計算する新しい手法を提案する。 既存の物理エンジン(DART)におけるこの組み合わせの実装は、計算解析ヤコビアンにおける有限差分よりも45倍の単一コアの高速化が可能であり、元のDARTの表現性を保っていることを示す。

We present a fast and feature-complete differentiable physics engine that supports Lagrangian dynamics and hard contact constraints for articulated rigid body simulation. Our differentiable physics engine offers a complete set of features that are typically only available in non-differentiable physics simulators commonly used by robotics applications. We solve contact constraints precisely using linear complementarity problems (LCPs). We present efficient and novel analytical gradients through the LCP formulation of inelastic contact that exploit the sparsity of the LCP solution. We support complex contact geometry, and gradients approximating continuous-time elastic collision. We also introduce a novel method to compute complementarity-aware gradients that help downstream optimization tasks avoid stalling in saddle points. We show that an implementation of this combination in an existing physics engine (DART) is capable of a 45x single-core speedup over finite-differencing in computing analytical Jacobians for a single timestep, while preserving all the expressiveness of original DART.
翻訳日:2021-04-02 10:50:52 公開日:2021-04-01
# 汎用知能の一般理論 : プラグマティック・パターン主義の視点から

The General Theory of General Intelligence: A Pragmatic Patternist Perspective ( http://arxiv.org/abs/2103.15100v2 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 一連の書籍や論文で表現され、一連の実用および研究プロトタイプソフトウェアシステムのガイドに使用される、人工的および自然的汎用知性の理論的基礎に関する多年にわたる調査が、適度なレベルでレビューされている。 このレビューでは、基礎となる哲学(心のパターン哲学、基礎現象論と論理オントロジー)、知性の概念の形式化、そしてこれらの形式化と哲学によって部分的に駆動されるagiシステムのための高レベルアーキテクチャの提案などを取り上げている。 論理的推論、プログラム学習、クラスタリング、注意割当てといった特定の認知過程の実装は、このハイレベルアーキテクチャの文脈と言語において、共通の(例えば)重要性と同様に考慮される。 タイプ付きメタグラフベース) 様々なプロセス間の「認知シナジー」を可能にする知識表現。 人間のような認知アーキテクチャの特質は、これらの一般的な原則の表象として提示され、機械意識と機械倫理の重要な側面もこの文脈で扱われる。 OpenCog Hyperonのようなフレームワークにおける高度なAGIの実践的な実装の教訓を簡潔に検討する。

A multi-decade exploration into the theoretical foundations of artificial and natural general intelligence, which has been expressed in a series of books and papers and used to guide a series of practical and research-prototype software systems, is reviewed at a moderate level of detail. The review covers underlying philosophies (patternist philosophy of mind, foundational phenomenological and logical ontology), formalizations of the concept of intelligence, and a proposed high level architecture for AGI systems partly driven by these formalizations and philosophies. The implementation of specific cognitive processes such as logical reasoning, program learning, clustering and attention allocation in the context and language of this high level architecture is considered, as is the importance of a common (e.g. typed metagraph based) knowledge representation for enabling "cognitive synergy" between the various processes. The specifics of human-like cognitive architecture are presented as manifestations of these general principles, and key aspects of machine consciousness and machine ethics are also treated in this context. Lessons for practical implementation of advanced AGI in frameworks such as OpenCog Hyperon are briefly considered.
翻訳日:2021-04-02 10:50:35 公開日:2021-04-01
# SIENet:ポイントクラウドからの3次元物体検出のための空間情報強調ネットワーク

SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud ( http://arxiv.org/abs/2103.15396v2 )

ライセンス: Link先を確認
Ziyu Li, Yuncong Yao, Zhibin Quan, Wankou Yang, Jin Xie(参考訳) LiDARベースの3Dオブジェクト検出は、自動運転車に大きな影響を与える。 LiDARの固有特性の制限により、センサーから遠く離れた物体において、より少ない点が収集される。 この不均衡な点雲密度は検出精度を低下させるが、従来の研究では無視されている。 そこで我々は,SIENetという新しい2段階の3Dオブジェクト検出フレームワークを提案する。 具体的には,提案中の前景点の空間形状を予測するための空間情報拡張(sie)モジュールを設計し,その構造情報を抽出し,その代表的特徴を学習し,さらにボックスリファインメントを行う。 予測された空間形状は完全かつ密接な点集合であり、抽出された構造情報はより意味的な表現を含む。 さらに,識別特徴を学習し,SIEモジュールの正確な提案を生成するために複数の分岐を含むHybrid-Paradigm Region Proposal Network (HP-RPN) を設計する。 KITTIの3Dオブジェクト検出ベンチマークによる大規模な実験により、精巧に設計されたSIENetは最先端の手法よりも大きなマージンで性能が向上した。

LiDAR-based 3D object detection pushes forward an immense influence on autonomous vehicles. Due to the limitation of the intrinsic properties of LiDAR, fewer points are collected at the objects farther away from the sensor. This imbalanced density of point clouds degrades the detection accuracy but is generally neglected by previous works. To address the challenge, we propose a novel two-stage 3D object detection framework, named SIENet. Specifically, we design the Spatial Information Enhancement (SIE) module to predict the spatial shapes of the foreground points within proposals, and extract the structure information to learn the representative features for further box refinement. The predicted spatial shapes are complete and dense point sets, thus the extracted structure information contains more semantic representation. Besides, we design the Hybrid-Paradigm Region Proposal Network (HP-RPN) which includes multiple branches to learn discriminate features and generate accurate proposals for the SIE module. Extensive experiments on the KITTI 3D object detection benchmark show that our elaborately designed SIENet outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-04-02 10:50:15 公開日:2021-04-01
# ピラミッド型メッシュアライメントフィードバックループを用いた3次元人間のポーズと形状回帰

3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop ( http://arxiv.org/abs/2103.16507v2 )

ライセンス: Link先を確認
Hongwen Zhang, Yating Tian, Xinchi Zhou, Wanli Ouyang, Yebin Liu, Limin Wang, Zhenan Sun(参考訳) 回帰に基づく手法は、最近、単眼画像からヒトのメッシュを再構築する有望な結果を示している。 生のピクセルからモデルパラメータに直接マッピングすることで、ニューラルネットワークを介してパラメトリックモデルをフィードフォワードで生成することができる。 しかし、パラメータの小さな偏差は、推定メッシュと画像証拠の間に顕著な不一致をもたらす可能性がある。 この問題に対処するため、我々は、機能ピラミッドを活用し、深い回帰器のメッシュイメージアライメント状態に基づいて予測パラメータを明示的に修正するピラミッドメッシュアライメントフィードバック(PyMAF)ループを提案する。 現在予測されているパラメータから、PyMAFでは、より微細な特徴からメッシュに沿ったエビデンスを抽出し、パラメータの修正のためにフィードバックする。 ノイズを低減し,これらの証拠の信頼性を高めるため,特徴エンコーダに補助画素の監督を課し,空間的特徴の最も関連性の高い情報を保持するためのメッシュ画像対応ガイダンスを提供する。 提案手法の有効性はHuman3.6M, 3DPW, LSP, COCOなどいくつかのベンチマークで検証され, 実験結果から再現のメッシュイメージアライメントが一貫して改善されていることが示された。 私たちのコードはhttps://hongwenzhang.github.io/pymafで公開されています。

Regression-based methods have recently shown promising results in reconstructing human meshes from monocular images. By directly mapping from raw pixels to model parameters, these methods can produce parametric models in a feed-forward manner via neural networks. However, minor deviation in parameters may lead to noticeable misalignment between the estimated meshes and image evidences. To address this issue, we propose a Pyramidal Mesh Alignment Feedback (PyMAF) loop to leverage a feature pyramid and rectify the predicted parameters explicitly based on the mesh-image alignment status in our deep regressor. In PyMAF, given the currently predicted parameters, mesh-aligned evidences will be extracted from finer-resolution features accordingly and fed back for parameter rectification. To reduce noise and enhance the reliability of these evidences, an auxiliary pixel-wise supervision is imposed on the feature encoder, which provides mesh-image correspondence guidance for our network to preserve the most related information in spatial features. The efficacy of our approach is validated on several benchmarks, including Human3.6M, 3DPW, LSP, and COCO, where experimental results show that our approach consistently improves the mesh-image alignment of the reconstruction. Our code is publicly available at https://hongwenzhang.github.io/pymaf .
翻訳日:2021-04-02 10:49:56 公開日:2021-04-01
# AlphaEvolve: 定量的投資で新たなアルファを発見するための学習フレームワーク

AlphaEvolve: A Learning Framework to Discover Novel Alphas in Quantitative Investment ( http://arxiv.org/abs/2103.16196v2 )

ライセンス: Link先を確認
Can Cui, Wei Wang, Meihui Zhang, Gang Chen, Zhaojing Luo, Beng Chin Ooi(参考訳) アルファは株式市場のトレーディングシグナルを捉えた株価予測モデルである。 有効なアルファのセットは、リスクを多様化するために弱い相関の高いリターンを生成することができる。 既存のアルファは2つのクラスに分類できる: 公式アルファはスカラーの特徴の単純な代数的表現であり、よく一般化され弱い相関集合にマイニングされる。 機械学習アルファは、ベクトルおよび行列機能に関するデータ駆動モデルである。 これらは公式アルファよりも予測的であるが、弱い相関集合にマイニングするには複雑すぎる。 本稿では,これら2つの既存クラスの強みを持つスカラー,ベクトル,行列の特徴をモデル化するための新しいアルファクラスを提案する。 新しいアルファは高い精度で戻りを予測し、弱い相関集合にマイニングすることができる。 さらに,新たなアルファを生成するために,automlに基づく新しいアルファマイニングフレームワークであるalphaevolveを提案する。 そこで我々はまず,新しいアルファを生成し,関係領域の知識を選択的に注入し,株間の関係をモデル化する演算子を提案する。 次に,冗長アルファの刈り込み手法を提案することにより,アルファマイニングを加速する。 実験の結果、alphaevolveは初期アルファを高いリターンと弱い相関を持つ新しいアルファへと進化させることが示されている。

Alphas are stock prediction models capturing trading signals in a stock market. A set of effective alphas can generate weakly correlated high returns to diversify the risk. Existing alphas can be categorized into two classes: Formulaic alphas are simple algebraic expressions of scalar features, and thus can generalize well and be mined into a weakly correlated set. Machine learning alphas are data-driven models over vector and matrix features. They are more predictive than formulaic alphas, but are too complex to mine into a weakly correlated set. In this paper, we introduce a new class of alphas to model scalar, vector, and matrix features which possess the strengths of these two existing classes. The new alphas predict returns with high accuracy and can be mined into a weakly correlated set. In addition, we propose a novel alpha mining framework based on AutoML, called AlphaEvolve, to generate the new alphas. To this end, we first propose operators for generating the new alphas and selectively injecting relational domain knowledge to model the relations between stocks. We then accelerate the alpha mining by proposing a pruning technique for redundant alphas. Experiments show that AlphaEvolve can evolve initial alphas into the new alphas with high returns and weak correlations.
翻訳日:2021-04-02 10:49:33 公開日:2021-04-01
# 自動音声認識におけるバイアスの定量化

Quantifying Bias in Automatic Speech Recognition ( http://arxiv.org/abs/2103.15122v2 )

ライセンス: Link先を確認
Siyuan Feng, Olya Kudina, Bence Mark Halpern and Odette Scharenborg(参考訳) 自動音声認識(ASR)システムは、人間の発話を客観的に解釈することを約束する。 実践的および最近の証拠は、最先端(SotA)のASRが、性別、年齢、言語障害、人種、アクセントなどによるスピーチの大きなバリエーションに苦しむことを示唆している。 多くの要因がASRシステムのバイアスを引き起こす可能性がある。 我々の包括的なゴールは、ASRシステムのバイアスを明らかにすることであり、ASRの積極的なバイアス緩和に向けたものである。 本稿は,この目標に向けた第一歩であり,性別,年齢,地域アクセント,非母語アクセントに対するオランダのsota asrシステムのバイアスを体系的に定量化する。 単語誤り率を比較し、より深い音素レベルの誤り分析を行い、バイアスが発生する場所を理解する。 データセットの明瞭度の違いによるバイアスに主眼を置きます。 以上の結果から,ASR開発におけるバイアス緩和戦略を提案する。

Automatic speech recognition (ASR) systems promise to deliver objective interpretation of human speech. Practice and recent evidence suggests that the state-of-the-art (SotA) ASRs struggle with the large variation in speech due to e.g., gender, age, speech impairment, race, and accents. Many factors can cause the bias of an ASR system. Our overarching goal is to uncover bias in ASR systems to work towards proactive bias mitigation in ASR. This paper is a first step towards this goal and systematically quantifies the bias of a Dutch SotA ASR system against gender, age, regional accents and non-native accents. Word error rates are compared, and an in-depth phoneme-level error analysis is conducted to understand where bias is occurring. We primarily focus on bias due to articulation differences in the dataset. Based on our findings, we suggest bias mitigation strategies for ASR development.
翻訳日:2021-04-02 10:49:17 公開日:2021-04-01
# 効率的な学習画像圧縮のためのチェッカーボードコンテキストモデル

Checkerboard Context Model for Efficient Learned Image Compression ( http://arxiv.org/abs/2103.15306v2 )

ライセンス: Link先を確認
Dailan He, Yaoyan Zheng, Baocheng Sun, Yan Wang, Hongwei Qin(参考訳) 学習画像圧縮では、自己回帰文脈モデルがRDの性能向上に有効であることが証明された。 潜在表現間の空間的冗長性を取り除くのに役立つからです しかし、復号処理は厳密なスキャン順序で行わなければならないため、並列化を損なう。 この問題を解決するために,並列化可能なチェッカーボードコンテキストモデル(CCM)を提案する。 この2パスチェッカーボードコンテキスト計算は,デコード順序を再編成することにより,空間的位置の制限を解消する。 私たちの実験では40回以上の復号処理を高速化し、ほぼ同じレートゆらぎ性能で計算効率を大幅に向上させました。 私たちの知る限りでは、これは学習画像圧縮のための並列化フレンドリな空間コンテキストモデルに関する最初の調査です。

For learned image compression, the autoregressive context model is proved effective in improving the rate-distortion (RD) performance. Because it helps remove spatial redundancies among latent representations. However, the decoding process must be done in a strict scan order, which breaks the parallelization. We propose a parallelizable checkerboard context model (CCM) to solve the problem. Our two-pass checkerboard context calculation eliminates such limitations on spatial locations by re-organizing the decoding order. Speeding up the decoding process more than 40 times in our experiments, it achieves significantly improved computational efficiency with almost the same rate-distortion performance. To the best of our knowledge, this is the first exploration on parallelization-friendly spatial context model for learned image compression.
翻訳日:2021-04-02 10:49:00 公開日:2021-04-01
# スパースランダム3次行列を用いた1次元時間チャネル分離畳み込み圧縮

Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices ( http://arxiv.org/abs/2103.17142v2 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, Matthijs Van Keirsbilck, and Alexander Keller(参考訳) 1次元の時間チャネル分離可能な畳み込みにおける1x1-畳み込みは、$\{-1,0,+1\}$ の重みを持つ無作為な三元行列に置き換えられることを実証する。 このようなレイヤは、いかなる乗算も行わず、トレーニングも必要としない。 さらに、行列は計算中にチップ上で生成され、そのためメモリアクセスは不要である。 同じパラメータ予算で、より深くより表現力のあるモデルを提供し、いくつかのタスクで既存のモデルのParetoフロンティアを改善することができます。 google speech commands v1でのコマンド認識では、最先端の精度を同じネットワークサイズで97.21\%$から97.41\%$に改善する。 あるいは、既存のモデルのコストを下げることもできます。 librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1/%を犠牲にします。

We demonstrate that 1x1-convolutions in 1D time-channel separable convolutions may be replaced by constant, sparse random ternary matrices with weights in $\{-1,0,+1\}$. Such layers do not perform any multiplications and do not require training. Moreover, the matrices may be generated on the chip during computation and therefore do not require any memory access. With the same parameter budget, we can afford deeper and more expressive models, improving the Pareto frontiers of existing models on several tasks. For command recognition on Google Speech Commands v1, we improve the state-of-the-art accuracy from $97.21\%$ to $97.41\%$ at the same network size. Alternatively, we can lower the cost of existing models. For speech recognition on Librispeech, we half the number of weights to be trained while only sacrificing about $1\%$ of the floating-point baseline's word error rate.
翻訳日:2021-04-02 10:48:48 公開日:2021-04-01
# アドホックマイクロホンアレイを用いた音声認識のためのスパースマックスに基づくチャネル選択

Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays ( http://arxiv.org/abs/2103.15305v3 )

ライセンス: Link先を確認
Junqi Chen, Xiao-Lei Zhang(参考訳) 近年,アドホックマイクロホンアレイを用いた音声認識が注目されている。 アドホックマイクロホンアレイではチャネル選択が重要な問題であることが知られているが、特に大規模アドホックマイクロホンアレイを用いた音声認識では、この話題はまだ検討されていないようである。 そこで本研究では,大規模アドホックマイクロホンアレイを用いた音声認識におけるチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。 具体的には,マルチチャネル・エンド・ツー・エンド音声認識システムのストリームアテンション機構における従来のソフトマックス演算子を,ノイズチャネルのチャネル重みをゼロにすることでチャネル選択を行うスパースマックスに置き換える。 sparsemaxは多数のチャネルの重みをゼロに厳しく罰するので、非常にノイズの多いチャネルの重みをゼロにすることで、チャネルを軽度に罰するスケールsparsemaxを提案する。 コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling Sparsemaxは,シミュレーションデータセット上ではSoftmaxよりも30%以上,半現実データセットでは20%以上,一致したチャネル番号と不一致のチャネル番号を持つテストシナリオにおいてワードエラー率が得られることがわかった。

Recently, speech recognition with ad-hoc microphone arrays has received much attention. It is known that channel selection is an important problem of ad-hoc microphone arrays, however, this topic seems far from explored in speech recognition yet, particularly with a large-scale ad-hoc microphone array. To address this problem, we propose a Scaling Sparsemax algorithm for the channel selection problem of the speech recognition with large-scale ad-hoc microphone arrays. Specifically, we first replace the conventional Softmax operator in the stream attention mechanism of a multichannel end-to-end speech recognition system with Sparsemax, which conducts channel selection by forcing the channel weights of noisy channels to zero. Because Sparsemax punishes the weights of many channels to zero harshly, we propose Scaling Sparsemax which punishes the channels mildly by setting the weights of very noisy channels to zero only. Experimental results with ad-hoc microphone arrays of over 30 channels under the conformer speech recognition architecture show that the proposed Scaling Sparsemax yields a word error rate of over 30% lower than Softmax on simulation data sets, and over 20% lower on semi-real data sets, in test scenarios with both matched and mismatched channel numbers.
翻訳日:2021-04-02 10:48:32 公開日:2021-04-01