このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20200628)

# 複合埋め込みにおける単語順の符号化

Encoding word order in complex embeddings ( http://arxiv.org/abs/1912.12333v2 )

ライセンス: Link先を確認
Benyou Wang, Donghao Zhao, Christina Lioma, Qiuchi Li, Peng Zhang, Jakob Grue Simonsen(参考訳) テキスト処理には逐次語順が重要である。 現在、ニューラルネットワーク(NN)は、位置埋め込みを用いて単語の位置をモデル化することでこの問題に対処している。 問題は、位置埋め込みが個々の単語の位置をキャプチャするが、個々の単語の位置間の順序づけられた関係(例えば、隣接性や優先性)ではないことである。 本稿では,単語の大域的絶対位置とその順序関係をモデル化するための新しい原理的解法を提案する。 従来独立ベクトルとして定義されていた単語埋め込みを変数(配置)上の連続語関数に一般化する。 可変位置上の連続関数の利点は、単語表現が増加する位置でスムーズに移動することである。 したがって、異なる位置の単語表現は連続関数で相互に相関することができる。 これらの関数の一般解はよりリッチな表現のために複素値領域に拡張される。 私たちは、CNN、RNN、Transformer NNを、複雑な組み込みを組み込むために、複雑な価値のあるバージョンに拡張します。 テキスト分類、機械翻訳、言語モデリングの実験では、古典的な単語埋め込みと位置エンリッチな単語埋め込みの両方において、利益が示された。 我々の知る限り、これはNLPにおいて、複素数値表現における虚数と具体的な意味(すなわち語順)を結びつける最初の研究である。

Sequential word order is important when processing text. Currently, neural networks (NNs) address this by modeling word position using position embeddings. The problem is that position embeddings capture the position of individual words, but not the ordered relationship (e.g., adjacency or precedence) between individual word positions. We present a novel and principled solution for modeling both the global absolute positions of words and their order relationships. Our solution generalizes word embeddings, previously defined as independent vectors, to continuous word functions over a variable (position). The benefit of continuous functions over variable positions is that word representations shift smoothly with increasing positions. Hence, word representations in different positions can correlate with each other in a continuous function. The general solution of these functions is extended to complex-valued domain due to richer representations. We extend CNN, RNN and Transformer NNs to complex-valued versions to incorporate our complex embedding (we make all code available). Experiments on text classification, machine translation and language modeling show gains over both classical word embeddings and position-enriched word embeddings. To our knowledge, this is the first work in NLP to link imaginary numbers in complex-valued representations to concrete meanings (i.e., word order).
翻訳日:2023-06-09 22:56:06 公開日:2020-06-28
# 3次元ハバードモデル量子シミュレータにおける障害制御緩和

Disorder-controlled relaxation in a 3D Hubbard model quantum simulator ( http://arxiv.org/abs/2001.07341v2 )

ライセンス: Link先を確認
W. Morong, S.R. Muleady, I. Kimchi, W. Xu, R.M. Nandkishore, A.M. Rey, and B. DeMarco(参考訳) 物質中の強相関電子の集団的挙動を理解することは、多粒子量子物理学における中心的な問題である。 これらのシステムの最小記述は、局所的な粒子間相互作用を伴う乱れ格子における運動の相互作用を組み込んだ不規則フェルミ・ハッバードモデル(DFHM)によって提供される。 その最小の要素にもかかわらず、DFHMの多くの力学的性質は、より高い空間次元における非平衡な挙動、相互作用、障害を組み合わせたシステムの複雑さのためによく理解されていない。 本稿では,光学格子に閉じ込められたフェルミオン原子からなる量子シミュレータ上での相互作用クエンチ法による3次元DFHMにおける2重占有格子サイトの緩和ダイナミクスについて検討する。 また,リラクゼーションを阻害する障害の効果を広く研究したうえで,強い相互作用と障害の協調は,\textit{disorder-enhanced}リラクゼーションを特徴とする動的レジームの出現にも繋がることがわかった。 これらの結果を支持するために,崩壊力学の基本物理をそれぞれ捉える近似的数値法と現象論的モデルを開発した。 本研究は,dfhmの従来到達不能な構造に対する理論的枠組みを提供し,ミニマルモデルによる複雑な多体系の理解を可能にする量子シミュレータの能力を示す。

Understanding the collective behavior of strongly correlated electrons in materials remains a central problem in many-particle quantum physics. A minimal description of these systems is provided by the disordered Fermi-Hubbard model (DFHM), which incorporates the interplay of motion in a disordered lattice with local inter-particle interactions. Despite its minimal elements, many dynamical properties of the DFHM are not well understood, owing to the complexity of systems combining out-of-equilibrium behavior, interactions, and disorder in higher spatial dimensions. Here, we study the relaxation dynamics of doubly occupied lattice sites in the three-dimensional (3D) DFHM using interaction-quench measurements on a quantum simulator composed of fermionic atoms confined in an optical lattice. In addition to observing the widely studied effect of disorder inhibiting relaxation, we find that the cooperation between strong interactions and disorder also leads to the emergence of a dynamical regime characterized by \textit{disorder-enhanced} relaxation. To support these results, we develop an approximate numerical method and a phenomenological model that each capture the essential physics of the decay dynamics. Our results provide a theoretical framework for a previously inaccessible regime of the DFHM and demonstrate the ability of quantum simulators to enable understanding of complex many-body systems through minimal models.
翻訳日:2023-06-06 11:38:23 公開日:2020-06-28
# 新型コロナウイルス(covid-19)抗体検査/予防接種認定アプリ

COVID-19 Antibody Test / Vaccination Certification: There's an app for that ( http://arxiv.org/abs/2004.07376v4 )

ライセンス: Link先を確認
Marc Eisenstadt, Manoharan Ramachandran, Niaz Chowdhury, Allan Third, John Domingue(参考訳) 目標:2019/2020年のコロナウイルスパンデミックが拡大するにつれ、新型コロナウイルスの「免疫パスポート」が、個人が仕事に戻れるようにモックされた。 抗体検査の質、ワクチンの有効性、さらには新型コロナウイルスの免疫さえも研究され続けているが、検査結果やワクチン接種のための改ざん防止およびプライバシー保護認定の提供に関わる問題に対処する。 方法:我々は,触覚検査結果の即時検証を容易にする携帯電話アプリのプロトタイプと分散型サーバアーキテクチャを開発した。 個人識別可能な情報はユーザの判断にのみ格納され、アプリはエンドユーザーが特定のテスト結果のみを、他の個人情報を開示せずに選択的に提示することを可能にする。 拡張性のために設計されたアーキテクチャは (a)「検証基準」と呼ばれる2019年の世界ワイドウェブコンソーシアム標準 (b)Tim Berners-Leeの分散個人データプラットフォーム「Solid」 (c)コンソーシアムEthereumベースのブロックチェーン。 結果:我々の携帯電話アプリと分散サーバアーキテクチャは,機密鍵やデータの制限的所有権を回避するために,公開/非公開鍵ペアとデジタル署名から派生した,検証性とプライバシの混合を可能にする。 ベンチマークパフォーマンステストでは、各アプリで重要な処理がローカルに行われるため、最悪の場合には線形にスケールすることが示されている。 テスト証明書ホルダー、発行者(例えば、医療スタッフ、薬局)、検証者(例えば、雇用主)は、使用に数分しかかからない「単なる別のアプリ」である。 結論: アプリケーションと分散サーバアーキテクチャは、生物学の問題に対して容易に拡張可能で、汎用的に適用でき、実質的には'翼の中で待つ'というコンセプトのプロトタイプを提供し、議論のセクションで提起された重要な倫理的課題を解決する。

Goal: As the Coronavirus Pandemic of 2019/2020 unfolds, a COVID-19 'Immunity Passport' has been mooted as a way to enable individuals to return back to work. While the quality of antibody testing, the availability of vaccines, and the likelihood of even attaining COVID-19 immunity continue to be researched, we address the issues involved in providing tamper-proof and privacy-preserving certification for test results and vaccinations. Methods: We developed a prototype mobile phone app and requisite decentralized server architecture that facilitates instant verification of tamper-proof test results. Personally identifiable information is only stored at the user's discretion, and the app allows the end-user selectively to present only the specific test result with no other personal information revealed. The architecture, designed for scalability, relies upon (a) the 2019 World Wide Web Consortium standard called 'Verifiable Credentials', (b) Tim Berners-Lee's decentralized personal data platform 'Solid', and (c) a Consortium Ethereum-based blockchain. Results: Our mobile phone app and decentralized server architecture enable the mixture of verifiability and privacy in a manner derived from public/private key pairs and digital signatures, generalized to avoid restrictive ownership of sensitive digital keys and/or data. Benchmark performance tests show it to scale linearly in the worst case, as significant processing is done locally on each app. For the test certificate Holder, Issuer (e.g. healthcare staff, pharmacy) and Verifier (e.g. employer), it is 'just another app' which takes only minutes to use. Conclusions: The app and decentralized server architecture offer a prototype proof of concept that is readily scalable, applicable generically, and in effect 'waiting in the wings' for the biological issues, plus key ethical issues raised in the discussion section, to be resolved.
翻訳日:2023-05-23 08:50:23 公開日:2020-06-28
# 量子状態、群および単調計量テンソル

Quantum States, Groups and Monotone Metric Tensors ( http://arxiv.org/abs/2006.10595v2 )

ライセンス: Link先を確認
Florio M. Ciaglia(参考訳) ここでは、単調な計量テンソルと忠実な量子状態の多様体上のユニタリ群の適切な拡張の作用との新たなリンクが、ブレス・ヘルストロム計量テンソル、ウィグナー・ヤネーゼ計量テンソル、ボゴリボフ・クボ・モリ計量テンソルに関連する3つの例によって示される。

A novel link between monotone metric tensors and actions of suitable extensions of the unitary group on the manifold of faithful quantum states is presented here by means of three illustrative examples related with the Bures-Helstrom metric tensor, the Wigner-Yanase metric tensor, and the Bogoliubov-Kubo-Mori metric tensor.
翻訳日:2023-05-13 13:46:31 公開日:2020-06-28
# 量子演算子を促進するために好まれた古典変数

The Favored Classical Variables to Promote to Quantum Operators ( http://arxiv.org/abs/2006.13283v2 )

ライセンス: Link先を確認
John R. Klauder(参考訳) 古典位相空間変数は通常、与えられた古典系の量子化のために量子作用素に促進するために選択される。 古典変数は同じ問題に対処するために座標変換を利用することができるが、同じ問題に対処する量子演算子の組は正しい解析を与えることができる。 このような選択は、有効な量子化を達成するために好まれる古典変数を見つける必要がある。 本稿では、与えられた量子系を適切に解くために、そのような好ましくない変数がどのように用いられるかという課題に対処する。 非正規化可能なスカラー場や重力のような例は、量子作用素にどの古典変数を推奨するかを最初に変更することで利益を得ている。

Classical phase-space variables are normally chosen to promote to quantum operators in order to quantize a given classical system. While classical variables can exploit coordinate transformations to address the same problem, only one set of quantum operators to address the same problem can give the correct analysis. Such a choice leads to the need to find the favored classical variables in order to achieve a valid quantization. This article addresses the task of how such favored variables are found that can be used to properly solve a given quantum system. Examples, such as non-renormalizable scalar fields and gravity, have profited by initially changing which classical variables to promote to quantum operators.
翻訳日:2023-05-13 00:44:25 公開日:2020-06-28
# 位相整合量子暗号会議

Phase-Matching Quantum Cryptographic Conferencing ( http://arxiv.org/abs/2006.13451v2 )

ライセンス: Link先を確認
Shuai Zhao, Pei Zeng, Wen-Fei Cao, Xin-Yu Xu, Yi-Zheng Zhen, Xiongfeng Ma, Li Li, Nai-Le liu and Kai Chen(参考訳) 量子暗号会議(QCC)は、情報理論のセキュアなキーを複数のユーザ間で長距離に分散するという約束を持っている。 Greenberger-Horne-Zeilinger(GHZ)状態の脆弱さによって制限されたQCCネットワークは、GHZ状態を長距離に直接配布する上で大きな課題に直面している。 その他の2つの潜在的アプローチは、それぞれGHZ状態のポストセレクションとW状態のポストセレクションに基づいて提案された単光子干渉による測定装置独立QCCと会議鍵合意である。 しかしながら、前者のプロトコルの実装は、光チャネルの送信レート$$$eta$と、選択後GHZ状態のセットアップの複雑さによって、依然として厳しい制約を受けている。 一方、後者のプロトコルは、測定装置に依存しない準備・測定方式にはキャストできない。 ghz状態の後に選択するという考えと,最近提案されている2フィールド量子鍵分散プロトコルを組み合わせることで,位相整合量子暗号会議と呼ばれる弱コヒーレント状態干渉に基づくqccプロトコルを報告する。 提案プロトコルは、測定装置に依存しないQCCプロトコルと比較して、キー生成率を$\mathrm{O}(\eta^N)$から$\mathrm{O}(\eta^{N-1})$に改善することができる。 一方、単純なセットアップのため、複数のパーティに簡単にスケールアップできます。

Quantum cryptographic conferencing (QCC) holds promise for distributing information-theoretic secure keys among multiple users over long distance. Limited by the fragility of Greenberger-Horne-Zeilinger (GHZ) state, QCC networks based on directly distributing GHZ states at long distance still face big challenge. Another two potential approaches are measurement device independent QCC and conference key agreement with single-photon interference, which was proposed based on the post-selection of GHZ states and the post-selection of W state, respectively. However, implementations of the former protocol are still heavily constrained by the transmission rate $\eta$ of optical channels and the complexity of the setups for post-selecting GHZ states. Meanwhile, the latter protocol cannot be cast to a measurement device independent prepare-and-measure scheme. Combining the idea of post-selecting GHZ state and recently proposed twin-field quantum key distribution protocols, we report a QCC protocol based on weak coherent state interferences named phase-matching quantum cryptographic conferencing, which is immune to all detector side-channel attacks. The proposed protocol can improve the key generation rate from $\mathrm{O}(\eta^N)$ to $\mathrm{O}(\eta^{N-1})$ compared with the measurement device independent QCC protocols. Meanwhile, it can be easily scaled up to multiple parties due to its simple setup.
翻訳日:2023-05-12 22:45:09 公開日:2020-06-28
# 原子配列におけるスーパーダーク励起状態の量子工学

Quantum Engineering of Superdark Excited States in Arrays of Atoms ( http://arxiv.org/abs/2006.15623v1 )

ライセンス: Link先を確認
A. A. Makarov and V. I. Yudson(参考訳) 我々は、n個の同一原子からなる一般の小型アンサンブルにおいて、集団的単一励起状態の極端に長い寿命を達成するための規則的な方法を提案する。 そのような超ダーク状態の崩壊速度 \Gamma_N は \Gamma_N \propto \Gamma(r/\lambda)^{2(N-1)} (\Gamma は個々の原子の放射減衰率であり、r と \lambda はそれぞれ系のサイズと放射の波長である) と同じくらい小さくすることができる。 この方法は、原子ハミルトニアンの特別な微調整、すなわち原子遷移周波数の適切な位置依存的な調整に基づいている。 したがって、制御パラメータの選択された集合は、原子の一般的なアンサンブル(`qubits')において、工学状態の自発的減衰率の最小値を保証するのに十分である。

We suggest a regular method of achieving an extremely long lifetime of a collective singly excited state in a generic small-size ensemble of N identical atoms. The decay rate \Gamma_N of such a `superdark' state can be as small as \Gamma_N \propto \Gamma(r/\lambda)^{2(N-1)} (\Gamma is the radiative decay rate of an individual atom, r and \lambda are the system size and the wavelength of the radiation, respectively), i.e., considerably smaller than in any of the systems suggested up to now. The method is based on a special fine tuning of the atomic Hamiltonian: namely, on a proper position-dependent adjustment of atomic transition frequencies. So chosen set of the control parameters is sufficient to ensure the minimum of the spontaneous decay rate of the engineered state in a generic ensemble of atoms (`qubits').
翻訳日:2023-05-12 05:42:33 公開日:2020-06-28
# Snyder-de Sitter Algebraを用いたD次元Klein-Gordonオシレータの特異解

Exact Solutions of D-dimensional Klein-Gordon Oscillator with Snyder-de Sitter Algebra ( http://arxiv.org/abs/2006.15601v1 )

ライセンス: Link先を確認
Zoubir Hemame, Mokhtar Falek and Mustafa Moumni(参考訳) 任意の次元におけるklein-gordon発振器の運動量空間表現を解析的に解くことにより,スナイダー・ド・ジッター可換関係が相対論的ボソンに与える影響について検討した。 厳密な境界状態スペクトルと対応する運動量空間波動関数は、1次元空間のgegenbauer多項式とd次元の場合のjacobi多項式を用いて得られる。 最後に, 高温条件下での系の熱力学特性について検討し, 補正によって自由エネルギーが増大するが, エネルギー, エントロピー, 比熱は減少することがわかった。 この研究は、J. Math の二次元空間で研究された Snyder-de Sitter 事件に対するクライン=ゴルドン振動子に関する部分を拡張する。 Phys 60, 013505 (2019).

We study the effects of Snyder-de Sitter commutation relations on relativistic bosons by solving analytically in the momentum space representation the Klein-Gordon oscillator in arbitrary dimensions. The exact bound states spectrum and the corresponding momentum space wave functions are obtained using Gegenbauer polynomials in one dimension space and Jacobi polynomials in D dimensions case. Finally, we study the thermodynamic properties of the system in the high temperature regime where we found that the corrections increase the free energy but decrease the energy, the entropy and the specific heat which is no longer constant. This work extends the part concerning the Klein-Gordon oscillator for the Snyder-de Sitter case studied in two-dimensional space in J. Math. Phys. 60, 013505 (2019).
翻訳日:2023-05-12 05:42:14 公開日:2020-06-28
# 双極子不純物を持つ量子環の厳密解

Exact Solutions for a Quantum Ring with a Dipolar Impurity ( http://arxiv.org/abs/2006.15597v1 )

ライセンス: Link先を確認
Mourad Baazouzi, Mustafa Moumni and Mokhtar Falek(参考訳) 双極性不純物を持つ量子環からなる系を解析的に研究し、アハロノフ・ボーム場の影響下で検討する。 エネルギーの正確な値を計算し、波動関数の正確な表現を得る。

We study analytically a system made up of a quantum ring with a dipolar impurity and under the effect of an Aharonov-Bohm field. We calculate the exact values of the energies and we also get the exact expressions of the wave functions.
翻訳日:2023-05-12 05:41:58 公開日:2020-06-28
# SiCにおける準交叉誘起スピン現象 : 理論的研究

Level-crossing induced spin phenomena in SiC: a theoretical study ( http://arxiv.org/abs/2006.15542v1 )

ライセンス: Link先を確認
Denis V. Sosnovsky, Konstantin L. Ivanov(参考訳) 欠陥色中心のスピンダイナミクスを扱うための理論的アプローチが提案されている。 この方法は、欠陥中心の基底状態および励起状態のスピンダイナミクスと、基底状態および励起状態を含むスピン状態依存遷移と、追加の中間状態とを明示的に考慮する。 スピン依存現象は炭化ケイ素であり、spin-3/2シリコン空洞中心、vsiまたはv2中心である。 磁場依存性の発光強度と光検出された磁気共鳴スペクトルの理論的予測は、基底状態のスピンダイナミクスと励起状態における水平交差現象の重要な役割を示す。 結果は、以前に発表された実験データ [Phys. Rev. X, 6 (2016) 031014] とよく一致している。

A theoretical approach is proposed to treat the spin dynamics in defect color centers. The method explicitly takes into account the spin dynamics in the ground state and excited state of the defect center as well as spin state dependent transitions involving the ground state and excited state, as well as an additional intermediate state. The proposed theory is applied to treat spin-dependent phenomena is silicon carbide, namely, in spin-3/2 silicon-vacancy centers, VSi or V2 centers. Theoretical predictions of magnetic field dependent photoluminescence intensity and optically detected magnetic resonance spectra demonstrate an important role of level crossing phenomena in the spin dynamics of the ground state and excited state. The results are in good agreement with previously published experimental data [Phys. Rev. X, 6 (2016) 031014].
翻訳日:2023-05-12 05:41:02 公開日:2020-06-28
# データサイエンス:課題と方向性

Data Science: Challenges and Directions ( http://arxiv.org/abs/2006.16966v1 )

ライセンス: Link先を確認
Longbing Cao(参考訳) データサイエンスは新しい科学分野として浮上してきたが、データサイエンスがなぜ必要か、そしてそれが科学になるのかという、膨大な議論や議論がなされている。 タイトルにデータサイエンスを含む数百の文献をレビューしたところ、議論のほとんどが基本的に統計、データマイニング、機械学習、ビッグデータ、あるいは広くデータ分析に関するものであり、限られた数の新たなデータ駆動型課題と方向性のみが検討されている。 本稿では,データサイエンスの課題に埋め込まれた複雑さや知性を包括的に探求することによって,本質的な課題と方向性を探求する。 我々は、複雑なシステムとしてのデータサイエンスの問題の性質に触発された研究とイノベーションの課題と、そのようなシステムを扱う方法論に焦点を当てる。

While data science has emerged as a contentious new scientific field, enormous debates and discussions have been made on it why we need data science and what makes it as a science. In reviewing hundreds of pieces of literature which include data science in their titles, we find that the majority of the discussions essentially concern statistics, data mining, machine learning, big data, or broadly data analytics, and only a limited number of new data-driven challenges and directions have been explored. In this paper, we explore the intrinsic challenges and directions inspired by comprehensively exploring the complexities and intelligence embedded in data science problems. We focus on the research and innovation challenges inspired by the nature of data science problems as complex systems, and the methodologies for handling such systems.
翻訳日:2023-05-12 05:34:42 公開日:2020-06-28
# データサイエンス:自然と落とし穴

Data Science: Nature and Pitfalls ( http://arxiv.org/abs/2006.16964v1 )

ライセンス: Link先を確認
Longbing Cao(参考訳) データサイエンスは、非常にエキサイティングなトレンドと重要な論争を生み出している。 データサイエンスの初期段階における健全な発展のための重要な課題は、データ科学とデータ科学の性質を深く理解し、様々な落とし穴について議論することである。 これらの重要な問題は、この記事の議論を動機付けている。

Data science is creating very exciting trends as well as significant controversy. A critical matter for the healthy development of data science in its early stages is to deeply understand the nature of data and data science, and to discuss the various pitfalls. These important issues motivate the discussions in this article.
翻訳日:2023-05-12 05:34:12 公開日:2020-06-28
# バングラデシュにおけるcovid-19と闘うデジタル介入の体系的レビュー

A Systematic Review of the Digital Interventions for Fighting COVID-19: The Bangladesh Perspective ( http://arxiv.org/abs/2006.16882v1 )

ライセンス: Link先を確認
Muhammad Nazrul Islam and A.K.M. Najmul Islam(参考訳) 本研究の目的は、バングラデシュで新型コロナウイルスと戦うデジタル介入イニシアチブを合成し、他国と比較することである。 本研究の目的は,オンラインコンテンツの体系的なレビューを行うことである。 私たちは、新型コロナウイルス(covid-19)との戦いに使われたデジタル介入を最初にレビューした。 その後、バングラデシュで実施されたイニシアティブを見直しました。 その後,バングラデシュと他国におけるイニシアティブの比較分析を行った。 その結果、バングラデシュはデジタル介入アプローチの利点を享受できるが、政府と民間機関と大学との密接な連携は、最大限の利益を得るために必要であることが示された。 さらに、政府は市民のプライバシーが保護されていることを確認する必要がある。

The objective of this paper is to synthesize the digital interventions initiatives to fight against COVID-19 in Bangladesh and compare with other countries. In order to obtain our research objective, we conducted a systematic review of the online content. We first reviewed the digital interventions that have been used to fight against COVID-19 across the globe. We then reviewed the initiatives that have been taken place in Bangladesh. Thereafter, we present a comparative analysis between the initiatives taken in Bangladesh and the other countries. Our findings show that while Bangladesh is capable to take benefits of the digital intervention approaches, tighter cooperation between government and private organizations as well as universities would be needed to get the most benefits. Furthermore, the government needs to make sure that the privacy of its citizens are protected.
翻訳日:2023-05-12 05:34:07 公開日:2020-06-28
# 宇宙の優先基底、デコヒーレンス、量子状態

Preferred basis, decoherence and a quantum state of the Universe ( http://arxiv.org/abs/2006.16812v1 )

ライセンス: Link先を確認
Andrei O. Barvinsky and Alexander Yu. Kamenshchik(参考訳) 本稿では、量子論と量子宇宙論の基礎、特に、量子力学の多世界解釈における好ましい基礎の問題、この解釈とデコヒーレンス現象の関係、量子宇宙論へのデコヒーレンスアプローチの適用、多世界解釈と人類学原理の関係、および量子古典的双対性の概念に関する問題を概観する。 また、特殊マイクロカノニカル密度行列で表される宇宙の基本的な混合量子状態の概念と、時空測地や量子物質場上の半古典的に扱われる経路積分の形での動的実現についても論じる。 これらの問題は、H.D. Zehの科学的遺産の一部として、70世紀初頭に出版された2つの学術論文に寛大に残されていると考えられる。

We review a number of issues in foundations of quantum theory and quantum cosmology including, in particular, the problem of the preferred basis in the many-worlds interpretation of quantum mechanics, the relation between this interpretation and the decoherence phenomenon, application of decoherence approach to quantum cosmology, the relation between the many-worlds interpretation and Anthropic Principle along with the notion of quantum-classical duality. We also discuss the concept of fundamentally mixed quantum state of the Universe represented by a special microcanonical density matrix and its dynamical realization in the form of the semiclassically treated path integral over spacetime geometries and quantum matter fields. These issues can be considered as a part of the scientific legacy of H. D. Zeh generously left to us in his two seminal papers published at the beginning of seventies in Foundations of Physics.
翻訳日:2023-05-12 05:33:52 公開日:2020-06-28
# 波動パイロット理論の幾何学的解釈とスピノル場の顕在化

Geometrical interpretation of the wave-pilot theory and manifestation of the spinor fields ( http://arxiv.org/abs/2006.15709v1 )

ライセンス: Link先を確認
Mariya Iv. Trukhanova and Gennady Shipov(参考訳) 高林t., j. p. vigier, およびフォロストによって開発されたシュロディンガー回転粒子に対する量子力学の流体力学的形式論を用いて, 波動パイロット理論の新しい幾何学的解釈を提案する。 この解釈におけるスピノル波は客観的な実場を表し、波動によって制御される物質粒子の進化は空間の幾何学の表象である。 この場の幾何学的性質は、内在的な角運動量(スピン)が、変換座標と時間によって形成される基底を持つベクトル束として表される多様体となる空間の幾何学を、スピノル波動関数の双線型結合から形成される四点 $e^a_{\mu}$ の体によって各点で指定された束のファイバーを修飾するという考えに基づいていると仮定する。 その結果, スピンベクトルはねじれを伴う空間の測地線に従って回転し, 粒子はジオメトリズド誘導方程式に従って動くことがわかった。 この事実はスピン粒子の自己作用を説明する。 スピンベクトル線の曲率とねじれは絶対平行性幾何学の空間ねじれによって決定されることを示す。

Using the hydrodynamical formalism of quantum mechanics for a Schrodinger spinning particle, developed by T. Takabayashi, J. P. Vigier and followers, that involves vortical flows, we propose the new geometrical interpretation of the wave-pilot theory. The spinor wave in this interpretation represents an objectively real field and the evolution of a material particle controlled by the wave is a manifestation of the geometry of space. We assume this field to have a geometrical nature, basing on the idea that the intrinsic angular momentum, the spin, modifies the geometry of the space, which becomes a manifold, that is represented as a vector bundle with a base formed by the translational coordinates and time, and the fiber of the bundle, specified at each point by the field of an tetrad $e^a_{\mu}$, forms from the bilinear combinations of spinor wave function. It was shown, that the spin vector rotates following the geodesic of the space with torsion and the particle moves according to the geometrized guidance equation. This fact explains the self-action of the spinning particle. We show that the curvature and torsion of the spin vector line is determined by the space torsion of the absolute parallelism geometry.
翻訳日:2023-05-12 05:32:57 公開日:2020-06-28
# 量子レトロディクションが完全対称に

Quantum retrodiction made fully symmetric ( http://arxiv.org/abs/2006.15692v1 )

ライセンス: Link先を確認
Dov Fields, Abdelali Sajia, and J\'anos A. Bergou(参考訳) 量子レトロディクション(quantum retrodiction)は、多くの重要な問題に応用される量子力学の時間対称的なアプローチである。 より広範な適用性に対する大きな課題の1つは、対称形式主義をバイアスのない情報源に制限することである。 本論文の主な成果は、任意のソースに対して対称形式論をもたらす一般理論を開発することである。 次に,非あいまいな状態判別に双対な回帰問題に対する最適解,一般化されたアプローチの仕組みを提示することで,具体例を強調する。 また、この形式化がアリスとボブの間のコミュニケーションチャネルの対称な定式化にどのようにつながるかを示し、レトロディクションとノーシグナリング原理の間に本質的な関係を指摘する。

Quantum retrodiction is a time-symmetric approach to quantum mechanics with applications in a number of important problems. One of the major challenges to its more widespread applicability is the restriction of its symmetric formalism to unbiased sources. The main result of this paper is to develop a general theory yielding a symmetric formalism for arbitrary sources. We then highlight on a specific example, by presenting the optimal solution to the retrodiction problem that is dual to unambiguous state discrimination, how the generalized approach works. We also show how this formalism leads to a symmetric formulation of the communication channel between Alice and Bob and point to the intrinsic connection between retrodiction and the no-signaling principle.
翻訳日:2023-05-12 05:32:34 公開日:2020-06-28
# 開ハイゼンベルクモデルからランダウ・リフシッツ方程式へ

From the open Heisenberg model to the Landau-Lifshitz equation ( http://arxiv.org/abs/2006.15658v1 )

ライセンス: Link先を確認
Ariel Norambuena, Andr\'es Franco and Ra\'ul Coto(参考訳) 磁気系は古典的なランダウ・リフシッツ方程式や完全量子開ハイゼンベルクモデルで記述することができる。 リンドブラッドマスター方程式と平均場近似を用いて、開ハイゼンベルクモデルが一般化されたLL方程式に還元されることを示す。 オープンダイナミクスは、熱平衡における一般的なボゾン貯水池とのスピン-ボソン相互作用を用いてモデル化される。 ボゾンの自由度を追従することにより、オンサイト散逸とボソンによって媒介される効果的なスピンスピン相互作用の2つの異なる脱コヒーレンス機構が得られる。 この手法を用いて、Stoner-Wohlfarth理論と密接に結びついたヒステリシス計算を行う。 数値マスター方程式と平均場モデルを比較し,非局所的相互作用に由来する相関の役割を明らかにする。 我々の研究は、オープン量子形式論からllダイナミクスの研究に新たな地平線を開く。

Magnetic systems can be described by the classical Landau-Lifshitz (LL) equation or the fully quantum open Heisenberg model. Using the Lindblad master equation and the mean-field approximation, we demonstrate that the open Heisenberg model is reduced to a generalized LL equation. The open dynamic is modeled using spin-boson interactions with a common bosonic reservoir at thermal equilibrium. By tracing out the bosonic degrees of freedom, we obtain two different decoherence mechanisms: on-site dissipation and an effective spin-spin interaction mediated by bosons. Using our approach, we perform hysteresis calculations, closely connected with the Stoner-Wohlfarth theory. We compare the exact numerical master equation and the mean-field model, revealing the role of correlations originated by non-local interactions. Our work opens new horizons for the study of the LL dynamics from an open quantum formalism.
翻訳日:2023-05-12 05:32:22 公開日:2020-06-28
# 弾性整合性:分散確率勾配の一般的な整合性モデル

Elastic Consistency: A General Consistency Model for Distributed Stochastic Gradient Descent ( http://arxiv.org/abs/2001.05918v2 )

ライセンス: Link先を確認
Giorgi Nadiradze, Ilia Markov, Bapi Chatterjee, Vyacheslav Kungurtsev, Dan Alistarh(参考訳) 近年、機械学習は大きな進歩を遂げており、一連の専門的なタスクにおいて、モデルが人間と一致するか、超えるかさえある。 近年の機械学習の進歩の背景にある重要な要素は、大規模な分散共有メモリとメッセージパッシング環境で機械学習モデルをトレーニングできることだ。 これらのモデルの多くは、確率勾配勾配(SGD)に基づく最適化の変種を用いて訓練されている。 本稿では,通信再生および非同期分散SGD実装を網羅する一般的な整合性条件を提案する。 当社のフレームワークであるelastic consistencyは,大規模機械学習モデルのトレーニングに使用される,さまざまな分散sgdメソッドの収束境界を導出するものです。 提案フレームワークは実装固有の収束解析を分解し,収束境界を導出するための抽象化を提供する。 本研究では,分散SGD手法の分散化スキームを,凸および非凸目的の非同期設定で解析する。 我々は分散SGD変種を実装し、非同期共有メモリ設定で深層CNNモデルを訓練する。 実験結果から,誤差フィードバックは必ずしも分散分散分散SGDの収束を改善する助けにはならないことが示唆された。

Machine learning has made tremendous progress in recent years, with models matching or even surpassing humans on a series of specialized tasks. One key element behind the progress of machine learning in recent years has been the ability to train machine learning models in large-scale distributed shared-memory and message-passing environments. Many of these models are trained employing variants of stochastic gradient descent (SGD) based optimization. In this paper, we introduce a general consistency condition covering communication-reduced and asynchronous distributed SGD implementations. Our framework, called elastic consistency enables us to derive convergence bounds for a variety of distributed SGD methods used in practice to train large-scale machine learning models. The proposed framework de-clutters the implementation-specific convergence analysis and provides an abstraction to derive convergence bounds. We utilize the framework to analyze a sparsification scheme for distributed SGD methods in an asynchronous setting for convex and non-convex objectives. We implement the distributed SGD variant to train deep CNN models in an asynchronous shared-memory setting. Empirical results show that error-feedback may not necessarily help in improving the convergence of sparsified asynchronous distributed SGD, which corroborates an insight suggested by our convergence analysis.
翻訳日:2023-01-10 23:45:32 公開日:2020-06-28
# 機械が学べるものではなく、私たちが学べないもの

It's Not What Machines Can Learn, It's What We Cannot Teach ( http://arxiv.org/abs/2002.09398v2 )

ライセンス: Link先を確認
Gal Yehuda, Moshe Gabel, Assaf Schuster(参考訳) ディープニューラルネットワークは、どんなタスクでも、特に複雑性の高い問題を解くことができるだろうか? この問題は、旅行セールスマン問題や満足度といった計算的に困難なタスクに取り組む最近の研究によって、多くの関心を集めている。 この作業では、この質問に対する異なる視点を提供します。 一般的な仮定として、$\textit{NP} \neq \textit{coNP}$は$\textit{NP}$-hard問題サンプルに対する多項式時間サンプルジェネレータであり、実際、より簡単な部分確率から得られる。 我々は経験的にケーススタディ、結合型クエリ封じ込めを探索し、一般的なデータ生成手法がバイアス付きデータセットを生成し、実践者がモデル精度を過大に見積もる方法を示す。 この結果から,対象分布から高密度な一様サンプリングの学習を必要とする機械学習手法は,十分に大規模かつ偏りのない学習セットを生成するのが難しいため,計算的に難解な問題を解くには利用できないことが示唆された。

Can deep neural networks learn to solve any task, and in particular problems of high complexity? This question attracts a lot of interest, with recent works tackling computationally hard tasks such as the traveling salesman problem and satisfiability. In this work we offer a different perspective on this question. Given the common assumption that $\textit{NP} \neq \textit{coNP}$ we prove that any polynomial-time sample generator for an $\textit{NP}$-hard problem samples, in fact, from an easier sub-problem. We empirically explore a case study, Conjunctive Query Containment, and show how common data generation techniques generate biased datasets that lead practitioners to over-estimate model accuracy. Our results suggest that machine learning approaches that require training on a dense uniform sampling from the target distribution cannot be used to solve computationally hard problems, the reason being the difficulty of generating sufficiently large and unbiased training sets.
翻訳日:2022-12-30 00:08:30 公開日:2020-06-28
# 生成モデルに対する信頼性と多様性の指標

Reliable Fidelity and Diversity Metrics for Generative Models ( http://arxiv.org/abs/2002.09797v2 )

ライセンス: Link先を確認
Muhammad Ferjad Naeem, Seong Joon Oh, Youngjung Uh, Yunjey Choi, Jaejun Yoo(参考訳) 画像生成タスクの指示的評価指標の策定は依然として未解決の問題である。 実画像と生成画像の類似度を測定するために最も広く用いられる指標は、fr\'echet inception distance (fid)スコアである。 生成した画像の忠実度と多様性を区別しないため、最近の論文では、それらの特性を別々に診断するための精度とリコール指標のバリエーションを導入している。 本稿では,精度とリコールの指標の最新バージョンでさえ,まだ信頼できないことを示す。 例えば、2つの同一分布間の一致の検出に失敗し、外れ値に対して堅牢ではなく、評価ハイパーパラメータが任意に選択される。 上記の問題を解決するための密度とカバレッジの指標を提案する。 分析および実験により,既存の測定値よりも密度とカバレッジがより解釈可能で信頼性の高い信号を実践者に提供できることが示されている。 コード: https://github.com/clovaai/generative-evaluation-prdc。

Devising indicative evaluation metrics for the image generation task remains an open problem. The most widely used metric for measuring the similarity between real and generated images has been the Fr\'echet Inception Distance (FID) score. Because it does not differentiate the fidelity and diversity aspects of the generated images, recent papers have introduced variants of precision and recall metrics to diagnose those properties separately. In this paper, we show that even the latest version of the precision and recall metrics are not reliable yet. For example, they fail to detect the match between two identical distributions, they are not robust against outliers, and the evaluation hyperparameters are selected arbitrarily. We propose density and coverage metrics that solve the above issues. We analytically and experimentally show that density and coverage provide more interpretable and reliable signals for practitioners than the existing metrics. Code: https://github.com/clovaai/generative-evaluation-prdc.
翻訳日:2022-12-29 09:01:21 公開日:2020-06-28
# 低固有ベルマン誤差による最適政策に近い学習

Learning Near Optimal Policies with Low Inherent Bellman Error ( http://arxiv.org/abs/2003.00153v3 )

ライセンス: Link先を確認
Andrea Zanette, Alessandro Lazaric, Mykel Kochenderfer, Emma Brunskill(参考訳) 近似値反復の収束を示すために通常用いられるベルマン誤差の低い条件の下で, エピソディック強化学習における近似線形作用値関数を用いた探索問題について検討する。 まず、この条件を他の共通フレームワークに関連付け、前処理の低階(または線形)の MDP の仮定よりも厳密に一般化されていることを示す。 次に、$\widetilde o(\sum_{t=1}^h d_t \sqrt{k} + \sum_{t=1}^h \sqrt{d_t} \ibe k)$ ここで$h$は地平線、$k$はエピソード数、$\ibe$は固有のベルマンエラーと$d_t$がタイムステップ$t$の特徴次元である場合の値である。 さらに, 一致した下界を示すことにより, 結果が定数やログを超えないことを示す。 これは2つの重要な結果をもたらす。 1) 低ランクmdpにおける従来の作業よりも一般的である設定の最適統計量を達成するアルゴリズムを用いて, \emph{batch assumptions} のみを用いて探索が可能であることを示す。 2) 閉性(ベルマン誤差によって測定される)の欠如は、オンライン環境での作業にもかかわらず$\sqrt{d_t}$でのみ増幅される。 最後に、このアルゴリズムは、$H=1$のときの有名な \textsc{LinUCB} に還元されるが、不特定コンテキスト線形帯域を扱うことができる探索パラメータの異なる選択を持つ。 MDPの設定には計算的トラクタビリティの問題がまだ残っているが、これは統計的に効率的な強化学習が可能なアクション値関数の線形表現でMDPのクラスを豊かにする。

We study the exploration problem with approximate linear action-value functions in episodic reinforcement learning under the notion of low inherent Bellman error, a condition normally employed to show convergence of approximate value iteration. First we relate this condition to other common frameworks and show that it is strictly more general than the low rank (or linear) MDP assumption of prior work. Second we provide an algorithm with a high probability regret bound $\widetilde O(\sum_{t=1}^H d_t \sqrt{K} + \sum_{t=1}^H \sqrt{d_t} \IBE K)$ where $H$ is the horizon, $K$ is the number of episodes, $\IBE$ is the value if the inherent Bellman error and $d_t$ is the feature dimension at timestep $t$. In addition, we show that the result is unimprovable beyond constants and logs by showing a matching lower bound. This has two important consequences: 1) it shows that exploration is possible using only \emph{batch assumptions} with an algorithm that achieves the optimal statistical rate for the setting we consider, which is more general than prior work on low-rank MDPs 2) the lack of closedness (measured by the inherent Bellman error) is only amplified by $\sqrt{d_t}$ despite working in the online setting. Finally, the algorithm reduces to the celebrated \textsc{LinUCB} when $H=1$ but with a different choice of the exploration parameter that allows handling misspecified contextual linear bandits. While computational tractability questions remain open for the MDP setting, this enriches the class of MDPs with a linear representation for the action-value function where statistically efficient reinforcement learning is possible.
翻訳日:2022-12-27 20:08:08 公開日:2020-06-28
# TaskNorm: メタ学習のためのバッチ正規化の再考

TaskNorm: Rethinking Batch Normalization for Meta-Learning ( http://arxiv.org/abs/2003.03284v2 )

ライセンス: Link先を確認
John Bronskill, Jonathan Gordon, James Requeima, Sebastian Nowozin, Richard E. Turner(参考訳) 画像分類のための最近のメタラーニングアプローチは、最先端のパフォーマンスを達成するためにますます深いネットワークに依存しており、バッチ正規化がメタラーニングパイプラインの重要なコンポーネントとなっている。 しかし、メタラーニング環境の階層的な性質は、従来のバッチ正規化を非効率にし、この環境での正規化を再考する必要性を生じさせるいくつかの課題をもたらす。 メタラーニングシナリオに対するバッチ正規化に対する様々なアプローチを評価し、TaskNormと呼ばれる新しいアプローチを開発します。 14のデータセットの実験により、バッチ正規化の選択は、勾配ベースと勾配なしのメタラーニングアプローチの両方の分類精度とトレーニング時間の両方に劇的な効果があることが示された。 重要なのは、TaskNormが継続的にパフォーマンスを改善することだ。 最後に、メタ学習アルゴリズムの公正な比較を可能にする正規化のためのベストプラクティスのセットを提供する。

Modern meta-learning approaches for image classification rely on increasingly deep networks to achieve state-of-the-art performance, making batch normalization an essential component of meta-learning pipelines. However, the hierarchical nature of the meta-learning setting presents several challenges that can render conventional batch normalization ineffective, giving rise to the need to rethink normalization in this setting. We evaluate a range of approaches to batch normalization for meta-learning scenarios, and develop a novel approach that we call TaskNorm. Experiments on fourteen datasets demonstrate that the choice of batch normalization has a dramatic effect on both classification accuracy and training time for both gradient based and gradient-free meta-learning approaches. Importantly, TaskNorm is found to consistently improve performance. Finally, we provide a set of best practices for normalization that will allow fair comparison of meta-learning algorithms.
翻訳日:2022-12-26 00:43:11 公開日:2020-06-28
# PowerNorm: トランスフォーマーのバッチ正規化を再考

PowerNorm: Rethinking Batch Normalization in Transformers ( http://arxiv.org/abs/2003.07845v2 )

ライセンス: Link先を確認
Sheng Shen, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer(参考訳) 自然言語処理(NLP)で使用されるニューラルネットワーク(NN)モデルの標準正規化方法は、層正規化(LN)である。 これはコンピュータビジョンで広く採用されているバッチ正規化(bn)とは異なる。 NLP における LN の使用は、主に BN の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察によるものであるが、その基礎となる理由を深く理解することは必ずしも明確ではない。 本稿では,BNがLNと比較して低性能である理由を理解するため,NLPトランスフォーマーモデルの系統的研究を行う。 バッチ次元にわたるNLPデータの統計は、トレーニングを通して大きな変動を示す。 これにより BN がネーティブな実装であれば不安定となる。 そこで我々は,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。 i) BN におけるゼロ平均正規化を緩和する 二 変動の安定化を図るために、バッチ統計に代えて、実行中の二次平均を組み込むこと (iii)フォワードパスに走行統計を組み込むための近似バックプロパゲーションを用いる。 理論上、軽微な仮定の下では、PN は損失に対して BN よりも小さいリプシッツ定数をもたらすことを示す。 さらに,近似バックプロパゲーションスキームが境界勾配をもたらすことを証明した。 我々は,NLPタスクにおける変圧器のPNを広範囲にテストし,LNとBNの両方で有意に優れていたことを示す。 特にPNは、IWSLT14/WMT14では0.4/0.6BLEU、PTB/WikiText-103では5.6/3.0PPLより優れている。 コードは \url{https://github.com/ sincerass/powernorm} で公開しています。

The standard normalization method for neural network (NN) models used in Natural Language Processing (NLP) is layer normalization (LN). This is different than batch normalization (BN), which is widely-adopted in Computer Vision. The preferred use of LN in NLP is principally due to the empirical observation that a (naive/vanilla) use of BN leads to significant performance degradation for NLP tasks; however, a thorough understanding of the underlying reasons for this is not always evident. In this paper, we perform a systematic study of NLP transformer models to understand why BN has a poor performance, as compared to LN. We find that the statistics of NLP data across the batch dimension exhibit large fluctuations throughout training. This results in instability, if BN is naively implemented. To address this, we propose Power Normalization (PN), a novel normalization scheme that resolves this issue by (i) relaxing zero-mean normalization in BN, (ii) incorporating a running quadratic mean instead of per batch statistics to stabilize fluctuations, and (iii) using an approximate backpropagation for incorporating the running statistics in the forward pass. We show theoretically, under mild assumptions, that PN leads to a smaller Lipschitz constant for the loss, compared with BN. Furthermore, we prove that the approximate backpropagation scheme leads to bounded gradients. We extensively test PN for transformers on a range of NLP tasks, and we show that it significantly outperforms both LN and BN. In particular, PN outperforms LN by 0.4/0.6 BLEU on IWSLT14/WMT14 and 5.6/3.0 PPL on PTB/WikiText-103. We make our code publicly available at \url{https://github.com/sIncerass/powernorm}.
翻訳日:2022-12-22 20:27:01 公開日:2020-06-28
# 深部複素値ネットワークに対するベイズスパルシフィケーション法

Bayesian Sparsification Methods for Deep Complex-valued Networks ( http://arxiv.org/abs/2003.11413v2 )

ライセンス: Link先を確認
Ivan Nazarov and Evgeny Burnaev(参考訳) 継続的な小型化により、深層学習のさらなる応用が組み込みシステムで見られ、自然に複雑なドメイン表現を持つデータに遭遇することが一般的である。 そこで,提案手法は,mnistライクな画像認識とcifar10データセット,musicnet上の音楽書き起こしの2つのタスクにおいて,c値ネットワークの性能圧縮トレードオフを大規模に数値的に検討することで検証した。 Trabelsiらによる最先端の結果を再現する。 複素数値ネットワークを50-100倍圧縮した MusicNet 上の[2018] のペナルティは小さい。

With continual miniaturization ever more applications of deep learning can be found in embedded systems, where it is common to encounter data with natural complex domain representation. To this end we extend Sparse Variational Dropout to complex-valued neural networks and verify the proposed Bayesian technique by conducting a large numerical study of the performance-compression trade-off of C-valued networks on two tasks: image recognition on MNIST-like and CIFAR10 datasets and music transcription on MusicNet. We replicate the state-of-the-art result by Trabelsi et al. [2018] on MusicNet with a complex-valued network compressed by 50-100x at a small performance penalty.
翻訳日:2022-12-20 02:47:11 公開日:2020-06-28
# B-SCST:画像キャプションのためのベイズ的自己批判シーケンストレーニング

B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning ( http://arxiv.org/abs/2004.02435v2 )

ライセンス: Link先を確認
Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo(参考訳) ベイジアンディープニューラルネットワーク(DNN)は、画像キャプションモデルから予測の不確かさを定量化する数学的基盤を持つフレームワークを提供する。 本稿では,CIDEr-D などの画像キャプション品質指標を直接最適化するために,画像キャプションモデルに対するポリシー段階に基づく強化学習手法のベイズ変種を提案する。 ベイズ推論を取り入れた画像キャプションモデルに対する、よく知られた自己批判シーケンストレーニング(SCST)アプローチを拡張し、それをB-SCSTと呼ぶ。 ベイズDNNモデルを用いて得られた分布から抽出したキャプションの予測品質指標(CIDEr-D)を平均化することにより、B-SCSTにおけるポリシー勾配のベースラインを生成する。 この予測分布をモンテカルロ(mc)ドロップアウト近似変分推論を用いて推定する。 B-SCST は Flickr30k,MS COCO,VizWiz 画像キャプションデータセットの CIDEr-D スコアを SCST アプローチと比較して改善することを示した。 また,予測キャプションの不確かさの定量化についても検討し,CIDEr-Dスコアとよく相関していることを示す。 我々の知る限り、これが最初の解析であり、実用的な応用に欠かせない画像キャプションモデル出力の解釈性を向上させることができる。

Bayesian deep neural networks (DNNs) can provide a mathematically grounded framework to quantify uncertainty in predictions from image captioning models. We propose a Bayesian variant of policy-gradient based reinforcement learning training technique for image captioning models to directly optimize non-differentiable image captioning quality metrics such as CIDEr-D. We extend the well-known Self-Critical Sequence Training (SCST) approach for image captioning models by incorporating Bayesian inference, and refer to it as B-SCST. The "baseline" for the policy-gradients in B-SCST is generated by averaging predictive quality metrics (CIDEr-D) of the captions drawn from the distribution obtained using a Bayesian DNN model. We infer this predictive distribution using Monte Carlo (MC) dropout approximate variational inference. We show that B-SCST improves CIDEr-D scores on Flickr30k, MS COCO and VizWiz image captioning datasets, compared to the SCST approach. We also provide a study of uncertainty quantification for the predicted captions, and demonstrate that it correlates well with the CIDEr-D scores. To our knowledge, this is the first such analysis, and it can improve the interpretability of image captioning model outputs, which is critical for practical applications.
翻訳日:2022-12-16 05:44:13 公開日:2020-06-28
# 2つの複雑さの物語:アルツハイマー型認知症における語彙検索障害に対するニューラルネットワークモデルの感度

A Tale of Two Perplexities: Sensitivity of Neural Language Models to Lexical Retrieval Deficits in Dementia of the Alzheimer's Type ( http://arxiv.org/abs/2005.03593v2 )

ライセンス: Link先を確認
Trevor Cohen and Serguei Pakhomov(参考訳) 近年,認知症患者が発声した音声サンプルと健常者から発声した音声サンプルを区別するための計算手法の使用に対する関心が高まっている。 2つのニューラルネットワークモデル(LM)からのパープレキシティ推定(一人は健常者による音声の書き起こしを訓練し、もう一人は認知症患者からの書き起こしを訓練した)の違いは、未確認の書き起こしの診断の単一特徴として、最先端のパフォーマンスを生み出すことが示されている。 しかし、なぜこのアプローチが効果的かは分かっていないし、最も広く使われている文字起こしの評価セット(DementiaBank)においてケース/コントロールマッチングが欠如していることから、これらのアプローチが真に診断されているのか、あるいは他の変数に敏感なのかは明らかではない。 本稿では,認知症患者と非認知症患者に訓練された神経lmsを,語彙頻度を操作し,進行性意味認知症をシミュレートする合成ナラティブを用いて問う。 我々は, ニューラルLMのパープレキシティは, 語彙周波数と強く, 差分関係が強く, 補間制御と認知症から生じる混合モデルは, 転写テキストでのみ訓練されたモデルに対する現在の最先端のモデルにより改善されることを見出した。

In recent years there has been a burgeoning interest in the use of computational methods to distinguish between elicited speech samples produced by patients with dementia, and those from healthy controls. The difference between perplexity estimates from two neural language models (LMs) - one trained on transcripts of speech produced by healthy participants and the other trained on transcripts from patients with dementia - as a single feature for diagnostic classification of unseen transcripts has been shown to produce state-of-the-art performance. However, little is known about why this approach is effective, and on account of the lack of case/control matching in the most widely-used evaluation set of transcripts (DementiaBank), it is unclear if these approaches are truly diagnostic, or are sensitive to other variables. In this paper, we interrogate neural LMs trained on participants with and without dementia using synthetic narratives previously developed to simulate progressive semantic dementia by manipulating lexical frequency. We find that perplexity of neural LMs is strongly and differentially associated with lexical frequency, and that a mixture model resulting from interpolating control and dementia LMs improves upon the current state-of-the-art for models trained on transcript text exclusively.
翻訳日:2022-12-05 23:26:32 公開日:2020-06-28
# 音声における子音の知能度自動推定

Automatic Estimation of Intelligibility Measure for Consonants in Speech ( http://arxiv.org/abs/2005.06065v2 )

ライセンス: Link先を確認
Ali Abavisani and Mark Hasegawa-Johnson(参考訳) 本稿では,個々の音声セグメントの識別性に関する実数値尺度を推定するモデルを提案する。 母音 \textipa{/a/} に対応する停止子音 \textipa{/p,t,k,b,d,g/} に対する畳み込みニューラルネットワーク (cnn) に基づく回帰モデルを訓練し, 子音-母音 (cv) が正常聴覚 (nh) 耳に知覚可能となる雑音比 (snr) に対する応答信号の推定を行った。 SNR$_{90}$(SNR$_{90}$)と呼ばれ、NH被験者による先行実験で決定されたように、人間の参加者が平均して90%以上正確に子音を認識できるSNRレベルと定義される。 CNNの性能は、自動音声認識(ASR)に基づくベースライン予測と比較され、具体的には、ASRが子音を正しくラベル付けできるSNRから減算された定数オフセットである。 ベースラインと比較して、我々のモデルは平均的に2[dB$^2$]平均正方形誤差(MSE)でSNR$_{90}$~知能度を正確に推定することができ、ベースラインのASR定義測度は5.2から26.6[dB$^2$]の分散で計算できる。

In this article, we provide a model to estimate a real-valued measure of the intelligibility of individual speech segments. We trained regression models based on Convolutional Neural Networks (CNN) for stop consonants \textipa{/p,t,k,b,d,g/} associated with vowel \textipa{/A/}, to estimate the corresponding Signal to Noise Ratio (SNR) at which the Consonant-Vowel (CV) sound becomes intelligible for Normal Hearing (NH) ears. The intelligibility measure for each sound is called SNR$_{90}$, and is defined to be the SNR level at which human participants are able to recognize the consonant at least 90\% correctly, on average, as determined in prior experiments with NH subjects. Performance of the CNN is compared to a baseline prediction based on automatic speech recognition (ASR), specifically, a constant offset subtracted from the SNR at which the ASR becomes capable of correctly labeling the consonant. Compared to baseline, our models were able to accurately estimate the SNR$_{90}$~intelligibility measure with less than 2 [dB$^2$] Mean Squared Error (MSE) on average, while the baseline ASR-defined measure computes SNR$_{90}$~with a variance of 5.2 to 26.6 [dB$^2$], depending on the consonant.
翻訳日:2022-12-03 19:35:15 公開日:2020-06-28
# シークレットリークからの低減性と統計的計算ギャップ

Reducibility and Statistical-Computational Gaps from Secret Leakage ( http://arxiv.org/abs/2005.08099v2 )

ライセンス: Link先を確認
Matthew Brennan, Guy Bresler(参考訳) 推測された統計計算ギャップを持つ推論問題は、現代の統計学、計算機科学、統計物理学において普遍的である。 制限されたアルゴリズムのクラスからこれらのギャップを導き出すことに成功したが、統計的推論における計算複雑性に対するより伝統的な還元に基づくアプローチへの進歩は限られている。 Existing reductions have largely been limited to inference problems with similar structure -- primarily mapping among problems representable as a sparse submatrix signal plus a noise matrix, which are similar to the common hardness assumption of planted clique. The insight in this work is that a slight generalization of the planted clique conjecture -- secret leakage planted clique -- gives rise to a variety of new average-case reduction techniques, yielding a web of reductions among problems with very different structure. Using variants of the planted clique conjecture for specific forms of secret leakage planted clique, we deduce tight statistical-computational tradeoffs for a diverse range of problems including robust sparse mean estimation, mixtures of sparse linear regressions, robust sparse linear regression, tensor PCA, variants of dense $k$-block stochastic block models, negatively correlated sparse PCA, semirandom planted dense subgraph, detection in hidden partition models and a universality principle for learning sparse mixtures. 特に、植込みクリッド予想の$k$-partite ハイパーグラフ変種は、我々の計算下界の全てを確立するのに十分である。 また, 組合せ設計とランダム行列理論との新たな関係を明らかにする。 この研究は、秘密漏洩(secret leak planted clique)のような拡張されたハードネス仮定が、統計問題間の還元のより完全な理論への重要な第一歩であることを示す最初の証拠を与える。

Inference problems with conjectured statistical-computational gaps are ubiquitous throughout modern statistics, computer science and statistical physics. While there has been success evidencing these gaps from the failure of restricted classes of algorithms, progress towards a more traditional reduction-based approach to computational complexity in statistical inference has been limited. Existing reductions have largely been limited to inference problems with similar structure -- primarily mapping among problems representable as a sparse submatrix signal plus a noise matrix, which are similar to the common hardness assumption of planted clique. The insight in this work is that a slight generalization of the planted clique conjecture -- secret leakage planted clique -- gives rise to a variety of new average-case reduction techniques, yielding a web of reductions among problems with very different structure. Using variants of the planted clique conjecture for specific forms of secret leakage planted clique, we deduce tight statistical-computational tradeoffs for a diverse range of problems including robust sparse mean estimation, mixtures of sparse linear regressions, robust sparse linear regression, tensor PCA, variants of dense $k$-block stochastic block models, negatively correlated sparse PCA, semirandom planted dense subgraph, detection in hidden partition models and a universality principle for learning sparse mixtures. In particular, a $k$-partite hypergraph variant of the planted clique conjecture is sufficient to establish all of our computational lower bounds. Our techniques also reveal novel connections to combinatorial designs and to random matrix theory. This work gives the first evidence that an expanded set of hardness assumptions, such as for secret leakage planted clique, may be a key first step towards a more complete theory of reductions among statistical problems.
翻訳日:2022-12-02 13:14:31 公開日:2020-06-28
# GSTO:Pixel Labelingにおけるマルチスケール特徴学習のためのGated Scale-Transfer Operation

GSTO: Gated Scale-Transfer Operation for Multi-Scale Feature Learning in Pixel Labeling ( http://arxiv.org/abs/2005.13363v2 )

ライセンス: Link先を確認
Zhuoying Wang and Yongtao Wang and Zhi Tang and Yangyan Li and Ying Chen and Haibin Ling and Weisi Lin(参考訳) 既存のCNNベースのピクセルラベリング手法は、意味理解と詳細保存の両方の要件を満たすため、マルチスケールの機能に大きく依存している。 最先端のピクセルラベリングニューラルネットワークは、従来のスケール転送操作、すなわちアップサンプリングとダウンサンプリングを利用してマルチスケールの機能を学ぶ。 本研究では,これらの操作が空間不変であり,空間選択を伴わずにすべての特徴情報をクロススケールで直接伝達するので,拡張性に富んだ特徴や準最適性能をもたらすことを示す。 この問題に対処するために,空間フィルタの機能を他のスケールに適切に移行するためのGated Scale-Transfer Operation (GSTO)を提案する。 具体的には、GSTOは、追加の監督の有無にかかわらず、機能することができる。 教師なしGSTOは特徴自体から学習され、教師なしGSTOは教師付き確率行列によってガイドされる。 GSTOのどちらの形式も軽量でプラグ&プレイで、ネットワークやモジュールに柔軟に統合して、より優れたマルチスケール機能を学ぶことができる。 特に、GSTOをHRNetにプラグインすることで、ピクセルラベリングのためのより強力なバックボーン(GSTO-HRNet)が得られ、人間のポーズ推定のためのCOCOベンチマークや、Cityscapes、LIP、Pascal Contextなどのセマンティックセグメンテーションのためのベンチマークで、無視できない余分な計算コストで、新しい最先端の結果が得られる。 さらに,実験結果から,GSTOはPPMやASPPといったマルチスケール機能アグリゲーションモジュールの性能を大幅に向上させることができることが示された。 コードはhttps://github.com/VDIGPKU/GSTOで公開される。

Existing CNN-based methods for pixel labeling heavily depend on multi-scale features to meet the requirements of both semantic comprehension and detail preservation. State-of-the-art pixel labeling neural networks widely exploit conventional scale-transfer operations, i.e., up-sampling and down-sampling to learn multi-scale features. In this work, we find that these operations lead to scale-confused features and suboptimal performance because they are spatial-invariant and directly transit all feature information cross scales without spatial selection. To address this issue, we propose the Gated Scale-Transfer Operation (GSTO) to properly transit spatial-filtered features to another scale. Specifically, GSTO can work either with or without extra supervision. Unsupervised GSTO is learned from the feature itself while the supervised one is guided by the supervised probability matrix. Both forms of GSTO are lightweight and plug-and-play, which can be flexibly integrated into networks or modules for learning better multi-scale features. In particular, by plugging GSTO into HRNet, we get a more powerful backbone (namely GSTO-HRNet) for pixel labeling, and it achieves new state-of-the-art results on the COCO benchmark for human pose estimation and other benchmarks for semantic segmentation including Cityscapes, LIP and Pascal Context, with negligible extra computational cost. Moreover, experiment results demonstrate that GSTO can also significantly boost the performance of multi-scale feature aggregation modules like PPM and ASPP. Code will be made available at https://github.com/VDIGPKU/GSTO.
翻訳日:2022-11-28 09:26:19 公開日:2020-06-28
# webおよびモバイルアプリケーション開発のための新しいヌード検出アルゴリズム

A Novel Nudity Detection Algorithm for Web and Mobile Application Development ( http://arxiv.org/abs/2006.01780v2 )

ライセンス: Link先を確認
Rahat Yeasin Emon(参考訳) 現在のwebおよびモバイルアプリケーション開発では、ヌード画像の検出が非常に重要です。 本稿では,webおよびモバイルアプリケーション開発のためのランタイムヌード検出手法を提案する。 画像のヌード内容を検出するために2つのパラメータを用いる。 1つは皮膚の画素数で、もう1つは顔領域です。 RGBに基づく皮膚色モデル、HSV色空間を用いて画像中の皮膚画素を検出する。 google vision apiは、顔領域を検出するために使用される。 皮膚領域と顔領域の比率によって、画像がヌードか否かが識別される。 このアルゴリズムの成功は皮膚領域や顔領域の検出に有効である。 皮膚検出アルゴリズムは、低い偽陽性率で正確に皮膚を95%検出でき、webおよびモバイルアプリケーション用のgoogle vision apiは、1秒未満で、顔を正確に99%検出することができる。 実験結果から,提案アルゴリズムは画像のヌード度を95%精度で検出できることがわかった。

In our current web and mobile application development runtime nude image content detection is very important. This paper presents a runtime nudity detection method for web and mobile application development. We use two parameters to detect the nude content of an image. One is the number of skin pixels another is face region. A skin color model based on RGB, HSV color spaces are used to detect skin pixels in an image. Google vision api is used to detect the face region. By the percentage of skin regions and face regions an image is identified nude or not. The success of this algorithm exists in detecting skin regions and face regions. The skin detection algorithm can detect skin 95% accurately with a low false-positive rate and the google vision api for web and mobile applications can detect face 99% accurately with less than 1 second time. From the experimental analysis, we have seen that the proposed algorithm can detect 95% percent accurately the nudity of an image.
翻訳日:2022-11-26 01:06:46 公開日:2020-06-28
# 知識グラフに対するフェアネスを考慮した説明可能な勧告

Fairness-Aware Explainable Recommendation over Knowledge Graphs ( http://arxiv.org/abs/2006.02046v2 )

ライセンス: Link先を確認
Zuohui Fu, Yikun Xian, Ruoyuan Gao, Jieyu Zhao, Qiaoying Huang, Yingqiang Ge, Shuyuan Xu, Shijie Geng, Chirag Shah, Yongfeng Zhang, Gerard de Melo(参考訳) 近年,知的な意思決定システムの文脈において,公平性への配慮が注目されている。 特に説明可能なレコメンデーションシステムは、説明バイアスと性能格差の両方に苦しむ可能性がある。 本稿では,ユーザの行動レベルに応じて異なるグループを解析し,異なるグループ間での推薦性能にバイアスが存在することを明らかにする。 不アクティブなユーザは、不アクティブなユーザのためのトレーニングデータ不足により、不十分な推奨を受けやすい可能性があり、その推奨は、協調フィルタリングの性質により、よりアクティブなユーザのトレーニング記録によって偏る可能性があり、システムによる不公平な扱いにつながる。 本稿では,知識グラフに対する説明可能な推奨という文脈において,この不公平問題を緩和するために,ヒューリスティックな再分類による公正制約付きアプローチを提案する。 最先端知識グラフに基づく説明可能なレコメンデーションアルゴリズムを用いて,実世界のデータセットを複数実験した。 有望な結果は,提案アルゴリズムが高品質な説明可能なレコメンデーションを提供するだけでなく,いくつかの点で不公平さを低減できることを示している。

There has been growing attention on fairness considerations recently, especially in the context of intelligent decision making systems. Explainable recommendation systems, in particular, may suffer from both explanation bias and performance disparity. In this paper, we analyze different groups of users according to their level of activity, and find that bias exists in recommendation performance between different groups. We show that inactive users may be more susceptible to receiving unsatisfactory recommendations, due to insufficient training data for the inactive users, and that their recommendations may be biased by the training records of more active users, due to the nature of collaborative filtering, which leads to an unfair treatment by the system. We propose a fairness constrained approach via heuristic re-ranking to mitigate this unfairness problem in the context of explainable recommendation over knowledge graphs. We experiment on several real-world datasets with state-of-the-art knowledge graph-based explainable recommendation algorithms. The promising results show that our algorithm is not only able to provide high-quality explainable recommendations, but also reduces the recommendation unfairness in several respects.
翻訳日:2022-11-25 18:28:54 公開日:2020-06-28
# 生体認証のための連続表現学習

Continual Representation Learning for Biometric Identification ( http://arxiv.org/abs/2006.04455v2 )

ライセンス: Link先を確認
Bo Zhao, Shixiang Tang, Dapeng Chen, Hakan Bilen, Rui Zhao(参考訳) 近年,デジタルデータの普及に伴い,従来の知識を忘れずにデータストリームから新たなタスクを継続的に学習することがますます重要になっている。 本稿では,「連続的表現学習」という,連続的な表現の学習に焦点をあてた新しい連続的学習(CL)環境を提案する。 また,生体認証のための大規模マルチステップベンチマークを2つ提供し,異なるクラスの視覚的外観が極めて関連性が高いことを示した。 モデルがより学習されたクラスを認識することを要求するのとは対照的に、これまで見えない画像だけでなく、目に見えないクラスやアイデンティティにもより一般化できる特徴表現を学習することを目指している。 そこで本研究では,連続学習モデルのスケーラビリティと柔軟性を向上させるために,近隣選択と一貫性緩和戦略を適用し,多数のアイデンティティに対して知識蒸留を行う新しい手法を提案する。 既存のclメソッドが新しい設定で表現を改善できることを実証し,提案手法が競合手法よりも優れた結果が得られることを示す。

With the explosion of digital data in recent years, continuously learning new tasks from a stream of data without forgetting previously acquired knowledge has become increasingly important. In this paper, we propose a new continual learning (CL) setting, namely ``continual representation learning'', which focuses on learning better representation in a continuous way. We also provide two large-scale multi-step benchmarks for biometric identification, where the visual appearance of different classes are highly relevant. In contrast to requiring the model to recognize more learned classes, we aim to learn feature representation that can be better generalized to not only previously unseen images but also unseen classes/identities. For the new setting, we propose a novel approach that performs the knowledge distillation over a large number of identities by applying the neighbourhood selection and consistency relaxation strategies to improve scalability and flexibility of the continual learning model. We demonstrate that existing CL methods can improve the representation in the new setting, and our method achieves better results than the competitors.
翻訳日:2022-11-24 02:01:43 公開日:2020-06-28
# 感情反応予測のためのラベルセマンティクスのモデル化

Modeling Label Semantics for Predicting Emotional Reactions ( http://arxiv.org/abs/2006.05489v2 )

ライセンス: Link先を確認
Radhika Gaonkar, Heeyoung Kwon, Mohaddeseh Bastan, Niranjan Balasubramanian, Nathanael Chambers(参考訳) イベントがストーリーのキャラクターの感情をどのように引き起こすかを予測することは、通常、標準的なマルチラベル分類タスクと見なされ、通常はラベルを予測するために匿名クラスとして扱う。 彼らは感情ラベル自体によって伝達される可能性のある情報を無視する。 感情ラベルのセマンティクスは、入力ストーリーを表現する際のモデルの注意を導くことができる。 さらに、出来事によって引き起こされる感情は、しばしば関連している:喜びを引き起こす出来事もまた悲しみを引き起こすことはありそうにない。 本研究では,ラベル埋め込みによるラベルクラスを明示的にモデル化し,ラベルとラベルの相関関係を追跡する機構を追加する。 また,ラベルなしデータの相関を規則化する新しい半スーパービジョン戦略も導入する。 私たちの経験的評価では,ラベル意味論のモデル化は一貫した利点をもたらし,感情推論タスクの最先端を前進させる。

Predicting how events induce emotions in the characters of a story is typically seen as a standard multi-label classification task, which usually treats labels as anonymous classes to predict. They ignore information that may be conveyed by the emotion labels themselves. We propose that the semantics of emotion labels can guide a model's attention when representing the input story. Further, we observe that the emotions evoked by an event are often related: an event that evokes joy is unlikely to also evoke sadness. In this work, we explicitly model label classes via label embeddings, and add mechanisms that track label-label correlations both during training and inference. We also introduce a new semi-supervision strategy that regularizes for the correlations on unlabeled data. Our empirical evaluations show that modeling label semantics yields consistent benefits, and we advance the state-of-the-art on an emotion inference task.
翻訳日:2022-11-23 14:53:38 公開日:2020-06-28
# 初期価格オークションにおける予備価格最適化

Reserve Price Optimization for First Price Auctions ( http://arxiv.org/abs/2006.06519v2 )

ライセンス: Link先を確認
Zhe Feng, S\'ebastien Lahaie, Jon Schneider, Jinchao Ye(参考訳) ディスプレイ広告業界は、最近、広告アロケーションと価格設定の主要なメカニズムとして、第2価格から第1価格のオークションに移行した。 これを踏まえて、出版社はオークションパラメータ、特に予備価格を再評価し、最適化する必要がある。 本稿では,予約者に対する実験的ショックに対する入札者の応答性の推定に基づいて,予約価格を適応的に更新・最適化する勾配ベースアルゴリズムを提案する。 我々の重要な革新は、勾配推定のばらつきを減らし、理論と実践の両方における収束率を改善するために、収益目標の固有の構造を描くことである。 第一価格オークションにおける収益は,各コンポーネントのばらつきを低減させる手法を導入し, 有効に, \emph{demand} コンポーネントと \emph{bidding} コンポーネントに分解できることを示す。 これらの手法のバイアス分散トレードオフを特徴付け,google ad exchangeの合成データと実際のディスプレイ広告オークションデータを用いて提案アルゴリズムの性能を検証する。

The display advertising industry has recently transitioned from second- to first-price auctions as its primary mechanism for ad allocation and pricing. In light of this, publishers need to re-evaluate and optimize their auction parameters, notably reserve prices. In this paper, we propose a gradient-based algorithm to adaptively update and optimize reserve prices based on estimates of bidders' responsiveness to experimental shocks in reserves. Our key innovation is to draw on the inherent structure of the revenue objective in order to reduce the variance of gradient estimates and improve convergence rates in both theory and practice. We show that revenue in a first-price auction can be usefully decomposed into a \emph{demand} component and a \emph{bidding} component, and introduce techniques to reduce the variance of each component. We characterize the bias-variance trade-offs of these techniques and validate the performance of our proposed algorithm through experiments on synthetic data and real display ad auctions data from Google ad exchange.
翻訳日:2022-11-22 13:04:10 公開日:2020-06-28
# aiファクトシート作成のための方法論

A Methodology for Creating AI FactSheets ( http://arxiv.org/abs/2006.13796v2 )

ライセンス: Link先を確認
John Richards, David Piorkowski, Michael Hind, Stephanie Houde, Aleksandra Mojsilovi\'c(参考訳) AIモデルとサービスが多くのハイテイク領域で使用されているため、信頼を高めるためにこれらのモデルとサービスがどのように開発されたかを明確に記録する必要性に、コンセンサスが形成されている。 より高品質で一貫性のあるAIドキュメントに関するいくつかの提案が登場し、倫理的および法的懸念とそのようなシステムの一般的な社会的影響に対処している。 しかし、このドキュメントの作成方法についての公開作業はほとんどない。 これは、私たちがFactSheetsと呼ぶAIドキュメントの形式を作るための方法論を記述する最初の作業です。 我々はこの手法を使って、約2ダースのモデルで有用なFactSheetsを作成しました。 本稿では、この方法論を説明し、収集した洞察を共有します。 方法論の各ステップの中で、FactSheetでAI事実を作成し、消費する組織内の関連する人々と探索する上での課題と課題について説明する。 この方法論は、透明なAIドキュメントの採用を加速する。

As AI models and services are used in a growing number of highstakes areas, a consensus is forming around the need for a clearer record of how these models and services are developed to increase trust. Several proposals for higher quality and more consistent AI documentation have emerged to address ethical and legal concerns and general social impacts of such systems. However, there is little published work on how to create this documentation. This is the first work to describe a methodology for creating the form of AI documentation we call FactSheets. We have used this methodology to create useful FactSheets for nearly two dozen models. This paper describes this methodology and shares the insights we have gathered. Within each step of the methodology, we describe the issues to consider and the questions to explore with the relevant people in an organization who will be creating and consuming the AI facts in a FactSheet. This methodology will accelerate the broader adoption of transparent AI documentation.
翻訳日:2022-11-17 13:18:12 公開日:2020-06-28
# 多言語grapheme-to-phoneme変換のためのニューラルマシン翻訳

Neural Machine Translation for Multilingual Grapheme-to-Phoneme Conversion ( http://arxiv.org/abs/2006.14194v2 )

ライセンス: Link先を確認
Alex Sokolov, Tracy Rohlin, Ariya Rastrow(参考訳) Grapheme-to-phoneme(G2P)モデルは、AlexaのASRシステムのような自動音声認識(ASR)システムにおいて、発音レキシコンに存在しない語彙外単語(e c h o" から "E k oU" のようなマッピング)の発音を生成するために使用される重要なコンポーネントである。 ほとんどのg2pシステムは単言語であり、従来のジョイントシーケンスベースのn-gramモデル [1,2] に基づいている。 代替として、複数の言語で同じエンコーダとデコーダを共有する単一のエンドツーエンドトレーニングニューラルネットワークG2Pモデルを提案する。 これにより、モデルはラテン文字のような普遍的な記号表象とクロス言語的共有特徴表現の組み合わせを利用することができる。 このようなモデルは、低リソース言語やコード切り替え/外部語のシナリオにおいて特に有用であり、ある言語の発音は他のローカル語やアクセントに適応する必要がある。 さらに,パラメータ空間内の様々な言語にまたがる発音の分離を支援することで,システム性能を向上させるための学習目標として,単語言語分布ベクトルを実験する。 低リソース言語に対する音素誤り率の平均改善率は7.2%であり、単言語ベースラインと比較して高リソース言語よりも劣化しない。

Grapheme-to-phoneme (G2P) models are a key component in Automatic Speech Recognition (ASR) systems, such as the ASR system in Alexa, as they are used to generate pronunciations for out-of-vocabulary words that do not exist in the pronunciation lexicons (mappings like "e c h o" to "E k oU"). Most G2P systems are monolingual and based on traditional joint-sequence based n-gram models [1,2]. As an alternative, we present a single end-to-end trained neural G2P model that shares same encoder and decoder across multiple languages. This allows the model to utilize a combination of universal symbol inventories of Latin-like alphabets and cross-linguistically shared feature representations. Such model is especially useful in the scenarios of low resource languages and code switching/foreign words, where the pronunciations in one language need to be adapted to other locales or accents. We further experiment with word language distribution vector as an additional training target in order to improve system performance by helping the model decouple pronunciations across a variety of languages in the parameter space. We show 7.2% average improvement in phoneme error rate over low resource languages and no degradation over high resource ones compared to monolingual baselines.
翻訳日:2022-11-17 03:57:02 公開日:2020-06-28
# 対流的ノキャスティングのための深い直交分解

Deep Orthogonal Decompositions for Convective Nowcasting ( http://arxiv.org/abs/2006.15628v1 )

ライセンス: Link先を確認
Daniel J. Tait(参考訳) 我々の気候を駆動する構造的時空間過程の短期的な予測は、数百万の安全と幸福のために非常に重要であるが、これらの過程の進行する非線形対流は、短期的力学でさえ完全な力学的記述を困難にしている。 しかし、対流輸送は、問題の原理的な物理的記述を提供するだけでなく、現在のキャスティング問題に対する最近の'physics free' アプローチの成功に繋がる情報的特徴の時間における輸送の指標でもある。 本研究は, 深層学習(DL)をうまく活用して, 最小の動的記述が持つ低次元空間にプロセスを投影する, 物理的に情報を得たモデルによって, それらが果たすべき重要な役割を実証するものである。 本手法は, 海面温度や降水量を含む複雑な実世界のデータセット上で, 既存のモデルフリーアプローチ, および技術ハイブリッドアプローチの状態を上回り, 物理的に動機づけたダイナミックスを用いたDLの特徴抽出能力を合成する。

Near-term prediction of the structured spatio-temporal processes driving our climate is of profound importance to the safety and well-being of millions, but the prounced nonlinear convection of these processes make a complete mechanistic description even of the short-term dynamics challenging. However, convective transport provides not only a principled physical description of the problem, but is also indicative of the transport in time of informative features which has lead to the recent successful development of ``physics free'' approaches to the now-casting problem. In this work we demonstrate that their remains an important role to be played by physically informed models, which can successfully leverage deep learning (DL) to project the process onto a lower dimensional space on which a minimal dynamical description holds. Our approach synthesises the feature extraction capabilities of DL with physically motivated dynamics to outperform existing model free approaches, as well as state of the art hybrid approaches, on complex real world datasets including sea surface temperature and precipitation.
翻訳日:2022-11-16 03:09:34 公開日:2020-06-28
# ソーシャルディスタンシングもポイントに適しています!

Social Distancing is Good for Points too! ( http://arxiv.org/abs/2006.15650v1 )

ライセンス: Link先を確認
Alejandro Flores-Velazco(参考訳) near-neighborルールは、ラベル付きポイントのトレーニングセットpが与えられると、ラベル付きクエリポイントをpの最も近いポイントのラベルに分類する、よく知られた分類手法である。 fcnnは最も一般的な凝縮アルゴリズムである。 自然界ではヒューリスティックであり、理論的な結果はほとんどない。 本稿では,FCNNが選択したサブセットのサイズに対して,妥当な上限値が証明できるかどうかを問う。 まず,各点が互いに近すぎるとアルゴリズムの振る舞いが悪くなり,必要以上に多くの点を選択せざるを得なくなることを示した。 このような場合を避けるためにアルゴリズムをうまく修正し、選択された点が「ある程度の距離を保つ」べきであると仮定した。 この修正はアルゴリズムの近似保証とともに有用な上界を証明するのに十分である。

The nearest-neighbor rule is a well-known classification technique that, given a training set P of labeled points, classifies any unlabeled query point with the label of its closest point in P. The nearest-neighbor condensation problem aims to reduce the training set without harming the accuracy of the nearest-neighbor rule. FCNN is the most popular algorithm for condensation. It is heuristic in nature, and theoretical results for it are scarce. In this paper, we settle the question of whether reasonable upper-bounds can be proven for the size of the subset selected by FCNN. First, we show that the algorithm can behave poorly when points are too close to each other, forcing it to select many more points than necessary. We then successfully modify the algorithm to avoid such cases, thus imposing that selected points should "keep some distance". This modification is sufficient to prove useful upper-bounds, along with approximation guarantees for the algorithm.
翻訳日:2022-11-16 03:09:14 公開日:2020-06-28
# PyTorch Distributed: データ並列トレーニングの高速化に関する経験

PyTorch Distributed: Experiences on Accelerating Data Parallel Training ( http://arxiv.org/abs/2006.15704v1 )

ライセンス: Link先を確認
Shen Li, Yanli Zhao, Rohan Varma, Omkar Salpekar, Pieter Noordhuis, Teng Li, Adam Paszke, Jeff Smith, Brian Vaughan, Pritam Damania, Soumith Chintala(参考訳) 本稿では,PyTorch分散データ並列モジュールの設計,実装,評価について述べる。 PyTorchは、ディープラーニングの研究や応用で広く使われている科学計算パッケージである。 ディープラーニングの最近の進歩は、モデルトレーニングをより多くの計算リソースにスケールアウトする能力を必要とする大規模なデータセットと大規模なモデルの価値を論じている。 データ並列性は、その直接的な原則と幅広い適用性のおかげで、分散トレーニングの一般的なソリューションとして現れました。 一般に、分散データ並列化のテクニックは、すべての計算リソース上のモデルを複製して独立に勾配を生成し、各イテレーションでそれらの勾配を伝達してモデルの複製を一貫性を保つ。 この手法の概念的単純さにもかかわらず、計算と通信の微妙な依存関係は、分散トレーニング効率を最適化するのは簡単ではない。 v1.5以降、PyTorchは、バケット勾配、通信との重なり合う計算、スキップ勾配同期など、分散データの並列化をネイティブに高速化するいくつかの技術を提供している。 適切な設定を行うと、PyTorch分散データ並列モジュールは256GPUを使用してほぼ線形スケーラビリティを実現する。

This paper presents the design, implementation, and evaluation of the PyTorch distributed data parallel module. PyTorch is a widely-adopted scientific computing package used in deep learning research and applications. Recent advances in deep learning argue for the value of large datasets and large models, which necessitates the ability to scale out model training to more computational resources. Data parallelism has emerged as a popular solution for distributed training thanks to its straightforward principle and broad applicability. In general, the technique of distributed data parallelism replicates the model on every computational resource to generate gradients independently and then communicates those gradients at each iteration to keep model replicas consistent. Despite the conceptual simplicity of the technique, the subtle dependencies between computation and communication make it non-trivial to optimize the distributed training efficiency. As of v1.5, PyTorch natively provides several techniques to accelerate distributed data parallel, including bucketing gradients, overlapping computation with communication, and skipping gradient synchronization. Evaluations show that, when configured appropriately, the PyTorch distributed data parallel module attains near-linear scalability using 256 GPUs.
翻訳日:2022-11-16 03:08:58 公開日:2020-06-28
# ブラックボックスマルウェア分類器のベストエフォート対応近似

Best-Effort Adversarial Approximation of Black-Box Malware Classifiers ( http://arxiv.org/abs/2006.15725v1 )

ライセンス: Link先を確認
Abdullah Ali, Birhanu Eshete(参考訳) ブラックボックスモデルを盗もうとする敵は、予測apiを通じてモデルを繰り返しクエリし、その決定境界に近似する関数を学ぶ。 モデルアーキテクチャ、パラメータ、探索すべき特徴の膨大な組み合わせのため、逆近似は自明ではない。 この文脈では、敵は最も近い近似をもたらす最善戦略に頼っている。 本稿では,ブラックボックスマルウェア分類器の最も困難な状況下での最適対人近似について検討し,敵の知識が与えられた入力の予測ラベルに限られていることを示す。 ブラックボックス分類器の限られた入力セットから始めると、機能表現マッピングとクロスドメイン転送可能性を利用してブラックボックスマルウェア分類器を局所的に訓練することで近似する。 提案手法は,対象モデルと代替モデルに異なる特徴型を持つ対象モデルに近似し,非重複データを用いて対象を訓練し,代用を訓練し,両者の比較を行う。 Windows Portable Executables (PE) でトレーニングした2つのブラックボックス分類器に対するアプローチの有効性を評価する。 PEの生バイト配列に基づいて訓練された畳み込みニューラルネットワーク(CNN)に対して,PEの画素表現に基づいて訓練された92%の精度の置換を実現し,ターゲットと代替モデルの約90%の予測一致を実現した。 静的PEの特徴を訓練した決定木を97.8%の精度で増加させたが、91%の精度で予測の90%でブラックボックスと一致し、純粋にブラックボックス近似の強さが示唆された。

An adversary who aims to steal a black-box model repeatedly queries the model via a prediction API to learn a function that approximates its decision boundary. Adversarial approximation is non-trivial because of the enormous combinations of model architectures, parameters, and features to explore. In this context, the adversary resorts to a best-effort strategy that yields the closest approximation. This paper explores best-effort adversarial approximation of a black-box malware classifier in the most challenging setting, where the adversary's knowledge is limited to a prediction label for a given input. Beginning with a limited input set for the black-box classifier, we leverage feature representation mapping and cross-domain transferability to approximate a black-box malware classifier by locally training a substitute. Our approach approximates the target model with different feature types for the target and the substitute model while also using non-overlapping data for training the target, training the substitute, and the comparison of the two. We evaluate the effectiveness of our approach against two black-box classifiers trained on Windows Portable Executables (PEs). Against a Convolutional Neural Network (CNN) trained on raw byte sequences of PEs, our approach achieves a 92% accurate substitute (trained on pixel representations of PEs), and nearly 90% prediction agreement between the target and the substitute model. Against a 97.8% accurate gradient boosted decision tree trained on static PE features, our 91% accurate substitute agrees with the black-box on 90% of predictions, suggesting the strength of our purely black-box approximation.
翻訳日:2022-11-16 03:08:39 公開日:2020-06-28
# EAPS: 802.11 IoTステーションのエッジ支援型予測睡眠スケジューリング

EAPS: Edge-Assisted Predictive Sleep Scheduling for 802.11 IoT Stations ( http://arxiv.org/abs/2006.15514v1 )

ライセンス: Link先を確認
Jaykumar Sheth, Cyrus Miremadi, Amir Dezfouli, and Behnam Dezfouli(参考訳) 802.11(別名WiFi)アクセスポイントの広範な展開とこれらの無線トランシーバのエネルギー効率の大幅な向上により、802.11ベースのIoTシステムの構築への関心が高まっている。 残念ながら、802.11の主なエネルギー効率メカニズム、すなわちPSMとAPSDは、IoTアプリケーションでの使用時に不足している。 PSMは遅延を増大させ、各ビーコンインスタンスの後にチャンネルアクセス競合を増大させ、APSDはダウンリンクパケットを受け取るためにいつ起きる必要があるかを駅に知らせない。 本稿では,ダウンリンクパケットを期待しながらステーションの睡眠時間を調整するために,エッジアシスト型予測睡眠スケジューリング(eaps)という新しいメカニズムを提案する。 まず、Linuxベースのアクセスポイントを実装し、通信遅延に影響を与えるパラメータを収集する。 このアクセスポイントを利用することで、トラフィックパターンのカスタマイズに加えて、実環境の特性を再現するテストベッドを構築します。 次に、複数の機械学習アルゴリズムを使用してダウンリンクパケット配信を予測します。 実験により, EAPSを用いた場合, IoT ステーションのエネルギー消費は PSM に匹敵するが, パケット配信の遅延は局が常に目覚めている場合に近いことがわかった。

The broad deployment of 802.11 (a.k.a., WiFi) access points and significant enhancement of the energy efficiency of these wireless transceivers has resulted in increasing interest in building 802.11-based IoT systems. Unfortunately, the main energy efficiency mechanisms of 802.11, namely PSM and APSD, fall short when used in IoT applications. PSM increases latency and intensifies channel access contention after each beacon instance, and APSD does not inform stations about when they need to wake up to receive their downlink packets. In this paper, we present a new mechanism---edge-assisted predictive sleep scheduling (EAPS)---to adjust the sleep duration of stations while they expect downlink packets. We first implement a Linux-based access point that enables us to collect parameters affecting communication latency. Using this access point, we build a testbed that, in addition to offering traffic pattern customization, replicates the characteristics of real-world environments. We then use multiple machine learning algorithms to predict downlink packet delivery. Our empirical evaluations confirm that when using EAPS the energy consumption of IoT stations is as low as PSM, whereas the delay of packet delivery is close to the case where the station is always awake.
翻訳日:2022-11-16 03:07:41 公開日:2020-06-28
# マトロイド制約付き高速かつプライベートなサブモジュラーおよび$k$-サブモジュラー関数の最大化

Fast and Private Submodular and $k$-Submodular Functions Maximization with Matroid Constraints ( http://arxiv.org/abs/2006.15744v1 )

ライセンス: Link先を確認
Akbar Rafiey, Yuichi Yoshida(参考訳) 一定の制約の下で非負の単調な部分モジュラー関数を最大化する問題は、過去10年間、集中的に研究され、この問題に対して幅広い効率的な近似アルゴリズムが開発されてきた。 データ要約や影響最大化を含む多くの機械学習問題は、自然にモノトーンサブモジュラー関数を最大化する問題としてモデル化することができる。 しかし、個人に関する機密データを含む場合、プライバシー上の懸念に対処する必要がある。 本稿では,差分プライバシーの枠組みにおいて,マットロイド制約を受ける単調部分モジュラ函数を最大化する問題について検討する。 1-\frac{1}{\mathrm{e}})$近似アルゴリズムを提供する。 これは我々のアルゴリズムでほぼ3分の1の関数評価によって行われる。 さらに、サブモジュラリティの自然な一般化である$k$-submodularityを研究する。 単調な$k$-submodular関数をマットロイド制約下で最大化するために差分プライバシーを保存する最初の$\frac{1}{2}$-approximationアルゴリズムを与える。 近似比は漸近的にタイトであり、ほぼ線形な関数評価で得られる。

The problem of maximizing nonnegative monotone submodular functions under a certain constraint has been intensively studied in the last decade, and a wide range of efficient approximation algorithms have been developed for this problem. Many machine learning problems, including data summarization and influence maximization, can be naturally modeled as the problem of maximizing monotone submodular functions. However, when such applications involve sensitive data about individuals, their privacy concerns should be addressed. In this paper, we study the problem of maximizing monotone submodular functions subject to matroid constraints in the framework of differential privacy. We provide $(1-\frac{1}{\mathrm{e}})$-approximation algorithm which improves upon the previous results in terms of approximation guarantee. This is done with an almost cubic number of function evaluations in our algorithm. Moreover, we study $k$-submodularity, a natural generalization of submodularity. We give the first $\frac{1}{2}$-approximation algorithm that preserves differential privacy for maximizing monotone $k$-submodular functions subject to matroid constraints. The approximation ratio is asymptotically tight and is obtained with an almost linear number of function evaluations.
翻訳日:2022-11-16 03:07:06 公開日:2020-06-28
# 物理認識による対流支配型PDEの自動エンコーダ

Physics-aware registration based auto-encoder for convection dominated PDEs ( http://arxiv.org/abs/2006.15655v1 )

ライセンス: Link先を確認
Rambod Mojgani, Maciej Balajewicz(参考訳) 我々は,対流に支配された非線形物理系から生じる解の次元性を具体的に低減する物理対応オートエンコーダを設計する。 既存の非線形多様体学習法は、大きなコルモゴロフ n-幅によって特徴づけられるデータの次元性を減らすための説得力のあるツールであるように見えるが、通常それらは潜在空間から高次元の物理空間への直接的なマッピングを欠いている。 さらに、実現された潜在変数はしばしば解釈が難しい。 したがって、これらの手法の多くは偏微分方程式 (pdes) によって支配される力学系の減次モデリングにおいてしばしば無視される。 そこで本研究では,自動エンコーダ型非線形次元低減アルゴリズムを提案する。 教師なし学習問題は、非一様パラメータ/時間変化グリッドにPDEの出力シーケンスを登録する微分時空間格子を訓練し、学習グリッド上のマッピングされたデータのコルモゴロフn幅を最小化する。 各種製造・物理系の拡散・スケーリングから対流・対流を分離する手法の有効性と解釈性を示す。

We design a physics-aware auto-encoder to specifically reduce the dimensionality of solutions arising from convection-dominated nonlinear physical systems. Although existing nonlinear manifold learning methods seem to be compelling tools to reduce the dimensionality of data characterized by a large Kolmogorov n-width, they typically lack a straightforward mapping from the latent space to the high-dimensional physical space. Moreover, the realized latent variables are often hard to interpret. Therefore, many of these methods are often dismissed in the reduced order modeling of dynamical systems governed by the partial differential equations (PDEs). Accordingly, we propose an auto-encoder type nonlinear dimensionality reduction algorithm. The unsupervised learning problem trains a diffeomorphic spatio-temporal grid, that registers the output sequence of the PDEs on a non-uniform parameter/time-varying grid, such that the Kolmogorov n-width of the mapped data on the learned grid is minimized. We demonstrate the efficacy and interpretability of our approach to separate convection/advection from diffusion/scaling on various manufactured and physical systems.
翻訳日:2022-11-16 03:06:46 公開日:2020-06-28
# 空間・スペクトル解析に基づくcnnベースのデノイザーの強化

Enhancement of a CNN-Based Denoiser Based on Spatial and Spectral Analysis ( http://arxiv.org/abs/2006.15517v1 )

ライセンス: Link先を確認
Rui Zhao, Kin-Man Lam, Daniel P.K. Lun(参考訳) 畳み込みニューラルネットワーク(cnn)に基づく画像デノイジング手法は,その高速処理能力と視覚品質の良さから近年広く研究されている。 しかし、既存のCNNベースのデノイザの多くは、空間的領域からイメージを学習し、空間的変動ノイズの問題に悩まされ、実際の画像デノイズタスクにおけるパフォーマンスが制限される。 本稿では,複数のノイズで劣化した画像を1つのモデルで復元する離散ウェーブレットデノイングCNN(WDnCNN)を提案する。 自然画像の内容やエネルギーのほとんどが低周波スペクトルに存在するため、周波数領域の変換係数は高度に不均衡である。 この問題に対処するために、周波数スペクトルの異なる部分から係数を正規化するバンド正規化モジュール(BNM)を提案する。 さらに,bdt(band discriminative training)基準を用いてモデルの回帰性を高める。 提案したWDnCNNを評価し,他の最先端デノイザと比較した。 実験結果から,WDnCNNは合成ノイズ低減と実雑音低減の両面で有望な性能を達成し,多くの実用的な画像復号化アプリケーションに対する潜在的な解決策となることが示された。

Convolutional neural network (CNN)-based image denoising methods have been widely studied recently, because of their high-speed processing capability and good visual quality. However, most of the existing CNN-based denoisers learn the image prior from the spatial domain, and suffer from the problem of spatially variant noise, which limits their performance in real-world image denoising tasks. In this paper, we propose a discrete wavelet denoising CNN (WDnCNN), which restores images corrupted by various noise with a single model. Since most of the content or energy of natural images resides in the low-frequency spectrum, their transformed coefficients in the frequency domain are highly imbalanced. To address this issue, we present a band normalization module (BNM) to normalize the coefficients from different parts of the frequency spectrum. Moreover, we employ a band discriminative training (BDT) criterion to enhance the model regression. We evaluate the proposed WDnCNN, and compare it with other state-of-the-art denoisers. Experimental results show that WDnCNN achieves promising performance in both synthetic and real noise reduction, making it a potential solution to many practical image denoising applications.
翻訳日:2022-11-16 03:02:11 公開日:2020-06-28
# 自己教師あり学習と半教師あり学習によるキャビティセグメンテーションの脳切除シミュレーション

Simulation of Brain Resection for Cavity Segmentation Using Self-Supervised and Semi-Supervised Learning ( http://arxiv.org/abs/2006.15693v1 )

ライセンス: Link先を確認
Fernando P\'erez-Garc\'ia (1 and 2), Roman Rodionov (3 and 4), Ali Alim-Marvasti (1, 3 and 4), Rachel Sparks (2), John S. Duncan (3 and 4), and S\'ebastien Ourselin (2) ((1) Wellcome EPSRC Centre for Interventional and Surgical Sciences (WEISS), University College London, (2) School of Biomedical Engineering and Imaging Sciences (BMEIS), King's College London, (3) Department of Clinical and Experimental Epilepsy, UCL Queen Square Institute of Neurology, (4) National Hospital for Neurology and Neurosurgery, Queen Square, London, UK)(参考訳) 切除手術は薬剤抵抗性局所てんかんの治療効果があるが、手術後に発作の自由を得る患者は40%から70%である。 振り返り定量的分析は,切除された構造と患者の術後のパターンを解明し,切除手術を改善する可能性がある。 しかし, 術後のmr画像では, まず切除腔を分割する必要がある。 畳み込みニューラルネットワーク(CNN)は最先端の画像セグメンテーション技術であるが、トレーニングには大量のアノテートデータを必要とする。 医用画像の注釈は、高度に訓練されたラッカーを必要とする時間を要するプロセスであり、しばしば高いラター間変動に悩まされる。 教師なし学習はラベルなしのデータからトレーニングインスタンスを生成するのに使うことができる。 術前MR画像の切除をシミュレートするアルゴリズムを開発した。 切除手術を施行した431例の術後MR像431例と術前MR像269例からなるEPISURGを新たに収集した。 EPISURGに加え、1813個の術前MR画像を含む3つの公開データセットを用いた。 訓練中に作成した人工解剖画像を用いて3次元cnnを訓練した。 1)エピサージ 2)公開データセット及び 3) 両方。 訓練されたモデルを評価するために,モデルセグメンテーションと,3人の人手による200の手動アノテーションのダイススコア(dsc)を算出した。 手動のアノテーションでデータに基づいてトレーニングされたモデルは65.3 (30.6)の中央値のDSCを得た。 マニュアルアノテーションなしでトレーニングされた最高のパフォーマンスモデルのDSCは81.7 (14.2)である。 比較すると、ヒトアノテーター間のラター間合意は84.0 (9.9)であった。 本報告では,実際の切除空洞を手動アノテーションなしで正確にセグメント化できる模擬切除空洞を用いたcnnの訓練方法を示す。

Resective surgery may be curative for drug-resistant focal epilepsy, but only 40% to 70% of patients achieve seizure freedom after surgery. Retrospective quantitative analysis could elucidate patterns in resected structures and patient outcomes to improve resective surgery. However, the resection cavity must first be segmented on the postoperative MR image. Convolutional neural networks (CNNs) are the state-of-the-art image segmentation technique, but require large amounts of annotated data for training. Annotation of medical images is a time-consuming process requiring highly-trained raters, and often suffering from high inter-rater variability. Self-supervised learning can be used to generate training instances from unlabeled data. We developed an algorithm to simulate resections on preoperative MR images. We curated a new dataset, EPISURG, comprising 431 postoperative and 269 preoperative MR images from 431 patients who underwent resective surgery. In addition to EPISURG, we used three public datasets comprising 1813 preoperative MR images for training. We trained a 3D CNN on artificially resected images created on the fly during training, using images from 1) EPISURG, 2) public datasets and 3) both. To evaluate trained models, we calculate Dice score (DSC) between model segmentations and 200 manual annotations performed by three human raters. The model trained on data with manual annotations obtained a median (interquartile range) DSC of 65.3 (30.6). The DSC of our best-performing model, trained with no manual annotations, is 81.7 (14.2). For comparison, inter-rater agreement between human annotators was 84.0 (9.9). We demonstrate a training method for CNNs using simulated resection cavities that can accurately segment real resection cavities, without manual annotations.
翻訳日:2022-11-16 03:00:55 公開日:2020-06-28
# MIMC-VINS:マルチカメラ・マルチ慣性ナビゲーションシステム

MIMC-VINS: A Versatile and Resilient Multi-IMU Multi-Camera Visual-Inertial Navigation System ( http://arxiv.org/abs/2006.15699v1 )

ライセンス: Link先を確認
Kevin Eckenhoff, Patrick Geneva, and Guoquan Huang(参考訳) モバイル機器やロボットでカメラや慣性センサーが普及するにつれて、(複数の)利用可能なカメラや慣性測定ユニット(IMU)を利用して、センサ故障や測定劣化に耐性のある、効率的な多目的3Dモーショントラッキングのための視覚慣性ナビゲーションシステム(VINS)を設計する大きな可能性を秘めている。 そこで本研究では,単一カメラと imu の最小センシングスイートを用いた標準的なvinsパラダイムではなく,任意の数の非対応カメラと imu からのマルチモーダル情報をシームレスに融合可能な,リアルタイムに一貫性のあるマルチimuマルチカメラ (mimc)-vins推定器を設計した。 効率的な多状態制約カルマンフィルタ(MSCKF)フレームワーク内では、提案したMIMC-VINSアルゴリズムは、スムーズで非破壊的で正確な3次元モーショントラッキングを提供しながら、全てのセンサからの非同期計測を最適に融合する。 提案するmimc-vinsの鍵となるアイデアは、高次オンマニフォールド状態補間を行い、非同期撮像時に追加のセンサのポーズを推定することによる計算負荷を増加させることなく、利用可能なすべての視覚計測を効率的に処理することである。 複数のIMUからの情報を融合するために、フィルタ更新段階でIMU間の剛体制約を強制しながら、全てのIMU状態からなるジョイントシステムを伝搬する。 最後に,時空間的外因性パラメータと視覚内因性パラメータの両方をオンラインに推定し,事前のセンサキャリブレーションにおける誤差に対して頑健なシステムを構築する。 提案システムはモンテカルロシミュレーションと実世界実験の両方で広く検証されている。

As cameras and inertial sensors are becoming ubiquitous in mobile devices and robots, it holds great potential to design visual-inertial navigation systems (VINS) for efficient versatile 3D motion tracking which utilize any (multiple) available cameras and inertial measurement units (IMUs) and are resilient to sensor failures or measurement depletion. To this end, rather than the standard VINS paradigm using a minimal sensing suite of a single camera and IMU, in this paper we design a real-time consistent multi-IMU multi-camera (MIMC)-VINS estimator that is able to seamlessly fuse multi-modal information from an arbitrary number of uncalibrated cameras and IMUs. Within an efficient multi-state constraint Kalman filter (MSCKF) framework, the proposed MIMC-VINS algorithm optimally fuses asynchronous measurements from all sensors, while providing smooth, uninterrupted, and accurate 3D motion tracking even if some sensors fail. The key idea of the proposed MIMC-VINS is to perform high-order on-manifold state interpolation to efficiently process all available visual measurements without increasing the computational burden due to estimating additional sensors' poses at asynchronous imaging times. In order to fuse the information from multiple IMUs, we propagate a joint system consisting of all IMU states while enforcing rigid-body constraints between the IMUs during the filter update stage. Lastly, we estimate online both spatiotemporal extrinsic and visual intrinsic parameters to make our system robust to errors in prior sensor calibration. The proposed system is extensively validated in both Monte-Carlo simulations and real-world experiments.
翻訳日:2022-11-16 03:00:27 公開日:2020-06-28
# 私も会議に出席できます! 人間のようなテレプレゼンスアバターロボットを目指して

I can attend a meeting too! Towards a human-like telepresence avatar robot to attend meeting on your behalf ( http://arxiv.org/abs/2006.15647v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Chayan Sarkar, Achanna Anil Kumar, Arpan Pal, Balamuralidhar P(参考訳) テレプレゼンスロボットは、アクションシーンにおける物理的な人間の存在を避けるために様々なユースケースで様々な形で使用される。 本研究では,テレプレゼンスロボットに焦点をあて,遠隔会議に参加することを可能にする。 1対1のミーティングとは異なり、グループミーティングの参加者は部屋の別の部分、特に非公式な設定で配置することができる。 結果として、ロボットの視角、つまりリモートの参加者には、それらすべてが当てはまらないかもしれない。 この場合、より良いミーティング体験を提供するために、ロボットはスピーカーをローカライズし、スピーカーを視野角の中央に持ってくる必要がある。 音源定位はマイクロホンアレイで容易に行うことができるが、スピーカーやスピーカーのセットを視角に持っていくことは簡単な作業ではない。 まず第一に、ロボットは人間の声にのみ反応するが、ランダムな雑音には反応しない。 第二に、複数のスピーカーがある場合、ロボットが誰と向き合うべきか、あるいは、新しいスピーカーで常に回転すべきか? 最後に、ほとんどのロボットプラットフォームはリソースに制約があり、リアルタイムの応答、すなわちネットワーク遅延を避けるために、ロボット自体にすべてのアルゴリズムを実装する必要がある。 本稿では,遠隔地参加者のニーズと期待に最も適合するテレプレゼンスミーティングシナリオにおける注意シフト方式の研究と実装について述べる。 ロボットがいつ回転すべきか, どのくらいをリアルタイム話者定位に基づいて決定する政策を定義する。 ユーザ満足度調査を用いて,ミーティングシナリオにおいて,システムの有効性とユーザビリティを示す。 さらに,複数の人物が位置する他のシナリオにも容易に適応できる。

Telepresence robots are used in various forms in various use-cases that helps to avoid physical human presence at the scene of action. In this work, we focus on a telepresence robot that can be used to attend a meeting remotely with a group of people. Unlike a one-to-one meeting, participants in a group meeting can be located at a different part of the room, especially in an informal setup. As a result, all of them may not be at the viewing angle of the robot, a.k.a. the remote participant. In such a case, to provide a better meeting experience, the robot should localize the speaker and bring the speaker at the center of the viewing angle. Though sound source localization can easily be done using a microphone-array, bringing the speaker or set of speakers at the viewing angle is not a trivial task. First of all, the robot should react only to a human voice, but not to the random noises. Secondly, if there are multiple speakers, to whom the robot should face or should it rotate continuously with every new speaker? Lastly, most robotic platforms are resource-constrained and to achieve a real-time response, i.e., avoiding network delay, all the algorithms should be implemented within the robot itself. This article presents a study and implementation of an attention shifting scheme in a telepresence meeting scenario which best suits the needs and expectations of the collocated and remote attendees. We define a policy to decide when a robot should rotate and how much based on real-time speaker localization. Using user satisfaction study, we show the efficacy and usability of our system in the meeting scenario. Moreover, our system can be easily adapted to other scenarios where multiple people are located.
翻訳日:2022-11-16 02:59:28 公開日:2020-06-28
# 音響インピーダンス推定のための地震画像の時空間モデリング

Spatiotemporal Modeling of Seismic Images for Acoustic Impedance Estimation ( http://arxiv.org/abs/2006.15472v1 )

ライセンス: Link先を確認
Ahmad Mustafa, Motaz Alfarraj, and Ghassan AlRegib(参考訳) 地震インバージョンとは、地震反射データから貯水池の岩石特性を推定する過程を指す。 従来および機械学習に基づくインバージョンワークフローは、通常、地震画像の空間構造からの情報はほとんど全く利用せず、トレース・バイ・トレース方式で地震データを扱う。 本研究では,各地震跡を時間的だけでなく空間的にモデル化する深層学習型地震インバージョンワークフローを提案する。 深部および空間方向の地震跡の情報関連性を利用して、効率的な岩石特性の推定を行う。 我々は提案したワークフローを、地震データを時間的にのみモデル化する他のシーケンスモデリングベースニューラルネットワークと比較した。 このSEAMデータセットの結果から,提案したワークフローは,研究で使用されている他のアーキテクチャと比較して,平均79.77 %のr^{2}$係数で最高の性能を達成できることが示されている。

Seismic inversion refers to the process of estimating reservoir rock properties from seismic reflection data. Conventional and machine learning-based inversion workflows usually work in a trace-by-trace fashion on seismic data, utilizing little to no information from the spatial structure of seismic images. We propose a deep learning-based seismic inversion workflow that models each seismic trace not only temporally but also spatially. This utilizes information-relatedness in seismic traces in depth and spatial directions to make efficient rock property estimations. We empirically compare our proposed workflow with some other sequence modeling-based neural networks that model seismic data only temporally. Our results on the SEAM dataset demonstrate that, compared to the other architectures used in the study, the proposed workflow is able to achieve the best performance, with an average $r^{2}$ coefficient of 79.77\%.
翻訳日:2022-11-16 02:58:44 公開日:2020-06-28
# 呼吸器疾患の分類と早期検出のためのエンド・ツー・エンドAIによるポイント・オブ・ケア診断システム

End-to-End AI-Based Point-of-Care Diagnosis System for Classifying Respiratory Illnesses and Early Detection of COVID-19 ( http://arxiv.org/abs/2006.15469v1 )

ライセンス: Link先を確認
Abdelkader Nasreddine Belkacem, Sofia Ouhbi, Abderrahmane Lakas, Elhadj Benkhelifa, Chao Chen(参考訳) 呼吸器症状は、様々な基礎疾患によって引き起こされ、しばしばインフルエンザのような感染症やコロナウイルスのような新興ウイルスによって引き起こされる。 これらの呼吸器ウイルスは、しばしば、せき、高温、鼻の詰まり、呼吸困難など、一般的な症状を持つ。 しかし、新型コロナウイルスの早期診断は、特に最近の新型コロナウイルスのパンデミックのようなケースでは極めて重要である。 パンデミックの拡散に寄与した要因の1つは、遅れた診断または通常のインフルエンザのような症状と混同することであった。 科学は、これらの異なる呼吸器疾患の根底にある原因の1つが、異なる種類と形態から生じているせきであると証明した。 そのため、異なる呼吸器疾患を区別できる早期、より正確な診断のための信頼性の高いラボフリーツールが必要である。 そこで本稿では,(自発的あるいは不随意に)せきを含む症状のある患者のデータを記録し,診断のための健康データに変換し,機械学習を用いて,covid-19を含む異なる呼吸器疾患に分類する,エンドツーエンドポータブルシステムを提案する。 新型コロナウイルス(COVID-19)の感染拡大を至る所で阻止する取り組みが進行中であり、将来同様の疾患に対して、当社が提案する低コストでユーザフレンドリーなソリューションは早期診断において重要な役割を果たす可能性がある。

Respiratory symptoms can be a caused by different underlying conditions, and are often caused by viral infections, such as Influenza-like illnesses or other emerging viruses like the Coronavirus. These respiratory viruses, often, have common symptoms, including coughing, high temperature, congested nose, and difficulty breathing. However, early diagnosis of the type of the virus, can be crucial, especially in cases such as the recent COVID-19 pandemic. One of the factors that contributed to the spread of the pandemic, was the late diagnosis or confusing it with regular flu-like symptoms. Science has proved that one of the possible differentiators of the underlying causes of these different respiratory diseases is coughing, which comes in different types and forms. Therefore, a reliable lab-free tool for early and more accurate diagnosis that can differentiate between different respiratory diseases is very much needed. This paper proposes an end-to-end portable system that can record data from patients with symptom, including coughs (voluntary or involuntary) and translate them into health data for diagnosis, and with the aid of machine learning, classify them into different respiratory illnesses, including COVID-19. With the ongoing efforts to stop the spread of the COVID-19 disease everywhere today, and against similar diseases in the future, our proposed low cost and user-friendly solution can play an important part in the early diagnosis.
翻訳日:2022-11-16 02:58:30 公開日:2020-06-28
# 非ペアデータトレーニングによる光度誘導型ネットワークによる影除去

Shadow Removal by a Lightness-Guided Network with Training on Unpaired Data ( http://arxiv.org/abs/2006.15617v1 )

ライセンス: Link先を確認
Zhihao Liu, Hui Yin, Yang Mi, Mengyang Pu, and Song Wang(参考訳) シャドウ除去は画像の画質を大幅に改善し、コンピュータビジョンに多くの応用がある。 CNNに基づくディープラーニング手法は、画像のシャドウと基礎となるシャドウフリーバージョンが既知のペアデータと、シャドウとシャドウフリーのトレーニングイメージが全く異なるアンペアデータの両方をトレーニングすることで、シャドウ除去の最も効果的なアプローチとなった。 実際には、トレーニングデータ収集の容易性を考えると、不正なデータに対するCNNトレーニングの方が好ましい。 本稿では,未使用データのトレーニングによる影除去のための新しい光度誘導陰影除去ネットワーク(LG-ShadowNet)を提案する。 本手法では、まずCNNモジュールをトレーニングし、次に第1のCNNモジュールからの輝度情報に基づいて第2のCNNモジュールをトレーニングし、最終的なシャドウ除去を行う。 また,既存のデータに先立って,色をさらに活用するための損失関数を導入する。 広範に使用されているISTD、調整されたISTD、USRデータセットに対する大規模な実験により、提案手法は、未使用データに対するトレーニングにより最先端の手法よりも優れていることが示された。

Shadow removal can significantly improve the image visual quality and has many applications in computer vision. Deep learning methods based on CNNs have become the most effective approach for shadow removal by training on either paired data, where both the shadow and underlying shadow-free versions of an image are known, or unpaired data, where shadow and shadow-free training images are totally different with no correspondence. In practice, CNN training on unpaired data is more preferred given the easiness of training data collection. In this paper, we present a new Lightness-Guided Shadow Removal Network (LG-ShadowNet) for shadow removal by training on unpaired data. In this method, we first train a CNN module to compensate for the lightness and then train a second CNN module with the guidance of lightness information from the first CNN module for final shadow removal. We also introduce a loss function to further utilise the colour prior of existing data. Extensive experiments on widely used ISTD, adjusted ISTD and USR datasets demonstrate that the proposed method outperforms the state-of-the-art methods with training on unpaired data.
翻訳日:2022-11-16 02:52:25 公開日:2020-06-28
# 霧発生のための類似画像翻訳

Analogical Image Translation for Fog Generation ( http://arxiv.org/abs/2006.15618v1 )

ライセンス: Link先を確認
Rui Gong, Dengxin Dai, Yuhua Chen, Wen Li, Luc Van Gool(参考訳) 画像から画像への変換は、与えられた \emph{style} から別の与えられた \emph{style} への画像のマッピングである。 例外的に成功したが、現在の手法では、ソースドメインとターゲットドメインの両方でトレーニングイメージが利用可能であると仮定している。 人間のアナロジー推論能力に触発され,アナログ画像翻訳(AIT)を提案する。 ソースドメイン内の2つのスタイルのイメージが与えられた: $\mathcal{a}$ と $\mathcal{a}^\prime$ 対象ドメインの最初のスタイルである$\mathcal{b}$ とともに、$\mathcal{a}:\mathcal{a}^\prime ::\mathcal{b}:\mathcal{b}^\prime$ を対象ドメインで翻訳するモデルを学ぶ。 AITは、あるスタイルのトレーニングデータが入手し難いが、別のドメインで同じ2スタイルのトレーニングデータが利用可能である翻訳シナリオで特に有用である。 例えば、通常状態から極端に稀な状況まで、後者の実際の訓練画像を取得することは困難であるが、両方のケースで合成データを取得することは比較的容易である。 この研究では、晴れた天気で撮影された画像に悪天候、特に霧の影響を加えることに興味があります。 実際の霧画像の収集の難しさを回避するため、aitは合成霧画像、合成霧画像、および本物の霧画像を用いて学習し、訓練中に実際の霧画像を見ることなく、実際の霧画像に霧効果を加える。 aitは、合成ドメインにおける教師付きトレーニングスキーム、実ドメインにおけるサイクル一貫性戦略、2つのドメイン間の敵対的トレーニングスキーム、新しいネットワーク設計を結合することにより、このゼロショット画像翻訳能力を実現する。 実験では,ゼロショート画像翻訳手法の有効性と,セマンティックフォギーシーン理解などの下流タスクにおける有用性を示す。

Image-to-image translation is to map images from a given \emph{style} to another given \emph{style}. While exceptionally successful, current methods assume the availability of training images in both source and target domains, which does not always hold in practice. Inspired by humans' reasoning capability of analogy, we propose analogical image translation (AIT). Given images of two styles in the source domain: $\mathcal{A}$ and $\mathcal{A}^\prime$, along with images $\mathcal{B}$ of the first style in the target domain, learn a model to translate $\mathcal{B}$ to $\mathcal{B}^\prime$ in the target domain, such that $\mathcal{A}:\mathcal{A}^\prime ::\mathcal{B}:\mathcal{B}^\prime$. AIT is especially useful for translation scenarios in which training data of one style is hard to obtain but training data of the same two styles in another domain is available. For instance, in the case from normal conditions to extreme, rare conditions, obtaining real training images for the latter case is challenging but obtaining synthetic data for both cases is relatively easy. In this work, we are interested in adding adverse weather effects, more specifically fog effects, to images taken in clear weather. To circumvent the challenge of collecting real foggy images, AIT learns with synthetic clear-weather images, synthetic foggy images and real clear-weather images to add fog effects onto real clear-weather images without seeing any real foggy images during training. AIT achieves this zero-shot image translation capability by coupling a supervised training scheme in the synthetic domain, a cycle consistency strategy in the real domain, an adversarial training scheme between the two domains, and a novel network design. Experiments show the effectiveness of our method for zero-short image translation and its benefit for downstream tasks such as semantic foggy scene understanding.
翻訳日:2022-11-16 02:52:03 公開日:2020-06-28
# 畳み込みニューラルネットワークを用いたオフライン手書き中国語テキスト認識

Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks ( http://arxiv.org/abs/2006.15619v1 )

ライセンス: Link先を確認
Brian Liu, Xianchao Xu, Yu Zhang(参考訳) ディープラーニングに基づく手法は、異なるシナリオと多言語シナリオにおけるテキスト認識タスクを支配してきた。 オフライン手書き文字認識(HCTR)は、何千もの文字、変種書き込みスタイル、複雑なデータ収集プロセスを含むため、最も難しいタスクの1つである。 近年、テキスト認識のための再カレントフリーアーキテクチャは、高い並列性と同等の結果として競合しているようである。 本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。 オーバーフィッティングを低減するため, 各最大プーリング層の後, ライン層前の最後の1層に極端に高い速度でドロップアウトを施す。 CASIA-HWDBデータベースは提案モデルのチューニングと評価を行う。 既存のテキストサンプルをテンプレートとして、独立した文字サンプルをランダムに選択して、トレーニング用のテキストサンプルを合成します。 ICDAR 2013のコンペティションセットでは,言語モデル修正なしで6.81%の文字誤り率(CER)が達成された。

Deep learning based methods have been dominating the text recognition tasks in different and multilingual scenarios. The offline handwritten Chinese text recognition (HCTR) is one of the most challenging tasks because it involves thousands of characters, variant writing styles and complex data collection process. Recently, the recurrent-free architectures for text recognition appears to be competitive as its highly parallelism and comparable results. In this paper, we build the models using only the convolutional neural networks and use CTC as the loss function. To reduce the overfitting, we apply dropout after each max-pooling layer and with extreme high rate on the last one before the linear layer. The CASIA-HWDB database is selected to tune and evaluate the proposed models. With the existing text samples as templates, we randomly choose isolated character samples to synthesis more text samples for training. We finally achieve 6.81% character error rate (CER) on the ICDAR 2013 competition set, which is the best published result without language model correction.
翻訳日:2022-11-16 02:51:28 公開日:2020-06-28
# 競合説明との比較によるVQAとその説明 \\の改善

Improving VQA and its Explanations \\ by Comparing Competing Explanations ( http://arxiv.org/abs/2006.15631v1 )

ライセンス: Link先を確認
Jialin Wu, Liyan Chen and Raymond J. Mooney(参考訳) 最新のVisual Question Answering (VQA)システムは不透明なブラックボックスで、質問とビジュアルコンテンツから回答の分布に適合するように訓練されている。 結果として、これらのシステムは、単純な視覚概念や質問の事前に焦点をあてて、しばしばショートカットを行う。 この現象は、より推論と常識の知識を必要とする疑問が複雑になるにつれて、より問題となる。 この問題に対処するために,VQAシステムの正しい解選択を支援するために,競合する解に対する説明を用いた新しいフレームワークを提案する。 人間の文章による説明をトレーニングすることで,質問や視覚的内容の表現が向上し,学習セットから生成された説明や検索された説明を用いて回答候補の信頼度が向上する。 我々は、VQA-Xデータセットの枠組みを評価し、人間の説明によりより難しい質問をし、VQAとその説明の両方で新たな最先端結果を達成する。

Most recent state-of-the-art Visual Question Answering (VQA) systems are opaque black boxes that are only trained to fit the answer distribution given the question and visual content. As a result, these systems frequently take shortcuts, focusing on simple visual concepts or question priors. This phenomenon becomes more problematic as the questions become complex that requires more reasoning and commonsense knowledge. To address this issue, we present a novel framework that uses explanations for competing answers to help VQA systems select the correct answer. By training on human textual explanations, our framework builds better representations for the questions and visual content, and then reweights confidences in the answer candidates using either generated or retrieved explanations from the training set. We evaluate our framework on the VQA-X dataset, which has more difficult questions with human explanations, achieving new state-of-the-art results on both VQA and its explanations.
翻訳日:2022-11-16 02:51:09 公開日:2020-06-28
# Dense Trajectory Clusteringによる映像表現の教師なし学習

Unsupervised Learning of Video Representations via Dense Trajectory Clustering ( http://arxiv.org/abs/2006.15731v1 )

ライセンス: Link先を確認
Pavel Tokmakov, Martial Hebert, Cordelia Schmid(参考訳) 本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。 将来の予測やドメイン固有の目的を利用してネットワークをトレーニングする以前の研究は、限られた成功しか得られなかった。 対照的に、画像表現学習の関連分野において、よりシンプルで差別に基づく手法は、最近、完全に教師された性能にギャップを埋めている。 まず,このクラスにおける2つのトップパフォーマンス目標 – インスタンス認識とローカルアグリゲーション – をビデオドメインに適用することを提案する。 特に後者のアプローチは、ネットワークの特徴空間でビデオをクラスタリングし、非パラメトリックな分類損失でクラスタを尊重するように更新する間を繰り返す。 有望なパフォーマンスを観察するが、質的な分析により、学習された表現は動きのパターンを捉えず、外観に基づいて動画をグループ化する。 この問題を軽減するために、ビデオ内の動きパターンを手動でエンコードするヒューリスティックなIDT記述子に目を向ける。 これらのディスクリプタを反復局所集約アルゴリズムの教師なし前処理として、idt空間のクラスタを形成する。 提案手法は,UCF101とHMDB51の動作認識ベンチマークにおいて,従来よりも優れていることを示す。 また,学習した表現を定性的に分析し,映像のダイナミックスをとらえることに成功した。

This paper addresses the task of unsupervised learning of representations for action recognition in videos. Previous works proposed to utilize future prediction, or other domain-specific objectives to train a network, but achieved only limited success. In contrast, in the relevant field of image representation learning, simpler, discrimination-based methods have recently bridged the gap to fully-supervised performance. We first propose to adapt two top performing objectives in this class - instance recognition and local aggregation, to the video domain. In particular, the latter approach iterates between clustering the videos in the feature space of a network and updating it to respect the cluster with a non-parametric classification loss. We observe promising performance, but qualitative analysis shows that the learned representations fail to capture motion patterns, grouping the videos based on appearance. To mitigate this issue, we turn to the heuristic-based IDT descriptors, that were manually designed to encode motion patterns in videos. We form the clusters in the IDT space, using these descriptors as a an unsupervised prior in the iterative local aggregation algorithm. Our experiments demonstrates that this approach outperform prior work on UCF101 and HMDB51 action recognition benchmarks. We also qualitatively analyze the learned representations and show that they successfully capture video dynamics.
翻訳日:2022-11-16 02:50:03 公開日:2020-06-28
# 半教師型医用画像分割と領域適応のための不確実性を考慮した多視点協調訓練

Uncertainty-aware multi-view co-training for semi-supervised medical image segmentation and domain adaptation ( http://arxiv.org/abs/2006.16806v1 )

ライセンス: Link先を確認
Yingda Xia, Dong Yang, Zhiding Yu, Fengze Liu, Jinzheng Cai, Lequan Yu, Zhuotun Zhu, Daguang Xu, Alan Yuille, Holger Roth(参考訳) 医用画像のセグメンテーションにおいて大きな成功を収めたものの、深層学習に基づくアプローチでは、医用画像解析の分野では非常に高価な大量の注釈付きデータを必要とする。 一方、ラベルのないデータは、取得がずっと容易である。 半教師付き学習と教師なしドメイン適応はどちらもラベルなしデータの利点を生かし、互いに密接に関連している。 本稿では,この2つの課題を解決する統一フレームワークである,不確実性を考慮した多視点共同学習(umct)を提案する。 我々のフレームワークは、ラベルのないデータを効率的に利用し、パフォーマンスを向上させることができる。 まず3Dボリュームを複数のビューに回転させ、各ビューに3Dディープネットワークをトレーニングする。 次に,ラベル付きデータに複数ビューの整合性を持たせることで協調学習を行い,各ビューの不確かさを推定して正確なラベル付けを実現する。 nih pancreasセグメンテーションデータセットとマルチオーガンセグメンテーションデータセットの実験は、半教師付き医用画像セグメンテーションの枠組みの最先端の性能を示している。 非教師なし領域適応設定の下では、医療セグメントデカトロンデータセットの2つの病理組織に多臓器セグメンテーションモデルを適用することにより、本研究の有効性を検証する。 さらに、UMCT-DAモデルは、ラベル付きソースデータがアクセス不能な困難な状況に効果的に対応できることを示し、現実世界のアプリケーションに強力な可能性を示す。

Although having achieved great success in medical image segmentation, deep learning-based approaches usually require large amounts of well-annotated data, which can be extremely expensive in the field of medical image analysis. Unlabeled data, on the other hand, is much easier to acquire. Semi-supervised learning and unsupervised domain adaptation both take the advantage of unlabeled data, and they are closely related to each other. In this paper, we propose uncertainty-aware multi-view co-training (UMCT), a unified framework that addresses these two tasks for volumetric medical image segmentation. Our framework is capable of efficiently utilizing unlabeled data for better performance. We firstly rotate and permute the 3D volumes into multiple views and train a 3D deep network on each view. We then apply co-training by enforcing multi-view consistency on unlabeled data, where an uncertainty estimation of each view is utilized to achieve accurate labeling. Experiments on the NIH pancreas segmentation dataset and a multi-organ segmentation dataset show state-of-the-art performance of the proposed framework on semi-supervised medical image segmentation. Under unsupervised domain adaptation settings, we validate the effectiveness of this work by adapting our multi-organ segmentation model to two pathological organs from the Medical Segmentation Decathlon Datasets. Additionally, we show that our UMCT-DA model can even effectively handle the challenging situation where labeled source data is inaccessible, demonstrating strong potentials for real-world applications.
翻訳日:2022-11-16 02:49:40 公開日:2020-06-28
# waymo open dataset challengeの第1位 - 3d検出とドメイン適応

1st Place Solution for Waymo Open Dataset Challenge -- 3D Detection and Domain Adaptation ( http://arxiv.org/abs/2006.15505v1 )

ライセンス: Link先を確認
Zhuangzhuang Ding, Yihan Hu, Runzhou Ge, Li Huang, Sijia Chen, Yu Wang, Jie Liao(参考訳) 本報告では, cvpr 2020 における waymo open dataset challenge における 3d 検出トラックとドメイン適応トラックの勝利ソリューション "horizonlidar3d" を紹介する。 既存の3Dオブジェクト検出器の多くは、異なるスケールとアスペクト比とオブジェクトのクラスを考慮に入れた事前ベースのアンカーボックス設計を含んでおり、これは一般化の能力を異なるデータセットやドメインに制限し、後処理を必要とする(例えば、非最大抑圧(NMS))。 我々は,オブジェクトキーポイントを用いて3d属性をエンコードし,手作業やアンカーの学習を必要とせずにエンドツーエンドのクラウドオブジェクト検出を学習する,ワンステージ,アンカーフリー,nmsフリーの3dポイントクラウドオブジェクト検出afdetを提案する。 AFDetは私たちの勝利ソリューションの強力なベースラインとして機能し、課題の間、このベースラインに対して大幅な改善が行われます。 具体的には、より強力なネットワークを設計し、密度化と点描画を用いて点雲データを強化する。 カメラ情報を活用するために,カメラ空間に投影し,画像に基づく知覚情報を集めることにより,各点に付加的な属性を付加・描画する。 最終的な検出性能は、3D検出トラックとドメイン適応トラックの両方でモデルアンサンブルとテスト時間拡張(TTA)の恩恵を受ける。 本ソリューションは3D検出トラックとドメイン適応トラックでそれぞれ77.11% mAPH/L2と69.49% mAPH/L2の1位を達成する。

In this technical report, we introduce our winning solution "HorizonLiDAR3D" for the 3D detection track and the domain adaptation track in Waymo Open Dataset Challenge at CVPR 2020. Many existing 3D object detectors include prior-based anchor box design to account for different scales and aspect ratios and classes of objects, which limits its capability of generalization to a different dataset or domain and requires post-processing (e.g. Non-Maximum Suppression (NMS)). We proposed a one-stage, anchor-free and NMS-free 3D point cloud object detector AFDet, using object key-points to encode the 3D attributes, and to learn an end-to-end point cloud object detection without the need of hand-engineering or learning the anchors. AFDet serves as a strong baseline in our winning solution and significant improvements are made over this baseline during the challenges. Specifically, we design stronger networks and enhance the point cloud data using densification and point painting. To leverage camera information, we append/paint additional attributes to each point by projecting them to camera space and gathering image-based perception information. The final detection performance also benefits from model ensemble and Test-Time Augmentation (TTA) in both the 3D detection track and the domain adaptation track. Our solution achieves the 1st place with 77.11% mAPH/L2 and 69.49% mAPH/L2 respectively on the 3D detection track and the domain adaptation track.
翻訳日:2022-11-16 02:43:09 公開日:2020-06-28
# Waymo Open Dataset Challenges - 2Dと3Dトラッキングのための第1位

1st Place Solutions for Waymo Open Dataset Challenges -- 2D and 3D Tracking ( http://arxiv.org/abs/2006.15506v1 )

ライセンス: Link先を確認
Yu Wang, Sijia Chen, Li Huang, Runzhou Ge, Yihan Hu, Zhuangzhuang Ding, Jie Liao(参考訳) この技術報告では、waymo open dataset 2d trackingと3d tracking challengeの両方で1位に達したオンラインおよびリアルタイム2dおよび3d multi-object tracking (mot)アルゴリズムを紹介する。 画像空間におけるカメラベースの2Dトラッキングと3Dワールド空間におけるLiDARベースの3Dトラッキングのために,HorizonMOTという,効率的で実用的なオンライントラッキング・バイ・検出フレームワークを提案する。 トラッキング・バイ・ディテクト・パラダイムでは、2D/3D検出課題で使用される高性能検出器を活用し、2D/3D追跡課題で45.13%の2D MOTA/L2と63.45%の3D MOTA/L2を達成した。

This technical report presents the online and real-time 2D and 3D multi-object tracking (MOT) algorithms that reached the 1st places on both Waymo Open Dataset 2D tracking and 3D tracking challenges. An efficient and pragmatic online tracking-by-detection framework named HorizonMOT is proposed for camera-based 2D tracking in the image space and LiDAR-based 3D tracking in the 3D world space. Within the tracking-by-detection paradigm, our trackers leverage our high-performing detectors used in the 2D/3D detection challenges and achieved 45.13% 2D MOTA/L2 and 63.45% 3D MOTA/L2 in the 2D/3D tracking challenges.
翻訳日:2022-11-16 02:42:40 公開日:2020-06-28
# waymo open dataset challenge -- 2dオブジェクト検出のための2位ソリューション

2nd Place Solution for Waymo Open Dataset Challenge -- 2D Object Detection ( http://arxiv.org/abs/2006.15507v1 )

ライセンス: Link先を確認
Sijia Chen, Yu Wang, Li Huang, Runzhou Ge, Yihan Hu, Zhuangzhuang Ding, Jie Liao(参考訳) 実用的な自動運転システムは、車両や人を確実に正確に検出する必要がある。 本稿では,自動運転シナリオのための最先端の2次元物体検出システムを提案する。 具体的には,一般的な2段検出器と1段検出器をアンカーフリーで統合し,ロバストな検出を行う。 さらに、複数の専門家モデルを訓練し、異なるモデルから検出を自動的にマージする自動アンサンブルスキームの欲張りバージョンを設計する。 特に,waymo open dataset v1.2では70.28 l2マップを達成し,waymo open dataset challengeの2d検出トラックで2位となった。

A practical autonomous driving system urges the need to reliably and accurately detect vehicles and persons. In this report, we introduce a state-of-the-art 2D object detection system for autonomous driving scenarios. Specifically, we integrate both popular two-stage detector and one-stage detector with anchor free fashion to yield a robust detection. Furthermore, we train multiple expert models and design a greedy version of the auto ensemble scheme that automatically merges detections from different models. Notably, our overall detection system achieves 70.28 L2 mAP on the Waymo Open Dataset v1.2, ranking the 2nd place in the 2D detection track of the Waymo Open Dataset Challenges.
翻訳日:2022-11-16 02:42:25 公開日:2020-06-28
# 構成畳み込みニューラルネットワーク : 咬合下の物体認識のためのロバストで解釈可能なモデル

Compositional Convolutional Neural Networks: A Robust and Interpretable Model for Object Recognition under Occlusion ( http://arxiv.org/abs/2006.15538v1 )

ライセンス: Link先を確認
Adam Kortylewski and Qing Liu and Angtian Wang and Yihong Sun and Alan Yuille(参考訳) 実世界のアプリケーションにおけるコンピュータビジョンシステムは、説明可能であると同時に部分閉塞に対して堅牢である必要がある。 本研究では,ブラックボックス深部畳み込みニューラルネットワーク(DCNN)が,部分閉塞に対する頑健性に限界があることを示す。 我々はこれらの制限をDCNNと部分モデルを統合することで克服し、構成畳み込みニューラルネットワーク(Comppositional Convolutional Neural Networks、CompositionalNets) – 部分オクルージョンに固有の堅牢性を備えた解釈可能なディープアーキテクチャである。 具体的には,完全に連結されたdcnnの分類ヘッドを,エンドツーエンドで訓練可能な微分可能な構成モデルに置き換えることを提案する。 構成モデルの構造により、コンポジションネットは、画像をオブジェクトとコンテキストに分解し、さらに個々の部分とオブジェクトのポーズの観点でオブジェクト表現を分解することができる。 構成モデルの生成特性は, 閉塞部位の局所化と非閉塞部位に基づく物体の認識を可能にする。 PASCAL3D+およびImageNetデータセットから得られた人工閉塞物体の画像と、MS-COCOデータセットから得られた部分閉塞車両の実画像について、画像分類と物体検出について広範な実験を行った。 実験の結果,いくつかのDCNNバックボーン (VGG-16, ResNet50, ResNext) のコンポジションネットは, 部分閉塞物体の分類・検出において, コンポジション以外のものとの差が大きいことがわかった。 さらに、クラスレベルの監督のみを訓練されているにもかかわらず、Occluderを正確にローカライズすることができる。 最後に,合成網が人間の解釈可能な予測を,個々の構成要素を検出部品として理解し,対象の視点を推定できることを実証する。

Computer vision systems in real-world applications need to be robust to partial occlusion while also being explainable. In this work, we show that black-box deep convolutional neural networks (DCNNs) have only limited robustness to partial occlusion. We overcome these limitations by unifying DCNNs with part-based models into Compositional Convolutional Neural Networks (CompositionalNets) - an interpretable deep architecture with innate robustness to partial occlusion. Specifically, we propose to replace the fully connected classification head of DCNNs with a differentiable compositional model that can be trained end-to-end. The structure of the compositional model enables CompositionalNets to decompose images into objects and context, as well as to further decompose object representations in terms of individual parts and the objects' pose. The generative nature of our compositional model enables it to localize occluders and to recognize objects based on their non-occluded parts. We conduct extensive experiments in terms of image classification and object detection on images of artificially occluded objects from the PASCAL3D+ and ImageNet dataset, and real images of partially occluded vehicles from the MS-COCO dataset. Our experiments show that CompositionalNets made from several popular DCNN backbones (VGG-16, ResNet50, ResNext) improve by a large margin over their non-compositional counterparts at classifying and detecting partially occluded objects. Furthermore, they can localize occluders accurately despite being trained with class-level supervision only. Finally, we demonstrate that CompositionalNets provide human interpretable predictions as their individual components can be understood as detecting parts and estimating an objects' viewpoint.
翻訳日:2022-11-16 02:41:59 公開日:2020-06-28
# DHARI報告:EPIC-Kitchens 2020 Object Detection Challenge

DHARI Report to EPIC-Kitchens 2020 Object Detection Challenge ( http://arxiv.org/abs/2006.15553v1 )

ライセンス: Link先を確認
Kaide Li, Bingyan Liao, Laifeng Hu, Yaonong Wang(参考訳) 本報告では,epic-kitchens object detection challengeへの私たちのサブミッションの技術的詳細について述べる。 次に,GRE-FPNとHard IoU-imbalance Sampler法を提案し,より代表的なグローバルなオブジェクト特徴を抽出する。 カテゴリー不均衡のギャップを埋めるため、クラスバランスサンプリングを活用し、テスト結果を大幅に改善する。 さらに、Stochastic Weight Averagingやマルチスケールテストなど、いくつかのトレーニングとテスト戦略も活用されている。 実験の結果,epickitchens の観測値と未検出値の両方において,対象検出の平均精度 (map) を大幅に向上できることがわかった。

In this report, we describe the technical details of oursubmission to the EPIC-Kitchens Object Detection Challenge.Duck filling and mix-up techniques are firstly introduced to augment the data and significantly improve the robustness of the proposed method. Then we propose GRE-FPN and Hard IoU-imbalance Sampler methods to extract more representative global object features. To bridge the gap of category imbalance, Class Balance Sampling is utilized and greatly improves the test results. Besides, some training and testing strategies are also exploited, such as Stochastic Weight Averaging and multi-scale testing. Experimental results demonstrate that our approach can significantly improve the mean Average Precision (mAP) of object detection on both the seen and unseen test sets of EPICKitchens.
翻訳日:2022-11-16 02:41:31 公開日:2020-06-28
# ビデオにおける効果的な行動認識のための動的サンプリングネットワーク

Dynamic Sampling Networks for Efficient Action Recognition in Videos ( http://arxiv.org/abs/2006.15560v1 )

ライセンス: Link先を確認
Yin-Dong Zheng, Zhaoyang Liu, Tong Lu, Limin Wang(参考訳) 既存の動作認識法は主に、2ストリームCNNや3DCNNのようなクリップレベルの分類器に基づいており、ランダムに選択されたクリップからトレーニングされ、テスト中に密集したサンプルクリップに適用される。 しかし、この標準設定は分類器の訓練に最適であり、実際にデプロイする際には膨大な計算オーバーヘッドを必要とする。 これらの問題に対処するために,我々は,学習クリップレベルの分類器の識別能力を向上させる動的サンプリングモジュールの設計と,テスト中の推論効率の向上により,映像における行動認識のための新しいフレームワーク「dsn」を提案する。 具体的には、サンプリングモジュールと、これらの選択されたクリップに基づいて、クリップレベルの分類器を保持・訓練するクリップをオンザフライで選択するサンプリングポリシーを学ぶことを目的とした分類モジュールからなる。 特に,入力映像を与えられた場合,観測ネットワークを連想強化学習設定で訓練し,選択したクリップの報奨を適切な予測で最大化する。 UCF101, HMDB51, THUMOS14, ActivityNet v1.3の4つの行動認識データセット上で, DSNフレームワークのさまざまな側面を研究するための広範な実験を行った。 実験結果から,DSNは半分未満のクリップのみを用いることで推論効率を大幅に向上できることが示された。

The existing action recognition methods are mainly based on clip-level classifiers such as two-stream CNNs or 3D CNNs, which are trained from the randomly selected clips and applied to densely sampled clips during testing. However, this standard setting might be suboptimal for training classifiers and also requires huge computational overhead when deployed in practice. To address these issues, we propose a new framework for action recognition in videos, called {\em Dynamic Sampling Networks} (DSN), by designing a dynamic sampling module to improve the discriminative power of learned clip-level classifiers and as well increase the inference efficiency during testing. Specifically, DSN is composed of a sampling module and a classification module, whose objective is to learn a sampling policy to on-the-fly select which clips to keep and train a clip-level classifier to perform action recognition based on these selected clips, respectively. In particular, given an input video, we train an observation network in an associative reinforcement learning setting to maximize the rewards of the selected clips with a correct prediction. We perform extensive experiments to study different aspects of the DSN framework on four action recognition datasets: UCF101, HMDB51, THUMOS14, and ActivityNet v1.3. The experimental results demonstrate that DSN is able to greatly improve the inference efficiency by only using less than half of the clips, which can still obtain a slightly better or comparable recognition accuracy to the state-of-the-art approaches.
翻訳日:2022-11-16 02:41:18 公開日:2020-06-28
# ヒト側頭側頭骨ct画像の幾何校正に基づく外側半円管分割法

A lateral semicircular canal segmentation based geometric calibration for human temporal bone CT Image ( http://arxiv.org/abs/2006.15588v1 )

ライセンス: Link先を確認
Xiaoguang Li, Peng Fu, Hongxia Yin, ZhenChang Wang, Li Zhuo, Hui Zhang(参考訳) 側頭骨CTは耳疾患の診断に重要な方法となっている。 被験者の姿勢やCTスキャナの設定の相違から,ヒト側頭骨のCT像を幾何学的に校正して,両側解剖学的構造の対称性を確保する必要がある。 手動校正は放射線技師にとって時間を要する課題であり、コンピュータ支援CT解析のための重要な前処理ステップである。 側頭骨CT画像の自動校正アルゴリズムを提案する。 外側半円形運河(LSC)は、最初はアンカーとして区分される。 そして,標準3次元座標系を定義する。 重要なステップはLCCセグメンテーションである。 符号化段階における特徴融合のための3次元拡張畳み込みとマルチプール方式を導入する3次元LCCセグメンテーション・デコーダネットワークを設計する。 実験の結果, LSCセグメンテーションネットワークは高いセグメンテーション精度を達成できた。 提案手法は, 側頭骨CT画像の校正を効率的に行うのに役立つ。

Computed Tomography (CT) of the temporal bone has become an important method for diagnosing ear diseases. Due to the different posture of the subject and the settings of CT scanners, the CT image of the human temporal bone should be geometrically calibrated to ensure the symmetry of the bilateral anatomical structure. Manual calibration is a time-consuming task for radiologists and an important pre-processing step for further computer-aided CT analysis. We propose an automatic calibration algorithm for temporal bone CT images. The lateral semicircular canals (LSCs) are segmented as anchors at first. Then, we define a standard 3D coordinate system. The key step is the LSC segmentation. We design a novel 3D LSC segmentation encoder-decoder network, which introduces a 3D dilated convolution and a multi-pooling scheme for feature fusion in the encoding stage. The experimental results show that our LSC segmentation network achieved a higher segmentation accuracy. Our proposed method can help to perform calibration of temporal bone CT images efficiently.
翻訳日:2022-11-16 02:33:50 公開日:2020-06-28
# インスタンスセグメンテーションの実態調査

A Survey on Instance Segmentation: State of the art ( http://arxiv.org/abs/2007.00047v1 )

ライセンス: Link先を確認
Abdul Mueed Hafiz, Ghulam Mohiuddin Bhat(参考訳) オブジェクト検出やローカライゼーションは、粗い画像から細かいデジタル画像推論への漸進的な進歩である。 イメージオブジェクトのクラスを提供するだけでなく、分類されたイメージオブジェクトの位置も提供する。 位置は、境界ボックスまたはセントロイドの形で与えられる。 セマンティックセグメンテーションは、入力画像の各ピクセルのラベルを予測することによって、詳細な推論を行う。 各ピクセルは、それを囲むオブジェクトクラスに従ってラベル付けされる。 この進化をさらに進めて、インスタンスセグメンテーションは、同じクラスに属するオブジェクトの別々のインスタンスの異なるラベルを与える。 したがって、インスタンスセグメンテーションは、オブジェクト検出の問題と意味セグメンテーションの問題を同時に解決するテクニックとして定義することができる。 本調査では,その背景,課題,テクニック,進化,一般的なデータセット,関連する技術状況と今後のスコープについて論じる。 論文は、インスタンスセグメンテーションの分野で研究をしたい人のために貴重な情報を提供する。

Object detection or localization is an incremental step in progression from coarse to fine digital image inference. It not only provides the classes of the image objects, but also provides the location of the image objects which have been classified. The location is given in the form of bounding boxes or centroids. Semantic segmentation gives fine inference by predicting labels for every pixel in the input image. Each pixel is labelled according to the object class within which it is enclosed. Furthering this evolution, instance segmentation gives different labels for separate instances of objects belonging to the same class. Hence, instance segmentation may be defined as the technique of simultaneously solving the problem of object detection as well as that of semantic segmentation. In this survey paper on instance segmentation -- its background, issues, techniques, evolution, popular datasets, related work up to the state of the art and future scope have been discussed. The paper provides valuable information for those who want to do research in the field of instance segmentation.
翻訳日:2022-11-16 02:33:09 公開日:2020-06-28
# インテント検出のための自己注意ネットワーク

Self-Attention Networks for Intent Detection ( http://arxiv.org/abs/2006.15585v1 )

ライセンス: Link先を確認
Sevinj Yolchuyeva, G\'eza N\'emeth, B\'alint Gyires-T\'oth(参考訳) 自己注意ネットワーク(SAN)は、特に機械翻訳において、様々な自然言語処理(NLP)シナリオで有望な性能を示している。 SANの主なポイントの1つは、データから長距離およびマルチスケールの依存関係をキャプチャする強度である。 本稿では,自己注意ネットワークとBi-LSTMに基づく意図検出システムを提案する。 提案手法は,従来の手法と比較して,トランスモデルとネットワークベースの普遍文エンコーダの深層平均化による改善を示す。 我々は,Snips,Smart Speaker,Smart Lights,およびATISデータセットを異なる評価指標で評価する。 提案モデルの性能をLSTMと同一のデータセットと比較する。

Self-attention networks (SAN) have shown promising performance in various Natural Language Processing (NLP) scenarios, especially in machine translation. One of the main points of SANs is the strength of capturing long-range and multi-scale dependencies from the data. In this paper, we present a novel intent detection system which is based on a self-attention network and a Bi-LSTM. Our approach shows improvement by using a transformer model and deep averaging network-based universal sentence encoder compared to previous solutions. We evaluate the system on Snips, Smart Speaker, Smart Lights, and ATIS datasets by different evaluation metrics. The performance of the proposed model is compared with LSTM with the same datasets.
翻訳日:2022-11-16 02:32:19 公開日:2020-06-28
# 画像分類のための周波数学習

Frequency learning for image classification ( http://arxiv.org/abs/2006.15476v1 )

ライセンス: Link先を確認
Jos\'e Augusto Stuchi, Levy Boccato, Romis Attux(参考訳) コンピュータビジョンや信号処理に適用された機械学習は、ディープニューラルネットワーク(DNN)によってもたらされた大きな改善により、特定のタスクにおいて人間の脳に匹敵する結果を達成している。 現代の最先端アーキテクチャの大部分はDNN関連であるが、有用な情報を抽出し、画像処理分野のような結果を改善するために周波数領域を探索するものはごくわずかである。 本稿では,スペクトルの識別成分を増加させるトレーニング可能な周波数フィルタからなる入力画像のフーリエ変換を探索する新しい手法を提案する。 さらに,画像ブロックの周波数領域表現からネットワークが大域的特徴と局所的特徴の両方を学習できるスライシング手順を提案する。 提案手法は, よりシンプルで軽量なモデルであることの利点から, 選択実験においてよく知られたDNNアーキテクチャと競合することが判明した。 この研究は、現在最先端のDNNアーキテクチャが空間的特徴だけでなく周波数も活用し、現実世界の問題を解決する際にその性能を改善する方法についても議論を巻き起こしている。

Machine learning applied to computer vision and signal processing is achieving results comparable to the human brain on specific tasks due to the great improvements brought by the deep neural networks (DNN). The majority of state-of-the-art architectures nowadays are DNN related, but only a few explore the frequency domain to extract useful information and improve the results, like in the image processing field. In this context, this paper presents a new approach for exploring the Fourier transform of the input images, which is composed of trainable frequency filters that boost discriminative components in the spectrum. Additionally, we propose a slicing procedure to allow the network to learn both global and local features from the frequency-domain representations of the image blocks. The proposed method proved to be competitive with respect to well-known DNN architectures in the selected experiments, with the advantage of being a simpler and lightweight model. This work also raises the discussion on how the state-of-the-art DNNs architectures can exploit not only spatial features, but also the frequency, in order to improve its performance when solving real world problems.
翻訳日:2022-11-16 02:32:06 公開日:2020-06-28
# サンゴ礁画像の自動縫合とダム自在なショアリング行動解析のための特徴抽出

Automated Stitching of Coral Reef Images and Extraction of Features for Damselfish Shoaling Behavior Analysis ( http://arxiv.org/abs/2006.15478v1 )

ライセンス: Link先を確認
Riza Rae Pineda, Kristofer delas Pe\~nas, Dana Manogan(参考訳) 動物の行動分析は、環境中の様々な生物間の種内および種間相互作用の観察を含む。 家畜の群れ、鳥類の群れ、魚の放牧や放流といった集団行動は、集団生存、適合性、生殖パターン、集団意思決定、動物の疫学への影響に関する情報を提供する。 海洋倫理学において、教育種における行動パターンの調査は、海洋資源の計画と管理において補足的な情報を提供できる。 現在、熱帯水域に広く分布するダムボリの種は、適切な基礎行動情報を持っていない。 これにより、サンゴ礁保護におけるストレスや災害対応の効率的な計画において、サンゴ礁管理者は制限される。 野生で捕獲された視覚的な海洋データは、主に動いたり自然環境の変化によって引き起こされる複数のシーンのバリエーションに乏しい。 この研究で収集されたdamselfishのビデオは、買収時の不規則なカメラの動きによって引き起こされるいくつかのシーンの歪みを示している。 そこで本研究では,野生におけるデータ取得に伴う課題を効果的に解析するために,色補正と画像縫合技術を利用した前処理システムを提案し,手作業による動作特徴抽出を行う。

Behavior analysis of animals involves the observation of intraspecific and interspecific interactions among various organisms in the environment. Collective behavior such as herding in farm animals, flocking of birds, and shoaling and schooling of fish provide information on its benefits on collective survival, fitness, reproductive patterns, group decision-making, and effects in animal epidemiology. In marine ethology, the investigation of behavioral patterns in schooling species can provide supplemental information in the planning and management of marine resources. Currently, damselfish species, although prevalent in tropical waters, have no adequate established base behavior information. This limits reef managers in efficiently planning for stress and disaster responses in protecting the reef. Visual marine data captured in the wild are scarce and prone to multiple scene variations, primarily caused by motion and changes in the natural environment. The gathered videos of damselfish by this research exhibit several scene distortions caused by erratic camera motions during acquisition. To effectively analyze shoaling behavior given the issues posed by capturing data in the wild, we propose a pre-processing system that utilizes color correction and image stitching techniques and extracts behavior features for manual analysis.
翻訳日:2022-11-16 02:31:50 公開日:2020-06-28
# ヒートマップ誘導型適応キーポイント推定によるボトムアップ人間のポーズ推定

Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive Keypoint Estimates ( http://arxiv.org/abs/2006.15480v1 )

ライセンス: Link先を確認
Ke Sun, Zigang Geng, Depu Meng, Bin Xiao, Dong Liu, Zhaoxiang Zhang, Jingdong Wang(参考訳) 典型的なボトムアップヒューマンポーズ推定フレームワークは、キーポイント検出とグループ化の2段階を含む。 既存の研究の多くは、アソシエーション埋め込みや、我々のアプローチで採用している画素単位のキーポイント回帰といったグループ化アルゴリズムの開発に重点を置いている。 キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまで研究されてきた手法をいくつか提示する。 まず,キーポイント回帰を改善するために,画素単位のキーポイント回帰にキーポイントヒートマップを利用する。 第2に,画素単位の空間的トランスフォーマネットワークを用いて,スケールと方向のばらつきを扱う適応表現を学習し,キーポイント回帰品質をさらに向上させる。 最後に,実際のポーズとなる確率の高い推定ポーズを促進するために,関節形状と熱値評価手法を提案する。 背景画素とキーポイント画素のバランスをとるためのトレードオフヒートマップ推定損失と合わせて,最新のボトムアップ人間のポーズ推定結果を得る。 コードはhttps://github.com/HRNet/HRNet-Bottom-up-Pose-Estimationで公開されている。

The typical bottom-up human pose estimation framework includes two stages, keypoint detection and grouping. Most existing works focus on developing grouping algorithms, e.g., associative embedding, and pixel-wise keypoint regression that we adopt in our approach. We present several schemes that are rarely or unthoroughly studied before for improving keypoint detection and grouping (keypoint regression) performance. First, we exploit the keypoint heatmaps for pixel-wise keypoint regression instead of separating them for improving keypoint regression. Second, we adopt a pixel-wise spatial transformer network to learn adaptive representations for handling the scale and orientation variance to further improve keypoint regression quality. Last, we present a joint shape and heatvalue scoring scheme to promote the estimated poses that are more likely to be true poses. Together with the tradeoff heatmap estimation loss for balancing the background and keypoint pixels and thus improving heatmap estimation quality, we get the state-of-the-art bottom-up human pose estimation result. Code is available at https://github.com/HRNet/HRNet-Bottom-up-Pose-Estimation.
翻訳日:2022-11-16 02:31:31 公開日:2020-06-28
# FDA3 : クラウドベースのIoTアプリケーションに対する敵攻撃に対する連邦防衛

FDA3 : Federated Defense Against Adversarial Attacks for Cloud-Based IIoT Applications ( http://arxiv.org/abs/2006.15632v1 )

ライセンス: Link先を確認
Yunfei Song, Tian Liu, Tongquan Wei, Xiangfeng Wang, Zhe Tao, Mingsong Chen(参考訳) 人工知能(AI)とIoT(Internet of Things)技術の普及とともに、産業用IoT(IIoT)アプリケーションで使用されるディープニューラルネットワーク(DNN)を騙すために、さまざまな種類の敵攻撃が増えている。 バイアスのあるトレーニングデータや脆弱な基盤モデルにより、敵の攻撃による入力に対する知覚できない変更は破壊的な結果をもたらす可能性がある。 既存のメソッドはこのような悪意のある攻撃を防御する上で有望だが、その多くは既存の攻撃タイプに限られており、大規模なIIoTデバイスのデプロイが大きな課題となっている。 この問題に対処するため, FDA3 という効果的な防衛手法を提案し, 異なる情報源からの敵例に対する防衛知識を集約する。 フェデレーション学習に触発されて,提案するクラウドベースのアーキテクチャは,iotデバイス間のさまざまな攻撃に対する防御機能を共有可能にする。 総合的な実験結果から,本手法により生成されたDNNは,既存の攻撃固有の攻撃訓練方法よりも悪意のある攻撃に抵抗できるだけでなく,IIoTアプリケーションによる新たな攻撃を防ぐことができることがわかった。

Along with the proliferation of Artificial Intelligence (AI) and Internet of Things (IoT) techniques, various kinds of adversarial attacks are increasingly emerging to fool Deep Neural Networks (DNNs) used by Industrial IoT (IIoT) applications. Due to biased training data or vulnerable underlying models, imperceptible modifications on inputs made by adversarial attacks may result in devastating consequences. Although existing methods are promising in defending such malicious attacks, most of them can only deal with limited existing attack types, which makes the deployment of large-scale IIoT devices a great challenge. To address this problem, we present an effective federated defense approach named FDA3 that can aggregate defense knowledge against adversarial examples from different sources. Inspired by federated learning, our proposed cloud-based architecture enables the sharing of defense capabilities against different attacks among IIoT devices. Comprehensive experimental results show that the generated DNNs by our approach can not only resist more malicious attacks than existing attack-specific adversarial training methods, but also can prevent IIoT applications from new attacks.
翻訳日:2022-11-16 02:25:07 公開日:2020-06-28
# ルックアヘッド境界Q-Learning

Lookahead-Bounded Q-Learning ( http://arxiv.org/abs/2006.15690v1 )

ライセンス: Link先を確認
Ibrahim El Shar, Daniel R. Jiang(参考訳) 我々は,'lookahead' と下限を用いた確率的環境における標準 q-learning の性能向上を目的とした,新しい,確実に収束する q-learning の変種である lookahead-bounded q-learning (lbql) アルゴリズムを紹介する。 これを実現するために、LBQLでは、事前に収集された経験と各イテレーションの状態-アクションの値を二重実現可能なペナルティとして使用して、サンプル情報緩和問題のシーケンスを構築する。 これらの問題の解は、確率近似を用いて追跡する最適値の上限と下限を推定する。 これらの量はイテレーション毎にイテレートが境界内に留まるように制約するために使われる。 ベンチマーク問題に関する数値実験により、LBQLは標準的なQ-ラーニングや関連するいくつかの手法と比較して、より高速な収束とハイパーパラメータの堅牢性を示すことが示された。 われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。

We introduce the lookahead-bounded Q-learning (LBQL) algorithm, a new, provably convergent variant of Q-learning that seeks to improve the performance of standard Q-learning in stochastic environments through the use of ``lookahead'' upper and lower bounds. To do this, LBQL employs previously collected experience and each iteration's state-action values as dual feasible penalties to construct a sequence of sampled information relaxation problems. The solutions to these problems provide estimated upper and lower bounds on the optimal value, which we track via stochastic approximation. These quantities are then used to constrain the iterates to stay within the bounds at every iteration. Numerical experiments on benchmark problems show that LBQL exhibits faster convergence and more robustness to hyperparameters when compared to standard Q-learning and several related techniques. Our approach is particularly appealing in problems that require expensive simulations or real-world interactions.
翻訳日:2022-11-16 02:24:25 公開日:2020-06-28
# テキストエンハンスドメイン適応による半教師あり協調フィルタリング

Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation ( http://arxiv.org/abs/2007.07085v1 )

ライセンス: Link先を確認
Wenhui Yu and Xiao Lin and Junfeng Ge and Wenwu Ou and Zheng Qin(参考訳) データスパシティは、ユーザーの暗黙のフィードバックからほとんどのデータが収集されるレコメンデータシステムにおいて、固有の課題である。 これは効果的なアルゴリズムを設計するのに2つの困難を生じさせる: 第一に、ユーザーの大多数はシステムとのわずかなインタラクションしか持たず、学習に十分なデータがない;第二に、暗黙的なフィードバックに負のサンプルはなく、負のサンプルを生成するために負のサンプリングを実行するのが一般的である。 しかし、この結果、多くの潜在的な正のサンプルが負のサンプルとして誤記され、データのスパーシティが誤記問題を悪化させる結果となる。 これらの課題を解決するため,暗黙的なフィードバックを半教師付き学習課題として推薦する問題を考察し,それを解決するためのドメイン適応を探る。 密なデータから学んだ知識を疎いデータに転送し、最も困難なケースに焦点を当てます。 この極端なケースでは、2つのデータセットを直接埋め込むことは、非常に異なる情報をエンコードするため、むしろ準最適である。 したがって、潜在空間を整列するアンカーポイントとして、ドメイン不変なテクスト的特徴を採用する。 埋め込みを整合させるために,各ユーザとアイテムのテキストの特徴を抽出し,ユーザとアイテムの埋め込みを伴うドメイン分類器に入力する。 埋め込みは分類器を困らせるように訓練され、テキストの特徴はアンカーポイントとして固定される。 ドメイン適応により、ソースドメイン内の分散パターンはターゲットドメインに転送される。 対象部分はドメイン適応によって監視できるため、ラベルノイズを避けるために対象データセットの負のサンプリングを放棄する。 転送戦略の有効性を検証するために,実世界のデータセットを3組採用する。 その結果,我々のモデルは既存モデルよりも大幅に優れていた。

Data sparsity is an inherent challenge in the recommender systems, where most of the data is collected from the implicit feedbacks of users. This causes two difficulties in designing effective algorithms: first, the majority of users only have a few interactions with the system and there is no enough data for learning; second, there are no negative samples in the implicit feedbacks and it is a common practice to perform negative sampling to generate negative samples. However, this leads to a consequence that many potential positive samples are mislabeled as negative ones and data sparsity would exacerbate the mislabeling problem. To solve these difficulties, we regard the problem of recommendation on sparse implicit feedbacks as a semi-supervised learning task, and explore domain adaption to solve it. We transfer the knowledge learned from dense data to sparse data and we focus on the most challenging case -- there is no user or item overlap. In this extreme case, aligning embeddings of two datasets directly is rather sub-optimal since the two latent spaces encode very different information. As such, we adopt domain-invariant textual features as the anchor points to align the latent spaces. To align the embeddings, we extract the textual features for each user and item and feed them into a domain classifier with the embeddings of users and items. The embeddings are trained to puzzle the classifier and textual features are fixed as anchor points. By domain adaptation, the distribution pattern in the source domain is transferred to the target domain. As the target part can be supervised by domain adaptation, we abandon negative sampling in target dataset to avoid label noise. We adopt three pairs of real-world datasets to validate the effectiveness of our transfer strategy. Results show that our models outperform existing models significantly.
翻訳日:2022-11-16 02:23:53 公開日:2020-06-28
# 雑音ラベルロバスト学習による入射フィードバックデータのサンプリング設計

Sampler Design for Implicit Feedback Data by Noisy-label Robust Learning ( http://arxiv.org/abs/2007.07204v1 )

ライセンス: Link先を確認
Wenhui Yu and Zheng Qin(参考訳) 暗黙のフィードバックデータは、簡単に収集でき、一般に適用できるため、広く推奨されている。 しかし,暗黙的なフィードバックデータに対するユーザの好みの予測は,肯定的な(指示された)サンプルと無指示のサンプルしか観察できないため,難しい課題である。 負のサンプルとラベルなしの正のサンプルとを区別することは困難である。 ベイジアン・パーソナライズド・ランキング (bpr) のような既存の作品では、負のサンプルとして未入力のアイテムが一様にサンプリングされているため、ノイズの多い問題が発生している。 このギャップに対処するために,暗黙的フィードバックデータに対する雑音ラベルロバスト学習に基づく適応型サンプリング器を設計する。 この問題を定式化するために、まずベイズ点最適化(BPO)を導入し、最大値推定により行列因子化(MF)などのモデルを学ぶ。 我々は,モデルに対するユーザの好みを予測し,観察されたデータラベルの確率を最大化することで学習する。 しかし、実際には、ユーザは、偽造されていないサンプルのいくつかに興味を持っているかもしれない。 次に,これらの雑音ラベルのリスクを検討し,雑音ラベルロバストbpo(nbpo)を提案する。 NBPOはまた、ベイズの定理に基づくラベルフリップの可能性によって、ユーザの好みと観測ラベルを接続しながら観察可能性も最大化する。 NBPOでは、ユーザは正の正のサンプルを好み、正の負のサンプルに何の関心も示さないため、最適化品質は劇的に改善される。 2つのパブリックな実世界のデータセットに関する広範囲な実験は、提案手法の大幅な改善を示している。

Implicit feedback data is extensively explored in recommendation as it is easy to collect and generally applicable. However, predicting users' preference on implicit feedback data is a challenging task since we can only observe positive (voted) samples and unvoted samples. It is difficult to distinguish between the negative samples and unlabeled positive samples from the unvoted ones. Existing works, such as Bayesian Personalized Ranking (BPR), sample unvoted items as negative samples uniformly, therefore suffer from a critical noisy-label issue. To address this gap, we design an adaptive sampler based on noisy-label robust learning for implicit feedback data. To formulate the issue, we first introduce Bayesian Point-wise Optimization (BPO) to learn a model, e.g., Matrix Factorization (MF), by maximum likelihood estimation. We predict users' preferences with the model and learn it by maximizing likelihood of observed data labels, i.e., a user prefers her positive samples and has no interests in her unvoted samples. However, in reality, a user may have interests in some of her unvoted samples, which are indeed positive samples mislabeled as negative ones. We then consider the risk of these noisy labels, and propose a Noisy-label Robust BPO (NBPO). NBPO also maximizes the observation likelihood while connects users' preference and observed labels by the likelihood of label flipping based on the Bayes' theorem. In NBPO, a user prefers her true positive samples and shows no interests in her true negative samples, hence the optimization quality is dramatically improved. Extensive experiments on two public real-world datasets show the significant improvement of our proposed optimization methods.
翻訳日:2022-11-16 02:23:24 公開日:2020-06-28
# オブジェクト機能のための予測および生成ニューラルネットワーク

Predictive and Generative Neural Networks for Object Functionality ( http://arxiv.org/abs/2006.15520v1 )

ライセンス: Link先を確認
Ruizhen Hu, Zihao Yan, Jingwen Zhang, Oliver van Kaick, Ariel Shamir, Hao Zhang, Hui Huang(参考訳) 人間は、周囲の環境がなくても、オブジェクトの機能を予測することができる。その知識と経験は、オブジェクトが関与するインタラクションや利用シナリオを「幻覚」できるからだ。 我々は、この偉業を再現するために予測および生成的な深層畳み込みニューラルネットワークを開発する。 特に,人間と物体の相互作用を特徴とする人工3次元物体の機能に着目した。 我々のネットワークは、相互作用コンテキストと呼ばれるシーンコンテキストのデータベースに基づいてトレーニングされており、それぞれが中心オブジェクトと1つ以上の周辺オブジェクトで構成され、オブジェクトの機能を表す。 3dオブジェクトが独立して与えられると、トリプレットネットワークのバリエーションである関数類似性ネットワーク(fsim-net)が、機能回復インタラクションコンテキストを推論してオブジェクトの機能を予測するように訓練される。 fSIM-NETは生成ネットワーク(iGEN-NET)とセグメンテーションネットワーク(iSEG-NET)によって補完される。 iGEN-NETは、機能ラベルを持つ単一のvooxelized 3Dオブジェクトを取り込み、対応する機能を視覚的に示すインタラクションコンテキストとして、vooxelized surroundingを合成する。 iSEG-NETは、相互作用するオブジェクトを、その相互作用タイプに応じて異なるグループに分離する。

Humans can predict the functionality of an object even without any surroundings, since their knowledge and experience would allow them to "hallucinate" the interaction or usage scenarios involving the object. We develop predictive and generative deep convolutional neural networks to replicate this feat. Specifically, our work focuses on functionalities of man-made 3D objects characterized by human-object or object-object interactions. Our networks are trained on a database of scene contexts, called interaction contexts, each consisting of a central object and one or more surrounding objects, that represent object functionalities. Given a 3D object in isolation, our functional similarity network (fSIM-NET), a variation of the triplet network, is trained to predict the functionality of the object by inferring functionality-revealing interaction contexts. fSIM-NET is complemented by a generative network (iGEN-NET) and a segmentation network (iSEG-NET). iGEN-NET takes a single voxelized 3D object with a functionality label and synthesizes a voxelized surround, i.e., the interaction context which visually demonstrates the corresponding functionality. iSEG-NET further separates the interacting objects into different groups according to their interaction types.
翻訳日:2022-11-16 02:22:32 公開日:2020-06-28
# PDE逆問題の変分自動符号化

Variational Autoencoding of PDE Inverse Problems ( http://arxiv.org/abs/2006.15641v1 )

ライセンス: Link先を確認
Daniel J. Tait and Theodoros Damoulas(参考訳) 物理の欠如とパラメータの回復の存在下で、支配的な物理モデルを指定することは、科学における2つの相反する根本的問題である。 現代の機械学習は、エミュレータやサロゲートを通じてこれらを回避することができるが、小さなデータ体制、解釈可能性、意思決定において特に重要である事前の知識と物理法則を無視している。 この作業では、メカニックモデルを柔軟なデータ駆動サーロゲートに折り畳んで、物理的に構造化されたデコーダネットワークに到達します。 これはベイズ逆問題に対する加速推論を提供し、a-priori物理情報をエンコードするドロップイン正規化器として機能する。 PDE問題の変分形式を採用し、確率的局所近似をモデルベースデータ拡張の形式として導入する。 実世界設定と構造化空間プロセスにおけるフレームワークの精度と計算効率の両立を実証する。

Specifying a governing physical model in the presence of missing physics and recovering its parameters are two intertwined and fundamental problems in science. Modern machine learning allows one to circumvent these, via emulators and surrogates, but in doing so disregards prior knowledge and physical laws that are especially important for small data regimes, interpretability, and decision making. In this work we fold the mechanistic model into a flexible data-driven surrogate to arrive at a physically structured decoder network. This provides accelerated inference for the Bayesian inverse problem, and can act as a drop-in regulariser that encodes a-priori physical information. We employ the variational form of the PDE problem and introduce stochastic local approximations as a form of model based data augmentation. We demonstrate both the accuracy and increased computational efficiency of the framework on real world settings and structured spatial processes.
翻訳日:2022-11-16 02:16:51 公開日:2020-06-28
# 機械学習におけるモデリング一般化:方法論的および計算的研究

Modeling Generalization in Machine Learning: A Methodological and Computational Study ( http://arxiv.org/abs/2006.15680v1 )

ライセンス: Link先を確認
Pietro Barbiero and Giovanni Squillero and Alberto Tonda(参考訳) 機械学習が一般大衆に普及するにつれ、理論的疑問が現実的な問題へと変化しつつある。 おそらく最も関係のある懸念の1つは、マシンラーニング予測の信頼性を評価することである。 多くの実世界のケースでは、ターゲット問題の特徴に応じて機械学習アルゴリズムの一般化能力、すなわち、見えないデータに対する正確な予測を提供する能力を推定することが最も重要である。 本研究では,109個の公開可能な分類データセットのメタ分析を行い,機械学習の一般化を,サンプル数から固有次元まで,クラスワイドの特徴スクイネスから,トレーニングセットの凸殻外に落下するテストサンプルに対するF1$まで,さまざまなデータセット特性の関数としてモデル化する。 実験結果は,補間予測と外挿予測の違いを強調することで,機械学習の一般化評価において,学習データの凸包の概念を活用できることを示す。 いくつかの予測可能な相関関係の他に、機械学習モデルの一般化能力と次元に関するすべての指標との予期せぬ弱い相関関係を観察し、機械学習における一般化を損なう可能性があるという一般的な仮定に挑戦する。

As machine learning becomes more and more available to the general public, theoretical questions are turning into pressing practical issues. Possibly, one of the most relevant concerns is the assessment of our confidence in trusting machine learning predictions. In many real-world cases, it is of utmost importance to estimate the capabilities of a machine learning algorithm to generalize, i.e., to provide accurate predictions on unseen data, depending on the characteristics of the target problem. In this work, we perform a meta-analysis of 109 publicly-available classification data sets, modeling machine learning generalization as a function of a variety of data set characteristics, ranging from number of samples to intrinsic dimensionality, from class-wise feature skewness to $F1$ evaluated on test samples falling outside the convex hull of the training set. Experimental results demonstrate the relevance of using the concept of the convex hull of the training data in assessing machine learning generalization, by emphasizing the difference between interpolated and extrapolated predictions. Besides several predictable correlations, we observe unexpectedly weak associations between the generalization ability of machine learning models and all metrics related to dimensionality, thus challenging the common assumption that the \textit{curse of dimensionality} might impair generalization in machine learning.
翻訳日:2022-11-16 02:15:40 公開日:2020-06-28
# 画像誤分類の因果説明

Causal Explanations of Image Misclassifications ( http://arxiv.org/abs/2006.15739v1 )

ライセンス: Link先を確認
Yan Min, Miles Bennett(参考訳) 画像の分類ミスの因果的説明は、モデル解釈可能性の貴重な洞察を提供し、予測精度を高める可能性がある、未熟なニッチである。 本研究では, vgg16, resnet50, googlenet, densenet161, mobilenet v2, inception v3を含む6つの現代cnnアーキテクチャ上でcifar-10を訓練し,条件付き混乱行列と誤分類ネットワークを用いた誤分類パターンを検討する。 2つの原因が識別され、定性的に区別される:形態的類似性と必須でない情報干渉。 前者はモデルに依存していないが、後者は6つのモデル全てに矛盾する。 非必須情報干渉による誤分類を減らすため,本研究は,サリエンシーマップの上位5%画素に固定されたボンディングボックス内の画素を消去する。 この方法はまず原因を検証し、それから原因を直接修正することで誤分類を減らす。 今後の研究では、誤分類の2つの原因を定量的に区別し、誤分類を減らすためにアンカーボックスに基づく推論修正法を一般化し、誤分類の2つの原因の相互作用を探求する。

The causal explanation of image misclassifications is an understudied niche, which can potentially provide valuable insights in model interpretability and increase prediction accuracy. This study trains CIFAR-10 on six modern CNN architectures, including VGG16, ResNet50, GoogLeNet, DenseNet161, MobileNet V2, and Inception V3, and explores the misclassification patterns using conditional confusion matrices and misclassification networks. Two causes are identified and qualitatively distinguished: morphological similarity and non-essential information interference. The former cause is not model dependent, whereas the latter is inconsistent across all six models. To reduce the misclassifications caused by non-essential information interference, this study erases the pixels within the bonding boxes anchored at the top 5% pixels of the saliency map. This method first verifies the cause; then by directly modifying the cause it reduces the misclassification. Future studies will focus on quantitatively differentiating the two causes of misclassifications, generalizing the anchor-box based inference modification method to reduce misclassification, exploring the interactions of the two causes in misclassifications.
翻訳日:2022-11-16 02:14:56 公開日:2020-06-28
# ESPN:極端にスパースなネットワーク

ESPN: Extremely Sparse Pruned Networks ( http://arxiv.org/abs/2006.15741v1 )

ライセンス: Link先を確認
Minsu Cho, Ameya Joshi, and Chinmay Hegde(参考訳) ディープニューラルネットワークはしばしば過度にパラメータ化され、計算に制限のあるシステムでは使用が禁止される。 しかし、最近の一連の研究により、トレーニング前のかなりの重みに対応するニューロン指標(またはマスク)のサブセットを特定することで、ディープネットワークのサイズを大幅に削減できることが示された。 簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現できることを示す。 本アルゴリズムは,シングルショット・ネットワーク・プルーニング手法(SNIPなど)とロッテ・ティケット型手法のハイブリッド手法を示す。 提案手法をいくつかのデータセットで検証し,テスト精度と圧縮比の両方で既存のプルーニング手法より優れていることを示す。

Deep neural networks are often highly overparameterized, prohibiting their use in compute-limited systems. However, a line of recent works has shown that the size of deep networks can be considerably reduced by identifying a subset of neuron indicators (or mask) that correspond to significant weights prior to training. We demonstrate that an simple iterative mask discovery method can achieve state-of-the-art compression of very deep networks. Our algorithm represents a hybrid approach between single shot network pruning methods (such as SNIP) with Lottery-Ticket type approaches. We validate our approach on several datasets and outperform several existing pruning approaches in both test accuracy and compression ratio.
翻訳日:2022-11-16 02:14:34 公開日:2020-06-28
# 多次元クラス階層による多クラス少数ショット学習

Many-Class Few-Shot Learning on Multi-Granularity Class Hierarchy ( http://arxiv.org/abs/2006.15479v1 )

ライセンス: Link先を確認
Lu Liu, Tianyi Zhou, Guodong Long, Jing Jiang and Chengqi Zhang(参考訳) 教師付き学習とメタ学習の両方において,MCFS問題について検討した。 良く研究された多段階多発問題や少数級小発問題と比較すると、mcfs問題は一般的に実用的応用において発生するが、以前の文献で研究されることは稀である。 クラス毎に少数のトレーニングサンプルしか与えられていない多くのクラスを区別する、新たな課題がもたらされる。 本稿では,クラス階層を事前知識として活用して,MCFS問題の正確な予測を両設定で生成できる粗大な分類器を訓練する。 提案モデルである"メモリ拡張階層分類ネットワーク(MahiNet)"は、各粗いクラスが複数の細かなクラスをカバーできる粗粒度分類を行う。 MahiNetは、クラスごとに数ショットのデータが与えられた様々なファインクラスを直接区別することは難しいため、ラベルがより安価に取得できるトレーニングデータを持つ粗いクラスよりも、分類器を学習することから始める。 粗い分類器は、細かなクラスに対する探索範囲を減らし、「多くのクラス」から課題を緩和する。 アーキテクチャに関して、MahiNetはまず、機能抽出のために畳み込みニューラルネットワーク(CNN)をデプロイする。 その後、メモリ拡張されたアテンションモジュールと多層パーセプトロン(MLP)を統合し、粗いクラスや細かいクラスに対する確率を生成する。 mlp は線形分類器を拡張するが、アテンションモジュールは knn 分類器を拡張し、どちらも "few-shot" 問題をターゲットにしている。 教師付き学習とメタ学習のためのMahiNetのトレーニング戦略を設計する。 さらに,MCFS問題に特化して設計された2つの新しいベンチマークデータセット"mcfsImageNet"と"mcfsOmniglot"を提案する。 実験の結果,MahiNetは教師付き学習とメタ学習の両方において,MCFS問題における最先端モデルよりも優れていることがわかった。

We study many-class few-shot (MCFS) problem in both supervised learning and meta-learning settings. Compared to the well-studied many-class many-shot and few-class few-shot problems, the MCFS problem commonly occurs in practical applications but has been rarely studied in previous literature. It brings new challenges of distinguishing between many classes given only a few training samples per class. In this paper, we leverage the class hierarchy as a prior knowledge to train a coarse-to-fine classifier that can produce accurate predictions for MCFS problem in both settings. The propose model, "memory-augmented hierarchical-classification network (MahiNet)", performs coarse-to-fine classification where each coarse class can cover multiple fine classes. Since it is challenging to directly distinguish a variety of fine classes given few-shot data per class, MahiNet starts from learning a classifier over coarse-classes with more training data whose labels are much cheaper to obtain. The coarse classifier reduces the searching range over the fine classes and thus alleviates the challenges from "many classes". On architecture, MahiNet firstly deploys a convolutional neural network (CNN) to extract features. It then integrates a memory-augmented attention module and a multi-layer perceptron (MLP) together to produce the probabilities over coarse and fine classes. While the MLP extends the linear classifier, the attention module extends the KNN classifier, both together targeting the "few-shot" problem. We design several training strategies of MahiNet for supervised learning and meta-learning. In addition, we propose two novel benchmark datasets "mcfsImageNet" and "mcfsOmniglot" specially designed for MCFS problem. In experiments, we show that MahiNet outperforms several state-of-the-art models on MCFS problems in both supervised learning and meta-learning.
翻訳日:2022-11-16 02:06:39 公開日:2020-06-28
# スパースグラフのためのスケーラブルなDeep Generative Modeling

Scalable Deep Generative Modeling for Sparse Graphs ( http://arxiv.org/abs/2006.15502v1 )

ライセンス: Link先を確認
Hanjun Dai, Azade Nazi, Yujia Li, Bo Dai, Dale Schuurmans(参考訳) グラフ生成モデルを学ぶことはディープラーニングにとって難しい課題であり、化学、生物学、社会科学など幅広い分野に適用可能である。 n$ノードとm$エッジを持つグラフの場合、既存のディープニューラルメソッドは、隣接マトリックスを構築することで、$\omega(n^2)$の複雑さを必要とする。 一方、多くの実世界のグラフは実際には$m\ll n^2$という意味でスパースである。 そこで我々は,この空間を利用して全隣接行列の生成を回避し,グラフ生成時間の複雑さを$O(n+)に低減する,新しい自己回帰モデルBiGGを開発した。 m)\log n) である。 さらに、トレーニング中、この自己回帰モデルは$O(\log)で並列化できる。 n)$同期ステージ。$\omegaを必要とする他の自己回帰モデルよりもはるかに効率的である (n)$。 いくつかのベンチマーク実験において、提案手法は、より深い自己回帰グラフ生成モデルで従来より桁違いに大きなグラフにスケールするだけでなく、より優れたグラフ生成品質をもたらすことを示した。

Learning graph generative models is a challenging task for deep learning and has wide applicability to a range of domains like chemistry, biology and social science. However current deep neural methods suffer from limited scalability: for a graph with $n$ nodes and $m$ edges, existing deep neural methods require $\Omega(n^2)$ complexity by building up the adjacency matrix. On the other hand, many real world graphs are actually sparse in the sense that $m\ll n^2$. Based on this, we develop a novel autoregressive model, named BiGG, that utilizes this sparsity to avoid generating the full adjacency matrix, and importantly reduces the graph generation time complexity to $O((n + m)\log n)$. Furthermore, during training this autoregressive model can be parallelized with $O(\log n)$ synchronization stages, which makes it much more efficient than other autoregressive models that require $\Omega(n)$. Experiments on several benchmarks show that the proposed approach not only scales to orders of magnitude larger graphs than previously possible with deep autoregressive graph generative models, but also yields better graph generation quality.
翻訳日:2022-11-16 02:05:59 公開日:2020-06-28
# 信頼度校正型MOBAゲーム勝者予測器

A Confidence-Calibrated MOBA Game Winner Predictor ( http://arxiv.org/abs/2006.15521v1 )

ライセンス: Link先を確認
Dong-Hee Kim, Changwoo Lee, Ki-Seok Chung(参考訳) 本稿では,有名なマルチプレイヤーオンラインバトルアリーナ(MOBA)ゲーム,League of Legendsの勝者を予測するための信頼度補正手法を提案する。 MOBAゲームでは、データセットには大量の入力依存ノイズが含まれている可能性がある。 したがって、信頼度を補正した予測を試みることが望ましい。 残念なことに、既存の信頼度校正手法のほとんどは、不確実性を考慮することが重要でない画像と文書の分類に関するものである。 本稿では,データの不確実性を考慮した新しいキャリブレーション手法を提案する。 提案手法は,ECE値が1.11%である従来の温度スケーリング法と比較して,データ不確実性を考慮した優れたキャリブレーション誤差(ECE)(0.57%)を実現する。

In this paper, we propose a confidence-calibration method for predicting the winner of a famous multiplayer online battle arena (MOBA) game, League of Legends. In MOBA games, the dataset may contain a large amount of input-dependent noise; not all of such noise is observable. Hence, it is desirable to attempt a confidence-calibrated prediction. Unfortunately, most existing confidence calibration methods are pertaining to image and document classification tasks where consideration on uncertainty is not crucial. In this paper, we propose a novel calibration method that takes data uncertainty into consideration. The proposed method achieves an outstanding expected calibration error (ECE) (0.57%) mainly owing to data uncertainty consideration, compared to a conventional temperature scaling method of which ECE value is 1.11%.
翻訳日:2022-11-16 02:05:35 公開日:2020-06-28
# トレーニングへのマルチレベルアプローチ

A Multilevel Approach to Training ( http://arxiv.org/abs/2006.15602v1 )

ライセンス: Link先を確認
Vanessa Braglia and Alena Kopani\v{c}\'akov\'a and Rolf Krause(参考訳) 離散化大規模偏微分方程式の解法としてよく用いられる非線形多レベル最小化法に基づく新しい学習法を提案する。 本手法では,サンプル数を減らすことで階層構造を構築する。 元のモデルのトレーニングは、少ないサンプルで構築されたサーロゲートモデルの内部トレーニングによって強化される。 我々は一階一貫性アプローチを用いて代理モデルを構築する。 これは、勾配が全勾配の確率的推定子であるが、標準確率的勾配推定子に比べて分散が小さくなるシュロゲートモデルをもたらす。 本稿では,ロジスティック回帰に基づく機械学習アプリケーションに対するマルチレベル手法の収束挙動について述べる。 サブサンプリングされたニュートン法と分散還元法との比較により,本手法の有効性が示された。

We propose a novel training method based on nonlinear multilevel minimization techniques, commonly used for solving discretized large scale partial differential equations. Our multilevel training method constructs a multilevel hierarchy by reducing the number of samples. The training of the original model is then enhanced by internally training surrogate models constructed with fewer samples. We construct the surrogate models using first-order consistency approach. This gives rise to surrogate models, whose gradients are stochastic estimators of the full gradient, but with reduced variance compared to standard stochastic gradient estimators. We illustrate the convergence behavior of the proposed multilevel method to machine learning applications based on logistic regression. A comparison with subsampled Newton's and variance reduction methods demonstrate the efficiency of our multilevel method.
翻訳日:2022-11-16 02:04:58 公開日:2020-06-28
# ニューラルネットワークにおける層間スポーシティ

Layer Sparsity in Neural Networks ( http://arxiv.org/abs/2006.15604v1 )

ライセンス: Link先を確認
Mohamed Hebiri and Johannes Lederer(参考訳) sparsityは、計算リソースの節約、解釈の容易化、過剰フィッティングの防止のために、機械学習で人気を博している。 本稿では,ニューラルネットワークの枠組みにおけるスパーシティについて述べる。 特に,ネットワークの層に関する空間性という新たな概念を定式化し,深層ネットワークに対する現在の傾向とよく一致している。 この概念を階層空間と呼ぶ。 次に、標準ディープラーニングパイプラインを補完し、よりコンパクトで正確なネットワークを生成するための、対応する正規化と修正スキームを導入する。

Sparsity has become popular in machine learning, because it can save computational resources, facilitate interpretations, and prevent overfitting. In this paper, we discuss sparsity in the framework of neural networks. In particular, we formulate a new notion of sparsity that concerns the networks' layers and, therefore, aligns particularly well with the current trend toward deep networks. We call this notion layer sparsity. We then introduce corresponding regularization and refitting schemes that can complement standard deep-learning pipelines to generate more compact and accurate networks.
翻訳日:2022-11-16 01:58:59 公開日:2020-06-28
# ANFIS, SVM, ANNを併用した6つの進化的最適化アルゴリズムによる地下水位のモデル化と不確かさ解析

Modeling and Uncertainty Analysis of Groundwater Level Using Six Evolutionary Optimization Algorithms Hybridized with ANFIS, SVM, and ANN ( http://arxiv.org/abs/2006.16848v1 )

ライセンス: Link先を確認
Akram Seifi, Mohammad Ehteram, Vijay P. Singh, Amir Mosavi(参考訳) 本研究では,6つのメタヒューリスティックスキームをニューラルネットワーク(ann),適応型ニューロファジーインタフェースシステム(anfis),サポートベクターマシン(svm)とハイブリッド化し,月次地下水位(gwl)を予測し,予測の不確実性解析と空間変動解析を評価する。 grasshopper optimization algorithm (goa)、cat swarm optimization (cso)、weed algorithm (wa)、geneative algorithm (ga)、krill algorithm (ka)、 particle swarm optimization (pso)の6つのスキームは、ann、svm、およびanfisモデルの性能を向上させるためのハイブリッド化に使用された。 ハイブリッドモデルを評価するために,144ヶ月間のアルデビル平野(iran)の地下水位(gwl)データを選択した。 主成分分析 (pca) の前処理手法を適用し, 入力の組み合わせを月々の時系列から12ヶ月の予測間隔に短縮した。 その結果,ANFIS-GOAは試験段階では第1ピエゾメータ,第3ピエゾメータのGWL予測において他のハイブリッドモデルよりも優れていた。 最適化アルゴリズムを用いたハイブリッドモデルの性能は、従来のANN、ANFIS、SVMモデルよりはるかに優れていた。 ピエゾメータ10のANFIS-GOAとスタンドアローンANFISの改善率は、トレーニング段階でのRMSE、MAE、NSE、PBIASの14.4%、3%、17.8%、および181%であり、それぞれ40.7%、55%、25%、132%であった。 列車区間におけるピエゾメーター6の改良は15%, 4%, 13%, 208%であり, 試験段階では33%, 44.6%, 16.3%, 173%であった。 不確実性解析により、ANFIS-GOAとSVMは、それぞれ他のモデルの中で最高のパフォーマンスと最悪のパフォーマンスを示した。 一般に、GOAはANFIS、ANN、SVMモデルの精度を高めた。

In the present study, six meta-heuristic schemes are hybridized with artificial neural network (ANN), adaptive neuro-fuzzy interface system (ANFIS), and support vector machine (SVM), to predict monthly groundwater level (GWL), evaluate uncertainty analysis of predictions and spatial variation analysis. The six schemes, including grasshopper optimization algorithm (GOA), cat swarm optimization (CSO), weed algorithm (WA), genetic algorithm (GA), krill algorithm (KA), and particle swarm optimization (PSO), were used to hybridize for improving the performance of ANN, SVM, and ANFIS models. Groundwater level (GWL) data of Ardebil plain (Iran) for a period of 144 months were selected to evaluate the hybrid models. The pre-processing technique of principal component analysis (PCA) was applied to reduce input combinations from monthly time series up to 12-month prediction intervals. The results showed that the ANFIS-GOA was superior to the other hybrid models for predicting GWL in the first piezometer and third piezometer in the testing stage. The performance of hybrid models with optimization algorithms was far better than that of classical ANN, ANFIS, and SVM models without hybridization. The percent of improvements in the ANFIS-GOA versus standalone ANFIS in piezometer 10 were 14.4%, 3%, 17.8%, and 181% for RMSE, MAE, NSE, and PBIAS in the training stage and 40.7%, 55%, 25%, and 132% in testing stage, respectively. The improvements for piezometer 6 in train step were 15%, 4%, 13%, and 208% and in the test step were 33%, 44.6%, 16.3%, and 173%, respectively, that clearly confirm the superiority of developed hybridization schemes in GWL modeling. Uncertainty analysis showed that ANFIS-GOA and SVM had, respectively, the best and worst performances among other models. In general, GOA enhanced the accuracy of the ANFIS, ANN, and SVM models.
翻訳日:2022-11-16 01:58:50 公開日:2020-06-28
# bond: bertが支援するopen-domain name entity recognition

BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision ( http://arxiv.org/abs/2006.15509v1 )

ライセンス: Link先を確認
Chen Liang, Yue Yu, Haoming Jiang, Siawpeng Er, Ruijia Wang, Tuo Zhao, Chao Zhang(参考訳) 我々は,オープンドメインのエンティティ認識(ner)問題を遠隔監視下で検討する。 遠隔の監督は、大量の手動アノテーションを必要としないが、外部の知識ベースを介して高度に不完全でノイズの多い遠方のラベルを生成する。 この課題に対処するために、NERモデルの予測性能を改善するために、事前学習された言語モデル(BERTやRoBERTaなど)のパワーを活用する新しい計算フレームワークBONDを提案する。 具体的には,2段階の学習アルゴリズムを提案する。第1段階では,事前学習された言語モデルを遠隔ラベルを用いてnerタスクに適応させ,リコールと精度を大幅に向上させる。第2段階では,遠方のラベルをドロップし,モデルパフォーマンスをさらに向上させるための自己学習アプローチを提案する。 5つのベンチマークデータセットの詳細な実験は、既存の遠隔管理NER法よりもBONDの方が優れていることを示した。 コードと遠いラベル付きデータはhttps://github.com/cliang1453/BOND.comで公開されている。

We study the open-domain named entity recognition (NER) problem under distant supervision. The distant supervision, though does not require large amounts of manual annotations, yields highly incomplete and noisy distant labels via external knowledge bases. To address this challenge, we propose a new computational framework -- BOND, which leverages the power of pre-trained language models (e.g., BERT and RoBERTa) to improve the prediction performance of NER models. Specifically, we propose a two-stage training algorithm: In the first stage, we adapt the pre-trained language model to the NER tasks using the distant labels, which can significantly improve the recall and precision; In the second stage, we drop the distant labels, and propose a self-training approach to further improve the model performance. Thorough experiments on 5 benchmark datasets demonstrate the superiority of BOND over existing distantly supervised NER methods. The code and distantly labeled data have been released in https://github.com/cliang1453/BOND.
翻訳日:2022-11-16 01:57:41 公開日:2020-06-28
# ディープジェネレーティブモデルはいつ、どのように反転できるのか?

When and How Can Deep Generative Models be Inverted? ( http://arxiv.org/abs/2006.15555v1 )

ライセンス: Link先を確認
Aviad Aberdam, Dror Simon, Michael Elad(参考訳) 深層生成モデル(例えば、GANやVAE)は近年広く開発されている。 近年、そのようなモデルの反転、すなわち(潜在的に破損した)信号が与えられたとき、我々はそれを生成した潜在ベクトルを回復したいという関心が高まっている。 スパース表現理論に基づいて、そのような生成モデルが一意解で可逆であるような任意の逆アルゴリズム(漸進降下、ディープエンコーダなど)に適用可能な条件を定義する。 さらに,本解析はトレーニングモデルに適用可能であり,ガウスのi.i.d.重みには依存しない。 さらに,任意の深さの訓練された生成ネットワークに対する2つの層逆追従アルゴリズムを導入し,それらに回復保証を付加する。 最後に, 提案手法は, クリーン信号と破損信号の両方に対して, 逆発生器の勾配降下特性より優れていることを示す。

Deep generative models (e.g. GANs and VAEs) have been developed quite extensively in recent years. Lately, there has been an increased interest in the inversion of such a model, i.e. given a (possibly corrupted) signal, we wish to recover the latent vector that generated it. Building upon sparse representation theory, we define conditions that are applicable to any inversion algorithm (gradient descent, deep encoder, etc.), under which such generative models are invertible with a unique solution. Importantly, the proposed analysis is applicable to any trained model, and does not depend on Gaussian i.i.d. weights. Furthermore, we introduce two layer-wise inversion pursuit algorithms for trained generative networks of arbitrary depth, and accompany these with recovery guarantees. Finally, we validate our theoretical results numerically and show that our method outperforms gradient descent when inverting such generators, both for clean and corrupted signals.
翻訳日:2022-11-16 01:57:03 公開日:2020-06-28
# 3次元行動認識のためのロウエイスポス, 固有体, 教師付き固有体, 漁業体

Roweisposes, Including Eigenposes, Supervised Eigenposes, and Fisherposes, for 3D Action Recognition ( http://arxiv.org/abs/2006.15736v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Fakhri Karray, Mark Crowley(参考訳) 人間の行動認識はコンピュータビジョンと機械学習の重要な分野の1つである。 3次元動作認識のための様々な手法が提案されているが、基本的なものやディープラーニングを用いたものもあるが、汎用固有値問題に基づく基本手法の必要性が認識されている。 この必要性は、固有顔やフィッシャーフェイスのような顔認識の分野で類似の基本的な方法を持っているため、特に顕著である。 本稿では,一般部分空間学習にroweis判別分析を用いたroweisposesを提案する。 特例として、漁場、固有物、監督固有物及び二重監督固有物を含む。 Roweisposes は、身体のポーズを埋め込むための識別的な部分空間を学習する無限個のアクション再構成手法の族である。 TST,UTKinect,UCFKinectのデータセットを用いた実験により,提案手法の有効性が検証された。

Human action recognition is one of the important fields of computer vision and machine learning. Although various methods have been proposed for 3D action recognition, some of which are basic and some use deep learning, the need of basic methods based on generalized eigenvalue problem is sensed for action recognition. This need is especially sensed because of having similar basic methods in the field of face recognition such as eigenfaces and Fisherfaces. In this paper, we propose Roweisposes which uses Roweis discriminant analysis for generalized subspace learning. This method includes Fisherposes, eigenposes, supervised eigenposes, and double supervised eigenposes as its special cases. Roweisposes is a family of infinite number of action recongition methods which learn a discriminative subspace for embedding the body poses. Experiments on the TST, UTKinect, and UCFKinect datasets verify the effectiveness of the proposed method for action recognition.
翻訳日:2022-11-16 01:56:47 公開日:2020-06-28
# K-Nearest Neighbourと支援ベクトルマシンハイブリッド分類

K-Nearest Neighbour and Support Vector Machine Hybrid Classification ( http://arxiv.org/abs/2007.00045v1 )

ライセンス: Link先を確認
A. M. Hafiz(参考訳) 本稿では,新しいk-nearest近傍とサポートベクターマシンのハイブリッド分類手法を提案する。 これは差別的最寄り地域分類の概念に基づいている。 この手法は, 近接条件を満たす試験試料にK-Nearest Neighbour Classificationを用いた。 近接条件を通過しないパターンを分離する。 次に、ユークリッド距離メートル法に基づいて、それぞれ分離されたテストパターンに最も近い各クラスに対して、一定の数のパターンに対するトレーニングセットを設定する。 その後、分離されたテストサンプル毎に、サポートベクトルマシンは、それに関連する訓練セットパターンに基づいてトレーニングされ、テストサンプルの分類が行われる。 提案手法は, 研究領域における技術の現状と比較されてきた。 米国郵便公社(USPS)の手書きDigit Dataset、MNIST Dataset、アラビア数字データセットであるModified Arabic Digits Database(MADB)の3つのデータセットがアルゴリズムの性能を評価するために使用されている。 このアルゴリズムは一般に比較された他のアルゴリズムよりも優れている。

In this paper, a novel K-Nearest Neighbour and Support Vector Machine hybrid classification technique has been proposed that is simple and robust. It is based on the concept of discriminative nearest neighbourhood classification. The technique consists of using K-Nearest Neighbour Classification for test samples satisfying a proximity condition. The patterns which do not pass the proximity condition are separated. This is followed by sifting the training set for a fixed number of patterns for every class which are closest to each separated test pattern respectively, based on the Euclidean distance metric. Subsequently, for every separated test sample, a Support Vector Machine is trained on the sifted training set patterns associated with it, and classification for the test sample is done. The proposed technique has been compared to the state of art in this research area. Three datasets viz. the United States Postal Service (USPS) Handwritten Digit Dataset, MNIST Dataset, and an Arabic numeral dataset, the Modified Arabic Digits Database, MADB, have been used to evaluate the performance of the algorithm. The algorithm generally outperforms the other algorithms with which it has been compared.
翻訳日:2022-11-16 01:56:33 公開日:2020-06-28