このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211121となっている論文です。

PDF登録状況(公開日: 20211121)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子鍵分布における情報漏洩を低減する新しい手法

A novel approach to reducing information leakage for quantum key distribution ( http://arxiv.org/abs/2104.13580v2 )

ライセンス: Link先を確認
Hao-Kun Mao, Qiang Zhao, Yu-Cheng Qiao, Bing-Ze Yan, Bing-Jie Xu, Ahmed A. Abd EL-Latif and Qiong Li(参考訳) 量子鍵分布(QKD)は、無条件でセキュアな通信を約束する量子情報科学の重要な分野である。 QKD研究では、最終安全鍵レート(SKR)と最大伝送距離を改善することが中心的な課題である。 この問題に対処するため、ほとんどの研究はQKDの情報漏洩を減らすことに重点を置いている。 本稿では,量子部分の情報漏洩と後処理部分との重なりを特に考慮し,情報漏洩を一層低減する新しい手法を提案する。 この重なりは、前の研究、すなわち量子部分と後処理部分の両方において、多重光子パルスのみによる後処理部分の情報漏洩が2回考慮されることを意味する。 多光子パルスによって運ばれる情報は、量子部分における光子数分割攻撃によって、eveによって完全に知られていると考えられるので、skr計算中に繰り返し処理部で考慮する必要はない。 したがって,提案手法は理論的にQKDプロトコルの情報漏洩を低減することができる。 この考え方に基づき、decoy-bb84 および send-or-not-sending twin-field protocol の情報漏洩量を計算する公式を導出する。 これら2つの典型的なプロトコルのシミュレーション結果から,本手法はscrと最大伝送距離を実用的実験パラメータで明らかに改善することを示した。

Quantum key distribution (QKD) is an important branch of quantum information science as it holds promise for unconditionally secure communication. For QKD research, a central issue is to improve the final secure key rate (SKR) and the maximal transmission distance. To address this issue, most works focused on reducing the information leakage of QKD. In this paper, we propose a novel approach to further reduce the information leakage by specially considering the overlap between the information leakage of quantum part and post-processing part. The overlap means that the information leakage of post-processing part caused solely by multi-photon pulses is considered twice in previous studies, i.e., both in quantum part and post-processing part. Since the information carried by multi-photon pulses has been considered as completely known by Eve through the photon-number-splitting attack in quantum part, there is no need to consider it in post-processing part repetitively during the SKR calculation. Therefore, our approach can theoretically reduce the information leakage of a QKD protocol. Based on this idea, we derive the formulas to calculate the amount of information leakage for decoy-BB84 and sending-or-not-sending twin-field protocols. Simulation results for these two typical protocols also demonstrate that our approach evidently improves the SKR as well as the maximal transmission distance under practical experimental parameters.
翻訳日:2023-04-02 04:45:08 公開日:2021-11-21
# ニューラルネットワーク量子状態の時間伝播における確率ノイズと一般化誤差の役割

Role of stochastic noise and generalization error in the time propagation of neural-network quantum states ( http://arxiv.org/abs/2105.01054v3 )

ライセンス: Link先を確認
Damian Hofmann, Giammarco Fabiani, Johan H. Mentink, Giuseppe Carleo, Michael A. Sentef(参考訳) ニューラルネットワーク量子状態(nqs)は、時間依存変分モンテカルロ(t-vmc)を用いた2次元系における平衡外ダイナミクスをシミュレートするに適した変分アンサッツであることが示されている。 特に、長い時間スケールでの安定かつ正確な時間伝搬は、制限ボルツマンマシンアーキテクチャを用いて正方格子ハイゼンベルクモデルで観測されている。 しかし、他のシステムで同様の性能を達成することはより困難であることが証明されている。 本稿では,パルス励起をベンチマークシステムとして,平衡から追い出された2脚のハイゼンベルクはしごについて考察する。 本研究では,ネットワークパラメータに対する非線形運動方程式により,非模倣雑音が強く増幅されることを示す。 その結果、シミュレーションダイナミクスの達成可能な精度は、ネットワークの表現力とこれらの不安定性を改善するために必要な手段の相互作用の結果である。 正則化の適切な選択により安定性が大幅に向上できることを示す。 これは、正規化のチューニングが通常追加の計算コストを課さないため、特に有用である。 機械学習の実践に触発されて,t-VMCに基づく伝搬スキームの最適正規化ハイパーパラメータ決定を支援するバリデーションセットに基づく診断ツールを提案する。 本ベンチマークでは, 安定かつ高精度な時間伝搬が, 十分に規則化された変動力学のレギュラーで実現できることを示す。

Neural-network quantum states (NQS) have been shown to be a suitable variational ansatz to simulate out-of-equilibrium dynamics in two-dimensional systems using time-dependent variational Monte Carlo (t-VMC). In particular, stable and accurate time propagation over long time scales has been observed in the square-lattice Heisenberg model using the Restricted Boltzmann machine architecture. However, achieving similar performance in other systems has proven to be more challenging. In this article, we focus on the two-leg Heisenberg ladder driven out of equilibrium by a pulsed excitation as a benchmark system. We demonstrate that unmitigated noise is strongly amplified by the nonlinear equations of motion for the network parameters, which causes numerical instabilities in the time evolution. As a consequence, the achievable accuracy of the simulated dynamics is a result of the interplay between network expressiveness and measures required to remedy these instabilities. We show that stability can be greatly improved by appropriate choice of regularization. This is particularly useful as tuning of the regularization typically imposes no additional computational cost. Inspired by machine learning practice, we propose a validation-set based diagnostic tool to help determining optimal regularization hyperparameters for t-VMC based propagation schemes. For our benchmark, we show that stable and accurate time propagation can be achieved in regimes of sufficiently regularized variational dynamics.
翻訳日:2023-04-01 17:50:15 公開日:2021-11-21
# デジタル化断熱量子分解

Digitized Adiabatic Quantum Factorization ( http://arxiv.org/abs/2105.09480v2 )

ライセンス: Link先を確認
Narendra N. Hegade, Koushik Paul, Francisco Albarr\'an-Arriagada, Xi Chen, Enrique Solano(参考訳) 量子整数分解は、暗号に革命をもたらす可能性のある量子コンピューティングソリューションである。 それでも、ノイズの多い中間スケール量子コンピュータのためのスケーラブルで効率的な量子アルゴリズムは、かなり見劣りしているようだ。 そこで本研究では, adiabaticity 手法への近道により拡張された adiabatic quantum factorization アルゴリズムをデジタイズすることにより,digitized-adiabatic quantum computing パラダイムにおける代替因子化手法を提案する。 この高速分解アルゴリズムは利用可能なゲートベースの量子コンピュータに適している。 量子アルゴリズムを最大6量子ビットのibm量子コンピュータでテストし、量子優位への長い道のりにおいて、より一般的に使われている分解アルゴリズムのパフォーマンスを上回っています。

Quantum integer factorization is a potential quantum computing solution that may revolutionize cryptography. Nevertheless, a scalable and efficient quantum algorithm for noisy intermediate-scale quantum computers looks far-fetched. We propose an alternative factorization method, within the digitized-adiabatic quantum computing paradigm, by digitizing an adiabatic quantum factorization algorithm enhanced by shortcuts to adiabaticity techniques. We find that this fast factorization algorithm is suitable for available gate-based quantum computers. We test our quantum algorithm in an IBM quantum computer with up to six qubits, surpassing the performance of the more commonly used factorization algorithms on the long way towards quantum advantage.
翻訳日:2023-03-30 11:14:58 公開日:2021-11-21
# 一次元におけるホモ核及びヘテロ核量子滴の形成とクエンチ

Formation and quench of homonuclear and heteronuclear quantum droplets in one dimension ( http://arxiv.org/abs/2108.00727v3 )

ライセンス: Link先を確認
S. I. Mistakidis, T. Mithun, P. G. Kevrekidis, H. R. Sadeghpour, P. Schmelcher(参考訳) Ab-initio非摂動アプローチを用いて,LHY(Lee-Huang-Yang)物理学,特に相補的相関による基底状態および1次元いわゆる量子滴のクエンチダイナミクスの影響を例証する。 その結果, 粒子数が大きいか, 中間結合が弱いかのどちらかで, 液滴のガウス形状は, より強い成分内反発と平板構造への遷移により狭くなることがわかった。 さらに、ハーモニックトラップはフラットトップ形成を防止する。 平均場相互作用がキャンセルされる平衡点において, 平らな液滴と同様に, これらの流体の粒子限界に相関孔が存在することを示す。 質量不均衡を導入し、より大きな質量に対して液滴間混合および励起シグネチャを経験する。 相互作用クエンチと強い(弱い)アトラクションとの相互作用を考慮した場合の液滴膨張(呼吸運動)のモニタリングにより,LHY相関を超えると速度(呼吸周波数)が低下することがわかった。 厳密には、滴は2体の反相関(相関)を同じ位置(長距離)で特徴付ける。 以上の知見は,現在の超低温原子実験における液滴運動の相関誘起現象の探究の道を開くものである。

We exemplify the impact of beyond Lee-Huang-Yang (LHY) physics, especially due to intercomponent correlations, in the ground state and the quench dynamics of one-dimensional so-called quantum droplets using an ab-initio nonperturbative approach. It is found that the droplet Gaussian-shaped configuration arising for intercomponent attractive couplings becomes narrower for stronger intracomponent repulsion and transits towards a flat-top structure either for larger particle numbers or weaker intercomponent attraction. Additionally, a harmonic trap prevents the flat-top formation. At the balance point where mean-field interactions cancel out, we show that a correlation hole is present in the few particle limit of these fluids as well as for flat-top droplets. Introducing mass-imbalance, droplets experience intercomponent mixing and excitation signatures are identified for larger masses. Monitoring the droplet expansion (breathing motion) upon considering interaction quenches to stronger (weaker) attractions we explicate that beyond LHY correlations result in a reduced velocity (breathing frequency). Strikingly, the droplets feature two-body anti-correlations (correlations) at the same position (longer distances). Our findings pave the way for probing correlation-induced phenomena of droplet dynamics in current ultracold atom experiments.
翻訳日:2023-03-20 03:19:36 公開日:2021-11-21
# 再生ボソニックおよびフェルミオンスターリングサイクルの統計的一般化

Statistical Generalization of Regenerative Bosonic and Fermionic Stirling Cycles ( http://arxiv.org/abs/2108.01710v2 )

ライセンス: Link先を確認
Nikhil Gupt, Srijan Bhattacharyya and Arnab Ghosh(参考訳) 統計的に異なるボソニックおよびフェルミイオンスターリングサイクルの有限時間熱力学的挙動を再生特性で一般化するための統一的な枠組みを構築した。 フェルミ・ディラック・ボース・アインシュタイン統計に従う粒子からなる動作流体は、等価な基礎の下で処理され、非相互作用調和振動子とフェルミイオン振動子の集まりとしてモデル化される。 2つの発振器の周波数と個数に関して、古典的および非古典的作動流体にも有効である熱と仕事の定義に対する興味深い一般化を提供した。 有限時間緩和ダイナミクス下での一般的な設定に基づき, 低温および高温熱伝達速度に関する新しい結果が導出される。 低温の「量子」状態下では、等出力、効率、エントロピー生成、サイクル時間、性能係数によって特徴付けられる2種類のスターリングサイクル間の熱力学的等価性が確立される。

We have constructed a unified framework for generalizing the finite-time thermodynamic behavior of statistically distinct bosonic and fermionic Stirling cycles with regenerative characteristics. In our formalism, working fluid consisting of particles obeying Fermi-Dirac and Bose-Einstein statistics are treated under equal footing and modelled as a collection of non-interacting harmonic and fermionic oscillators. In terms of frequency and population of the two oscillators, we have provided an interesting generalization for the definitions of heat and work that are valid for classical as well as non-classical working fluids. Based on a generic setting under finite time relaxation dynamics, novel results on low and high temperature heat transfer rates are derived. Characterized by equal power, efficiency, entropy production, cycle time and coefficient of performance, thermodynamic equivalence between two types of Stirling cycles is established in the low temperature "quantum" regime.
翻訳日:2023-03-20 00:37:43 公開日:2021-11-21
# 半導体レーザーおよび集積量子フォトニックシステムにおけるパラメトリックダウンコンバージョンによる絡み合った光子の生成

Generation of entangled photons via parametric down-conversion in semiconductor lasers and integrated quantum photonic systems ( http://arxiv.org/abs/2108.03528v3 )

ライセンス: Link先を確認
Mikhail Tokman, Yongrui Wang, Qianfan Chen, Leon Shterengas, Alexey Belyanin(参考訳) モード整合型共振器内パラメトリックダウンコンバージョンにより生成する光子の高輝度・超コンパクト電気ポンピングGaSbレーザー源を設計・設計する。 高分散性および散逸性導波路における非線形混合を記述するために、モード分散、群および位相ミスマッチ、伝播、散逸、および無声貯留層への結合の影響を考慮した導波路モードのパラメトリックダウンコンバージョンに関する非摂動量子理論を開発した。 我々は、量子化された単光子ポンプモードのパラメトリック崩壊の非摂動境界値問題を解く状態ベクトルの伝搬方程式に基づく新しいアプローチにより、量子化されたポンプ場体制に拡張し、散逸とノイズの影響を包含するように一般化する。 我々の定式化は、様々な3波混合伝搬問題に適用できる。 実験結果の解釈とモノリシック量子フォトニクスシステムの性能予測に有用な解析式を提供する。

We propose and design a high-brightness, ultra-compact electrically pumped GaSb-based laser source of entangled photons generated by mode-matched intracavity parametric down-conversion of lasing modes. To describe the nonlinear mixing in highly dispersive and dissipative waveguides, we develop a nonperturbative quantum theory of parametric down-conversion of waveguide modes which takes into account the effects of modal dispersion, group and phase mismatch, propagation, dissipation, and coupling to noisy reservoirs. We extend our theory to the regime of quantized pump fields with a new approach based on the propagation equation for the state vector which solves the nonperturbative boundary-value problem of the parametric decay of a quantized single-photon pump mode and can be generalized to include the effects of dissipation and noise. Our formalism is applicable to a wide variety of three-wave mixing propagation problems. It provides convenient analytic expressions for interpreting experimental results and predicting the performance of monolithic quantum photonic systems.
翻訳日:2023-03-19 03:12:03 公開日:2021-11-21
# 2つの幾何学的位相は、その進化経路がポイントワイズに十分近いとしても、劇的に異なる。

Two geometric phases can dramatically differ from each other even if their evolution paths are sufficiently close in a pointwise manner ( http://arxiv.org/abs/2111.10767v1 )

ライセンス: Link先を確認
Da-Jian Zhang, P. Z. Zhao, G. F. Xu(参考訳) 量子物理学におけるマイルストーンの一つはベリーの独創的な業績である. 〜r。 〜soc。 左。 ~a \textbf{392}, 45 (1984)] では、状態空間における進化経路のみに依存する幾何位相として知られる量子位相因子が発見された。 ここでは,初期ハミルトニアンの固有状態から初期状態の無限小偏差であっても,断熱進化に伴う幾何学的位相の著しい変化を生じ得ることを明かした。 これにより、2つの幾何学的位相は、それらの進化経路が十分に点的に近接していても、互いに劇的に異なっているという驚くべき観察に繋がる。

One milestone in quantum physics is Berry's seminal work [Proc.~R.~Soc.~Lond.~A \textbf{392}, 45 (1984)], in which a quantal phase factor known as geometric phase was discovered to solely depend on the evolution path in state space. Here, we unveil that even an infinitesimal deviation of the initial state from the eigenstate of the initial Hamiltonian can yield a significant change of the geometric phase accompanying an adiabatic evolution. This leads to the surprising observation that two geometric phases can dramatically differ from each other even if their evolution paths are sufficiently close in a pointwise manner.
翻訳日:2023-03-07 06:29:48 公開日:2021-11-21
# uhlhorn と gleason の定理による born の法則の再検討

Revisiting Born's rule through Uhlhorn's and Gleason's theorems ( http://arxiv.org/abs/2111.10758v1 )

ライセンス: Link先を確認
Alexia Auffeves and Philippe Grangier(参考訳) 前回の記事[1]では、"Contexts, Systems and Modalities"(CSM)と呼ばれる単純な公理のセットに基づいて、Bornのルールを得る(あるいは推論する)ための議論を提示した。 このアプローチでは「緊急性」は存在しないが、量子力学の構造は量子系でアクセス可能なモーダルの量子化数と、これらのモーダル性を定義するのに必要なコンテキストの連続体との間の相互作用に起因している。 この導出とグリーソンの定理の強いつながりが強調され、csmはグリーソンの仮説の物理的正当化を提供するという主張が強調された。 ここでは、これらの仮説(異なる文脈を関連付けるためのユニタリ変換の必要性)の中で本質的なものは取り除くことができ、ウルホーンの定理の必要帰結としてよりよく見なされることを示すことによって、この結果を拡張する。

In a previous article [1] we presented an argument to obtain (or rather infer) Born's rule, based on a simple set of axioms named "Contexts, Systems and Modalities" (CSM). In this approach there is no "emergence", but the structure of quantum mechanics can be attributed to an interplay between the quantized number of modalities that are accessible to a quantum system, and the continuum of contexts that are required to define these modalities. The strong link of this derivation with Gleason's theorem was emphasized, with the argument that CSM provides a physical justification for Gleason's hypotheses. Here we extend this result by showing that an essential one among these hypotheses - the need of unitary transforms to relate different contexts - can be removed and is better seen as a necessary consequence of Uhlhorn's theorem.
翻訳日:2023-03-07 06:29:36 公開日:2021-11-21
# 高齢者のデジタル不平等

COVID Induced Digital Inequality for Senior Citizens ( http://arxiv.org/abs/2111.10745v1 )

ライセンス: Link先を確認
Nicky Qiu(参考訳) 新型コロナウイルス(COVID-19)の世界的なパンデミックは、特に新型コロナウイルスの感染拡大を抑制する技術に基づく対策の導入によって、人々の交流の仕方を根本的に変えた。 新型コロナウイルス(covid-19)の感染拡大防止策として最も厳格な措置を講じている中国は、平和的なゼロケースの期間と、感染拡大への迅速な対応で市民を保護している。 しかし、このようなモバイルベースの技術は、特に現代技術への適応が難しい高齢者にとって、犠牲となっている。 本研究では,ほとんどの高齢者が「JKM」と呼ばれる健康コードアプリを使うことが困難であるという事実を実演し,JKMの検証が必要な場所への移動を減らし,地域通勤を減らした。 このような妥協は身体的および精神的な結果をもたらし、インフラ、社会的孤立、自己充足の不平等につながる。 本稿で示したように、jkmのユーザインタラクションの改善が実現できれば、高齢者の生活品質の低下は大幅に低減できる。 私たちの知る限りでは、中国の高齢者向けのモバイルベースの新型コロナウイルス予防技術によるデジタル不平等に関する最初の体系的研究である。 同様の技術が世界中で普及するにつれて、パンデミック時代の高齢者の生活の質に、デジタル不平等がいかに影響するかを、光を当てたい。

The global pandemic of COVID-19 has fundamentally changed how people interact, especially with the introduction of technology-based measures that aim at curbing the spread of the virus. As the country that currently implements one of the tightest technology-based COVID prevention policy, China has protected its citizen with a prolonged peaceful time of zero case as well as a fast reaction to potential upsurging of the disease. However, such mobile-based technology does come with sacrifices, especially for senior citizens who find themselves difficult to adapt to modern technologies. In this study, we demonstrated the fact that most senior citizens find it difficult to use the health code apps called ''JKM'', to which they responded by cutting down on travel and reducing local commuting to locations where the verification of JKM is needed. Such compromise has physical and mental consequences and leads to inequalities in infrastructure, social isolation and self-sufficiency. As we illustrated in the paper, such decrease in life quality of senior citizens can be greatly reduced if improvements on the user interactions of the JKM can be implemented. To the best of our knowledge, we are the first systemic study of digital inequality due to mobile-based COVID prevention technologies for senior citizens in China. As similar technologies become widely adopted around the world, we wish to shed light on how widened digital inequality increasingly affects the life quality of senior citizens in the pandemic era.
翻訳日:2023-03-07 06:29:18 公開日:2021-11-21
# 非局所性を持つ弱結合場理論における量子カオス

Quantum chaos in a weakly-coupled field theory with nonlocality ( http://arxiv.org/abs/2111.10895v1 )

ライセンス: Link先を確認
Willy Fischler, Tyler Guglielmo, and Phuc Nguyen(参考訳) 非局所相互作用を持つ系のカオス的挙動を研究するために、弱結合非可換場理論を考える。 我々は、この指数的成長のラプノフ指数を大きなモヤルスケールの極限で計算し、t'Hooft結合の先頭位と1/N$とする。 この極限において、リアプノフ指数は可換の場合の指数と大差なく(かつ若干小さい)等しくなることが判明した。 これは、リャプノフ指数の赤外線感度によって説明できる。 もう一つの考えられる説明は、弱結合非可換場理論の例では、様々な熱力学量に対する非局所寄与は部分支配的であるということである。

In order to study the chaotic behavior of a system with non-local interactions, we will consider weakly coupled non-commutative field theories. We compute the Lyapunov exponent of this exponential growth in the large Moyal-scale limit to leading order in the t'Hooft coupling and $1/N$. We found that in this limit, the Lyapunov exponent remains comparable in magnitude to (and somewhat smaller than) the exponent in the commutative case. This can possibly be explained by the infrared sensitivity of the Lyapunov exponent. Another possible explanation is that in examples of weakly coupled non-commutative field theories, non-local contributions to various thermodynamic quantities are sub-dominant.
翻訳日:2023-03-07 06:26:25 公開日:2021-11-21
# 二次元マッチングの公平性と安定性について

On Fairness and Stability in Two-Sided Matchings ( http://arxiv.org/abs/2111.10885v1 )

ライセンス: Link先を確認
Gili Karni, Guy N. Rothblum, Gal Yona(参考訳) 個人に関する重要な決定を行うか、影響を及ぼすアルゴリズムが、保護されたグループを差別する結果を生み出すのではないかという懸念が高まっている。 2つのエージェントセットがあり、それぞれのエージェントがもう1つのエージェントセットよりも好みを持っている2つのサイドマーケットの文脈において、このような公平性に関する懸念について検討する。 ゴールはセット間のマッチングを生成します。 この設定は、リッチな仕事の焦点となっている。 Gale と Shapley のセミナルな研究は安定性のデシドラタムを定式化し、安定なマッチングが常に存在することを示した。 この問題は計量に基づく公正の概念(Dwork et al., Kim et al.)のレンズを通して研究する。 我々は、類似度計量の存在下での公正性と安定性の適切な定義を定式化し、次のように問う。 そのようなマッチングは多項式時間で見つかるか? 1) 古典的アルゴリズムにおける構成障害: 公平な病院選好を伴うGalle-Shapleyアルゴリズムを構成することで, 極めて不公平な結果が得られることを示す。 2)公平で安定したマッチングを見つけるための新しいアルゴリズム:我々の主な技術的貢献は、公正で安定したマッチングを見つけるための効率的な新しいアルゴリズムです。 (i)病院の好みは公平で、 (ii) フェアネス計量は強い「プロトメトリック」条件を満たす: 2人の医師間の距離は0か1である。 特に、これらのアルゴリズムは、この設定では公平性と安定性が相容れないことを示す。 3) 一般の場合における公平で安定したマッチングを見つけるための障壁: 病院の選好が不公平になり得るか、または計量が原計量条件を満たせなかった場合、自然クラスのアルゴリズムは公平で安定したマッチングを見つけることができない。 自然クラスには古典的なgale-shapleyアルゴリズムと新しいアルゴリズムが含まれています。

There are growing concerns that algorithms, which increasingly make or influence important decisions pertaining to individuals, might produce outcomes that discriminate against protected groups. We study such fairness concerns in the context of a two-sided market, where there are two sets of agents, and each agent has preferences over the other set. The goal is producing a matching between the sets. This setting has been the focus of a rich body of work. The seminal work of Gale and Shapley formulated a stability desideratum, and showed that a stable matching always exists and can be found efficiently. We study this question through the lens of metric-based fairness notions (Dwork et al., Kim et al.). We formulate appropriate definitions of fairness and stability in the presence of a similarity metric, and ask: does a fair and stable matching always exist? Can such a matching be found in polynomial time? Our contributions are as follows: (1) Composition failures for classical algorithms: We show that composing the Gale-Shapley algorithm with fair hospital preferences can produce blatantly unfair outcomes. (2) New algorithms for finding fair and stable matchings: Our main technical contributions are efficient new algorithms for finding fair and stable matchings when: (i) the hospitals' preferences are fair, and (ii) the fairness metric satisfies a strong "proto-metric" condition: the distance between every two doctors is either zero or one. In particular, these algorithms also show that, in this setting, fairness and stability are compatible. (3) Barriers for finding fair and stable matchings in the general case: We show that if the hospital preferences can be unfair, or if the metric fails to satisfy the proto-metric condition, then no algorithm in a natural class can find a fair and stable matching. The natural class includes the classical Gale-Shapley algorithms and our new algorithms.
翻訳日:2023-03-07 06:26:11 公開日:2021-11-21
# Qimaera: Idrisのタイプセーフ(可変)量子プログラミング

Qimaera: Type-safe (Variational) Quantum Programming in Idris ( http://arxiv.org/abs/2111.10867v1 )

ライセンス: Link先を確認
Liliane-Joy Dandy, Emmanuel Jeandel, Vladimir Zamdzhiev(参考訳) 変分量子アルゴリズム(英: variational quantum algorithms)は、古典量子アルゴリズムと量子量子アルゴリズムが融合して計算問題を解くアルゴリズムである。 これらのアルゴリズムは、適切なプログラミング言語の設計に興味深い課題をもたらす。 本稿では,エレガントなidris言語のフルパワーが,我々が導入する量子プログラミングプリミティブと同期して動作する(可変)量子アルゴリズムを実現するための,idris 2プログラミング言語用のライブラリセットであるqimaeraを紹介する。 これを可能にするidrisの2つの重要な要素は、(1)ユニタリ(つまり可逆性と制御可能な)量子演算を実装することができる依存型、(2)量子力学の法則に準拠することを保証する量子演算の実行に対してきめ細かい制御を強制できる線形性である。 我々は,Qimaeraが変分量子プログラミングに適していることを示し,最も顕著な2つの変分量子アルゴリズム(QAOAとVQE)の実装を提供する。 私たちの知る限りでは、型安全なフレームワークで達成されたこれらのアルゴリズムの最初の実装です。

Variational Quantum Algorithms are hybrid classical-quantum algorithms where classical and quantum computation work in tandem to solve computational problems. These algorithms create interesting challenges for the design of suitable programming languages. In this paper we introduce Qimaera, which is a set of libraries for the Idris 2 programming language that enable the programmer to implement (variational) quantum algorithms where the full power of the elegant Idris language works in synchrony with quantum programming primitives that we introduce. The two key ingredients of Idris that make this possible are (1) dependent types which allow us to implement unitary (i.e. reversible and controllable) quantum operations; and (2) linearity which allows us to enforce fine-grained control over the execution of quantum operations that ensures compliance with the laws of quantum mechanics. We demonstrate that Qimaera is suitable for variational quantum programming by providing implementations of the two most prominent variational quantum algorithms -- QAOA and VQE. To the best of our knowledge, this is the first implementation of these algorithms that has been achieved in a type-safe framework.
翻訳日:2023-03-07 06:25:42 公開日:2021-11-21
# 最適性の結果

Consequences of Optimality ( http://arxiv.org/abs/2111.10861v1 )

ライセンス: Link先を確認
Dibakar Das(参考訳) 合理性はしばしば最適な意思決定に関係している。 人間は有理なエージェントであることが知られている。 しかし、近年のコンピューティングの進歩は、大量のデータとともに、これによって人間の有界合理性の限界が拡張される可能性があると感じている。 本稿では, 計算モデルによる結果から, より多くのエージェントがグローバルな最適性(より高速)に到達し, 同じ問題を独立に解くことにより, 共通の悲劇の加速につながることを示す。 したがって、有界合理性は持続可能性の観点から偽装(同じ問題の解に対する多様性をもたらす)を祝福していると見なすことができる。

Rationality is often related to optimal decision making. Humans are known to be bounded rational agents. However, recent advances in computing along with large amount of data have led to a feeling that this could result in extending the limits of bounded rationality in humans through augmented machine intelligence. In this paper, results from a computational model show that as more agents reach global optimality (faster), solving the same problem independently, this leads to accelerated tragedy of the commons. Thus, bounded rationality could be seen as blessing in disguise (providing diversity to the solutions of same problem) from sustainability standpoint.
翻訳日:2023-03-07 06:25:21 公開日:2021-11-21
# 六方晶窒化ホウ素におけるv$_\text{b}^-$欠陥中心の励起状態スピン共鳴分光

Excited-state spin-resonance spectroscopy of V$_\text{B}^-$ defect centers in hexagonal boron nitride ( http://arxiv.org/abs/2111.10855v1 )

ライセンス: Link先を確認
Nikhil Mathur, Arunabh Mukherjee, Xingyu Gao, Jialun Luo, Brendan A. McCullian, Tongcang Li, A. Nick Vamivakas, and Gregory D. Fuchs(参考訳) 最近発見された六方晶窒化ホウ素(hBN)のスピン活性ホウ素空孔(V$_\text{B}^-$)欠陥中心は、室温で高コントラスト光検出磁気共鳴(ODMR)を持ち、量子センサーとして約束されるスピントリップ基底状態を持つ。 ここでは、軌道励起状態内のスピンをプローブするための温度依存性ODMR分光法について報告する。 実験により,2.1GHzの室温ゼロフィールド分割と基底状態と同様のg因子を含む励起状態スピンハミルトニアンが決定される。 パルスodmr測定により励起状態のスピン回転に共振が関与していることを確認し、軌道基底状態と励起状態の両方におけるゼーマンによる反交差の観測を行った。 10Kから300Kまでの1組の励起状態スピン-トリップレット共鳴の観測は、この欠陥の対称性を理解するために生じる軌道-シングレットと一致している。 さらに、励起状態のODMRは、コントラストと横異方性分裂の両方の強い温度依存性を持ち、量子センシングのための有望な経路を可能にする。

The recently discovered spin-active boron vacancy (V$_\text{B}^-$) defect center in hexagonal boron nitride (hBN) has high contrast optically-detected magnetic resonance (ODMR) at room-temperature, with a spin-triplet ground-state that shows promise as a quantum sensor. Here we report temperature-dependent ODMR spectroscopy to probe spin within the orbital excited-state. Our experiments determine the excited-state spin Hamiltonian, including a room-temperature zero-field splitting of 2.1 GHz and a g-factor similar to that of the ground-state. We confirm that the resonance is associated with spin rotation in the excited-state using pulsed ODMR measurements, and we observe Zeeman-mediated level anti-crossings in both the orbital ground- and excited-state. Our observation of a single set of excited-state spin-triplet resonance from 10 to 300 K is consistent with an orbital-singlet, which has consequences for understanding the symmetry of this defect. Additionally, the excited-state ODMR has strong temperature dependence of both contrast and transverse anisotropy splitting, enabling promising avenues for quantum sensing.
翻訳日:2023-03-07 06:25:08 公開日:2021-11-21
# 古典的および量子チューリングマシンの簡単な回路シミュレーション

Simple circuit simulations of classical and quantum Turing machines ( http://arxiv.org/abs/2111.10830v1 )

ライセンス: Link先を確認
Yuri Gurevich and Andreas Blass(参考訳) 可逆チューリングマシンを効率的にシミュレーションする可逆ブール回路を構築する。 回路とシミュレーションの証明はどちらもかなり単純である。 次に、回路のかなり簡単な一般化と量子ケースへのシミュレーション証明を与える。

We construct reversible Boolean circuits efficiently simulating reversible Turing machines. Both the circuits and the simulation proof are rather simple. Then we give a fairly straightforward generalization of the circuits and the simulation proof to the quantum case.
翻訳日:2023-03-07 06:24:42 公開日:2021-11-21
# 電気量子ドットで捕捉されたアームチェアグラフェンナノリボン中のディラックフェルミオン

Dirac fermions in armchair graphene nanoribbons trapped by electric quantum dots ( http://arxiv.org/abs/2111.10829v1 )

ライセンス: Link先を確認
Vit Jakubsky, Sengul Kuru, Javier Negro(参考訳) 我々は, 量子ドット型静電電位を用いたアルムチェアグラフェンナノリボン中のディラックフェルミオンの閉じ込めについて検討した。 特定の射影作用素を用いることで、適切な境界条件を満たすいくつかの境界状態に対する正確な解を求める。 これらの境界状態のエネルギーは、原子価と導電バンドのギャップに属するか、あるいは連続スペクトルにエネルギーが埋め込まれているBIC(境界状態)を表すことを示す。

We study the confinement of Dirac fermions in armchair graphene nanoribbons by means of a quantum-dot-type electrostatic potential. With the use of specific projection operators, we find exact solutions for some bound states that satisfy appropriate boundary conditions. We show that the energies of these bound states belong either to the gap of valence and conducting bands or they represent BIC's (bound states in the continuum) whose energies are embedded in the continuous spectrum.
翻訳日:2023-03-07 06:24:39 公開日:2021-11-21
# フライング電子スピン制御ゲート

Flying electron spin control gates ( http://arxiv.org/abs/2111.10808v1 )

ライセンス: Link先を確認
Paul L. J. Helgers, James A. H. Stotz, Haruki Sanada, Yoji Kunihashi, Klaus Biermann, and Paulo V. Santos(参考訳) フライング(または移動)スピンキュービットの制御は、チップ上のリモートロケーション間で量子情報の操作と交換を行う上で重要な機能である。 典型的には、電場または磁場に基づくゲートは、グローバルまたはよく定義された場所で制御するために必要な摂動を提供する。 ここでは、スピンとともに動く非接触ゲートを介して動く電子スピンの動的制御を実証する。 この概念は、表面音響波(SAW)によって定義された電位ドットによって閉じ込められた電子スピンを用いて実現される。 SAW振幅によって設定された電子トラップ部位のSAWひずみは、スピン軌道相互作用を介してフライングスピンの先行周波数を制御する接触のない調整可能なゲートとして機能する。 移動ドットにおける先行制御の程度は、事前に報告された非拘束輸送の結果を桁違いに上回っており、スピン軌道相互作用へのひずみ寄与に関する理論モデルによってよく説明されている。 このフライングスピンゲートは、フォトニックインタフェースを用いたオンチップスピン情報処理の鍵要素である電子スピン輸送に基づく音響駆動光偏光変調器の実現を可能にする。

The control of "flying" (or moving) spin qubits is an important functionality for the manipulation and exchange of quantum information between remote locations on a chip. Typically, gates based on electric or magnetic fields provide the necessary perturbation for their control either globally or at well-defined locations. Here, we demonstrate the dynamic control of moving electron spins via contactless gates that move together with the spin. The concept is realized using electron spins trapped and transported by moving potential dots defined by a surface acoustic wave (SAW). The SAW strain at the electron trapping site, which is set by the SAW amplitude, acts as a contactless, tunable gate that controls the precession frequency of the flying spins via the spin-orbit interaction. We show that the degree of precession control in moving dots exceeds previously reported results for unconstrained transport by an order of magnitude and is well accounted for by a theoretical model for the strain contribution to the spin-orbit interaction. This flying spin gate permits the realization of an acoustically driven optical polarization modulator based on electron spin transport, a key element for on-chip spin information processing with a photonic interface.
翻訳日:2023-03-07 06:24:31 公開日:2021-11-21
# カテゴリーレベル6次元オブジェクトマップのための標準形状空間の学習とサイズ推定

Learning Canonical Shape Space for Category-Level 6D Object Pose and Size Estimation ( http://arxiv.org/abs/2001.09322v3 )

ライセンス: Link先を確認
Dengsheng Chen and Jun Li and Zheng Wang and Kai Xu(参考訳) カテゴリレベルの6次元オブジェクトのポーズとサイズ推定に対する新しいアプローチを提案する。 クラス内形状の変動に対処するために、ある対象カテゴリの多種多様なインスタンスに対する統一表現である標準形状空間(CASS)を学習する。 特にCASSは、正規化されたポーズを持つ標準3次元形状の深部生成モデルの潜在空間としてモデル化されている。 RGBD画像から標準空間の3次元点雲を生成するための変分自動エンコーダ(VAE)を訓練する。 VAEはクロスカテゴリな方法でトレーニングされており、公開されている大きな3D形状リポジトリを活用している。 3Dポイントクラウドは(実際のサイズで)正規化されたポーズで生成されるので、VAEのエンコーダはビューファクタ化されたRGBD埋め込みを学ぶ。 RGBD画像を任意のビューで、ポーズ非依存の3D形状表現にマッピングする。 オブジェクトのポーズは、別のディープニューラルネットワークで抽出された入力RGBDのポーズ依存の特徴と対比することで推定される。 我々はCASSの学習とポーズとサイズ推定をエンドツーエンドのトレーニング可能なネットワークに統合し、最先端の性能を実現する。

We present a novel approach to category-level 6D object pose and size estimation. To tackle intra-class shape variations, we learn canonical shape space (CASS), a unified representation for a large variety of instances of a certain object category. In particular, CASS is modeled as the latent space of a deep generative model of canonical 3D shapes with normalized pose. We train a variational auto-encoder (VAE) for generating 3D point clouds in the canonical space from an RGBD image. The VAE is trained in a cross-category fashion, exploiting the publicly available large 3D shape repositories. Since the 3D point cloud is generated in normalized pose (with actual size), the encoder of the VAE learns view-factorized RGBD embedding. It maps an RGBD image in arbitrary view into a pose-independent 3D shape representation. Object pose is then estimated via contrasting it with a pose-dependent feature of the input RGBD extracted with a separate deep neural networks. We integrate the learning of CASS and pose and size estimation into an end-to-end trainable network, achieving the state-of-the-art performance.
翻訳日:2023-01-07 00:17:16 公開日:2021-11-21
# グラフ上のデータラベル付けのための代入フロー:収束と安定性

Assignment Flows for Data Labeling on Graphs: Convergence and Stability ( http://arxiv.org/abs/2002.11571v3 )

ライセンス: Link先を確認
Artjom Zern, Alexander Zeilmann, Christoph Schn\"orr(参考訳) J. Mathに最近導入された代入フロー。 Imaging and Vision 58/2 (2017) は、基本的な統計多様体上で進化し、任意の距離空間で与えられるデータの文脈ラベル付け(分類)を行う高次元力学系を構成する。 与えられたグラフの頂点はデータポイントをインデックスし、近傍のシステムを定義する。 これらの近傍と非負の重みパラメータは、情報幾何のアフィン e-接続によって引き起こされる幾何学的平均化を通じて、データポイントへのラベル割り当ての進化の正則化を定義する。 進化ゲーム力学では、代入フローは幾何平均化によって結合されるレプリカータ方程式の大きな系として特徴づけられる。 本稿では,実データを扱う場合に遭遇しない状況の無視可能なサブセットまで,連続時間割当フローの積分割当(ラベル)への収束を保証する重みパラメータの条件を定式化する。 さらに,流れの誘引者を分類し,それに対応するアトラクション盆地を定量化する。 これにより、割り当てフローの数値的幾何積分にrunge-kutta-munthe-kaasスキームを適用することによって生じる離散時間割当フローに拡張された割当フローの収束保証が得られる。 いくつかの逆例では、条件違反は文脈データ分類に関する割当フローの不利な振る舞いを伴う可能性があることを示している。

The assignment flow recently introduced in the J. Math. Imaging and Vision 58/2 (2017), constitutes a high-dimensional dynamical system that evolves on an elementary statistical manifold and performs contextual labeling (classification) of data given in any metric space. Vertices of a given graph index the data points and define a system of neighborhoods. These neighborhoods together with nonnegative weight parameters define regularization of the evolution of label assignments to data points, through geometric averaging induced by the affine e-connection of information geometry. Regarding evolutionary game dynamics, the assignment flow may be characterized as a large system of replicator equations that are coupled by geometric averaging. This paper establishes conditions on the weight parameters that guarantee convergence of the continuous-time assignment flow to integral assignments (labelings), up to a negligible subset of situations that will not be encountered when working with real data in practice. Furthermore, we classify attractors of the flow and quantify corresponding basins of attraction. This provides convergence guarantees for the assignment flow which are extended to the discrete-time assignment flow that results from applying a Runge-Kutta-Munthe-Kaas scheme for numerical geometric integration of the assignment flow. Several counter-examples illustrate that violating the conditions may entail unfavorable behavior of the assignment flow regarding contextual data classification.
翻訳日:2022-12-28 15:09:55 公開日:2021-11-21
# 歪んだテイラー級数による変分量子ギブス状態の準備

Variational quantum Gibbs state preparation with a truncated Taylor series ( http://arxiv.org/abs/2005.08797v2 )

ライセンス: Link先を確認
Youle Wang, Guangxi Li, Xin Wang(参考訳) 量子ギブス状態の準備は、量子計算の不可欠な部分であり、量子シミュレーション、量子最適化、量子機械学習など、様々な分野で広く応用されている。 本稿では,量子ギブス状態生成のための変分ハイブリッド量子古典アルゴリズムを提案する。 まず,断続テイラー級数を用いて自由エネルギーを評価し,断続自由エネルギーを損失関数として選択する。 このプロトコルはパラメータ化された量子回路を訓練し、所望の量子ギブス状態を学ぶ。 このアルゴリズムは、パラメータ化量子回路を備えた短期量子コンピュータに実装することができる。 数値実験により,イジング鎖とスピン鎖ギブス状態を95%以上の忠実度で生成するために,追加の量子ビットが1つしか持たない浅いパラメータ化回路を訓練できることが示されている。 特に、Isingチェーンモデルでは、1つのパラメータと1つの追加量子ビットしか持たない単純化された回路アンサッツをトレーニングし、2より大きい逆温度でギブス状態の99%の忠実度を実現することができる。

The preparation of quantum Gibbs state is an essential part of quantum computation and has wide-ranging applications in various areas, including quantum simulation, quantum optimization, and quantum machine learning. In this paper, we propose variational hybrid quantum-classical algorithms for quantum Gibbs state preparation. We first utilize a truncated Taylor series to evaluate the free energy and choose the truncated free energy as the loss function. Our protocol then trains the parameterized quantum circuits to learn the desired quantum Gibbs state. Notably, this algorithm can be implemented on near-term quantum computers equipped with parameterized quantum circuits. By performing numerical experiments, we show that shallow parameterized circuits with only one additional qubit can be trained to prepare the Ising chain and spin chain Gibbs states with a fidelity higher than 95%. In particular, for the Ising chain model, we find that a simplified circuit ansatz with only one parameter and one additional qubit can be trained to realize a 99% fidelity in Gibbs state preparation at inverse temperatures larger than 2.
翻訳日:2022-12-02 00:48:40 公開日:2021-11-21
# パラメータ効率の良い畳み込みニューラルネットワークのためのディープシェアフィルタベース

Deeply Shared Filter Bases for Parameter-Efficient Convolutional Neural Networks ( http://arxiv.org/abs/2006.05066v4 )

ライセンス: Link先を確認
Woochul Kang, Daeyeon Kim(参考訳) 現代の畳み込みニューラルネットワーク(CNN)は、同一の畳み込みブロックを持つため、これらのブロック間でのパラメータの再帰的共有は、パラメータの量を減らすために提案されている。 しかしながら、パラメータのナイーブな共有は、制限された表現力や再帰的共有パラメータの消滅/爆発勾配問題など多くの課題をもたらす。 本稿では,再帰的に共有可能な部分,あるいはフィルタベースを分離して学習し,学習中に消失・爆発する勾配問題を効果的に回避する再帰的畳み込みブロック設計・訓練手法を提案する。 フィルタ基底の要素を正則に強制することにより, 勾配問題を制御できることを示し, 提案した直交正規化がトレーニング中の勾配の流れを改善することを実証的に示す。 画像分類とオブジェクト検出実験の結果,従来のパラメータ共有手法と異なり,性能をトレードオフしてパラメータを保存せず,過パラメータ化ネットワークを一貫して上回っていることがわかった。 この優れた性能は、提案する再帰的畳み込みブロック設計と直交性正規化が性能低下を防ぐだけでなく、かなりの量のパラメータを再帰的に共有しながら一貫して表現能力を向上させることを示している。

Modern convolutional neural networks (CNNs) have massive identical convolution blocks, and, hence, recursive sharing of parameters across these blocks has been proposed to reduce the amount of parameters. However, naive sharing of parameters poses many challenges such as limited representational power and the vanishing/exploding gradients problem of recursively shared parameters. In this paper, we present a recursive convolution block design and training method, in which a recursively shareable part, or a filter basis, is separated and learned while effectively avoiding the vanishing/exploding gradients problem during training. We show that the unwieldy vanishing/exploding gradients problem can be controlled by enforcing the elements of the filter basis orthonormal, and empirically demonstrate that the proposed orthogonality regularization improves the flow of gradients during training. Experimental results on image classification and object detection show that our approach, unlike previous parameter-sharing approaches, does not trade performance to save parameters and consistently outperforms overparameterized counterpart networks. This superior performance demonstrates that the proposed recursive convolution block design and the orthogonality regularization not only prevent performance degradation, but also consistently improve the representation capability while a significant amount of parameters are recursively shared.
翻訳日:2022-11-23 14:47:07 公開日:2021-11-21
# 既知の単語を用いた単語の学習:子ども語彙発達の分布分析

Using Known Words to Learn More Words: A Distributional Analysis of Child Vocabulary Development ( http://arxiv.org/abs/2009.06810v2 )

ライセンス: Link先を確認
Andrew Z. Flores, Jessica Montag, Jon Willits(参考訳) 子どもたちはなぜ他の人より先に言葉を学ぶのか? 子ども間の個人的変動性や単語間の変動性を理解することは、言語学習の根底にある学習プロセスに有益かもしれない。 子指向音声の大きなコーパスから派生した分布統計の語彙特性を用いた語彙発達におけるアイテムベース変動について検討した。 従来の分析と異なり、単語の軌跡を横断的に予測し、単一の時点では明らかでない語彙発達の傾向に光を当てた。 また, 一つの年齢群を見るか, 年齢全体を見るか, 子どもが単語を知っているかの分布的予測は, その単語が共起する傾向のある他の既知の単語の数であることを示す。 キーワード:取得年齢、語彙発達、語彙多様性、子供指向のスピーチ

Why do children learn some words before others? Understanding individual variability across children and also variability across words, may be informative of the learning processes that underlie language learning. We investigated item-based variability in vocabulary development using lexical properties of distributional statistics derived from a large corpus of child-directed speech. Unlike previous analyses, we predicted word trajectories cross-sectionally, shedding light on trends in vocabulary development that may not have been evident at a single time point. We also show that whether one looks at a single age group or across ages as a whole, the best distributional predictor of whether a child knows a word is the number of other known words with which that word tends to co-occur. Keywords: age of acquisition; vocabulary development; lexical diversity; child-directed speech;
翻訳日:2022-10-18 06:34:40 公開日:2021-11-21
# 簡易近傍代表前処理による異常検知器の促進

Simple Neighborhood Representative Pre-processing Boosts Outlier Detectors ( http://arxiv.org/abs/2010.12061v2 )

ライセンス: Link先を確認
Jiawei Yang, Yu Chen, Sylwan Rahardja(参考訳) 何十年もの間、従来の外れ値検出器は、データ中のオブジェクトの外れ値のスコアを計算する際に、オブジェクトレベルの要素のみを評価することで、集団の外れ値の取得を怠った。 そこで本研究では,既存の異常値検出器に対して,集団異常値を含む異常値を効率的に検出する手法であるneighborion representative (nr)を提案する。 代表オブジェクトを選択してこれらのオブジェクトをスコア付けし、代表オブジェクトのスコアを集合オブジェクトに適用することでこれを達成する。 既存の検出器を変更することなく、NRは既存の検出器と互換性があり、最先端の外部検出器と比較して、+8%(0.72から0.78AUC)で実世界のデータセットの性能を改善している。

Over the decades, traditional outlier detectors have ignored the group-level factor when calculating outlier scores for objects in data by evaluating only the object-level factor, failing to capture the collective outliers. To mitigate this issue, we present a method called neighborhood representative (NR), which empowers all the existing outlier detectors to efficiently detect outliers, including collective outliers, while maintaining their computational integrity. It achieves this by selecting representative objects, scoring these objects, then applies the score of the representative objects to its collective objects. Without altering existing detectors, NR is compatible with existing detectors, while improving performance on real world datasets with +8% (0.72 to 0.78 AUC) relative to state-of-the-art outlier detectors.
翻訳日:2022-10-08 13:06:32 公開日:2021-11-21
# Grad-CAMの代わりにHiResCAMを用いる畳み込みニューラルネットワークの忠実な説明

Use HiResCAM instead of Grad-CAM for faithful explanations of convolutional neural networks ( http://arxiv.org/abs/2011.08891v4 )

ライセンス: Link先を確認
Rachel Lea Draelos, Lawrence Carin(参考訳) 説明手法は、意味のある概念を学習し、スプリアス相関を利用するのを避けるモデルの開発を促進する。 勾配平均化ステップの副作用として、Grad-CAMはモデルが実際に使用していない場所を強調することがある。 この問題を解決するため,我々は,モデルが各予測に使用する場所のみを強調表示できる,新しいクラス固有の説明手法であるhirescamを提案する。 我々は、HiResCAMがCAMの一般化であり、HiResCAMと他の勾配に基づく説明法との関係を探求する。 クラウドソースによる評価を含むPASCAL VOC 2012の実験では、HiResCAMの説明がモデルを忠実に反映している一方で、Grad-CAMはより大きく滑らかな可視化を作成するために注意を拡大することが多い。 全体として、この研究は畳み込みニューラルネットワークの説明アプローチを前進させ、センシティブなアプリケーションのための信頼できるモデルの開発を支援する可能性がある。

Explanation methods facilitate the development of models that learn meaningful concepts and avoid exploiting spurious correlations. We illustrate a previously unrecognized limitation of the popular neural network explanation method Grad-CAM: as a side effect of the gradient averaging step, Grad-CAM sometimes highlights locations the model did not actually use. To solve this problem, we propose HiResCAM, a novel class-specific explanation method that is guaranteed to highlight only the locations the model used to make each prediction. We prove that HiResCAM is a generalization of CAM and explore the relationships between HiResCAM and other gradient-based explanation methods. Experiments on PASCAL VOC 2012, including crowd-sourced evaluations, illustrate that while HiResCAM's explanations faithfully reflect the model, Grad-CAM often expands the attention to create bigger and smoother visualizations. Overall, this work advances convolutional neural network explanation approaches and may aid in the development of trustworthy models for sensitive applications.
翻訳日:2022-09-24 16:29:24 公開日:2021-11-21
# すべてを測定するためのメトリクス:視覚的検出タスクを評価するローカライゼーションリコール精度(LRP)

One Metric to Measure them All: Localisation Recall Precision (LRP) for Evaluating Visual Detection Tasks ( http://arxiv.org/abs/2011.10772v3 )

ライセンス: Link先を確認
Kemal Oksuz and Baris Can Cam and Sinan Kalkan and Emre Akbas(参考訳) 視覚検出タスクのパフォーマンス指標として広く使用されているが、平均精度(AP)は制限されている。 (i)ローカライゼーションの質を反映する (ii)解釈可能性及び (iii)その計算に関する設計上の選択に対する堅牢性、及び信頼度スコアのない出力への適用性。 panoptic quality (pq)は、panoptic segmentation (kirillov et al., 2019)を評価するための尺度であり、これらの制限に苦しむのではなく、panoptic segmentationに限定されている。 本稿では,所定の信頼度スコア閾値に対する局所化と分類品質の両方に基づいて算出された視覚検出器の平均マッチング誤差として局所化リコール精度(lrp)誤差を提案する。 LRP Error は当初 Oksuz et al. (2018) によるオブジェクト検出のためだけに提案されていたが、上記の制限に悩まされておらず、全ての視覚検出タスクに適用できる。 また, 最適LRP誤差(oLRP)を, 信頼度で得られた最小LRP誤差として導入し, 視覚検出器の評価を行い, 配置の最適しきい値を求める。 我々は,AP と PQ を用いた LRP Error の詳細な比較分析を行い,オブジェクト検出,キーポイント検出,インスタンスセグメンテーション,汎視的セグメンテーション,視覚的関係検出,ゼロショット検出,一般化ゼロショット検出)7つの視覚的タスクから,100近い最先端の視覚検出器を用いて,LRP Error がよりリッチで差別的な情報を提供することを示す。 https://github.com/kemaloksuz/LRP-Error

Despite being widely used as a performance measure for visual detection tasks, Average Precision (AP) is limited in (i) reflecting localisation quality, (ii) interpretability and (iii) robustness to the design choices regarding its computation, and its applicability to outputs without confidence scores. Panoptic Quality (PQ), a measure proposed for evaluating panoptic segmentation (Kirillov et al., 2019), does not suffer from these limitations but is limited to panoptic segmentation. In this paper, we propose Localisation Recall Precision (LRP) Error as the average matching error of a visual detector computed based on both its localisation and classification qualities for a given confidence score threshold. LRP Error, initially proposed only for object detection by Oksuz et al. (2018), does not suffer from the aforementioned limitations and is applicable to all visual detection tasks. We also introduce Optimal LRP (oLRP) Error as the minimum LRP Error obtained over confidence scores to evaluate visual detectors and obtain optimal thresholds for deployment. We provide a detailed comparative analysis of LRP Error with AP and PQ, and use nearly 100 state-of-the-art visual detectors from seven visual detection tasks (i.e. object detection, keypoint detection, instance segmentation, panoptic segmentation, visual relationship detection, zero-shot detection and generalised zero-shot detection) using ten datasets to empirically show that LRP Error provides richer and more discriminative information than its counterparts. Code available at: https://github.com/kemaloksuz/LRP-Error
翻訳日:2022-09-22 23:24:39 公開日:2021-11-21
# 偽ニュース検出ツールと方法 -- レビュー

Fake News Detection Tools and Methods -- A Review ( http://arxiv.org/abs/2112.11185v1 )

ライセンス: Link先を確認
Sakshini Hangloo and Bhavna Arora(参考訳) 過去10年間で、Facebook、Twitter、Instagram、Weiboなどのソーシャルネットワークプラットフォームやマイクロブログサイトは、私たちの日々の活動の不可欠な部分となり、何十億ものユーザーが自分のビューを共有し、メッセージ、写真、ビデオの形で情報を流すために世界中で利用されている。 これらは政府機関が、認証済みのFacebookアカウントや公式Twitterハンドルを通じて重要な情報を広めるためにも使われている。 しかし、プロパガンダやうわさといった詐欺行為の多くは、ユーザーを毎日誤解させる可能性がある。 新型コロナウイルスの時代には、偽ニュースや噂が非常に広まり、この厳しい時期に混乱を引き起こした膨大な数で共有されている。 したがって、現在のシナリオではフェイクニュース検出の必要性は避けられない。 本稿では,インターネット上での偽ニュースの検出方法に関する最近の文献を調査した。 特に、まず、文献で検討されている偽ニュースと偽ニュースに関連する様々な用語について論じる。 第2に、Fake Newsをリアルタイムでデバンクできる、公開可能なさまざまなデータセットとさまざまなオンラインツールを強調します。 第3に,2つの領域,すなわち内容と社会的文脈に基づく偽ニュース検出手法について述べる。 最後に,フェイクニュースの除去に使用される各種手法の比較を行った。

In the past decade, the social networks platforms and micro-blogging sites such as Facebook, Twitter, Instagram, and Weibo have become an integral part of our day-to-day activities and is widely used all over the world by billions of users to share their views and circulate information in the form of messages, pictures, and videos. These are even used by government agencies to spread important information through their verified Facebook accounts and official Twitter handles, as they can reach a huge population within a limited time window. However, many deceptive activities like propaganda and rumor can mislead users on a daily basis. In these COVID times, fake news and rumors are very prevalent and are shared in a huge number which has created chaos in this tough time. And hence, the need for Fake News Detection in the present scenario is inevitable. In this paper, we survey the recent literature about different approaches to detect fake news over the Internet. In particular, we firstly discuss fake news and the various terms related to it that have been considered in the literature. Secondly, we highlight the various publicly available datasets and various online tools that are available and can debunk Fake News in real-time. Thirdly, we describe fake news detection methods based on two broader areas i.e., its content and the social context. Finally, we provide a comparison of various techniques that are used to debunk fake news.
翻訳日:2021-12-26 13:15:53 公開日:2021-11-21
# 解釈可能なCNN-LSTMモデルを用いた単一チャネル脳波の主観非依存性認識

Subject-Independent Drowsiness Recognition from Single-Channel EEG with an Interpretable CNN-LSTM model ( http://arxiv.org/abs/2112.10894v1 )

ライセンス: Link先を確認
Jian Cui, Zirui Lan, Tianhu Zheng, Yisi Liu, Olga Sourina, Lipo Wang, Wolfgang M\"uller-Wittig(参考訳) 脳波に基づく眠気認識では,各被験者のキャリブレーションが時間を要するため,被検者に依存しない認識が望ましい。 本稿では,単一チャネル脳波信号からの主観的非依存性認識のための新しい畳み込みニューラルネットワーク (CNN)-Long Short-Term Memory (LSTM) モデルを提案する。 主にブラックボックス分類器として扱われる既存のディープラーニングモデルとは異なり、提案モデルでは、サンプルのどの部分が分類モデルによって識別される重要な特徴を含んでいるかを明らかにすることにより、各入力サンプルの判断を説明することができる。 これはLSTM層が出力する隠れ状態を利用する可視化技術によって実現される。 その結果、従来の55.42%-69.27%のベースライン法と最先端のディープラーニング法よりも高い公立データセットにおいて、11人の被験者に対して平均72.97%の精度が得られた。 可視化の結果、モデルでは、異なる被験者の異なる精神状態に関連する脳波信号の有意義なパターンが発見された。

For EEG-based drowsiness recognition, it is desirable to use subject-independent recognition since conducting calibration on each subject is time-consuming. In this paper, we propose a novel Convolutional Neural Network (CNN)-Long Short-Term Memory (LSTM) model for subject-independent drowsiness recognition from single-channel EEG signals. Different from existing deep learning models that are mostly treated as black-box classifiers, the proposed model can explain its decisions for each input sample by revealing which parts of the sample contain important features identified by the model for classification. This is achieved by a visualization technique by taking advantage of the hidden states output by the LSTM layer. Results show that the model achieves an average accuracy of 72.97% on 11 subjects for leave-one-out subject-independent drowsiness recognition on a public dataset, which is higher than the conventional baseline methods of 55.42%-69.27%, and state-of-the-art deep learning methods. Visualization results show that the model has discovered meaningful patterns of EEG signals related to different mental states across different subjects.
翻訳日:2021-12-26 13:15:15 公開日:2021-11-21
# (参考訳) isomer: アスペクトに基づく感情分類のための2チャネル不均一依存注意ネットワーク

Isomer: Transfer enhanced Dual-Channel Heterogeneous Dependency Attention Network for Aspect-based Sentiment Classification ( http://arxiv.org/abs/2112.03011v1 )

ライセンス: CC BY 4.0
Yukun Cao and Yijia Tang and Ziyue Wei and ChengKun Jin and Zeyu Miao and Yixin Fang and Haizhou Du and Feifei Xu(参考訳) アスペクトベース感情分類は、文中の特定のアスペクトの感情極性を予測することを目的としている。 しかし、既存のほとんどのメソッドは、短文の包括的文脈化特徴をカバーできない、あるいは追加のノードタイプや意味関係情報を考えることができない疎明さと曖昧さを持つ均質な依存関係グラフへの依存関係関係の構築を試みる。 これらの問題を解決するために,外部知識を組み込んだ不均質な依存グラフに対して2チャネルの注意を向け,他の追加情報を効果的に統合する isomer という感情分析モデルを提案する。 具体的には、異種依存グラフを用いて短いテキストをモデル化するために、異種依存注意ネットワークをアイソマーで考案した。 これらの異種依存グラフは、異なる種類の情報だけでなく、外部知識も含んでいる。 実験により,本モデルがベンチマークデータセットの最近のモデルよりも優れていることが示された。 さらに,提案手法は,情報的文脈的単語に焦点をあてる様々な情報特徴の重要性を捉えていることが示唆された。

Aspect-based sentiment classification aims to predict the sentiment polarity of a specific aspect in a sentence. However, most existing methods attempt to construct dependency relations into a homogeneous dependency graph with the sparsity and ambiguity, which cannot cover the comprehensive contextualized features of short texts or consider any additional node types or semantic relation information. To solve those issues, we present a sentiment analysis model named Isomer, which performs a dual-channel attention on heterogeneous dependency graphs incorporating external knowledge, to effectively integrate other additional information. Specifically, a transfer-enhanced dual-channel heterogeneous dependency attention network is devised in Isomer to model short texts using heterogeneous dependency graphs. These heterogeneous dependency graphs not only consider different types of information but also incorporate external knowledge. Experiments studies show that our model outperforms recent models on benchmark datasets. Furthermore, the results suggest that our method captures the importance of various information features to focus on informative contextual words.
翻訳日:2021-12-12 18:14:46 公開日:2021-11-21
# 顔表情と頭部電位推定に基づく感情学習システムのカスタマイズ

Customizing an Affective Tutoring System Based on Facial Expression and Head Pose Estimation ( http://arxiv.org/abs/2111.14262v1 )

ライセンス: Link先を確認
Mahdi Pourmirzaei, Gholam Ali Montazer, Ebrahim Mousavi(参考訳) 近年,eラーニングの主な問題は,コンテンツの分析から知能学習システム(ITS)による学習環境のパーソナライズへと移行している。 したがって、パーソナライズされた教育モデルを設計することで、学習者は学習目標を達成する上で成功し満足できる経験を得られる。 Affective Tutoring Systems (ATSs)は、学習者の感情状態を認識して反応できるITSの一種である。 本研究では,顔の感情認識,頭部ポーズ推定,学習者の認知スタイルに基づいて,学習環境をパーソナライズするシステムの設計,実装,評価を行った。 まず、AI(Intelligent Analyzer)と呼ばれるユニットが、学習者の表情と頭部角を認識する責任を負った。 次にATSは主にITS、IAの2つのユニットで構成された。 その結果、ATSでは、参加者はテストに合格する労力が少なかった。 言い換えれば、IAユニットが活性化されたとき、学習者はIAユニットが非活性化された者よりも、最終テストを少ない試行で通過することができる。 また,平均通算得点と学業満足度の観点からも改善が見られた。

In recent years, the main problem in e-learning has shifted from analyzing content to personalization of learning environment by Intelligence Tutoring Systems (ITSs). Therefore, by designing personalized teaching models, learners are able to have a successful and satisfying experience in achieving their learning goals. Affective Tutoring Systems (ATSs) are some kinds of ITS that can recognize and respond to affective states of learner. In this study, we designed, implemented, and evaluated a system to personalize the learning environment based on the facial emotions recognition, head pose estimation, and cognitive style of learners. First, a unit called Intelligent Analyzer (AI) created which was responsible for recognizing facial expression and head angles of learners. Next, the ATS was built which mainly made of two units: ITS, IA. Results indicated that with the ATS, participants needed less efforts to pass the tests. In other words, we observed when the IA unit was activated, learners could pass the final tests in fewer attempts than those for whom the IA unit was deactivated. Additionally, they showed an improvement in terms of the mean passing score and academic satisfaction.
翻訳日:2021-12-06 01:22:45 公開日:2021-11-21
# 適応学習型ニューラルネットワークを用いた非線形土木構造物の動的解析

Dynamic Analysis of Nonlinear Civil Engineering Structures using Artificial Neural Network with Adaptive Training ( http://arxiv.org/abs/2111.13759v1 )

ライセンス: Link先を確認
Xiao Pan, Zhizhao Wen, T.Y. Yang(参考訳) 地震励起を受ける構造物の動的解析は、特に、非常に小さな時間ステップを必要とする場合や、高い幾何学的および物質的非線形性が存在する場合において、時間を要する過程である。 このようなケースでパラメトリックな研究を行うのは、さらに面倒です。 近年のコンピュータグラフィックスハードウェアの進歩により、高非線形マッピングを学習できることで知られる人工ニューラルネットワークの効率的なトレーニングが可能になる。 本研究では,ニューラルネットワークを適応学習アルゴリズムで構築し,ノードの自動生成とレイヤの追加を可能にする。 活性化機能として双曲タンジェント関数が選択される。 確率勾配DescentとBack Propagationアルゴリズムがネットワークのトレーニングに採用されている。 ニューラルネットワークは、少数の隠れた層とノードで開始する。 トレーニング中、ネットワークのパフォーマンスは継続的に追跡され、ニューラルネットワークのキャパシティに達すると、隠れた層に新しいノードやレイヤが追加される。 トレーニングプロセスの終了時に、適切なアーキテクチャを持つネットワークが自動的に形成される。 ネットワークの性能は、非弾性せん断フレームやロッキング構造で検証されており、どちらも最初に有限要素プログラムで構築され、動的解析によってトレーニングデータを生成する。 その結果, 開発したネットワークは, 実測地記録により, せん断フレームと岩石構造物の時空応答を良好に予測できることがわかった。 提案したニューラルネットワークの効率についても検討し、FEモデルよりもニューラルネットワーク法により計算時間を43%削減できることを示した。 このことは、トレーニングされたネットワークを利用して、より効率的に構造物の揺らぎスペクトルを生成できることを示している。

Dynamic analysis of structures subjected to earthquake excitation is a time-consuming process, particularly in the case of extremely small time step required, or in the presence of high geometric and material nonlinearity. Performing parametric studies in such cases is even more tedious. The advancement of computer graphics hardware in recent years enables efficient training of artificial neural networks that are well-known to be capable of learning highly nonlinear mappings. In this study, artificial neural networks are developed with adaptive training algorithms, which enables automatic nodes generation and layers addition. The hyperbolic tangent function is selected as the activation function. Stochastic Gradient Descent and Back Propagation algorithms are adopted to train the networks. The neural networks initiate with a small number of hidden layers and nodes. During training, the performance of the network is continuously tracked, and new nodes or layers are added to the hidden layers if the neural network reaches its capacity. At the end of the training process, the network with appropriate architecture is automatically formed. The performance of the networks has been validated for inelastic shear frames, as well as rocking structures, of which both are first built in finite element program for dynamic analysis to generate training data. Results have shown the developed networks can successfully predict the time-history response of the shear frame and the rock structure subjected to real ground motion records. The efficiency of the proposed neural networks is also examined, which shows the computational time can be reduced by 43% by the neural networks method than FE models. This indicates the trained networks can be utilized to generate rocking spectrums of structures more efficiently which demands a large number of time-history analyses.
翻訳日:2021-12-06 01:22:27 公開日:2021-11-21
# 複数の受信者によるダイレクトメッセージネットワークのモデリング

Modelling Direct Messaging Networks with Multiple Recipients for Cyber Deception ( http://arxiv.org/abs/2111.11932v1 )

ライセンス: Link先を確認
Kristen Moore, Cody J. Christopher, David Liebowitz, Surya Nepal, Renee Selvey(参考訳) サイバー詐欺は、ネットワークやシステムを攻撃者やデータ泥棒から守るための有望なアプローチとして浮上している。 しかし、デプロイが比較的安価であるにもかかわらず、リッチでインタラクティブな偽装技術が主に手作りであるという事実から、大規模な現実的なコンテンツの生成は非常にコストがかかる。 最近の機械学習の改善により、リアルで魅惑的なシミュレートコンテンツの作成にスケールと自動化をもたらす機会が得られました。 本研究では,電子メールとインスタントメッセージ形式のグループ通信を大規模に自動生成するフレームワークを提案する。 組織内のこのようなメッセージングプラットフォームには、プライベートなコミュニケーションやドキュメント添付ファイルの中に多くの貴重な情報が含まれており、敵を魅了するターゲットとなっている。 このタイプのシステムをシミュレートする2つの重要な側面に対処します。参加者がいつ誰とコミュニケーションするかをモデル化し、シミュレートされた会話スレッドを投入するためにトピック付きマルチパーティテキストを生成します。 本稿では,lognormmix-netの時間的点過程を,shchurらによるインテンシティフリーモデリングアプローチに基づいて,その最初のアプローチとして提示する。 ~\cite{shchur2019intensity} ユニキャストおよびマルチキャスト通信のための生成モデルを作成する。 我々は,マルチパーティ会話スレッドを生成するために,微調整,事前訓練された言語モデルを用いることを実証する。 ライブメールサーバは、LogNormMix-Net TPP(通信タイムスタンプ、送信者および受信者を生成する)を言語モデルと結合し、マルチパーティの電子メールスレッドの内容を生成することでシミュレートされる。 本研究では,多くの現実主義的特性に対して生成されたコンテンツを評価し,モデルが相手の注意を惹きつけるコンテンツを生成することを奨励し,騙しの結果を得る。

Cyber deception is emerging as a promising approach to defending networks and systems against attackers and data thieves. However, despite being relatively cheap to deploy, the generation of realistic content at scale is very costly, due to the fact that rich, interactive deceptive technologies are largely hand-crafted. With recent improvements in Machine Learning, we now have the opportunity to bring scale and automation to the creation of realistic and enticing simulated content. In this work, we propose a framework to automate the generation of email and instant messaging-style group communications at scale. Such messaging platforms within organisations contain a lot of valuable information inside private communications and document attachments, making them an enticing target for an adversary. We address two key aspects of simulating this type of system: modelling when and with whom participants communicate, and generating topical, multi-party text to populate simulated conversation threads. We present the LogNormMix-Net Temporal Point Process as an approach to the first of these, building upon the intensity-free modeling approach of Shchur et al.~\cite{shchur2019intensity} to create a generative model for unicast and multi-cast communications. We demonstrate the use of fine-tuned, pre-trained language models to generate convincing multi-party conversation threads. A live email server is simulated by uniting our LogNormMix-Net TPP (to generate the communication timestamp, sender and recipients) with the language model, which generates the contents of the multi-party email threads. We evaluate the generated content with respect to a number of realism-based properties, that encourage a model to learn to generate content that will engage the attention of an adversary to achieve a deception outcome.
翻訳日:2021-11-24 17:22:14 公開日:2021-11-21
# (参考訳) pac学習用一様エルゴード通信ネットワーク

PAC-Learning Uniform Ergodic Communicative Networks ( http://arxiv.org/abs/2111.10708v1 )

ライセンス: CC BY 4.0
Yihan He(参考訳) 本研究は,頂点間の通信でネットワークを学習する問題に対処する。 頂点間の通信は測度上の摂動という形で提示される。 本研究では,一様エルゴディックなランダムグラフプロセス(RGP)からサンプルを抽出し,興味のある問題に対する自然な数学的文脈を提供するシナリオについて検討した。 二元分類問題において, 得られた結果は一様学習可能性を与え, 最悪の場合の理論的限界となる。 私たちは構造的ラデマッハの複雑さを導入し、vc理論に自然に融合して最初の瞬間を上向きにした。 martingale法とmartonのカップリングにより、一様収束のためのテールバウンドを確立し、経験的リスク最小化のための一貫性を保証する。 この研究で高確率境界を得るために用いられる技術は、ネットワーク構造を伴わずに他の混合プロセスに独立した関心を持つ。

This work addressed the problem of learning a network with communication between vertices. The communication between vertices is presented in the form of perturbation on the measure. We studied the scenario where samples are drawn from a uniform ergodic Random Graph Process (RGPs for short), which provides a natural mathematical context for the problem of interest. For the binary classification problem, the result we obtained gives uniform learn-ability as the worst-case theoretical limits. We introduced the structural Rademacher complexity, which naturally fused into the VC theory to upperbound the first moment. With the martingale method and Marton's coupling, we establish the tail bound for uniform convergence and give consistency guarantee for empirical risk minimizer. The technique used in this work to obtain high probability bounds is of independent interest to other mixing processes with and without network structure.
翻訳日:2021-11-24 10:00:36 公開日:2021-11-21
# (参考訳) エネルギー変動推論による低差分点

Low-Discrepancy Points via Energetic Variational Inference ( http://arxiv.org/abs/2111.10722v1 )

ライセンス: CC BY 4.0
Yindong Chen, Yiwei Wang, Lulu Kang, Chun Liu(参考訳) 本稿では,最大平均偏差(mmd)として知られるカーネル偏差を最小化することにより,決定論的変分推論手法を提案し,低差点を生成する。 Wangらによる一般的なエネルギー的変動推論フレームワークに基づく。 al. (2021) では、カーネルの不一致を最小限に抑え、明示的なオイラースキームによって動的ODEシステムを解く。 得られたアルゴリズムをEVI-MMDと命名し、対象分布が完全に特定され、正規化定数まで部分的に特定され、訓練データの形で実証的に知られている例を通して示す。 その性能は、分布近似、数値積分、生成学習の応用における代替手法と比較して満足できる。 EVI-MMDアルゴリズムは既存のMDD-Descentアルゴリズムのボトルネックを克服する。 より洗練された構造と潜在的な利点を持つアルゴリズムは、EVIフレームワークの下で開発することができる。

In this paper, we propose a deterministic variational inference approach and generate low-discrepancy points by minimizing the kernel discrepancy, also known as the Maximum Mean Discrepancy or MMD. Based on the general energetic variational inference framework by Wang et. al. (2021), minimizing the kernel discrepancy is transformed to solving a dynamic ODE system via the explicit Euler scheme. We name the resulting algorithm EVI-MMD and demonstrate it through examples in which the target distribution is fully specified, partially specified up to the normalizing constant, and empirically known in the form of training data. Its performances are satisfactory compared to alternative methods in the applications of distribution approximation, numerical integration, and generative learning. The EVI-MMD algorithm overcomes the bottleneck of the existing MMD-descent algorithms, which are mostly applicable to two-sample problems. Algorithms with more sophisticated structures and potential advantages can be developed under the EVI framework.
翻訳日:2021-11-24 09:34:38 公開日:2021-11-21
# (参考訳) MaIL:イメージセグメンテーションの参照のための統一マスク画像言語トリモーダルネットワーク

MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation ( http://arxiv.org/abs/2111.10747v1 )

ライセンス: CC BY 4.0
Zizhang Li, Mengmeng Wang, Jianbiao Mei, Yong Liu(参考訳) 参照画像セグメント化は、与えられた言語表現で記述された参照のためのバイナリマスクを生成することを目的とした、典型的なマルチモーダルタスクである。 プリエントアーツはバイモーダルソリューションを採用し、エンコーダ-フュージョン-デコーダパイプライン内でイメージと言語を2つのモダリティとして扱う。 しかしながら、このパイプラインは2つの理由から、ターゲットタスクのサブ最適化である。 まず、ユニモーダルエンコーダが生成するハイレベルな機能を別々に融合するだけで、十分なクロスモーダル学習を妨げる。 第二に、ユニモーダルエンコーダは独立してプリトレーニングされ、プリトレーニングされたユニモーダルタスクとターゲットのマルチモーダルタスクとの間の不整合をもたらす。 さらに、このパイプラインは直感的に有用なインスタンスレベルの機能を無視するか、ほとんど利用しないことが多い。 これらの問題を解消するため、より簡潔なエンコーダデコーダパイプラインであるMaILと、Mask-Image-Language トリモーダルエンコーダを提案する。 具体的には、一様特徴抽出器とその融合モデルを深いモーダル相互作用エンコーダに統合し、異なるモーダル間の十分な特徴相互作用を容易にする。 一方、MaILは、ユニモーダルエンコーダがもはや不要であるため、第2の制限を直接回避する。 さらに,インスタンスレベルの特徴を明示的に強調し,より細かなセグメンテーション結果を促進する,追加のモダリティとしてインスタンスマスクを導入することを提案する。 提案されたMaILは、RefCOCO、RefCOCO+、G-Refを含む、頻繁に使用されるすべての参照イメージセグメンテーションデータセットに対して、新たな最先端のデータセットを設定した。 コードはまもなくリリースされる。

Referring image segmentation is a typical multi-modal task, which aims at generating a binary mask for referent described in given language expressions. Prior arts adopt a bimodal solution, taking images and languages as two modalities within an encoder-fusion-decoder pipeline. However, this pipeline is sub-optimal for the target task for two reasons. First, they only fuse high-level features produced by uni-modal encoders separately, which hinders sufficient cross-modal learning. Second, the uni-modal encoders are pre-trained independently, which brings inconsistency between pre-trained uni-modal tasks and the target multi-modal task. Besides, this pipeline often ignores or makes little use of intuitively beneficial instance-level features. To relieve these problems, we propose MaIL, which is a more concise encoder-decoder pipeline with a Mask-Image-Language trimodal encoder. Specifically, MaIL unifies uni-modal feature extractors and their fusion model into a deep modality interaction encoder, facilitating sufficient feature interaction across different modalities. Meanwhile, MaIL directly avoids the second limitation since no uni-modal encoders are needed anymore. Moreover, for the first time, we propose to introduce instance masks as an additional modality, which explicitly intensifies instance-level features and promotes finer segmentation results. The proposed MaIL set a new state-of-the-art on all frequently-used referring image segmentation datasets, including RefCOCO, RefCOCO+, and G-Ref, with significant gains, 3%-10% against previous best methods. Code will be released soon.
翻訳日:2021-11-24 09:04:56 公開日:2021-11-21
# (参考訳) 注意機構を有する深層ニューラルネットワークの効率的なソフトマックス近似

Efficient Softmax Approximation for Deep Neural Networks with Attention Mechanism ( http://arxiv.org/abs/2111.10770v1 )

ライセンス: CC BY 4.0
Ihor Vasyltsov, Wooseok Chang(参考訳) ディープニューラルネットワーク(DNN)の推論速度を加速するカスタムハードウェア(HW)が急速に進歩している。 これまで、ソフトマックス層は、多層パーセプトロンや畳み込みニューラルネットワークでは比較的小さいため、DNNがHWを加速する主な関心事ではなかった。 しかし,近年のDNNでは注目機構が広く採用されているため,ソフトマックス層の実装の費用対効果が非常に重要になっている。 本稿では,ルックアップテーブル(luts)を用いてソフトマックス計算を近似する2つの手法を提案する。 入力に正規化を適用すると、ソフトマックスの数値と分母の範囲が安定であるため、LUTの必要サイズは非常に小さい(約700バイト)。 さまざまなaiタスク(オブジェクト検出,機械翻訳,感情分析,意味等価性)とdnnモデル(detr,transformer,bert)に対して,さまざまなベンチマーク(coco17,wmt14,wmt17,glue)を用いて提案手法を検証する。 8ビット近似により、許容精度の損失が$1.0\%$以下になることを示した。

There has been a rapid advance of custom hardware (HW) for accelerating the inference speed of deep neural networks (DNNs). Previously, the softmax layer was not a main concern of DNN accelerating HW, because its portion is relatively small in multi-layer perceptron or convolutional neural networks. However, as the attention mechanisms are widely used in various modern DNNs, a cost-efficient implementation of softmax layer is becoming very important. In this paper, we propose two methods to approximate softmax computation, which are based on the usage of LookUp Tables (LUTs). The required size of LUT is quite small (about 700 Bytes) because ranges of numerators and denominators of softmax are stable if normalization is applied to the input. We have validated the proposed technique over different AI tasks (object detection, machine translation, sentiment analysis, and semantic equivalence) and DNN models (DETR, Transformer, BERT) by a variety of benchmarks (COCO17, WMT14, WMT17, GLUE). We showed that 8-bit approximation allows to obtain acceptable accuracy loss below $1.0\%$.
翻訳日:2021-11-24 08:49:27 公開日:2021-11-21
# (参考訳) 音声認識言語は非依存か? 言語非依存音声特徴を用いた英語およびバングラ語の分析

Is Speech Emotion Recognition Language-Independent? Analysis of English and Bangla Languages using Language-Independent Vocal Features ( http://arxiv.org/abs/2111.10776v1 )

ライセンス: CC BY 4.0
Fardin Saad, Hasan Mahmud, Md. Alamin Shaheen, Md. Kamrul Hasan, Paresha Farastu(参考訳) 音声から感情を認識する言語に依存しないアプローチは、いまだに不完全で困難な課題である。 本稿では,バングラ語と英語を用いて,感情と音声の区別が言語に依存しないかどうかを評価する。 この研究では、幸福、怒り、中立、悲しみ、嫌悪、恐怖といった感情が分類された。 最初の2つはバングラ語と英語の母語ベンガル語話者によって別々に開発された。 3つ目はトロント感情音声セット(TESS)で、カナダ出身の英語話者によって開発された。 言語非依存の韻律特徴を慎重に選択し、サポートベクターマシン(svm)モデルを採用し、3つの実験を行った。 最初の実験では、3つの音声セットのパフォーマンスを個別に測定した。 続いて第2の実験を行い,音声集合を合成して分類率を記録した。 そして,第3の実験では,異なる音声セットでモデルの学習とテストを行い,認識率を測定した。 本研究は、音声感情認識(SER)が言語に依存しないことを明らかにするが、この2つの言語では嫌悪や恐怖といった感情状態を認識しながら、多少の相違がある。 さらに,非母国語話者が母国語で表現するのと同じように,言語を通して感情を伝えることを推測した。

A language agnostic approach to recognizing emotions from speech remains an incomplete and challenging task. In this paper, we used Bangla and English languages to assess whether distinguishing emotions from speech is independent of language. The following emotions were categorized for this study: happiness, anger, neutral, sadness, disgust, and fear. We employed three Emotional Speech Sets, of which the first two were developed by native Bengali speakers in Bangla and English languages separately. The third was the Toronto Emotional Speech Set (TESS), which was developed by native English speakers from Canada. We carefully selected language-independent prosodic features, adopted a Support Vector Machine (SVM) model, and conducted three experiments to carry out our proposition. In the first experiment, we measured the performance of the three speech sets individually. This was followed by the second experiment, where we recorded the classification rate by combining the speech sets. Finally, in the third experiment we measured the recognition rate by training and testing the model with different speech sets. Although this study reveals that Speech Emotion Recognition (SER) is mostly language-independent, there is some disparity while recognizing emotional states like disgust and fear in these two languages. Moreover, our investigations inferred that non-native speakers convey emotions through speech, much like expressing themselves in their native tongue.
翻訳日:2021-11-24 08:31:52 公開日:2021-11-21
# (参考訳) グラフニューラルネットワークを用いた連合型ソーシャルレコメンデーション

Federated Social Recommendation with Graph Neural Network ( http://arxiv.org/abs/2111.10778v1 )

ライセンス: CC BY 4.0
Zhiwei Liu, Liangwei Yang, Ziwei Fan, Hao Peng, Philip S. Yu(参考訳) 近年,レコメンダシステムの普及が進み,埋め込み学習によって商品に対するユーザの潜在的関心を予測するようになっている。 グラフニューラルネットワーク~(GNN)の最近の開発は、ユーザアイコングラフから埋め込みを学ぶための強力なバックボーンを持つレコメンデータシステムも提供する。 しかし、データ収集の難しさから、ユーザとイテムのインタラクションを活用することだけがコールドスタートの問題に悩まされる。 したがって、現在の取り組みは、ソーシャルレコメンデーション問題である、ユーザとイテムの相互作用によるソーシャル情報の融合を提案している。 既存の作業では、ソーシャルリンクとユーザとイテムの両方を同時に集約するためにGNNを使用している。 しかし、それらはすべて、ソーシャルリンクの集中ストレージと、ユーザのアイテムインタラクションを必要とするため、プライバシー上の懸念につながります。 さらに、General Data Protection Regulationの厳格なプライバシー保護によると、中央集権的なデータストレージは将来的には実現不可能であり、社会的レコメンデーションの分散フレームワークを推進している。 この目的のために、新しいフレームワークである \textbf{Fe}drated \textbf{So}cial recommendation with \textbf{G}raph Neural Network (FeSoG)を考案した。 まず、FeSoGは不均一性を扱うためにリレーショナルアテンションとアグリゲーションを採用する。 第二に、FeSoGはパーソナライズを保持するためにローカルデータを使用してユーザの埋め込みを推測する。 最後に、提案されたモデルは、プライバシ保護とトレーニング強化のために、アイテムサンプリングを伴う擬似ラベル技術を採用している。 3つの現実世界データセットに関する広範囲な実験は、社会的推薦とプライバシー保護の完了におけるfesogの有効性を正当化する。 社会的なレコメンデーションのための連合学習フレームワークを提案するのは,私たちの知識を最大限に活用するための最初の作業です。

Recommender systems have become prosperous nowadays, designed to predict users' potential interests in items by learning embeddings. Recent developments of the Graph Neural Networks~(GNNs) also provide recommender systems with powerful backbones to learn embeddings from a user-item graph. However, only leveraging the user-item interactions suffers from the cold-start issue due to the difficulty in data collection. Hence, current endeavors propose fusing social information with user-item interactions to alleviate it, which is the social recommendation problem. Existing work employs GNNs to aggregate both social links and user-item interactions simultaneously. However, they all require centralized storage of the social links and item interactions of users, which leads to privacy concerns. Additionally, according to strict privacy protection under General Data Protection Regulation, centralized data storage may not be feasible in the future, urging a decentralized framework of social recommendation. To this end, we devise a novel framework \textbf{Fe}drated \textbf{So}cial recommendation with \textbf{G}raph neural network (FeSoG). Firstly, FeSoG adopts relational attention and aggregation to handle heterogeneity. Secondly, FeSoG infers user embeddings using local data to retain personalization. Last but not least, the proposed model employs pseudo-labeling techniques with item sampling to protect the privacy and enhance training. Extensive experiments on three real-world datasets justify the effectiveness of FeSoG in completing social recommendation and privacy protection. We are the first work proposing a federated learning framework for social recommendation to the best of our knowledge.
翻訳日:2021-11-24 08:16:48 公開日:2021-11-21
# (参考訳) HoughCL: 集中型自己教師型学習におけるポジティブペアの発見

HoughCL: Finding Better Positive Pairs in Dense Self-supervised Learning ( http://arxiv.org/abs/2111.10794v1 )

ライセンス: CC BY 4.0
Yunsung Lee, Teakgyu Hong, Han-Cheol Cho, Junbum Cha, Seungryong Kim(参考訳) 近年,自己教師あり手法は画像レベルの表現学習において顕著な成果を示している。 それでも、イメージレベルの自己スーパービジョンは、オブジェクト検出やインスタンスセグメンテーションなどの密集した予測タスクに対して、学習表現を最適化する。 この問題に対処するため、近年、複数の自己教師付き学習手法が画像レベルのシングル埋め込みをピクセルレベルの高密度埋め込みに拡張した。 画像レベルの表現学習とは異なり、拡張の空間的変形のため、ピクセルレベルの正対をサンプリングすることは困難である。 従来の研究では、密接な埋め込みの間の歪んだ距離の類似性やしきい値の中で、勝者のすべてを使ってピクセルレベルの正対をサンプリングしていた。 しかし、これらのナイーブな手法は背景クラッタや外れ値問題で苦労することがある。 本稿では,Hough空間に基づく2つの高密度特徴間の幾何的整合性を実現するHough Contrastive Learning (HoughCL)を提案する。 HoughCLはバックグラウンドのクラッタやアウトレイラに対して堅牢性を実現する。 さらに,本手法は,ベースラインと比較して,学習可能なパラメータを加味せず,計算コストも小さめである。 提案手法は, 従来手法と比較して, 密集した微調整タスクにおいて, 優れた性能または同等の性能を示す。

Recently, self-supervised methods show remarkable achievements in image-level representation learning. Nevertheless, their image-level self-supervisions lead the learned representation to sub-optimal for dense prediction tasks, such as object detection, instance segmentation, etc. To tackle this issue, several recent self-supervised learning methods have extended image-level single embedding to pixel-level dense embeddings. Unlike image-level representation learning, due to the spatial deformation of augmentation, it is difficult to sample pixel-level positive pairs. Previous studies have sampled pixel-level positive pairs using the winner-takes-all among similarity or thresholding warped distance between dense embeddings. However, these naive methods can be struggled by background clutter and outliers problems. In this paper, we introduce Hough Contrastive Learning (HoughCL), a Hough space based method that enforces geometric consistency between two dense features. HoughCL achieves robustness against background clutter and outliers. Furthermore, compared to baseline, our dense positive pairing method has no additional learnable parameters and has a small extra computation cost. Compared to previous works, our method shows better or comparable performance on dense prediction fine-tuning tasks.
翻訳日:2021-11-24 07:50:17 公開日:2021-11-21
# (参考訳) vulcan: グラフニューラルネットワークと深層強化学習によるsteiner tree問題の解法

Vulcan: Solving the Steiner Tree Problem with Graph Neural Networks and Deep Reinforcement Learning ( http://arxiv.org/abs/2111.10810v1 )

ライセンス: CC BY 4.0
Haizhou Du and Zong Yan and Qiao Xiang and Qinqing Zhan(参考訳) グラフにおけるシュタイナー木問題(stp)は、与えられた頂点の集合を連結するグラフの最小重みの木を見つけることを目的としている。 これは古典的なNPハード組合せ最適化問題であり、多くの実世界の応用(VLSIチップ設計、輸送ネットワーク計画、無線センサーネットワークなど)がある。 多くの正確なアルゴリズムと近似アルゴリズムがSTP向けに開発されているが、それぞれ高い計算複雑性と弱い最悪の解保証に悩まされている。 ヒューリスティックアルゴリズムも開発されている。 しかし、それぞれが設計にアプリケーションドメインの知識を必要とし、特定のシナリオにのみ適合します。 最近報告された、同じnp-hard combinatorial問題の例が、同一または類似の組合せ構造を維持できるが、そのデータは主に異なるという観測結果に動機づけられ、stpの解法に機械学習技術を適用する可能性と利点について検討した。 そこで我々は,新しいグラフニューラルネットワークと深層強化学習に基づく新しいモデルVulcanを設計する。 Vulcanのコアは、高次元グラフ構造データ(すなわち、パス変更情報)を低次元ベクトル表現に変換する、新しくてコンパクトなグラフ埋め込みである。 STPインスタンスが与えられた場合、Vulcanはこの埋め込みを使用してパス関連情報をエンコードし、二重深度Qネットワーク(DDQN)に基づいた深度強化学習コンポーネントに符号化されたグラフを送信する。 STPに加えて、VulcanはSTPに還元することで、幅広いNPハード問題(SAT、MVC、X3Cなど)の解決策を見つけることができる。 Vulcanのプロトタイプを実装し、実世界および合成データセットを用いた広範囲な実験により、その有効性と効率を実証する。

Steiner Tree Problem (STP) in graphs aims to find a tree of minimum weight in the graph that connects a given set of vertices. It is a classic NP-hard combinatorial optimization problem and has many real-world applications (e.g., VLSI chip design, transportation network planning and wireless sensor networks). Many exact and approximate algorithms have been developed for STP, but they suffer from high computational complexity and weak worst-case solution guarantees, respectively. Heuristic algorithms are also developed. However, each of them requires application domain knowledge to design and is only suitable for specific scenarios. Motivated by the recently reported observation that instances of the same NP-hard combinatorial problem may maintain the same or similar combinatorial structure but mainly differ in their data, we investigate the feasibility and benefits of applying machine learning techniques to solving STP. To this end, we design a novel model Vulcan based on novel graph neural networks and deep reinforcement learning. The core of Vulcan is a novel, compact graph embedding that transforms highdimensional graph structure data (i.e., path-changed information) into a low-dimensional vector representation. Given an STP instance, Vulcan uses this embedding to encode its pathrelated information and sends the encoded graph to a deep reinforcement learning component based on a double deep Q network (DDQN) to find solutions. In addition to STP, Vulcan can also find solutions to a wide range of NP-hard problems (e.g., SAT, MVC and X3C) by reducing them to STP. We implement a prototype of Vulcan and demonstrate its efficacy and efficiency with extensive experiments using real-world and synthetic datasets.
翻訳日:2021-11-24 07:41:35 公開日:2021-11-21
# (参考訳) マルチスタイル・マルチビューコントラスト学習によるマンモグラフィ検出のためのドメイン一般化

Domain Generalization for Mammography Detection via Multi-style and Multi-view Contrastive Learning ( http://arxiv.org/abs/2111.10827v1 )

ライセンス: CC BY 4.0
Zheren Li, Zhiming Cui, Sheng Wang, Yuji Qi, Xi Ouyang, Qitian Chen, Yuezhi Yang, Zhong Xue, Dinggang Shen, Jie-Zhi Cheng(参考訳) マンモグラフィ診断において,病変検出は基本的な問題である。 ディープラーニング技術の進歩は、トレーニングデータが大きく、画像のスタイルや品質の面で十分に多様であることから、この課題に顕著な進展をもたらした。 特に、イメージスタイルの多様性は、主にベンダーファクタに起因する可能性がある。 しかし、ベンダーからできる限りのマンモグラムの収集は非常に高価であり、実験室規模の研究には非実用的である。 これにより、限られた資源で様々なベンダーにディープラーニングモデルの一般化能力をさらに高めるため、新しいコントラスト学習方式が開発される。 具体的には、backbone networkはまず、さまざまなベンダスタイルに不変な機能を組み込むための、マルチスタイルおよびマルチビューの教師なしセルフラーニングスキームでトレーニングされる。 その後、バックボーンネットワークは、特定の教師付き学習を伴う病変検出の下流タスクに再調整される。 提案手法は,4つのベンダーと1つの公開データセットのマンモグラムを用いて評価する。 実験結果から,本手法は目視領域と目視領域の両方における検出性能を効果的に向上し,多くの最先端(SOTA)一般化手法より優れていることが示唆された。

Lesion detection is a fundamental problem in the computer-aided diagnosis scheme for mammography. The advance of deep learning techniques have made a remarkable progress for this task, provided that the training data are large and sufficiently diverse in terms of image style and quality. In particular, the diversity of image style may be majorly attributed to the vendor factor. However, the collection of mammograms from vendors as many as possible is very expensive and sometimes impractical for laboratory-scale studies. Accordingly, to further augment the generalization capability of deep learning model to various vendors with limited resources, a new contrastive learning scheme is developed. Specifically, the backbone network is firstly trained with a multi-style and multi-view unsupervised self-learning scheme for the embedding of invariant features to various vendor-styles. Afterward, the backbone network is then recalibrated to the downstream task of lesion detection with the specific supervised learning. The proposed method is evaluated with mammograms from four vendors and one unseen public dataset. The experimental results suggest that our approach can effectively improve detection performance on both seen and unseen domains, and outperforms many state-of-the-art (SOTA) generalization methods.
翻訳日:2021-11-24 07:25:25 公開日:2021-11-21
# (参考訳) ニューラルネットワークのためのアクティブフォーミングによる学習

Learning by Active Forgetting for Neural Networks ( http://arxiv.org/abs/2111.10831v1 )

ライセンス: CC BY 4.0
Jian Peng, Xian Sun, Min Deng, Chao Tao, Bo Tang, Wenbo Li, Guohua Wu, QingZhu, Yu Liu, Tao Lin, Haifeng Li(参考訳) 記憶と忘れのメカニズムは、人間の学習記憶システムにおいて、同じコインの2つの側面である。 人間の脳の記憶機構に触発されて、現代の機械学習システムは、記憶力の向上を通じて生涯学習能力を持つマシンに貢献し、忘れ物は克服するアンタゴニストとして押し付けてきた。 それでも、このアイデアは半分しか見えません。 つい最近まで、脳は生まれながらに、すなわち、忘れは抽象的で豊かで柔軟な表現のための自然で活動的なプロセスであると主張する研究者が増えている。 本稿では,ニューラルネットワークを用いた能動学習機構による学習モデルを提案する。 活性欠失機構(afm)は、内部制御戦略(irs)を有する抑制ニューロン群からなる「プラグ・アンド・プレイ」欠失層(p\&pf)を介してニューラルネットワークに導入され、側方抑制機構および外部制御戦略(ers)を介して自己の絶滅率を調節し、抑制機構を介して興奮性ニューロンの絶滅率を調整する。 P\&PFは、自己適応構造、強力な一般化、長期学習と記憶、データとパラメータの摂動に対する堅牢性など、驚くべき利益をもたらすことを示した。 この研究は、学習プロセスにおける忘れることの重要性を強調し、ニューラルネットワークの基盤となるメカニズムを理解するための新しい視点を提供する。

Remembering and forgetting mechanisms are two sides of the same coin in a human learning-memory system. Inspired by human brain memory mechanisms, modern machine learning systems have been working to endow machine with lifelong learning capability through better remembering while pushing the forgetting as the antagonist to overcome. Nevertheless, this idea might only see the half picture. Up until very recently, increasing researchers argue that a brain is born to forget, i.e., forgetting is a natural and active process for abstract, rich, and flexible representations. This paper presents a learning model by active forgetting mechanism with artificial neural networks. The active forgetting mechanism (AFM) is introduced to a neural network via a "plug-and-play" forgetting layer (P\&PF), consisting of groups of inhibitory neurons with Internal Regulation Strategy (IRS) to adjust the extinction rate of themselves via lateral inhibition mechanism and External Regulation Strategy (ERS) to adjust the extinction rate of excitatory neurons via inhibition mechanism. Experimental studies have shown that the P\&PF offers surprising benefits: self-adaptive structure, strong generalization, long-term learning and memory, and robustness to data and parameter perturbation. This work sheds light on the importance of forgetting in the learning process and offers new perspectives to understand the underlying mechanisms of neural networks.
翻訳日:2021-11-24 07:16:03 公開日:2021-11-21
# (参考訳) キャリブレーション拡散テンソル推定

Calibrated Diffusion Tensor Estimation ( http://arxiv.org/abs/2111.10847v1 )

ライセンス: CC BY 4.0
Davood Karimi, Simon K. Warfield, Ali Gholipour(参考訳) 特にディープラーニングのような複雑で理解が難しいモデルでは、モデルの予測がどの程度不確実であるかを知ることが非常に望ましい。 拡散強調MRIにおける深層学習への関心は高まっているが,従来の研究はモデル不確実性の問題に対処していない。 本稿では,拡散テンソルを推定し,推定の不確実性を計算する深層学習手法を提案する。 データ依存の不確実性はネットワークから直接計算され、損失減衰によって学習される。 モデル不確かさはモンテカルロドロップアウトを用いて計算される。 また,予測された不確実性の質を評価する新しい手法を提案する。 本手法と標準最小二乗テンソル推定法とブートストラップに基づく不確実性計算法を比較した。 実験の結果,測定値が小さい場合,深層学習法の方が精度が高く,不確実性予測が標準法よりも精度が高いことがわかった。 提案手法によって計算された推定不確実性は,モデルのバイアスを強調し,領域シフトを検知し,測定における雑音の強さを反映する。 本研究では,ディープラーニングに基づく拡散MRI解析における予測の不確かさのモデル化の重要性と実用性を示す。

It is highly desirable to know how uncertain a model's predictions are, especially for models that are complex and hard to understand as in deep learning. Although there has been a growing interest in using deep learning methods in diffusion-weighted MRI, prior works have not addressed the issue of model uncertainty. Here, we propose a deep learning method to estimate the diffusion tensor and compute the estimation uncertainty. Data-dependent uncertainty is computed directly by the network and learned via loss attenuation. Model uncertainty is computed using Monte Carlo dropout. We also propose a new method for evaluating the quality of predicted uncertainties. We compare the new method with the standard least-squares tensor estimation and bootstrap-based uncertainty computation techniques. Our experiments show that when the number of measurements is small the deep learning method is more accurate and its uncertainty predictions are better calibrated than the standard methods. We show that the estimation uncertainties computed by the new method can highlight the model's biases, detect domain shift, and reflect the strength of noise in the measurements. Our study shows the importance and practical value of modeling prediction uncertainties in deep learning-based diffusion MRI analysis.
翻訳日:2021-11-24 07:00:36 公開日:2021-11-21
# (参考訳) デコル関連変数の重要性

Decorrelated Variable Importance ( http://arxiv.org/abs/2111.10853v1 )

ライセンス: CC BY 4.0
Isabella Verdinelli and Larry Wasserman(参考訳) ランダムフォレストやニューラルネットなどのブラックボックス予測手法が広く使われているため、解釈可能な予測という広範な目標の一環として、変数の重要性を定量化する手法の開発が新たに注目されている。 一般的なアプローチは、回帰モデルから共変数を落としてLOCO(Leave Out Covariates)として知られる変数重要パラメータを定義することである。 これは本質的にR-二乗の非パラメトリック版である。 このパラメータは非常に一般的であり、非パラメトリックに推定できるが、共変量間の相関に影響されるため、解釈が難しい。 本稿では,locoの修正版を定義することで相関効果を緩和する手法を提案する。 この新しいパラメータは非パラメトリックな推定が難しいが,半パラメトリックモデルを用いて推定する方法を示す。

Because of the widespread use of black box prediction methods such as random forests and neural nets, there is renewed interest in developing methods for quantifying variable importance as part of the broader goal of interpretable prediction. A popular approach is to define a variable importance parameter - known as LOCO (Leave Out COvariates) - based on dropping covariates from a regression model. This is essentially a nonparametric version of R-squared. This parameter is very general and can be estimated nonparametrically, but it can be hard to interpret because it is affected by correlation between covariates. We propose a method for mitigating the effect of correlation by defining a modified version of LOCO. This new parameter is difficult to estimate nonparametrically, but we show how to estimate it using semiparametric models.
翻訳日:2021-11-24 06:43:33 公開日:2021-11-21
# (参考訳) ディープニューラルネットワークによる付加学習

Accretionary Learning with Deep Neural Networks ( http://arxiv.org/abs/2111.10857v1 )

ライセンス: CC BY 4.0
Xinyu Wei, Biing-Hwang Fred Juang, Ouya Wang, Shenglong Zhou and Geoffrey Ye Li(参考訳) Deep Neural Networks(DNN)の基本的制限の1つは、新しい認知能力の獲得と蓄積ができないことである。 指定されたオブジェクトセットにない新しいオブジェクトクラスなどの新しいデータが現れると、従来のdnnは、それが必要とする基本的な定式化のため、それを認識できないだろう。 現在のソリューションは通常、新たな知識に対応するために、新たに拡張されたデータセットから、ネットワーク全体の再設計と再学習を行なう。 このプロセスは、人間の学習者とはまったく違います。 本稿では,人間の学習をエミュレートする新たな学習手法Accretionary Learning (AL)を提案する。 対応する学習構造はモジュール化されており、動的に拡張して新しい知識を登録し利用することができる。 付加学習の間、学習プロセスは、対象の集合が大きくなるにつれて、システムが完全に再設計され、再訓練される必要はない。 提案したDNN構造は,新しいデータクラスを学習する際の過去の知識を忘れない。 そこで本研究では,新しい構造と設計手法により,認知的複雑性の増大に対処し,全体的なパフォーマンスを安定させながら,システムを構築することができることを示す。

One of the fundamental limitations of Deep Neural Networks (DNN) is its inability to acquire and accumulate new cognitive capabilities. When some new data appears, such as new object classes that are not in the prescribed set of objects being recognized, a conventional DNN would not be able to recognize them due to the fundamental formulation that it takes. The current solution is typically to re-design and re-learn the entire network, perhaps with a new configuration, from a newly expanded dataset to accommodate new knowledge. This process is quite different from that of a human learner. In this paper, we propose a new learning method named Accretionary Learning (AL) to emulate human learning, in that the set of objects to be recognized may not be pre-specified. The corresponding learning structure is modularized, which can dynamically expand to register and use new knowledge. During accretionary learning, the learning process does not require the system to be totally re-designed and re-trained as the set of objects grows in size. The proposed DNN structure does not forget previous knowledge when learning to recognize new data classes. We show that the new structure and the design methodology lead to a system that can grow to cope with increased cognitive complexity while providing stable and superior overall performance.
翻訳日:2021-11-24 06:01:31 公開日:2021-11-21
# (参考訳) 閉型勾配を持つl1レギュラライザの2レベル学習(blorc)

Bilevel learning of l1-regularizers with closed-form gradients(BLORC) ( http://arxiv.org/abs/2111.10858v1 )

ライセンス: CC BY 4.0
Avrajit Ghosh, Michael T. Mccann, Saiprasad Ravishankar(参考訳) 本稿では,近年の信号再構成問題において重要な要素であるスパーシティプロモーティング正則化器の教師付き学習法を提案する。 正規化器のパラメータを学習し、地上真理信号と測定ペアの訓練セットにおける再構成の平均二乗誤差を最小化する。 トレーニングには、非スムースな低レベル目標で難しい二段階最適化問題を解決することが含まれる。 双対問題によって与えられる低レベル変分問題の暗黙の閉形式解を用いてトレーニング損失の勾配を求める式を導出し、損失を最小限に抑えるために付随する勾配降下アルゴリズム(dubbed blorc)を提供する。 単純自然画像および1次元信号のデノージング実験により,提案手法が有意義な演算子を学習でき,計算された解析勾配は標準自動微分法よりも高速であることを示した。 提案手法はデノナイズに応用されるが,線形測定モデルによる逆問題に対して多種多様な適用が可能であり,幅広いシナリオに適用可能であると考えられる。

We present a method for supervised learning of sparsity-promoting regularizers, a key ingredient in many modern signal reconstruction problems. The parameters of the regularizer are learned to minimize the mean squared error of reconstruction on a training set of ground truth signal and measurement pairs. Training involves solving a challenging bilevel optimization problem with a nonsmooth lower-level objective. We derive an expression for the gradient of the training loss using the implicit closed-form solution of the lower-level variational problem given by its dual problem, and provide an accompanying gradient descent algorithm (dubbed BLORC) to minimize the loss. Our experiments on simple natural images and for denoising 1D signals show that the proposed method can learn meaningful operators and the analytical gradients calculated are faster than standard automatic differentiation methods. While the approach we present is applied to denoising, we believe that it can be adapted to a wide-variety of inverse problems with linear measurement models, thus giving it applicability in a wide range of scenarios.
翻訳日:2021-11-24 05:47:38 公開日:2021-11-21
# (参考訳) 運動補償平滑化による多様体(MoCo-SToRM)の動的イメージング

Dynamic imaging using motion-compensated smoothness regularization on manifolds (MoCo-SToRM) ( http://arxiv.org/abs/2111.10887v1 )

ライセンス: CC BY 4.0
Qing Zou, Luis A. Torres, Sean B. Fain, Mathews Jacob(参考訳) 運動補償動的MRIのための教師なし深部多様体学習アルゴリズムを提案する。 自由呼吸肺MRIデータセットの運動場は多様体上に存在すると仮定する。 各時点の運動場は、時間的変動を捉える低次元の時変潜在ベクトルによって駆動される深い生成モデルの出力としてモデル化される。 各時点での画像は、上記運動場を用いて画像テンプレートの変形バージョンとしてモデル化される。 テンプレート、深部ジェネレータのパラメータ、潜伏ベクトルは、教師なしの方法でk-t空間データから学習される。 マニホールド運動モデルはレギュラライザとして機能し、ラジアルスポークやフレーム配置の少ない動き場と画像のジョイント推定を行う。 このアルゴリズムの有用性は、運動補償高分解能肺MRIの文脈で示される。

We introduce an unsupervised deep manifold learning algorithm for motion-compensated dynamic MRI. We assume that the motion fields in a free-breathing lung MRI dataset live on a manifold. The motion field at each time instant is modeled as the output of a deep generative model, driven by low-dimensional time-varying latent vectors that capture the temporal variability. The images at each time instant are modeled as the deformed version of an image template using the above motion fields. The template, the parameters of the deep generator, and the latent vectors are learned from the k-t space data in an unsupervised fashion. The manifold motion model serves as a regularizer, making the joint estimation of the motion fields and images from few radial spokes/frame well-posed. The utility of the algorithm is demonstrated in the context of motion-compensated high-resolution lung MRI.
翻訳日:2021-11-24 05:38:11 公開日:2021-11-21
# (参考訳) 変分多様体学習を用いたマルチスライスダイナミックMRIの関節アライメントと再構成

Joint alignment and reconstruction of multislice dynamic MRI using variational manifold learning ( http://arxiv.org/abs/2111.10889v1 )

ライセンス: CC BY 4.0
Qing Zou, Abdul Haseeb Ahmed, Prashant Nagpal, Sarv Priya, Rolf F Schulte, Mathews Jacob(参考訳) 自由呼吸型心臓MRIは、呼吸を持てない小児や他の集団に適用可能な、呼吸保持型脳MRIプロトコルの競合代替手段として出現している。 スライスからのデータは順次取得されるので、スライス毎に心/呼吸運動パターンが異なる可能性があり、現在の自由呼吸アプローチでは、スライス毎に独立して回復する。 スライス間冗長性を活用できないことに加えて、定量化のための画像の調整には手作業による介入や高度な後処理が必要となる。 これらの課題を克服するために,マルチスライスダイナミックMRIの関節アライメントと再構成のための教師なし変分学習手法を提案する。 提案手法は,各スライスに対する深部ネットワークのパラメータと潜伏ベクトルを併用して学習し,特定の対象のk-t空間データから運動誘起動的変動を捉える。 変分フレームワークは表現の非特異性を最小化し、改善されたアライメントと再構成を提供する。

Free-breathing cardiac MRI schemes are emerging as competitive alternatives to breath-held cine MRI protocols, enabling applicability to pediatric and other population groups that cannot hold their breath. Because the data from the slices are acquired sequentially, the cardiac/respiratory motion patterns may be different for each slice; current free-breathing approaches perform independent recovery of each slice. In addition to not being able to exploit the inter-slice redundancies, manual intervention or sophisticated post-processing methods are needed to align the images post-recovery for quantification. To overcome these challenges, we propose an unsupervised variational deep manifold learning scheme for the joint alignment and reconstruction of multislice dynamic MRI. The proposed scheme jointly learns the parameters of the deep network as well as the latent vectors for each slice, which capture the motion-induced dynamic variations, from the k-t space data of the specific subject. The variational framework minimizes the non-uniqueness in the representation, thus offering improved alignment and reconstructions.
翻訳日:2021-11-24 05:32:33 公開日:2021-11-21
# (参考訳) stein's unbiased risk estimatorを使ったディープイメージ

Deep Image Prior using Stein's Unbiased Risk Estimator: SURE-DIP ( http://arxiv.org/abs/2111.10892v1 )

ライセンス: CC BY 4.0
Maneesh John, Hemant Kumar Aggarwal, Qing Zou, Mathews Jacob(参考訳) 広範なトレーニングデータに依存するディープラーニングアルゴリズムは、不適切な測定結果からイメージリカバリに革命をもたらしている。 超高解像度イメージングを含む多くのイメージングアプリケーションでは、トレーニングデータが不足している。 シングルショット画像回復のためのディープ画像先行アルゴリズム(DIP)を導入し、トレーニングデータの必要性を完全に排除した。 この方式の課題は、cnnパラメータのノイズへのオーバーフィットを最小限に抑えるために早期停止が必要であることである。 オーバーフィッティングを最小限に抑えるため,一般化されたStein's Unbiased Risk Estimation (GSURE)損失指標を導入する。 実験の結果,SURE-DIPアプローチはオーバーフィッティングの問題を最小限に抑え,従来のDIP方式よりも性能が大幅に向上した。 また、SURE-DIPアプローチをモデルベースアンローリングアーキテクチャと併用し、直接反転方式よりも優れた性能を提供する。

Deep learning algorithms that rely on extensive training data are revolutionizing image recovery from ill-posed measurements. Training data is scarce in many imaging applications, including ultra-high-resolution imaging. The deep image prior (DIP) algorithm was introduced for single-shot image recovery, completely eliminating the need for training data. A challenge with this scheme is the need for early stopping to minimize the overfitting of the CNN parameters to the noise in the measurements. We introduce a generalized Stein's unbiased risk estimate (GSURE) loss metric to minimize the overfitting. Our experiments show that the SURE-DIP approach minimizes the overfitting issues, thus offering significantly improved performance over classical DIP schemes. We also use the SURE-DIP approach with model-based unrolling architectures, which offers improved performance over direct inversion schemes.
翻訳日:2021-11-24 05:25:18 公開日:2021-11-21
# (参考訳) サプライズ最小化リビジョンオペレータ

Surprise Minimization Revision Operators ( http://arxiv.org/abs/2111.10896v1 )

ライセンス: CC BY 4.0
Adrian Haret(参考訳) 信念の修正に対する顕著なアプローチは、標準の場合でさえ、驚きを最小化しようとしていると説明できるプロセスにおいて、事前の信念に可能な限り近い新しい信念を採用することを前提としている。 ここでは、先行する信念だけでなく、真理値の割り当て間の親しみやすい距離の概念から導かれる測度を用いて、新しい情報によって提供されるより広い文脈でサプライズが計算されるような、相対的サプライズと呼ばれるサプライズ尺度を提案し、既存のモデルを拡張する。 本稿では,AGMモールドの直感的合理性仮定を用いて,ダラル演算子や最近導入された距離ベースmin-max演算子などの文献における他のリビジョン演算子に対する表現結果を得る方法として,サプライズ最小化演算子を特徴付ける。

Prominent approaches to belief revision prescribe the adoption of a new belief that is as close as possible to the prior belief, in a process that, even in the standard case, can be described as attempting to minimize surprise. Here we extend the existing model by proposing a measure of surprise, dubbed relative surprise, in which surprise is computed with respect not just to the prior belief, but also to the broader context provided by the new information, using a measure derived from familiar distance notions between truth-value assignments. We characterize the surprise minimization revision operator thus defined using a set of intuitive rationality postulates in the AGM mould, along the way obtaining representation results for other existing revision operators in the literature, such as the Dalal operator and a recently introduced distance-based min-max operator.
翻訳日:2021-11-24 05:18:57 公開日:2021-11-21
# (参考訳) シーン認識閾値選択による産業機械の健康モニタリング

Health Monitoring of Industrial machines using Scene-Aware Threshold Selection ( http://arxiv.org/abs/2111.10897v1 )

ライセンス: CC BY 4.0
Arshdeep Singh, Raju Arvind and Padmanabhan Rajan(参考訳) 本稿では,産業機械における異常を自動エンコーダを用いた非教師なし手法を提案する。 提案手法は,音声信号のログメルスペクトログラム表現を用いて学習する。 分類において,異常な機械に対して計算された復元誤差は,オートエンコーダの訓練に通常の機械音のみが使用されているため,通常の機械よりも大きいという仮説である。 閾値は正常機と異常機を区別するために選択される。 しかし、周囲の条件によって閾値が変化する。 周囲に関係なく適切なしきい値を選択するために,周辺環境を分類可能なシーン分類フレームワークを提案する。 これにより、周囲に関係なく閾値を適応的に選択することができる。 ファン,ポンプ,バルブ,スライドレールといった産業機械のMIMIIデータセットを用いて実験評価を行った。 実験分析の結果,適応しきい値を利用することで,与えられた周囲のみに対して計算した固定しきい値を用いて得られる性能が大幅に向上することが示された。

This paper presents an autoencoder based unsupervised approach to identify anomaly in an industrial machine using sounds produced by the machine. The proposed framework is trained using log-melspectrogram representations of the sound signal. In classification, our hypothesis is that the reconstruction error computed for an abnormal machine is larger than that of the a normal machine, since only normal machine sounds are being used to train the autoencoder. A threshold is chosen to discriminate between normal and abnormal machines. However, the threshold changes as surrounding conditions vary. To select an appropriate threshold irrespective of the surrounding, we propose a scene classification framework, which can classify the underlying surrounding. Hence, the threshold can be selected adaptively irrespective of the surrounding. The experiment evaluation is performed on MIMII dataset for industrial machines namely fan, pump, valve and slide rail. Our experiment analysis shows that utilizing adaptive threshold, the performance improves significantly as that obtained using the fixed threshold computed for a given surrounding only.
翻訳日:2021-11-24 04:53:33 公開日:2021-11-21
# (参考訳) 多エージェント深部強化学習を用いた再生可能エネルギー統合とマイクログリッドエネルギー取引

Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning ( http://arxiv.org/abs/2111.10898v1 )

ライセンス: CC BY 4.0
Daniel J. B. Harrold, Jun Cao, Zhong Fan(参考訳) 本稿では, 再生可能エネルギーとトレーディングの価値を最大化することにより, マイクログリッドのエネルギーコスト削減に協力して働くハイブリッドエネルギー貯蔵システムの制御にマルチエージェント強化学習を用いる。 エージェントは、変動する需要、動的パーセールエネルギー価格、予測不可能な再生可能エネルギー発生の下で、短・中・長期の貯蔵に適した3種類のエネルギー貯蔵システムを制御することを学ばなければならない。 2つのケーススタディは、エネルギー貯蔵システムが動的価格の下で再生可能エネルギーをいかにうまく統合できるか、そして2つ目のケーススタディは、同じエージェントをアグリゲーターエージェントと一緒に利用して、エネルギーを自給自足の外部マイクログリッドに販売し、エネルギー料金を減らそうとしている。 この研究は、多エージェントの深層決定主義的政策勾配の分散実行による集中学習と、その最先端の変種により、単一のグローバルエージェントの制御よりもはるかに優れた性能を発揮することを示した。 また, マルチエージェントアプローチでは, 個別の報酬関数を用いることで, シングルコントロールエージェントよりも優れた効果が得られた。 他のマイクログリッドとの取引が可能で、単にユーティリティグリッドに売るのではなく、グリッドの節約を大幅に増やすことが判明した。

In this paper, multi-agent reinforcement learning is used to control a hybrid energy storage system working collaboratively to reduce the energy costs of a microgrid through maximising the value of renewable energy and trading. The agents must learn to control three different types of energy storage system suited for short, medium, and long-term storage under fluctuating demand, dynamic wholesale energy prices, and unpredictable renewable energy generation. Two case studies are considered: the first looking at how the energy storage systems can better integrate renewable energy generation under dynamic pricing, and the second with how those same agents can be used alongside an aggregator agent to sell energy to self-interested external microgrids looking to reduce their own energy bills. This work found that the centralised learning with decentralised execution of the multi-agent deep deterministic policy gradient and its state-of-the-art variants allowed the multi-agent methods to perform significantly better than the control from a single global agent. It was also found that using separate reward functions in the multi-agent approach performed much better than using a single control agent. Being able to trade with the other microgrids, rather than just selling back to the utility grid, also was found to greatly increase the grid's savings.
翻訳日:2021-11-24 04:45:57 公開日:2021-11-21
# (参考訳) Johnson Coverage hypothesis:L_p測定におけるk-meansとk-medianの近似性

Johnson Coverage Hypothesis: Inapproximability of k-means and k-median in L_p metrics ( http://arxiv.org/abs/2111.10912v1 )

ライセンス: CC BY 4.0
Vincent Cohen-Addad, Karthik C. S, and Euiwoong Lee(参考訳) K-medianとk-meansはクラスタリングアルゴリズムの最も一般的な2つの目的である。 集中的な努力にもかかわらず、これらの目的、特に$\ell_p$-metrics における近似可能性の理解は依然として大きなオープンな問題である。 本稿では,これらの目的について文献で知られている近似因子の硬さを$\ell_p$-metrics で大幅に改善する。 ジョンソン被覆仮説 (Johnson Coverage hypothesis, JCH) と呼ばれる新しい仮説を導入し、ジョンソングラフの会員グラフがジョンソングラフの部分グラフである場合でも、集合系上のよく研究された最大 k 被覆問題は 1-1/e 以上の因子に近似することが難しいことを概説する。 次に, cohen-addad と karthik (focs '19) が導入した埋め込み手法の一般化と合わせて, jch は一般メトリクスで得られる値に近い因子に対して $\ell_p$-metrics で k-median と k-means の近似結果のハードネスを示唆することを示した。 特に、JCH を仮定すると、k-平均の目的を近似することは困難である: $\bullet$ Discrete case:$\ell_1$-metric の3.94 と $\ell_2$-metric の1.73 の係数に対して、UGC で得られる前の係数 1.56 と 1.17 がそれぞれ改善される。 $\bullet$ 連続ケース:$\ell_1$-metric の2.10倍、$\ell_2$-metric の1.36倍の係数。 また、k-median の目的に対して、JCH でも同様の改善が得られる。 さらに,超グラフ頂点被覆に関するdinur et al. (sicomp '05) の研究を用いて,jch の弱バージョンを証明し,上述した cohen-addad と karthik (focs '19) のすべての結果を (ほぼ) 同一の近似可能性因子に復元する。

K-median and k-means are the two most popular objectives for clustering algorithms. Despite intensive effort, a good understanding of the approximability of these objectives, particularly in $\ell_p$-metrics, remains a major open problem. In this paper, we significantly improve upon the hardness of approximation factors known in literature for these objectives in $\ell_p$-metrics. We introduce a new hypothesis called the Johnson Coverage Hypothesis (JCH), which roughly asserts that the well-studied max k-coverage problem on set systems is hard to approximate to a factor greater than 1-1/e, even when the membership graph of the set system is a subgraph of the Johnson graph. We then show that together with generalizations of the embedding techniques introduced by Cohen-Addad and Karthik (FOCS '19), JCH implies hardness of approximation results for k-median and k-means in $\ell_p$-metrics for factors which are close to the ones obtained for general metrics. In particular, assuming JCH we show that it is hard to approximate the k-means objective: $\bullet$ Discrete case: To a factor of 3.94 in the $\ell_1$-metric and to a factor of 1.73 in the $\ell_2$-metric; this improves upon the previous factor of 1.56 and 1.17 respectively, obtained under UGC. $\bullet$ Continuous case: To a factor of 2.10 in the $\ell_1$-metric and to a factor of 1.36 in the $\ell_2$-metric; this improves upon the previous factor of 1.07 in the $\ell_2$-metric obtained under UGC. We also obtain similar improvements under JCH for the k-median objective. Additionally, we prove a weak version of JCH using the work of Dinur et al. (SICOMP '05) on Hypergraph Vertex Cover, and recover all the results stated above of Cohen-Addad and Karthik (FOCS '19) to (nearly) the same inapproximability factors but now under the standard NP$\neq$P assumption (instead of UGC).
翻訳日:2021-11-24 04:20:27 公開日:2021-11-21
# (参考訳) GANを用いた映像コンテンツスワッピング

Video Content Swapping Using GAN ( http://arxiv.org/abs/2111.10916v1 )

ライセンス: CC BY-SA 4.0
Tingfung Lau, Sailun Xu, Xinze Wang(参考訳) ビデオ生成はコンピュータビジョンにおける興味深い問題である。 データ拡張、移動における特殊効果、AR/VRなど、非常に人気がある。 ディープラーニングの進歩により、この課題を解決するために多くの深層生成モデルが提案されている。 これらの深層生成モデルは、教師なしの方法で深い特徴表現を学習できるため、ラベルのない画像やビデオをすべてオンラインで利用できる。 これらのモデルは異なる種類のイメージを生成することもでき、ビジュアルアプリケーションにとって大きな価値がある。 しかし、ビデオの生成は、ビデオ内のオブジェクトの出現だけでなく、時間的な動きもモデル化する必要があるため、もっと難しいでしょう。 この作品では、ビデオのどのフレームもコンテンツに分解してポーズを取る。 まず,事前学習された人間のポーズ検出を用いて映像からポーズ情報を抽出し,生成モデルを用いてコンテンツコードとポーズコードに基づいて映像を合成する。

Video generation is an interesting problem in computer vision. It is quite popular for data augmentation, special effect in move, AR/VR and so on. With the advances of deep learning, many deep generative models have been proposed to solve this task. These deep generative models provide away to utilize all the unlabeled images and videos online, since it can learn deep feature representations with unsupervised manner. These models can also generate different kinds of images, which have great value for visual application. However generating a video would be much more challenging since we need to model not only the appearances of objects in the video but also their temporal motion. In this work, we will break down any frame in the video into content and pose. We first extract the pose information from a video using a pre-trained human pose detection and use a generative model to synthesize the video based on the content code and pose code.
翻訳日:2021-11-24 04:18:53 公開日:2021-11-21
# 長期記憶に基づく新しいスペクトルセンシングスキームの設計と実験的検証

Design of an Novel Spectrum Sensing Scheme Based on Long Short-Term Memory and Experimental Validation ( http://arxiv.org/abs/2111.10769v1 )

ライセンス: Link先を確認
Nupur Choudhury, Kandarpa Kumar Sarma, Chinmoy Kalita, Aradhana Misra(参考訳) スペクトルセンシングにより、重度の干渉があるにもかかわらず、認知無線システムは関連する信号を検出することができる。 既存のスペクトルセンシング技術のほとんどは、特定の仮定を持つ特定の信号ノイズモデルを使用し、特定の検出性能を導出する。 この不確実性に対処するため、学習ベースのアプローチが採用され、最近ではディープラーニングベースのツールが普及している。 本稿では,深層学習ネットワーク(DLN)の重要な要素である長期記憶(LSTM)に基づくスペクトルセンシング手法を提案する。 LSTMはスペクトルデータから暗黙的な特徴学習を容易にする。 DLNはいくつかの特徴を用いて訓練され,アダルム冥王星を用いた実証実験装置の助けを借りて,提案手法の有効性が検証された。 テストベッドはFMを用いて実世界のラジオ放送の主信号を取得するよう訓練される。 実験データからは,低信号対雑音比でも,現在のスペクトル検出法と比較して,検出精度と分類精度の面で良好に機能することが示された。

Spectrum sensing allows cognitive radio systems to detect relevant signals in despite the presence of severe interference. Most of the existing spectrum sensing techniques use a particular signal-noise model with certain assumptions and derive certain detection performance. To deal with this uncertainty, learning based approaches are being adopted and more recently deep learning based tools have become popular. Here, we propose an approach of spectrum sensing which is based on long short term memory (LSTM) which is a critical element of deep learning networks (DLN). Use of LSTM facilitates implicit feature learning from spectrum data. The DLN is trained using several features and the performance of the proposed sensing technique is validated with the help of an empirical testbed setup using Adalm Pluto. The testbed is trained to acquire the primary signal of a real world radio broadcast taking place using FM. Experimental data show that even at low signal to noise ratio, our approach performs well in terms of detection and classification accuracies, as compared to current spectrum sensing methods.
翻訳日:2021-11-23 17:28:18 公開日:2021-11-21
# ARMAS:音声セグメントのアクティブな再構築

ARMAS: Active Reconstruction of Missing Audio Segments ( http://arxiv.org/abs/2111.10891v1 )

ライセンス: Link先を確認
Sachin, Pokharel and Muhammad, Ali and Zohra, Cheddad and Abbas, Cheddad(参考訳) 近年, 深層学習アルゴリズムを用いて, 失われたセグメントや破損セグメントのディジタル音声信号再構成が盛んに行われている。 それでも、線形補間、位相符号化、トーン挿入といった従来の手法はまだ流行している。 しかし, ディザリング, ステガノグラフィ, 機械学習回帰器の融合による音声信号の再構成に関する研究は行われなかった。 そこで本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端浅層(RFランダムフォレストとSVR支援ベクトル回帰)と深層学習(LSTM-Long Short-Term Memory)の組み合わせを提案する。 結果(スペインと自己回帰法との比較を含む)は4つの異なる指標で評価される。 その結果,提案手法は有効であり,サイド情報(ノイズ・ラテント表現)ステガノグラフィが提供する音声信号の再構成が促進されることがわかった。 この研究はこのアプローチの最適化や異なる領域(つまり画像再構成)への変換に関心を惹きつけるかもしれない。

Digital audio signal reconstruction of lost or corrupt segment using deep learning algorithms has been explored intensively in the recent years. Nevertheless, prior traditional methods with linear interpolation, phase coding and tone insertion techniques are still in vogue. However, we found no research work on the reconstruction of audio signals with the fusion of dithering, steganography, and machine learning regressors. Therefore, this paper proposes the combination of steganography, halftoning (dithering), and state-of-the-art shallow (RF- Random Forest and SVR- Support Vector Regression) and deep learning (LSTM- Long Short-Term Memory) methods. The results (including comparison to the SPAIN and Autoregressive methods) are evaluated with four different metrics. The observations from the results show that the proposed solution is effective and can enhance the reconstruction of audio signals performed by the side information (noisy-latent representation) steganography provides. This work may trigger interest in the optimization of this approach and/or in transferring it to different domains (i.e., image reconstruction).
翻訳日:2021-11-23 17:28:01 公開日:2021-11-21
# 従業員ロスタリングのためのハイブリッド最適化アプローチ--swissgridでの事例と教訓

A hybrid optimization approach for employee rostering: Use cases at Swissgrid and lessons learned ( http://arxiv.org/abs/2111.10845v1 )

ライセンス: Link先を確認
Jangwon Park and Evangelos Vrettos(参考訳) 従業員ロースターリングは、従業員をオープンシフトに割り当てるプロセスである。 自動化は、手作業の負荷削減や柔軟な高品質なスケジュール作成など、ほぼすべての産業において、ユビキタスな実用的なメリットがあります。 本研究では,Mixed-Integer Linear Programming(MILP)と進化的アルゴリズムであるscatter Searchを組み合わせたハイブリッド手法を開発した。 このハイブリッド手法は、労働法の遵守を保証し、従業員の嗜好の満足度を最大化し、ワークロードを可能な限り均一に分配する。 何よりも、これは堅牢で効率的なアルゴリズムであり、最先端の商用解法を用いてmilp-aloneアプローチよりも桁違いに、複雑さから最適化に近い現実的な問題を一貫して解決する。 実用的な拡張とユースケースがいくつか提示され、swissgridで現在パイロット使用中のソフトウェアツールに組み込まれている。

Employee rostering is a process of assigning available employees to open shifts. Automating it has ubiquitous practical benefits for nearly all industries, such as reducing manual workload and producing flexible, high-quality schedules. In this work, we develop a hybrid methodology which combines Mixed-Integer Linear Programming (MILP) with scatter search, an evolutionary algorithm, having as use case the optimization of employee rostering for Swissgrid, where it is currently a largely manual process. The hybrid methodology guarantees compliance with labor laws, maximizes employees' preference satisfaction, and distributes workload as uniformly as possible among them. Above all, it is shown to be a robust and efficient algorithm, consistently solving realistic problems of varying complexity to near-optimality an order of magnitude faster than an MILP-alone approach using a state-of-the-art commercial solver. Several practical extensions and use cases are presented, which are incorporated into a software tool currently being in pilot use at Swissgrid.
翻訳日:2021-11-23 17:23:10 公開日:2021-11-21
# 無人自律システム評価のためのソフトウェアツール

A Software Tool for Evaluating Unmanned Autonomous Systems ( http://arxiv.org/abs/2111.10871v1 )

ライセンス: Link先を確認
Abdollah Homaifar, Ali Karimoddini, Mike Heiges, Mubbashar A. Khan, Berat A. Erol, Shabnam Nazmi(参考訳) ノースカロライナ農業技術州立大学(nc a&t)はジョージア工科大学(gtri)と協力して、自律システムの認識と行動状態を推測するシミュレーションベースの技術ツールを開発する手法を開発した。 これらの方法論は、国防総省(dod)のtest and evaluation(t&e)コミュニティに、これらのシステムの内部プロセスに関する深い洞察を提供する可能性がある。 この方法論は外部の観測のみを使用し、テスト中のシステムの内部処理および/または変更に関する完全な知識を必要としない。 本稿では,データ駆動型知的予測ツール(dipt)と呼ばれる,シミュレーションベースの技術ツールの例を示す。 diptは、共同探索任務が可能な多プラットフォーム無人航空機(uav)システムの試験のために開発された。 DIPTのグラフィカルユーザインタフェース(GUI)は、テスタが航空機の現在の動作状態を確認し、現在の目標検出状態を予測し、特定のタスクを割り当てる説明とともに、特定の振る舞いを示すための推論を提供する。

The North Carolina Agriculture and Technical State University (NC A&T) in collaboration with Georgia Tech Research Institute (GTRI) has developed methodologies for creating simulation-based technology tools that are capable of inferring the perceptions and behavioral states of autonomous systems. These methodologies have the potential to provide the Test and Evaluation (T&E) community at the Department of Defense (DoD) with a greater insight into the internal processes of these systems. The methodologies use only external observations and do not require complete knowledge of the internal processing of and/or any modifications to the system under test. This paper presents an example of one such simulation-based technology tool, named as the Data-Driven Intelligent Prediction Tool (DIPT). DIPT was developed for testing a multi-platform Unmanned Aerial Vehicle (UAV) system capable of conducting collaborative search missions. DIPT's Graphical User Interface (GUI) enables the testers to view the aircraft's current operating state, predicts its current target-detection status, and provides reasoning for exhibiting a particular behavior along with an explanation of assigning a particular task to it.
翻訳日:2021-11-23 17:20:43 公開日:2021-11-21
# 映像からのバイノーラル音声生成のための幾何学的マルチタスク学習

Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video ( http://arxiv.org/abs/2111.10882v1 )

ライセンス: Link先を確認
Rishabh Garg, Ruohan Gao, Kristen Grauman(参考訳) バイノーラルオーディオは、人間のリスナーに没入的な空間音体験を提供するが、既存のビデオにはバイノーラル録音がない。 本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声をバイノーラルオーディオに変換する音響空間化手法を提案する。 既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離して学習プロセスを導く。 特に, 室内インパルス応答, 音源位置とのコヒーレンス, 観測物体の形状の経時的一貫性を考慮し, バイノーラル音声生成のための幾何認識特徴を学習するマルチタスクフレームワークを開発した。 さらに,実環境においてリアルタイムなバイノーラルオーディオをシミュレートした大規模ビデオデータセットを提案する。 2つのデータセットにおいて,本手法の有効性を実証し,最新の結果を得た。

Binaural audio provides human listeners with an immersive spatial sound experience, but most existing videos lack binaural audio recordings. We propose an audio spatialization method that draws on visual information in videos to convert their monaural (single-channel) audio to binaural audio. Whereas existing approaches leverage visual features extracted directly from video frames, our approach explicitly disentangles the geometric cues present in the visual stream to guide the learning process. In particular, we develop a multi-task framework that learns geometry-aware features for binaural audio generation by accounting for the underlying room impulse response, the visual stream's coherence with the sound source(s) positions, and the consistency in geometry of the sounding objects over time. Furthermore, we introduce a new large video dataset with realistic binaural audio simulated for real-world scanned environments. On two datasets, we demonstrate the efficacy of our method, which achieves state-of-the-art results.
翻訳日:2021-11-23 17:15:25 公開日:2021-11-21
# 制約付き深層学習のための微分可能射影

Differentiable Projection for Constrained Deep Learning ( http://arxiv.org/abs/2111.10785v1 )

ライセンス: Link先を確認
Dou Huang, Haoran Zhang, Xuan Song and Ryosuke Shibasaki(参考訳) ディープニューラルネットワーク(DNN)は、さまざまな分野におけるさまざまなタスクの解決において、極めて優れたパフォーマンスを実現している。 しかし,従来のDNNモデルでは,ロスバックプロパゲーションによる地道値に着実にアプローチしている。 一部の応用では、基礎的な真理観測が従う制約など、いくつかの事前知識が容易に得られる。 本稿では,これらの制約から情報を取り込んでDNNの性能を高めるための一般的なアプローチを提案する。 理論的には、これらの問題をKKT条件が解けるような制約付き最適化問題として定式化することができる。 本稿では,時間を要するKKT条件を直接解決する代わりに,DNNにおける微分可能なプロジェクション層を提案する。 提案手法は微分可能であり,重い計算は不要である。 最後に,提案手法の性能評価のために,ランダムに生成された合成データセットとpascal vocデータセットを用いた画像分割タスクを用いた実験を行った。 実験の結果, 投影法が十分であり, ベースライン法を上回った。

Deep neural networks (DNNs) have achieved extraordinary performance in solving different tasks in various fields. However, the conventional DNN model is steadily approaching the ground-truth value through loss backpropagation. In some applications, some prior knowledge could be easily obtained, such as constraints which the ground truth observation follows. Here, we try to give a general approach to incorporate information from these constraints to enhance the performance of the DNNs. Theoretically, we could formulate these kinds of problems as constrained optimization problems that KKT conditions could solve. In this paper, we propose to use a differentiable projection layer in DNN instead of directly solving time-consuming KKT conditions. The proposed projection method is differentiable, and no heavy computation is required. Finally, we also conducted some experiments using a randomly generated synthetic dataset and image segmentation task using the PASCAL VOC dataset to evaluate the performance of the proposed projection method. Experimental results show that the projection method is sufficient and outperforms baseline methods.
翻訳日:2021-11-23 16:57:59 公開日:2021-11-21
# 医用画像におけるワンショット弱スーパービジョンセグメンテーション

One-shot Weakly-Supervised Segmentation in Medical Images ( http://arxiv.org/abs/2111.10773v1 )

ライセンス: Link先を確認
Wenhui Lei, Qi Su, Ran Gu, Na Wang, Xinglong Liu, Guotai Wang, Xiaofan Zhang, Shaoting Zhang(参考訳) 深層ニューラルネットワークは通常、医療画像のセグメンテーションにおいて優れた性能を達成するために、正確かつ大量のアノテーションを必要とする。 ワンショットセグメンテーションと弱い教師付き学習は、1つの注釈付き画像から新しいクラスを学習し、代わりに粗いラベルを活用することでラベル付けの努力を減らし、有望な研究方向である。 以前の作品は通常解剖学的構造を活用できず、クラス不均衡と低いコントラスト問題に苦しむ。 そこで我々は,ワンショット・弱教師付き3次元医用画像セグメンテーションの革新的枠組みを提案する。 まず,人体の解剖学的パターンが類似していると仮定して,注釈付きボリュームからラベルなしの3d画像へクリブルを投影する伝搬再構成ネットワークを提案する。 次に、解剖学的およびピクセルレベルの特徴に基づいて、スクリブルを洗練するために、デュアルレベル特徴量化モジュールが設計されている。 擬似マスクにスクリブルを拡大した後,ノイズラベル学習戦略を用いて新クラスのセグメンテーションモデルを訓練することができた。 1つの腹部と1つの頭頸部CTデータセットを用いた実験により,提案手法は最先端の方法よりも大幅に改善され,厳密なクラス不均衡や低コントラストの下でも頑健に機能することが示された。

Deep neural networks usually require accurate and a large number of annotations to achieve outstanding performance in medical image segmentation. One-shot segmentation and weakly-supervised learning are promising research directions that lower labeling effort by learning a new class from only one annotated image and utilizing coarse labels instead, respectively. Previous works usually fail to leverage the anatomical structure and suffer from class imbalance and low contrast problems. Hence, we present an innovative framework for 3D medical image segmentation with one-shot and weakly-supervised settings. Firstly a propagation-reconstruction network is proposed to project scribbles from annotated volume to unlabeled 3D images based on the assumption that anatomical patterns in different human bodies are similar. Then a dual-level feature denoising module is designed to refine the scribbles based on anatomical- and pixel-level features. After expanding the scribbles to pseudo masks, we could train a segmentation model for the new class with the noisy label training strategy. Experiments on one abdomen and one head-and-neck CT dataset show the proposed method obtains significant improvement over the state-of-the-art methods and performs robustly even under severe class imbalance and low contrast.
翻訳日:2021-11-23 16:47:34 公開日:2021-11-21
# DuDoTrans-Dual-Domain Transformer : Sparse-View CTにおけるSinogram Restorationの注意力向上

DuDoTrans: Dual-Domain Transformer Provides More Attention for Sinogram Restoration in Sparse-View CT Reconstruction ( http://arxiv.org/abs/2111.10790v1 )

ライセンス: Link先を確認
Ce Wang, Kun Shang, Haimiao Zhang, Qian Li, Yuan Hui, and S. Kevin Zhou(参考訳) x線シンノグラムからのct再構成は臨床診断に必須であるが、画像中のヨウ素放射線は可逆的損傷を誘発し、研究者は、シンノグラムビューのばらばらな集合から高品質のct画像を回収する、スパースビューct再構成の研究を促す。 スパースビューCT画像に現れるアーティファクトを緩和する反復モデルが提案されているが,計算コストは高すぎる。 そして、優れた性能と低い計算量により、ディープラーニングベースの手法が普及した。 しかし、これらの手法は cnn の \textbf{local} 特徴抽出能力と sinogram の \textbf{global} 特徴とのミスマッチを無視する。 この問題を克服するために,トランスフォーマの長距離依存性モデリング機能と拡張されたシンノグラムと生のシンノグラムの両方によるct画像の再構成による情報的シンノグラムの復元を同時に行うために, \textbf{du}al-\textbf{do}main \textbf{trans}former (\textbf{dudotrans})を提案する。 このような新しい設計により、NIH-AAPMデータセットとCOVID-19データセットの再構成性能は、より少ないパラメータでDuDoTransの有効性と一般化性を実験的に確認する。 広汎な実験は、スパースビューCT再構成のための異なるノイズレベルシナリオで頑健さを示す。 コードとモデルはhttps://github.com/DuDoTrans/CODEで公開されている。

While Computed Tomography (CT) reconstruction from X-ray sinograms is necessary for clinical diagnosis, iodine radiation in the imaging process induces irreversible injury, thereby driving researchers to study sparse-view CT reconstruction, that is, recovering a high-quality CT image from a sparse set of sinogram views. Iterative models are proposed to alleviate the appeared artifacts in sparse-view CT images, but the computation cost is too expensive. Then deep-learning-based methods have gained prevalence due to the excellent performances and lower computation. However, these methods ignore the mismatch between the CNN's \textbf{local} feature extraction capability and the sinogram's \textbf{global} characteristics. To overcome the problem, we propose \textbf{Du}al-\textbf{Do}main \textbf{Trans}former (\textbf{DuDoTrans}) to simultaneously restore informative sinograms via the long-range dependency modeling capability of Transformer and reconstruct CT image with both the enhanced and raw sinograms. With such a novel design, reconstruction performance on the NIH-AAPM dataset and COVID-19 dataset experimentally confirms the effectiveness and generalizability of DuDoTrans with fewer involved parameters. Extensive experiments also demonstrate its robustness with different noise-level scenarios for sparse-view CT reconstruction. The code and models are publicly available at https://github.com/DuDoTrans/CODE
翻訳日:2021-11-23 16:47:13 公開日:2021-11-21
# freqnet:dicrete cosine変換を用いた周波数領域画像超解像ネットワーク

FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete Cosine Transform ( http://arxiv.org/abs/2111.10800v1 )

ライセンス: Link先を確認
Runyuan Cai, Yue Ding, Hongtao Lu(参考訳) 単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。 既存のSISRは主に空間領域で動作し、平均2乗再構成誤差を最小限に抑える。 高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。 いくつかの残留構造は、モデルが暗黙的に高周波の特徴に焦点を合わせるために提案されている。 しかし、空間領域のメトリクスからの解釈が限られているため、これらの人工的詳細性の検証方法が問題となっている。 本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。 既存の周波数領域の作業にインスパイアされ、画像を離散コサイン変換(DCT)ブロックに変換し、モデルを入力およびターゲットとするDCT特徴写像を得るように再構成する。 特殊なパイプラインを設計し,周波数領域タスクの性質に適合する周波数損失関数を提案する。 周波数領域におけるSISR法は、高周波情報を明示的に学習し、SR画像の忠実度と知覚品質を向上する。 さらに,本モデルが他の空間超解像モデルと統合され,sr出力の品質が向上することを示す。

Single image super-resolution(SISR) is an ill-posed problem that aims to obtain high-resolution (HR) output from low-resolution (LR) input, during which extra high-frequency information is supposed to be added to improve the perceptual quality. Existing SISR works mainly operate in the spatial domain by minimizing the mean squared reconstruction error. Despite the high peak signal-to-noise ratios(PSNR) results, it is difficult to determine whether the model correctly adds desired high-frequency details. Some residual-based structures are proposed to guide the model to focus on high-frequency features implicitly. However, how to verify the fidelity of those artificial details remains a problem since the interpretation from spatial-domain metrics is limited. In this paper, we propose FreqNet, an intuitive pipeline from the frequency domain perspective, to solve this problem. Inspired by existing frequency-domain works, we convert images into discrete cosine transform (DCT) blocks, then reform them to obtain the DCT feature maps, which serve as the input and target of our model. A specialized pipeline is designed, and we further propose a frequency loss function to fit the nature of our frequency-domain task. Our SISR method in the frequency domain can learn the high-frequency information explicitly, provide fidelity and good perceptual quality for the SR images. We further observe that our model can be merged with other spatial super-resolution models to enhance the quality of their original SR output.
翻訳日:2021-11-23 16:46:41 公開日:2021-11-21
# 脳ネットワーク分類のための構造保存グラフカーネル

Structure-Preserving Graph Kernel for Brain Network Classification ( http://arxiv.org/abs/2111.10803v1 )

ライセンス: Link先を確認
Zhaomin Kong, Aditya Kendre, Jun Yu, Hao Peng, Carl Yang, Lichao Sun, Alex Leow and Lifang He(参考訳) 本稿では,コネクトーム解析のためのグラフベースカーネル学習手法を提案する。 具体的には、グラフ表現の中で自然に利用可能な構造を利用して、カーネルの事前知識をエンコードする方法を示す。 まず,コネクトームデータの自然対称グラフ表現から構造的特徴を直接抽出する行列分解法を提案した。 次に、それらを用いて、サポートベクタマシンに供給される構造パーバーリンググラフカーネルを導出する。 提案手法は臨床的に解釈可能であるという利点がある。 HIV感染症分類(DTIおよびfMRI由来のコネクトームデータ)と感情認識(EEG由来のコネクトームデータ)タスクの定量的評価は,提案手法の最先端性を示すものである。 その結果,感情調節作業中に脳波接続情報は主にアルファバンドに符号化されることがわかった。

This paper presents a novel graph-based kernel learning approach for connectome analysis. Specifically, we demonstrate how to leverage the naturally available structure within the graph representation to encode prior knowledge in the kernel. We first proposed a matrix factorization to directly extract structural features from natural symmetric graph representations of connectome data. We then used them to derive a structure-persevering graph kernel to be fed into the support vector machine. The proposed approach has the advantage of being clinically interpretable. Quantitative evaluations on challenging HIV disease classification (DTI- and fMRI-derived connectome data) and emotion recognition (EEG-derived connectome data) tasks demonstrate the superior performance of our proposed methods against the state-of-the-art. Results showed that relevant EEG-connectome information is primarily encoded in the alpha band during the emotion regulation task.
翻訳日:2021-11-23 16:46:15 公開日:2021-11-21
# カタストロフィックオーバーフィッティングにおける局所リニアリティと二重発色

Local Linearity and Double Descent in Catastrophic Overfitting ( http://arxiv.org/abs/2111.10754v1 )

ライセンス: Link先を確認
Varun Sivashankar and Nikil Selvam(参考訳) カタストロフィックオーバーフィッティング(英: Catastrophic Overfitting)は、FGSM(Fast Gradient Sign Method)によるAT(Adversarial Training)において観察される現象であり、テストの堅牢性はトレーニング段階では1つのエポックよりも急激に低下する。 以前の研究では、ロバスト性の喪失は入力空間に対するニューラルネットワークの$\textit{local linearity}$の急激な減少に起因しており、正規化項として局所線形測度を導入すると破滅的な過剰フィッティングを防ぐことが示されている。 単純なニューラルネットワークアーキテクチャを用いて、破滅的なオーバーフィッティングを防ぐために、高い局所線形性を維持することは、$\textit{sufficient}$であり、$\textit{necessaryではないことを実験的に実証した。 さらに、我々は、ネットワークの重み行列を直交させ、ネットワークの重みの直交性と局所線型性の間の接続を研究するために、FGSMを用いたATに正規化項を導入する。 最後に,逆行訓練過程における$\textit{double descend}$現象を同定する。

Catastrophic overfitting is a phenomenon observed during Adversarial Training (AT) with the Fast Gradient Sign Method (FGSM) where the test robustness steeply declines over just one epoch in the training stage. Prior work has attributed this loss in robustness to a sharp decrease in $\textit{local linearity}$ of the neural network with respect to the input space, and has demonstrated that introducing a local linearity measure as a regularization term prevents catastrophic overfitting. Using a simple neural network architecture, we experimentally demonstrate that maintaining high local linearity might be $\textit{sufficient}$ to prevent catastrophic overfitting but is not $\textit{necessary.}$ Further, inspired by Parseval networks, we introduce a regularization term to AT with FGSM to make the weight matrices of the network orthogonal and study the connection between orthogonality of the network weights and local linearity. Lastly, we identify the $\textit{double descent}$ phenomenon during the adversarial training process.
翻訳日:2021-11-23 16:07:47 公開日:2021-11-21
# 深層学習による小惑星探査のための3次元視覚追跡フレームワーク

3D Visual Tracking Framework with Deep Learning for Asteroid Exploration ( http://arxiv.org/abs/2111.10737v1 )

ライセンス: Link先を確認
Dong Zhou, Gunaghui Sun, Xiaopeng Hong(参考訳) 3D視覚追跡は、宇宙船がターゲットに柔軟に接近することを保証できる深宇宙探査プログラムにとって重要である。 本稿では,3次元追跡のための高精度かつリアルタイムな手法について述べる。 このトピックの公開データセットがほとんどないという事実を考慮すると、両眼ビデオシーケンス、深度マップ、様々な形状とテクスチャを持つ多様な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示される。 シミュレーションプラットフォームのパワーと利便性から、すべての2Dおよび3Dアノテーションが自動的に生成される。 本研究では,2dモノキュラートラッカと新しい軽量アモーダル軸配置バウンディングボックスネットワークであるa3boxnetを含む,track3dと呼ばれるディープラーニングベースの3dトラッキングフレームワークを提案する。 評価の結果,Track3Dは,ベースラインアルゴリズムと比較して,精度と精度の両方で最先端の3Dトラッキング性能を達成できることがわかった。 さらに, 2次元単眼追跡性能に優れた一般化能力を有する。

3D visual tracking is significant to deep space exploration programs, which can guarantee spacecraft to flexibly approach the target. In this paper, we focus on the studied accurate and real-time method for 3D tracking. Considering the fact that there are almost no public dataset for this topic, A new large-scale 3D asteroid tracking dataset is presented, including binocular video sequences, depth maps, and point clouds of diverse asteroids with various shapes and textures. Benefitting from the power and convenience of simulation platform, all the 2D and 3D annotations are automatically generated. Meanwhile, we propose a deep-learning based 3D tracking framework, named as Track3D, which involves 2D monocular tracker and a novel light-weight amodal axis-aligned bounding-box network, A3BoxNet. The evaluation results demonstrate that Track3D achieves state-of-the-art 3D tracking performance in both accuracy and precision, comparing to a baseline algorithm. Moreover, our framework has great generalization ability to 2D monocular tracking performance.
翻訳日:2021-11-23 15:50:27 公開日:2021-11-21
# FCOSR:空中物体検出のための簡易アンカーフリー回転検出器

FCOSR: A Simple Anchor-free Rotated Detector for Aerial Object Detection ( http://arxiv.org/abs/2111.10780v1 )

ライセンス: Link先を確認
Zhonghua Li, Biao Hou, Zitong Wu, Licheng Jiao, Bo Ren, Chen Yang(参考訳) 既存のアンカーベース指向オブジェクト検出手法は驚くべき結果を得たが、これらの手法にはいくつかの手動のプリセットボックスが必要である。 既存のアンカーフリーメソッドは通常複雑なアーキテクチャを持ち、デプロイは容易ではない。 本研究の目的は,空中画像検出をシンプルかつ容易に行うアルゴリズムを提案することである。 本稿では,FCOSをベースとした一段アンカーフリー回転物体検出器(FCOSR)について述べる。 FCOSRは単純なアーキテクチャであり、畳み込み層のみで構成されている。 本研究は,トレーニングフェーズのラベル割り当て戦略に焦点を当てている。 オリプスセンタサンプリング法を用いて,向き付けられた境界ボックス (obb) に適したサンプリング領域を定義する。 ファジィサンプル割り当て戦略は、重複するオブジェクトに対して適切なラベルを提供する。 サンプリング不足問題を解決するため、マルチレベルサンプリングモジュールを設計した。 これらの戦略は、より適切なラベルをトレーニングサンプルに割り当てる。 本アルゴリズムは, DOTA1.0, DOTA1.5, HRSC2016データセット上で, それぞれ79.25, 75.41, 90.15mAPを達成する。 FCOSRは単スケール評価において他の手法よりも優れた性能を示す。 我々は、軽量なFCOSRモデルをTensorRTフォーマットに変換し、単一のスケールでJetson Xavier NX上で10.68 FPSの速度でDOTA1.0上で73.93 mAPを達成する。 コードは以下の通り。 https://github.com/lzh420202/FCOSR

Existing anchor-base oriented object detection methods have achieved amazing results, but these methods require some manual preset boxes, which introduces additional hyperparameters and calculations. The existing anchor-free methods usually have complex architectures and are not easy to deploy. Our goal is to propose an algorithm which is simple and easy-to-deploy for aerial image detection. In this paper, we present a one-stage anchor-free rotated object detector (FCOSR) based on FCOS, which can be deployed on most platforms. The FCOSR has a simple architecture consisting of only convolution layers. Our work focuses on the label assignment strategy for the training phase. We use ellipse center sampling method to define a suitable sampling region for oriented bounding box (OBB). The fuzzy sample assignment strategy provides reasonable labels for overlapping objects. To solve the insufficient sampling problem, a multi-level sampling module is designed. These strategies allocate more appropriate labels to training samples. Our algorithm achieves 79.25, 75.41, and 90.15 mAP on DOTA1.0, DOTA1.5, and HRSC2016 datasets, respectively. FCOSR demonstrates superior performance to other methods in single-scale evaluation. We convert a lightweight FCOSR model to TensorRT format, which achieves 73.93 mAP on DOTA1.0 at a speed of 10.68 FPS on Jetson Xavier NX with single scale. The code is available at: https://github.com/lzh420202/FCOSR
翻訳日:2021-11-23 15:50:07 公開日:2021-11-21
# 3次元キーポイント知識エンジンを用いた画素レベルの2次元画像解析

Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge Engine ( http://arxiv.org/abs/2111.10817v1 )

ライセンス: Link先を確認
Yang You, Chengkun Li, Yujing Lou, Zhoujun Cheng, Liangwei Li, Lizhuang Ma, Weiming Wang, Cewu Lu(参考訳) ピクセルレベルの2dオブジェクトの意味理解は、コンピュータビジョンの重要なトピックであり、マシンが日々の生活の中で、オブジェクトを深く理解するのに役立つ。 しかし、以前のほとんどの方法は、エンドツーエンドだが3d空間で多くの情報を失う2dイメージの対応を直接トレーニングする。 本稿では,3次元領域で画像に対応する意味論を予測し,それを2次元画像に投影してピクセルレベルの理解を実現する新しい手法を提案する。 現在の画像データセットにない信頼できる3d意味ラベルを得るために,16のオブジェクトカテゴリから103,450のキーポイントと8,234の3dモデルを含むkeypointnetと呼ばれる大規模キーポイントナレッジエンジンを構築した。 本手法は3次元視覚の利点を活かし,オブジェクトの自己完結性と可視性を明確に判断することができる。 提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与える。

Pixel-level 2D object semantic understanding is an important topic in computer vision and could help machine deeply understand objects (e.g. functionality and affordance) in our daily life. However, most previous methods directly train on correspondences in 2D images, which is end-to-end but loses plenty of information in 3D spaces. In this paper, we propose a new method on predicting image corresponding semantics in 3D domain and then projecting them back onto 2D images to achieve pixel-level understanding. In order to obtain reliable 3D semantic labels that are absent in current image datasets, we build a large scale keypoint knowledge engine called KeypointNet, which contains 103,450 keypoints and 8,234 3D models from 16 object categories. Our method leverages the advantages in 3D vision and can explicitly reason about objects self-occlusion and visibility. We show that our method gives comparative and even superior results on standard semantic benchmarks.
翻訳日:2021-11-23 15:46:49 公開日:2021-11-21
# 識別された内部モデル: 敵攻撃に対する脳誘発オートエンコーダ

Denoised Internal Models: a Brain-Inspired Autoencoder against Adversarial Attacks ( http://arxiv.org/abs/2111.10844v1 )

ライセンス: Link先を確認
Kaiyuan Liu, Xingyu Li, Yi Zhou, Jisong Guan, Yurui Lai, Ge Zhang, Hang Su, Jiachen Wang, Chunxu Guo(参考訳) その大きな成功にもかかわらず、ディープラーニングは強固さに苦しめられている。つまり、深層ニューラルネットワークは、最も単純なものでさえ、敵対的な攻撃に対して非常に脆弱である。 近年の脳科学の発展に触発されて,この課題に取り組むための新しい自動エンコーダモデルであるdenoized internal models (dim)を提案する。 視覚信号処理のために人間の脳のパイプラインをシミュレートすると、DIMは2段階のアプローチを採用する。 最初の段階では、DIMはノイズと入力の寸法を減らし、視床の情報前処理を反映するためにデノイザーを使用する。 一次視覚野におけるメモリ関連トレースのスパースコーディングから着想を得た第2段階は、各カテゴリに1つずつの内部モデルを生成する。 敵攻撃42回以上のDIMを評価し, DIMは全攻撃に対して効果的に防御し, 総合的堅牢性ではSOTAよりも優れていた。

Despite its great success, deep learning severely suffers from robustness; that is, deep neural networks are very vulnerable to adversarial attacks, even the simplest ones. Inspired by recent advances in brain science, we propose the Denoised Internal Models (DIM), a novel generative autoencoder-based model to tackle this challenge. Simulating the pipeline in the human brain for visual signal processing, DIM adopts a two-stage approach. In the first stage, DIM uses a denoiser to reduce the noise and the dimensions of inputs, reflecting the information pre-processing in the thalamus. Inspired from the sparse coding of memory-related traces in the primary visual cortex, the second stage produces a set of internal models, one for each category. We evaluate DIM over 42 adversarial attacks, showing that DIM effectively defenses against all the attacks and outperforms the SOTA on the overall robustness.
翻訳日:2021-11-23 15:46:32 公開日:2021-11-21
# CpT: 3Dポイントクラウド処理のための畳み込み点変換器

CpT: Convolutional Point Transformer for 3D Point Cloud Processing ( http://arxiv.org/abs/2111.10866v1 )

ライセンス: Link先を確認
Chaitanya Kaul, Joshua Mitton, Hang Dai, Roderick Murray-Smith(参考訳) CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。 CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。 動的に局所的な点集合を処理するために作られた畳み込み射影層を通して、新しく頑健な注意に基づく点集合を埋め込み込むことができるため、この効果を達成する。 結果として得られる点集合の埋め込みは入力点の置換に対して堅牢である。 我々の新しいCpTブロックは、ネットワーク構造の各層における動的グラフ計算によって得られる点の局所的な近傍に構築される。 完全に微分可能であり、点のグローバルな性質を学ぶために畳み込み層のように積み重ねることができる。 我々は,ModelNet40,ShapeNet Part Segmentation,S3DIS 3D屋内シーンセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスなどの標準ベンチマークデータセットを用いて,本モデルが既存の最先端手法と比較して,様々なポイントクラウド処理タスクに有効なバックボーンとして機能することを示す。

We present CpT: Convolutional point Transformer - a novel deep learning architecture for dealing with the unstructured nature of 3D point cloud data. CpT is an improvement over existing attention-based Convolutions Neural Networks as well as previous 3D point cloud processing transformers. It achieves this feat due to its effectiveness in creating a novel and robust attention-based point set embedding through a convolutional projection layer crafted for processing dynamically local point set neighbourhoods. The resultant point set embedding is robust to the permutations of the input points. Our novel CpT block builds over local neighbourhoods of points obtained via a dynamic graph computation at each layer of the networks' structure. It is fully differentiable and can be stacked just like convolutional layers to learn global properties of the points. We evaluate our model on standard benchmark datasets such as ModelNet40, ShapeNet Part Segmentation, and the S3DIS 3D indoor scene semantic segmentation dataset to show that our model can serve as an effective backbone for various point cloud processing tasks when compared to the existing state-of-the-art approaches.
翻訳日:2021-11-23 15:46:15 公開日:2021-11-21
# 非線形作用素に対する擬逆数

A Pseudo-Inverse for Nonlinear Operators ( http://arxiv.org/abs/2111.10755v1 )

ライセンス: Link先を確認
Eyal Gofer and Guy Gilboa(参考訳) ムーア・ペンローズ逆は物理学、統計学、工学の様々な分野で広く使われている。 その他の特徴として、超完全データの場合の線型作用素の反転の概念をよく捉えている。 データ科学では、非線形演算子は広く用いられる。 本稿では、非線形作用素に対する擬逆の基本的な性質を定義し、特徴付ける。 概念は広く定義されている。 最初は一般集合に対して、次にノルム空間の精製である。 ノルム空間に対する擬逆は、作用素が行列であるときにムーア・ペンローズ逆となる。 擬似逆数の存在条件と一意性を示し,その性質,すなわち連続性,作用素合成と射影作用素に対する値などについて理論的に考察する。 解析式は、ハードスレッディングやソフトスレッディングやReLUのようなよく知られた非可逆な非線形作用素の擬逆数に対して与えられる。 最後に,神経層を分析し,ウェーブレット閾値と正規化損失最小化との関係について論じる。

The Moore-Penrose inverse is widely used in physics, statistics and various fields of engineering. Among other characteristics, it captures well the notion of inversion of linear operators in the case of overcomplete data. In data science, nonlinear operators are extensively used. In this paper we define and characterize the fundamental properties of a pseudo-inverse for nonlinear operators. The concept is defined broadly. First for general sets, and then a refinement for normed spaces. Our pseudo-inverse for normed spaces yields the Moore-Penrose inverse when the operator is a matrix. We present conditions for existence and uniqueness of a pseudo-inverse and establish theoretical results investigating its properties, such as continuity, its value for operator compositions and projection operators, and others. Analytic expressions are given for the pseudo-inverse of some well-known, non-invertible, nonlinear operators, such as hard- or soft-thresholding and ReLU. Finally, we analyze a neural layer and discuss relations to wavelet thresholding and to regularized loss minimization.
翻訳日:2021-11-23 15:28:01 公開日:2021-11-21
# 資本化と再生 : アンケート調査より

Capitalization and Punctuation Restoration: a Survey ( http://arxiv.org/abs/2111.10746v1 )

ライセンス: Link先を確認
Vasile P\u{a}i\c{s}, Dan Tufi\c{s}(参考訳) 適切な句読と文字のケーシングを保証することは、複雑な自然言語処理アルゴリズムを適用するための重要な前処理ステップである。 これは、自動音声認識システムの生出力など、句読点やケーシングが欠落しているテキストソースにおいて特に重要である。 さらに、短いテキストメッセージとマイクロブログプラットフォームは、信頼できず、しばしば間違った句読点とケーシングを提供する。 本調査は,句読点の復元と単語の字幕の修正のための歴史技術と最先端技術の両方について概説する。 さらに、現在の課題や研究の方向性も強調されている。

Ensuring proper punctuation and letter casing is a key pre-processing step towards applying complex natural language processing algorithms. This is especially significant for textual sources where punctuation and casing are missing, such as the raw output of automatic speech recognition systems. Additionally, short text messages and micro-blogging platforms offer unreliable and often wrong punctuation and casing. This survey offers an overview of both historical and state-of-the-art techniques for restoring punctuation and correcting word casing. Furthermore, current challenges and research directions are highlighted.
翻訳日:2021-11-23 15:27:25 公開日:2021-11-21
# RETEROMプロジェクトによるルーマニア語のさらなる埋め込み

More Romanian word embeddings from the RETEROM project ( http://arxiv.org/abs/2111.10750v1 )

ライセンス: Link先を確認
Vasile P\u{a}i\c{s}, Dan Tufi\c{s}(参考訳) 自動的に学習される単語のベクトル表現は「単語埋め込み」としても知られ、自然言語処理アルゴリズムの基本的な構成要素となっている。 単語の埋め込みを構築するにはさまざまな方法とツールがある。 ほとんどのアプローチは生のテキストに依存しており、構築項目は単語の発生や文字n-gramである。 より詳細な研究は、テキストの前処理後に抽出された追加の言語的特徴を用いている。 形態学は、生のテキストと文字のn-gramからなるベクトル表現によって明らかに提供される。 構文と意味論の研究は、補題、パート・オブ・音声、構文、意味的依存といった付加的な特徴を持つベクトル表現からより利益を得ることができる。 ReTeRomプロジェクトの主要な目的の1つは、テキストの形態、構文、意味分析を含むルーマニアの自然言語処理のための高度な技術の開発である。 そこで我々は,使い勝手の良い単語埋め込みセットのオープンアクセスライブラリを開発し,使用する特徴(単語形式,文字n-gram,補題,ポーズなど),ベクトル長,ウィンドウ/コンテキストサイズ,周波数しきい値など)を特徴付ける。 この目的のために、コローラコーパス(p\u{a}i\c{s}、tufi\c{s}、2018)上の(単語の出現に基づく)単語埋め込みのセットは、レムマや音声の一部といった特定の特徴を用いて、同じコーパスから学習された新しい表現によってさらに拡張される。 さらに、ベクトルをよりよく理解し、探索するために、グラフィカルな表現はカスタマイズされたインターフェイスで利用できる。

Automatically learned vector representations of words, also known as "word embeddings", are becoming a basic building block for more and more natural language processing algorithms. There are different ways and tools for constructing word embeddings. Most of the approaches rely on raw texts, the construction items being the word occurrences and/or letter n-grams. More elaborated research is using additional linguistic features extracted after text preprocessing. Morphology is clearly served by vector representations constructed from raw texts and letter n-grams. Syntax and semantics studies may profit more from the vector representations constructed with additional features such as lemma, part-of-speech, syntactic or semantic dependants associated with each word. One of the key objectives of the ReTeRom project is the development of advanced technologies for Romanian natural language processing, including morphological, syntactic and semantic analysis of text. As such, we plan to develop an open-access large library of ready-to-use word embeddings sets, each set being characterized by different parameters: used features (wordforms, letter n-grams, lemmas, POSes etc.), vector lengths, window/context size and frequency thresholds. To this end, the previously created sets of word embeddings (based on word occurrences) on the CoRoLa corpus (P\u{a}i\c{s} and Tufi\c{s}, 2018) are and will be further augmented with new representations learned from the same corpus by using specific features such as lemmas and parts of speech. Furthermore, in order to better understand and explore the vectors, graphical representations will be available by customized interfaces.
翻訳日:2021-11-23 15:24:48 公開日:2021-11-21
# インパインティングによる自己教師付きポイントクラウド完成

Self-Supervised Point Cloud Completion via Inpainting ( http://arxiv.org/abs/2111.10701v1 )

ライセンス: Link先を確認
Himangi Mittal, Brian Okorn, Arpit Jangid, David Held(参考訳) 都市環境を航行する際には、追跡や回避が必要な多くの物体が密集している。 これらの部分スキャンによる計画と追跡は困難である。 この研究の目的は、これらの部分点雲の完成を学び、部分的観測のみを使用して物体の形状を完全に理解することである。 従来の手法では、ターゲットオブジェクトの完全な地味なアノテーションの助けを借りてこれを達成しており、これはシミュレーションデータセットでのみ利用可能である。 しかし、現実世界のLiDARデータではそのような基礎的な真実は利用できない。 そこで本研究では,完全基幹アノテーションを前提とせずに部分的スキャンのみをトレーニングした,自己教師付きポイントクラウド補完アルゴリズムであるPointPnCNetを提案する。 本手法はインペインティングによりこれを実現する。 入力データの一部を取り除き、欠落した領域を完了させるためにネットワークをトレーニングします。 初期クラウドにどのリージョンが隠されているのかを判断することは困難であるため、ネットワークは初期部分クラウドに欠落しているリージョンを含む完全なクラウドを完成させることを学ぶ。 提案手法は,合成データセットであるShapeNetと実世界のLiDARデータセットであるSemantic KITTIの両方において,教師なしおよび弱教師付き手法よりも優れていることを示す。

When navigating in urban environments, many of the objects that need to be tracked and avoided are heavily occluded. Planning and tracking using these partial scans can be challenging. The aim of this work is to learn to complete these partial point clouds, giving us a full understanding of the object's geometry using only partial observations. Previous methods achieve this with the help of complete, ground-truth annotations of the target objects, which are available only for simulated datasets. However, such ground truth is unavailable for real-world LiDAR data. In this work, we present a self-supervised point cloud completion algorithm, PointPnCNet, which is trained only on partial scans without assuming access to complete, ground-truth annotations. Our method achieves this via inpainting. We remove a portion of the input data and train the network to complete the missing region. As it is difficult to determine which regions were occluded in the initial cloud and which were synthetically removed, our network learns to complete the full cloud, including the missing regions in the initial partial cloud. We show that our method outperforms previous unsupervised and weakly-supervised methods on both the synthetic dataset, ShapeNet, and real-world LiDAR dataset, Semantic KITTI.
翻訳日:2021-11-23 15:06:00 公開日:2021-11-21
# 融合特徴を用いた分散教師なし視覚表現学習

Distributed Unsupervised Visual Representation Learning with Fused Features ( http://arxiv.org/abs/2111.10763v1 )

ライセンス: Link先を確認
Yawen Wu, Zhepeng Wang, Dewen Zeng, Meng Li, Yiyu Shi, Jingtong Hu(参考訳) フェデレーション学習(fl)により、分散クライアントは、各クライアントのトレーニングデータをローカルに保持しながら、予測のための共有モデルを学ぶことができる。 しかし、既存のflは、高いラベリングコストと専門知識の要件のため、不便で時には入手できないトレーニングのための完全なラベル付きデータを必要としている。 ラベルがないため、flは多くの現実的な設定では実用的ではない。 自己教師付き学習は、flが広く利用できるようなラベルのないデータから学習することで、この課題に対処できる。 自己教師付き学習アプローチであるContrastive Learning (CL)は、ラベルのないデータからデータ表現を効果的に学習することができる。 しかし、クライアントで収集された分散データは、通常、独立ではなく、クライアント間で同一の分散(非iid)であり、各クライアントは、clと学習された表現のパフォーマンスを低下させる少数のデータクラスしか持たない。 この問題に対処するために,我々は,機能融合と近隣マッチングという2つのアプローチからなる統合コントラスト学習フレームワークを提案する。 機能融合は、ローカル学習を改善するために各クライアントに正確なコントラスト情報としてリモート機能を提供する。 近隣のマッチングは、各クライアントのローカル機能とリモート機能とをさらに整合させ、クライアント間でよくクラスタ化された機能を学ぶことができる。 広範な実験により,提案手法の有効性が示された。 iidデータで他の手法を11\%上回り、集中型学習のパフォーマンスに匹敵する。

Federated learning (FL) enables distributed clients to learn a shared model for prediction while keeping the training data local on each client. However, existing FL requires fully-labeled data for training, which is inconvenient or sometimes infeasible to obtain due to the high labeling cost and the requirement of expertise. The lack of labels makes FL impractical in many realistic settings. Self-supervised learning can address this challenge by learning from unlabeled data such that FL can be widely used. Contrastive learning (CL), a self-supervised learning approach, can effectively learn data representations from unlabeled data. However, the distributed data collected on clients are usually not independent and identically distributed (non-IID) among clients, and each client may only have few classes of data, which degrades the performance of CL and learned representations. To tackle this problem, we propose a federated contrastive learning framework consisting of two approaches: feature fusion and neighborhood matching, by which a unified feature space among clients is learned for better data representations. Feature fusion provides remote features as accurate contrastive information to each client for better local learning. Neighborhood matching further aligns each client's local features to the remote features such that well-clustered features among clients can be learned. Extensive experiments show the effectiveness of the proposed framework. It outperforms other methods by 11\% on IID data and matches the performance of centralized learning.
翻訳日:2021-11-23 15:05:41 公開日:2021-11-21
# 高次元データ解析におけるリカバリ支援のためのデータ駆動線探索ルール

A Data-Driven Line Search Rule for Support Recovery in High-dimensional Data Analysis ( http://arxiv.org/abs/2111.10806v1 )

ライセンス: Link先を確認
Peili Li, Yuling Jiao, Xiliang Lu, Lican Kang(参考訳) 本研究では,このアルゴリズムを$\ell_0$ペナルティを持つ(非線形)回帰問題に適用する。 既存の$\ell_0$の最適化問題に対するアルゴリズムは、しばしば一定のステップサイズで実行され、適切なステップサイズの選択は、損失関数の厳密な凸性と滑らかさに依存するため、実用的な計算では計算が困難である。 支援検出とルート探索のアイデアのスプライトにおいて,適切なステップサイズを適応的に決定するための新しい効率的なデータ駆動行探索ルールを提案する。 提案アルゴリズムに結合する$\ell_2$エラーを,コスト関数の制約を伴わずに証明する。 線形回帰問題とロジスティック回帰問題における最先端アルゴリズムとの比較は,提案アルゴリズムの安定性,有効性,優越性を示す。

In this work, we consider the algorithm to the (nonlinear) regression problems with $\ell_0$ penalty. The existing algorithms for $\ell_0$ based optimization problem are often carried out with a fixed step size, and the selection of an appropriate step size depends on the restricted strong convexity and smoothness for the loss function, hence it is difficult to compute in practical calculation. In sprite of the ideas of support detection and root finding \cite{HJK2020}, we proposes a novel and efficient data-driven line search rule to adaptively determine the appropriate step size. We prove the $\ell_2$ error bound to the proposed algorithm without much restrictions for the cost functional. A large number of numerical comparisons with state-of-the-art algorithms in linear and logistic regression problems show the stability, effectiveness and superiority of the proposed algorithms.
翻訳日:2021-11-23 14:56:36 公開日:2021-11-21
# 確率的変動を低減したエンサンブル・エンサンブル・トランスファービリティ向上のためのアンサンブル・アタック

Stochastic Variance Reduced Ensemble Adversarial Attack for Boosting the Adversarial Transferability ( http://arxiv.org/abs/2111.10752v1 )

ライセンス: Link先を確認
Yifeng Xiong, Jiadong Lin, Min Zhang, John E. Hopcroft, Kun He(参考訳) ブラックボックスの敵攻撃は、深層学習のセキュリティ分野における実用性において、目覚ましい注目を集めている一方、ネットワークアーキテクチャやターゲットモデルの内部重みにアクセスできないため、非常に困難である。 例が複数のモデルに対して敵対的であり続けると、攻撃能力を他のモデルに移す可能性が高いという仮説に基づいて、アンサンブルベースの敵攻撃手法は効率的であり、ブラックボックス攻撃に広く使用される。 しかし、アンサンブル攻撃の方法はあまり研究されておらず、既存のアンサンブル攻撃は単にすべてのモデルの出力を均等に融合させるだけである。 本研究では,異なるモデル上での勾配のばらつきが局所光度を低下させる確率的勾配降下最適化プロセスとして,反復的アンサンブル攻撃を扱っている。 そこで本研究では,確率分散低減アンサンブル攻撃(SVRE)と呼ばれる,アンサンブルモデルの勾配変動を低減し,アンサンブル攻撃を最大限に活用する新たな攻撃手法を提案する。 標準のImageNetデータセットにおける実験結果から,提案手法が既存のアンサンブル攻撃を著しく上回り,敵の移動可能性を高めることが実証された。

The black-box adversarial attack has attracted impressive attention for its practical use in the field of deep learning security, meanwhile, it is very challenging as there is no access to the network architecture or internal weights of the target model. Based on the hypothesis that if an example remains adversarial for multiple models, then it is more likely to transfer the attack capability to other models, the ensemble-based adversarial attack methods are efficient and widely used for black-box attacks. However, ways of ensemble attack are rather less investigated, and existing ensemble attacks simply fuse the outputs of all the models evenly. In this work, we treat the iterative ensemble attack as a stochastic gradient descent optimization process, in which the variance of the gradients on different models may lead to poor local optima. To this end, we propose a novel attack method called the stochastic variance reduced ensemble (SVRE) attack, which could reduce the gradient variance of the ensemble models and take full advantage of the ensemble attack. Empirical results on the standard ImageNet dataset demonstrate that the proposed method could boost the adversarial transferability and outperforms existing ensemble attacks significantly.
翻訳日:2021-11-23 14:55:25 公開日:2021-11-21
# adversarial mask: 顔認識モデルに対する現実世界の敵意攻撃

Adversarial Mask: Real-World Adversarial Attack Against Face Recognition Models ( http://arxiv.org/abs/2111.10759v1 )

ライセンス: Link先を確認
Alon Zolfi and Shai Avidan and Yuval Elovici and Asaf Shabtai(参考訳) ディープラーニングベースの顔認識(fr)モデルは、新型コロナウイルス(covid-19)パンデミックで防護マスクを着用した場合でも、ここ数年で最先端のパフォーマンスを示している。 これらのモデルの優れたパフォーマンスを考えると、機械学習研究コミュニティは、その堅牢性に挑戦することへの関心が高まっている。 最初、研究者たちはデジタルドメインの敵攻撃を示し、その後、攻撃は物理ドメインに転送された。 しかし、多くの場合、物理的な領域での攻撃は目立っており、例えば、顔にステッカーを置くことが必要であり、現実世界の環境(例えば空港)で疑念を生じさせる可能性がある。 本稿では, 顔のマスクに注意深い図形を施した, 最先端のFRモデルに対する物理対角的普遍摂動(UAP)であるAdversarial Maskを提案する。 実験では,敵マスクの広い範囲のfrモデルアーキテクチャとデータセットへの移動性について検討した。 さらに,布製マスクに対向パターンを印刷することで実世界の実験において,敵向マスクの有効性を検証し,FRシステムではマスクを着用している参加者の3.34%(他の評価マスクと比較すると83.34%)しか識別できないことを確認した。

Deep learning-based facial recognition (FR) models have demonstrated state-of-the-art performance in the past few years, even when wearing protective medical face masks became commonplace during the COVID-19 pandemic. Given the outstanding performance of these models, the machine learning research community has shown increasing interest in challenging their robustness. Initially, researchers presented adversarial attacks in the digital domain, and later the attacks were transferred to the physical domain. However, in many cases, attacks in the physical domain are conspicuous, requiring, for example, the placement of a sticker on the face, and thus may raise suspicion in real-world environments (e.g., airports). In this paper, we propose Adversarial Mask, a physical adversarial universal perturbation (UAP) against state-of-the-art FR models that is applied on face masks in the form of a carefully crafted pattern. In our experiments, we examined the transferability of our adversarial mask to a wide range of FR model architectures and datasets. In addition, we validated our adversarial mask effectiveness in real-world experiments by printing the adversarial pattern on a fabric medical face mask, causing the FR system to identify only 3.34% of the participants wearing the mask (compared to a minimum of 83.34% with other evaluated masks).
翻訳日:2021-11-23 14:55:03 公開日:2021-11-21
# 深部特徴抽出によるCOVID-19検出

COVID-19 Detection through Deep Feature Extraction ( http://arxiv.org/abs/2111.10762v1 )

ライセンス: Link先を確認
Jash Dalvi, Aziz Bohra(参考訳) SARS-CoV2ウイルスはヒトに多くのトリブレーションを引き起こしている。 新型コロナウイルスに感染しているかどうかを正確に判断できる予測モデリングは必須である。 本研究は,ネットワークのバックボーンとして機能するResNet50を,ヘッドモデルとしてロジスティック回帰と組み合わせた,深い特徴抽出手法を用いた新しいアプローチを提案する。 提案されたモデルは、Kaggle COVID-19 Radiography Datasetでトレーニングされている。 提案モデルでは、新型コロナウイルスおよび正常X線画像クラスで100%のクロスバリデーション精度を実現する。 同様に、結合した3つのクラスでテストすると、提案モデルは98.84%の精度が得られる。

The SARS-CoV2 virus has caused a lot of tribulation to the human population. Predictive modeling that can accurately determine whether a person is infected with COVID-19 is imperative. The study proposes a novel approach that utilizes deep feature extraction technique, pre-trained ResNet50 acting as the backbone of the network, combined with Logistic Regression as the head model. The proposed model has been trained on Kaggle COVID-19 Radiography Dataset. The proposed model achieves a cross-validation accuracy of 100% on the COVID-19 and Normal X-Ray image classes. Similarly, when tested on combined three classes, the proposed model achieves 98.84% accuracy.
翻訳日:2021-11-23 14:54:37 公開日:2021-11-21
# xnodrとxnidr:畳み込みニューラルネットワークのための2つの精度と高速の完全連結層

XnODR and XnIDR: Two Accurate and Fast Fully Connected Layers For Convolutional Neural Networks ( http://arxiv.org/abs/2111.10854v1 )

ライセンス: Link先を確認
Jian Sun, Ali Pourramezan Fard, and Mohammad H. Mahoor(参考訳) カプセルネットワークは、視覚認識タスクのためのディープニューラルネットワークの特徴間の位置関係を定義するのに優れた能力を示すが、計算コストは高く、モバイルデバイス上での実行には適さない。 ボトルネックはカプセル間で使用される動的ルーティング機構の計算複雑性にある。 一方、XNOR-Netのようなニューラルネットワークは高速かつ計算効率が高いが、二項化過程における情報損失のため、比較的精度が低い。 本稿では,CapsFC層内における動的ルーティングの外部あるいは内部に線形プロジェクタをxnorizingすることで,フル接続層(FC)の新たなクラスを提案する。 特に,提案するfc層には,xnodr (xnorizing linear projector outside dynamic routing) とxnidr (xnorizing linear projector inside dynamic routing) の2つのバージョンがある。 それらの一般化をテストするために、MobileNet V2とResNet-50を別々に挿入する。 MNIST、CIFAR-10、MultiMNISTの3つのデータセットの実験は、その有効性を検証する。 実験の結果,xnodr と xnidr はネットワークの精度が低く,パラメータも少ない(例えば,2.99mパラメータの95.32\%精度と cifar-10 の311.22mフラップ)。

Although Capsule Networks show great abilities in defining the position relationship between features in deep neural networks for visual recognition tasks, they are computationally expensive and not suitable for running on mobile devices. The bottleneck is in the computational complexity of the Dynamic Routing mechanism used between capsules. On the other hand, neural networks such as XNOR-Net are fast and computationally efficient but have relatively low accuracy because of their information loss in the binarization process. This paper proposes a new class of Fully Connected (FC) Layers by xnorizing the linear projector outside or inside the Dynamic Routing within the CapsFC layer. Specifically, our proposed FC layers have two versions, XnODR (Xnorizing Linear Projector Outside Dynamic Routing) and XnIDR (Xnorizing Linear Projector Inside Dynamic Routing). To test their generalization, we insert them into MobileNet V2 and ResNet-50 separately. Experiments on three datasets, MNIST, CIFAR-10, MultiMNIST validate their effectiveness. Our experimental results demonstrate that both XnODR and XnIDR help networks to have high accuracy with lower FLOPs and fewer parameters (e.g., 95.32\% accuracy with 2.99M parameters and 311.22M FLOPs on CIFAR-10).
翻訳日:2021-11-23 14:53:41 公開日:2021-11-21
# 部分的スケッチに基づく画像検索のための奥行き強化注意回帰

Deep Reinforced Attention Regression for Partial Sketch Based Image Retrieval ( http://arxiv.org/abs/2111.10917v1 )

ライセンス: Link先を確認
Dingrong Wang, Hitesh Sapkota, Xumin Liu, Qi Yu(参考訳) Fine-Grained Sketch-Based Image Retrieval (FG-SBIR)は、クエリスケッチを与えられた大きなギャラリーから特定の画像を見つけることを目的としている。 多くの重要な領域(例えば犯罪活動追跡)でFG-SBIRが広く適用されているにもかかわらず、既存のアプローチは、スケッチの不要なストロークのような外部ノイズに敏感でありながら、依然として低い精度に悩まされている。 検索性能は、より実用的なオンザフライ設定でさらに劣化し、一部(ノイズの多い)ストロークだけで、対応する画像を取得することができる部分完備スケッチのみとなる。 本稿では,一意に設計された深部強化学習モデルを用いて,部分スケッチトレーニングと注意領域選択に対処する2段階探索を行うフレームワークを提案する。 オリジナルのスケッチの重要な領域にモデルの注意を向けることで、不要なストロークノイズに対して頑健であり、大きなマージンで精度を向上する。 局所的なスケッチを十分に探索し,参加すべき重要な領域を特定するために,局所探索のためのロケータネットワークを管理する標準偏差項を調整しながら,グローバル探索のための自己ストラップ型ポリシー勾配を実行する。 トレーニングプロセスは、強化損失と教師付き損失を統合したハイブリッド損失によってガイドされる。 部分スケッチを用いたオンザフライ画像検索プロセスに適合する動的ランキング報酬を開発する。 3つの公開データセット上で行った広範囲な実験により,提案手法は部分スケッチに基づく画像検索における最先端の性能を実現することを示す。

Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) aims at finding a specific image from a large gallery given a query sketch. Despite the widespread applicability of FG-SBIR in many critical domains (e.g., crime activity tracking), existing approaches still suffer from a low accuracy while being sensitive to external noises such as unnecessary strokes in the sketch. The retrieval performance will further deteriorate under a more practical on-the-fly setting, where only a partially complete sketch with only a few (noisy) strokes are available to retrieve corresponding images. We propose a novel framework that leverages a uniquely designed deep reinforcement learning model that performs a dual-level exploration to deal with partial sketch training and attention region selection. By enforcing the model's attention on the important regions of the original sketches, it remains robust to unnecessary stroke noises and improve the retrieval accuracy by a large margin. To sufficiently explore partial sketches and locate the important regions to attend, the model performs bootstrapped policy gradient for global exploration while adjusting a standard deviation term that governs a locator network for local exploration. The training process is guided by a hybrid loss that integrates a reinforcement loss and a supervised loss. A dynamic ranking reward is developed to fit the on-the-fly image retrieval process using partial sketches. The extensive experimentation performed on three public datasets shows that our proposed approach achieves the state-of-the-art performance on partial sketch based image retrieval.
翻訳日:2021-11-23 14:53:15 公開日:2021-11-21
# カルマンフィルタによる自動制御器校正

Automated Controller Calibration by Kalman Filtering ( http://arxiv.org/abs/2111.10832v1 )

ライセンス: Link先を確認
Marcel Menner, Karl Berntorp, Stefano Di Cairano(参考訳) 本稿では,制御パラメータの校正手法を提案する。 このような制御パラメータの例としては、PIDコントローラの利得、最適制御のためのコスト関数の重み、フィルタ係数、スライディングモードコントローラの滑り面、ニューラルネットワークの重みなどがある。 したがって,提案手法は広い範囲のコントローラに適用可能である。 この方法は、クローズドループシステム操作のデータを用いて、システムの状態よりも制御パラメータを推定するカルマンフィルタを使用する。 制御パラメータキャリブレーションは、力学系の性能に関する仕様を包含するトレーニング目標によって駆動される。 このキャリブレーション法は,パラメータをオンラインかつ堅牢に調整し,計算効率が高く,データストレージの要件が低く,多くのリアルタイムアプリケーションにアピールする実装が容易である。 シミュレーションの結果,制御パラメータを高速に学習でき(閉ループコストの平均減衰率約24%),乱れを補償するパラメータを調整でき(追跡精度約29%の改善),騒音に強いことがわかった。 さらに,高忠実度車両シミュレータcarsimを用いたシミュレーションにより,複雑な力学系の制御器をオンラインに校正できることを示し,実世界のシステムへの適用性を示した。

This paper proposes a method for calibrating control parameters. Examples of such control parameters are gains of PID controllers, weights of a cost function for optimal control, filter coefficients, the sliding surface of a sliding mode controller, or weights of a neural network. Hence, the proposed method can be applied to a wide range of controllers. The method uses a Kalman filter that estimates control parameters rather than the system's state, using data of closed-loop system operation. The control parameter calibration is driven by a training objective, which encompasses specifications on the performance of the dynamical system. The calibration method tunes the parameters online and robustly, is computationally efficient, has low data storage requirements, and is easy to implement making it appealing for many real-time applications. Simulation results show that the method is able to learn control parameters quickly (approximately 24% average decay factor of closed-loop cost), is able to tune the parameters to compensate for disturbances (approximately 29% improvement on tracking precision), and is robust to noise. Further, a simulation study with the high-fidelity vehicle simulator CarSim shows that the method can calibrate controllers of a complex dynamical system online, which indicates its applicability to a real-world system.
翻訳日:2021-11-23 14:51:32 公開日:2021-11-21
# 公正ランキングシステムのためのエンドツーエンド学習

End-to-end Learning for Fair Ranking Systems ( http://arxiv.org/abs/2111.10723v1 )

ライセンス: Link先を確認
James Kotary, Ferdinando Fioretto, Pascal Van Hentenryck, Ziwei Zhu(参考訳) learning-to-rank問題では,ユーザクエリに最も関係のある項目の露出を最大化するために,項目のランク付けを目標としている。 このようなランキングシステムの望ましい特性は、特定の項目群間の公平性の概念を保証することである。 近年,学習からランクまでのシステムにおいて公正性は考慮されているが,現在の手法では,提案したランキングポリシーの公平性を保証することはできない。 本稿では,このギャップに対処し,公平度に制約のある学習のための統合最適化学習フレームワークspofr(smart predict and optimize for fair ranking)を提案する。 エンドツーエンドのSPOFRフレームワークは、制約付き最適化サブモデルを含み、公正性の制約を満たすことを保証するとともに、公正性ユーティリティトレードオフのきめ細かい制御を可能にするランキングポリシーを生成する。 SPOFRは、確立されたパフォーマンス指標に関して、最先端の公正学習システムを大幅に改善することが示されている。

The learning-to-rank problem aims at ranking items to maximize exposure of those most relevant to a user query. A desirable property of such ranking systems is to guarantee some notion of fairness among specified item groups. While fairness has recently been considered in the context of learning-to-rank systems, current methods cannot provide guarantees on the fairness of the proposed ranking policies. This paper addresses this gap and introduces Smart Predict and Optimize for Fair Ranking (SPOFR), an integrated optimization and learning framework for fairness-constrained learning to rank. The end-to-end SPOFR framework includes a constrained optimization sub-model and produces ranking policies that are guaranteed to satisfy fairness constraints while allowing for fine control of the fairness-utility tradeoff. SPOFR is shown to significantly improve current state-of-the-art fair learning-to-rank systems with respect to established performance metrics.
翻訳日:2021-11-23 14:08:54 公開日:2021-11-21
# ネットワーク表現学習:マクロとマイクロビュー

Network representation learning: A macro and micro view ( http://arxiv.org/abs/2111.10772v1 )

ライセンス: Link先を確認
Xueyi Liu, Jie Tang(参考訳) グラフは、現実世界のデータ整理に広く使われている宇宙のデータ構造である。 交通ネットワーク、社会ネットワーク、学術ネットワークのような様々なリアルワードネットワークはグラフで表現できる。 近年、ネットワークの頂点をネットワーク表現学習と呼ばれる低次元ベクトル空間に表現する手法が急速に発展している。 表現学習はグラフデータに基づく新しいアルゴリズムの設計を容易にする。 本稿では,ネットワーク表現学習に関する現在の文献を総合的に概観する。 既存のアルゴリズムは、浅い埋め込みモデル、異種ネットワーク埋め込みモデル、グラフニューラルネットワークベースモデルという3つのグループに分類される。 本稿では,各カテゴリの最先端アルゴリズムを概説し,これらのアルゴリズムの本質的な違いについて考察する。 この調査の利点の1つは、ネットワーク表現学習分野の開発をより深く理解するための深い洞察を提供するアルゴリズムの異なるカテゴリの基礎となる理論的基礎を体系的に研究することである。

Graph is a universe data structure that is widely used to organize data in real-world. Various real-word networks like the transportation network, social and academic network can be represented by graphs. Recent years have witnessed the quick development on representing vertices in the network into a low-dimensional vector space, referred to as network representation learning. Representation learning can facilitate the design of new algorithms on the graph data. In this survey, we conduct a comprehensive review of current literature on network representation learning. Existing algorithms can be categorized into three groups: shallow embedding models, heterogeneous network embedding models, graph neural network based models. We review state-of-the-art algorithms for each category and discuss the essential differences between these algorithms. One advantage of the survey is that we systematically study the underlying theoretical foundations underlying the different categories of algorithms, which offers deep insights for better understanding the development of the network representation learning field.
翻訳日:2021-11-23 14:08:38 公開日:2021-11-21
# 2つのテキストコーパスにおけるリードラグ関係認識のための共同動的トピックモデル

Jointly Dynamic Topic Model for Recognition of Lead-lag Relationship in Two Text Corpora ( http://arxiv.org/abs/2111.10846v1 )

ライセンス: Link先を確認
Yandi Zhu, Xiaoling Lu, Jingya Hong, and Feifei Wang(参考訳) 近年,トピック進化モデルが注目されている。 様々なトピック進化モデルが提案されているが、ほとんどの研究は単一の文書コーパスに焦点を当てている。 しかし実際には、複数のソースからのデータを簡単にアクセスでき、それらの間の関係も観察できる。 そして、複数のテキストコーパス間の関係を認識し、さらにこの関係を利用してトピックモデリングを改善することが大きな関心事である。 本研究では,2つのテキストコーパス間の特別な関係に着目し,その関係を「リード・ラグ関係」と定義する。 この関係は、あるテキストコーパスが将来他のテキストコーパスで議論されるトピックに影響を与える現象を特徴づける。 リード・ラグ関係を明らかにするために,協調的なトピックモデルを提案し,大規模テキストコーパスのモデリング問題に対処する組込み拡張を開発した。 認識されたリードラグ関係により、2つのテキストコーパスの類似性を把握でき、両方のコーパスにおけるトピック学習の質を向上させることができる。 合成データを用いた同時動的トピックモデリング手法の性能を数値的に検討する。 最後に,統計論文と卒業論文からなる2つのテキストコーパスに対して提案モデルを適用する。 その結果,提案モデルでは2つのコーパス間のリードラグ関係をよく認識でき,また2コーパス内の特定のトピックパターンや共有トピックパターンも発見できることがわかった。

Topic evolution modeling has received significant attentions in recent decades. Although various topic evolution models have been proposed, most studies focus on the single document corpus. However in practice, we can easily access data from multiple sources and also observe relationships between them. Then it is of great interest to recognize the relationship between multiple text corpora and further utilize this relationship to improve topic modeling. In this work, we focus on a special type of relationship between two text corpora, which we define as the "lead-lag relationship". This relationship characterizes the phenomenon that one text corpus would influence the topics to be discussed in the other text corpus in the future. To discover the lead-lag relationship, we propose a jointly dynamic topic model and also develop an embedding extension to address the modeling problem of large-scale text corpus. With the recognized lead-lag relationship, the similarities of the two text corpora can be figured out and the quality of topic learning in both corpora can be improved. We numerically investigate the performance of the jointly dynamic topic modeling approach using synthetic data. Finally, we apply the proposed model on two text corpora consisting of statistical papers and the graduation theses. Results show the proposed model can well recognize the lead-lag relationship between the two corpora, and the specific and shared topic patterns in the two corpora are also discovered.
翻訳日:2021-11-23 14:04:51 公開日:2021-11-21
# オフライン強化学習: 値関数近似の基本的な障壁

Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation ( http://arxiv.org/abs/2111.10919v1 )

ライセンス: Link先を確認
Dylan J. Foster, Akshay Krishnamurthy, David Simchi-Levi, Yunzong Xu(参考訳) 我々は,ログデータから意思決定方針を学ぶことを目的とした,オフライン強化学習問題を考える。 オフラインRL – 特に(値)関数近似と組み合わせて、大規模あるいは連続的な状態空間での一般化を可能にする – は、コストと時間のかかるオンラインデータ収集を回避し、安全クリティカルなドメインに適しているため、実際にはますます関連性が高まっている。 オフライン値関数近似法に対する既存のサンプル複雑性の保証は、(1)分布的仮定(すなわち、良いカバレッジ)と(2)表象的仮定(例えば、いくつかの$q$-値関数を表す能力)の両方を必要とする。 しかし、これらの条件の必要性とオフラインRLの基本的な限界は、数十年の研究にもかかわらずよく理解されていない。 これにより、Chen と Jiang (2019) は、集中可能性(カバレッジの最も標準的な概念)と実現可能性(最も弱い表現条件)だけではサンプル効率の悪いオフライン RL には十分でないと推測した。 一般に、集中性と実現可能性の両方が満たされたとしても、任意のアルゴリズムは非自明なポリシーを学ぶために状態空間の大きさのサンプル複雑性多項式を必要とすることを証明して、この予想を正に解決する。 その結果,サンプル効率の良いオフライン強化学習では,教師付き学習を超越した限定的カバレッジ条件や表現条件が必要となり,オフライン値関数近似手法の基本的な障壁となるオーバーカバーと呼ばれる現象が浮き彫りになる。 線形関数近似を用いた強化学習の結果,オンラインrlとオフラインrlの分離は一定次元においても任意に大きくなることがわかった。

We consider the offline reinforcement learning problem, where the aim is to learn a decision making policy from logged data. Offline RL -- particularly when coupled with (value) function approximation to allow for generalization in large or continuous state spaces -- is becoming increasingly relevant in practice, because it avoids costly and time-consuming online data collection and is well suited to safety-critical domains. Existing sample complexity guarantees for offline value function approximation methods typically require both (1) distributional assumptions (i.e., good coverage) and (2) representational assumptions (i.e., ability to represent some or all $Q$-value functions) stronger than what is required for supervised learning. However, the necessity of these conditions and the fundamental limits of offline RL are not well understood in spite of decades of research. This led Chen and Jiang (2019) to conjecture that concentrability (the most standard notion of coverage) and realizability (the weakest representation condition) alone are not sufficient for sample-efficient offline RL. We resolve this conjecture in the positive by proving that in general, even if both concentrability and realizability are satisfied, any algorithm requires sample complexity polynomial in the size of the state space to learn a non-trivial policy. Our results show that sample-efficient offline reinforcement learning requires either restrictive coverage conditions or representation conditions that go beyond supervised learning, and highlight a phenomenon called over-coverage which serves as a fundamental barrier for offline value function approximation methods. A consequence of our results for reinforcement learning with linear function approximation is that the separation between online and offline RL can be arbitrarily large, even in constant dimension.
翻訳日:2021-11-23 14:04:23 公開日:2021-11-21
# 深部確率推定

Deep Probability Estimation ( http://arxiv.org/abs/2111.10734v1 )

ライセンス: Link先を確認
Sheng Liu, Aakash Kaku, Weicheng Zhu, Matan Leibovich, Sreyas Mohan, Boyang Yu, Laure Zanna, Narges Razavian, Carlos Fernandez-Granda(参考訳) 信頼性の高い確率推定は、天気予報、医学的予後、自動運転車の衝突回避など、固有の不確実性が存在する現実の多くの応用において重要である。 確率推定モデルは観測された結果(例、雨が降ったかどうか、または患者が死んだかどうか)に基づいて訓練される。 したがって、問題は二分分類と類似しており、目的が特定の結果を予測するのではなく、確率を推定することである。 本研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を検討することである。 これらのモデルによって生じる確率を改善する方法はいくつか存在するが、それらは主にモデルの不確かさに関連する分類問題に焦点を当てている。 本質的不確実性のある問題の場合、地中確率にアクセスせずに性能を評価することは困難である。 これに対処するために、さまざまな計算可能なメトリクスを研究し比較するための合成データセットを構築します。 本稿では,レーダ画像からの降水予測,病理像からのがん患者の生存予測,ダシュカムビデオからの自動車事故の予測という,生来の不確実性を伴う3つの実世界の確率推定タスクに関する既存手法を評価する。 最後に,データから計算した経験的確率と一致した出力確率を促進するために,トレーニングプロセスを修正したニューラルネットワークを用いた確率推定手法を提案する。 この手法はシミュレーションや実世界のデータで既存の手法よりも優れている。

Reliable probability estimation is of crucial importance in many real-world applications where there is inherent uncertainty, such as weather forecasting, medical prognosis, or collision avoidance in autonomous vehicles. Probability-estimation models are trained on observed outcomes (e.g. whether it has rained or not, or whether a patient has died or not), because the ground-truth probabilities of the events of interest are typically unknown. The problem is therefore analogous to binary classification, with the important difference that the objective is to estimate probabilities rather than predicting the specific outcome. The goal of this work is to investigate probability estimation from high-dimensional data using deep neural networks. There exist several methods to improve the probabilities generated by these models but they mostly focus on classification problems where the probabilities are related to model uncertainty. In the case of problems with inherent uncertainty, it is challenging to evaluate performance without access to ground-truth probabilities. To address this, we build a synthetic dataset to study and compare different computable metrics. We evaluate existing methods on the synthetic data as well as on three real-world probability estimation tasks, all of which involve inherent uncertainty: precipitation forecasting from radar images, predicting cancer patient survival from histopathology images, and predicting car crashes from dashcam videos. Finally, we also propose a new method for probability estimation using neural networks, which modifies the training process to promote output probabilities that are consistent with empirical probabilities computed from the data. The method outperforms existing approaches on most metrics on the simulated as well as real-world data.
翻訳日:2021-11-23 13:29:51 公開日:2021-11-21
# travlr: 今、あなたはそれを見て、あなたはそうしません! Visio-Linguistic Reasoning のクロスモーダル移動の評価

TraVLR: Now You See It, Now You Don't! Evaluating Cross-Modal Transfer of Visio-Linguistic Reasoning ( http://arxiv.org/abs/2111.10756v1 )

ライセンス: Link先を確認
Keng Ji Chow, Samson Tan, Min-Yen Kan(参考訳) 多くのヴィシオ言語(v+l)表現学習法が開発されているが、既存のデータセットでは、視覚と言語の概念を統一された空間で表現する程度を評価していない。 クロスリンガル・トランスファーと精神言語学の文献に着想を得て,v+lモデルのための新しい評価設定,ゼロショットクロスモーダルトランスファーを提案する。 既存のv+lベンチマークもデータセット全体のグローバル精度スコアを報告しており、モデルが失敗して成功した特定の推論タスクを特定するのが難しい。 この問題に対処し, クロスモーダル転送の評価を可能にするために, 4つのV+L推論タスクからなる合成データセットであるTraVLRを提案する。 それぞれの例はシーンをバイモーダルにエンコードし、関連する情報を失うことなく、トレーニング/テスト中にモダリティを落とすことができる。 travlrのトレーニングとテスト分布もタスク関連次元に沿って制限されており、分散一般化の評価を可能にする。 我々は4つの最先端のv+lモデルを評価し、同じモダリティからテストセットでうまく機能するが、全てのモデルはクロスモダリティ転送に失敗し、1つのモダリティの追加や削除に適応した成功が限定されていることを発見した。 先行研究と連動して,単純な空間関係を学ぶために大量のデータを必要とするモデルも見いだした。 我々は研究コミュニティのオープンチャレンジとしてTraVLRをリリースする。

Numerous visio-linguistic (V+L) representation learning methods have been developed, yet existing datasets do not evaluate the extent to which they represent visual and linguistic concepts in a unified space. Inspired by the crosslingual transfer and psycholinguistics literature, we propose a novel evaluation setting for V+L models: zero-shot cross-modal transfer. Existing V+L benchmarks also often report global accuracy scores on the entire dataset, rendering it difficult to pinpoint the specific reasoning tasks that models fail and succeed at. To address this issue and enable the evaluation of cross-modal transfer, we present TraVLR, a synthetic dataset comprising four V+L reasoning tasks. Each example encodes the scene bimodally such that either modality can be dropped during training/testing with no loss of relevant information. TraVLR's training and testing distributions are also constrained along task-relevant dimensions, enabling the evaluation of out-of-distribution generalisation. We evaluate four state-of-the-art V+L models and find that although they perform well on the test set from the same modality, all models fail to transfer cross-modally and have limited success accommodating the addition or deletion of one modality. In alignment with prior work, we also find these models to require large amounts of data to learn simple spatial relationships. We release TraVLR as an open challenge for the research community.
翻訳日:2021-11-23 13:28:52 公開日:2021-11-21
# (参考訳) cover information disentanglement: unbiased permutation importanceによるモデルの透明性

Covered Information Disentanglement: Model Transparency via Unbiased Permutation Importance ( http://arxiv.org/abs/2111.09744v2 )

ライセンス: CC BY-SA 4.0
Jo\~ao Pereira and Erik S.G. Stroes and Aeilko H. Zwinderman and Evgeni Levin(参考訳) モデルの透明性は、多くのドメインにおいて必須条件であり、機械学習研究でますます人気が高まっている分野である。 例えば、医学領域では、疾患の背後にあるメカニズムを明らかにすることは、治療や研究の方向性を指示する可能性があるため、診断自体よりも優先度が高いことが多い。 モデルグローバル予測を説明する最も一般的なアプローチの1つは、順列データのパフォーマンスがベースラインに対してベンチマークされる順列の重要性である。 しかし,本手法や他の関連手法は,提供情報の一部をカバーしているため,共変量の存在下での特徴の重要性を過小評価する。 そこで本研究では,すべての特徴情報を重ね合わせて置換重要度によって提供された値を補正する手法であるcovered information disentanglement (cid)を提案する。 さらに,マルコフ確率場と組み合わせてCIDを効率的に計算する方法を示す。 まず,コントロールトイデータセット上での順応重要度調整の効果を実証し,実世界医療データへの影響について考察する。

Model transparency is a prerequisite in many domains and an increasingly popular area in machine learning research. In the medical domain, for instance, unveiling the mechanisms behind a disease often has higher priority than the diagnostic itself since it might dictate or guide potential treatments and research directions. One of the most popular approaches to explain model global predictions is the permutation importance where the performance on permuted data is benchmarked against the baseline. However, this method and other related approaches will undervalue the importance of a feature in the presence of covariates since these cover part of its provided information. To address this issue, we propose Covered Information Disentanglement (CID), a method that considers all feature information overlap to correct the values provided by permutation importance. We further show how to compute CID efficiently when coupled with Markov random fields. We demonstrate its efficacy in adjusting permutation importance first on a controlled toy dataset and discuss its effect on real-world medical data.
翻訳日:2021-11-23 12:06:25 公開日:2021-11-21