このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210212となっている論文です。

PDF登録状況(公開日: 20210212)

TitleAuthorsAbstract論文公表日・翻訳日
# 連続観測による測定誘起量子臨界

Measurement-induced quantum criticality under continuous monitoring ( http://arxiv.org/abs/2004.11957v3 )

ライセンス: Link先を確認
Yohei Fuji and Yuto Ashida(参考訳) 本研究では, 量子軌道法に基づく連続的な位置測定の下で, 体積法則から領域法則の絡み合いへの位相遷移について検討する。 実測値を持つランダムユニタリ回路において報告されたように、相互情報のピーク構造としての遷移のシグネチャを測定強度の関数として求める。 遷移点において、絡み合いエントロピーは代数的に対数的および様々な物理量のスケールをスケールし、積分可能かつ非可積分な1次元相互作用ハミルトニアンに対して創発的共形臨界を示唆する。 本モデルにおけるu(1)$対称性の助成により, 測定誘起臨界性は, 対称性分解エンタングルメントによる友永ルッティンガー液体理論に類似したスペクトルシグネチャを示す。 これらの興味深い臨界現象は、単一軌道レベルでの条件力学の定常状態系に特有のものであり、リンドブラッドマスター方程式に従う無条件ダイナミクスには存在しない。 また、サブシステム粒子数変動に基づいて、予測される絡み合い遷移をテストするための実験的な設定を提案する。 この量は量子ガス顕微鏡の現在の技術で容易に測定でき、実際にはエントロピーのエントロピー自体よりも容易に得ることができる。

We investigate entanglement phase transitions from volume-law to area-law entanglement in a quantum many-body state under continuous position measurement on the basis of the quantum trajectory approach. We find the signatures of the transitions as peak structures in the mutual information as a function of measurement strength, as previously reported for random unitary circuits with projective measurements. At the transition points, the entanglement entropy scales logarithmically and various physical quantities scale algebraically, implying emergent conformal criticality, for both integrable and nonintegrable one-dimensional interacting Hamiltonians; however, such transitions have been argued to be absent in noninteracting regimes in some previous studies. With the aid of $U(1)$ symmetry in our model, the measurement-induced criticality exhibits a spectral signature resembling a Tomonaga-Luttinger liquid theory from symmetry-resolved entanglement. These intriguing critical phenomena are unique to steady-state regimes of the conditional dynamics at the single-trajectory level, and are absent in the unconditional dynamics obeying the Lindblad master equation, in which the system ends up with the featureless, infinite-temperature mixed state. We also propose a possible experimental setup to test the predicted entanglement transition based on the subsystem particle-number fluctuations. This quantity should readily be measured by the current techniques of quantum gas microscopy and is in practice easier to obtain than the entanglement entropy itself.
翻訳日:2023-05-22 05:52:59 公開日:2021-02-12
# 周期的に駆動されるRydberg原子の集団トラップ

Population trapping in a pair of periodically driven Rydberg atoms ( http://arxiv.org/abs/2009.10028v3 )

ライセンス: Link先を確認
S. Kumar Mallavarapu, Ankita Niranjan, Weibin Li, Sebastian W\"uster and Rejish Nath(参考訳) 本研究では,周期的に駆動されるRydbergペアにおける集団トラップについて検討した。 原子-光の周期的な変調は、Rabi結合を効果的に抑制し、Rydberg-Rydberg相互作用とともに、状態に依存した集団トラップにつながる。 誘導共振器,フロッケスペクトル,および逆参加比を用いて,集団トラップ領域を簡易かつ汎用的に決定する手法を同定する。 単一原子の場合とは対照的に、2つの原子配置でトラップする個体群は、フロケスペクトルの水平交差と必ずしも関連しているとは限らない。 さらに, 個体群トラップが動的安定化とどのような関係があるのかを考察し, 積および最大絡み合うベル状態を含む, 特異かつ実験的に関連した初期状態をとる。 絡み合った状態の挙動は、さらに二部交絡エントロピーによって特徴づけられる。

We study the population trapping extensively in a periodically driven Rydberg pair. The periodic modulation of the atom-light detuning effectively suppresses the Rabi couplings and, together with Rydberg-Rydberg interactions, leads to the state-dependent population trapping. We identify a simple yet a general scheme to determine population trapping regions using driving induced resonances, the Floquet spectrum, and the inverse participation ratio. Contrary to the single atom case, we show that the population trapping in the two-atom setup may not necessarily be associated with level crossings in the Floquet spectrum. Further, we discuss under what criteria population trapping can be related to dynamical stabilization, taking specific and experimentally relevant initial states, which include both product and the maximally entangled Bell states. The behavior of the entangled states is further characterized by the bipartite entanglement entropy.
翻訳日:2023-05-01 09:12:57 公開日:2021-02-12
# 人工知能による建物内エネルギー消費の異常検出:概観, 現状, 新たな展望

Artificial Intelligence based Anomaly Detection of Energy Consumption in Buildings: A Review, Current Trends and New Perspectives ( http://arxiv.org/abs/2010.04560v5 )

ライセンス: Link先を確認
Yassine Himeur and Khalida Ghanem and Abdullah Alsalemi and Faycal Bensaali and Abbes Amira(参考訳) 大量のデータが、住宅に設置されたサブメーターとスマートセンサーによって毎日生産されている。 適切に活用できれば、エンドユーザー、エネルギー生産者、ユーティリティー企業が異常な電力消費量を検出し、それぞれの異常の原因を理解するのに役立つだろう。 したがって、異常検出は小さな問題が圧倒的になるのを止めることができる。 さらに、無駄なエネルギーを減らし、持続可能でエネルギー効率の良い行動を促進するためのより良い意思決定を支援する。 本稿では,人工知能に基づくエネルギー消費を構築するための既存の異常検出フレームワークについて,詳細なレビューを行う。 具体的には、機械学習アルゴリズム、特徴抽出アプローチ、異常検出レベル、計算プラットフォーム、アプリケーションシナリオなど、異なるモジュールとパラメータに基づいて、既存のアルゴリズムを分類するための包括的分類法が紹介されている。 著者の知識を最大限に活用するために、エネルギー消費の構築における異常検出について論じる最初のレビュー記事である。 今後、未解決のままのドメイン固有の問題、困難、課題とともに重要な発見が徹底的に議論される。 (i)異常消費電力の正確な定義 (ii)注釈付きデータセット (iii)既存ソリューションの性能を評価するための統一指標 (iv)再現性のためのプラットフォーム及び (v)プライバシー保護。 次に、今後の方向性を導き出す前に、異常検出技術の応用と有効性を広げるために、現在の研究動向について考察する。 本稿は、人工知能に基づくエネルギー消費の異常検出における現在の技術進歩を理解するための包括的参考文献である。

Enormous amounts of data are being produced everyday by sub-meters and smart sensors installed in residential buildings. If leveraged properly, that data could assist end-users, energy producers and utility companies in detecting anomalous power consumption and understanding the causes of each anomaly. Therefore, anomaly detection could stop a minor problem becoming overwhelming. Moreover, it will aid in better decision-making to reduce wasted energy and promote sustainable and energy efficient behavior. In this regard, this paper is an in-depth review of existing anomaly detection frameworks for building energy consumption based on artificial intelligence. Specifically, an extensive survey is presented, in which a comprehensive taxonomy is introduced to classify existing algorithms based on different modules and parameters adopted, such as machine learning algorithms, feature extraction approaches, anomaly detection levels, computing platforms and application scenarios. To the best of the authors' knowledge, this is the first review article that discusses anomaly detection in building energy consumption. Moving forward, important findings along with domain-specific problems, difficulties and challenges that remain unresolved are thoroughly discussed, including the absence of: (i) precise definitions of anomalous power consumption, (ii) annotated datasets, (iii) unified metrics to assess the performance of existing solutions, (iv) platforms for reproducibility and (v) privacy-preservation. Following, insights about current research trends are discussed to widen the applications and effectiveness of the anomaly detection technology before deriving future directions attracting significant attention. This article serves as a comprehensive reference to understand the current technological progress in anomaly detection of energy consumption based on artificial intelligence.
翻訳日:2023-04-29 13:31:53 公開日:2021-02-12
# eラーニングにおけるオンライン試験ソリューションの体系的レビュー:技術,ツール,グローバル採用

A Systematic Review of Online Exams Solutions in E-learning: Techniques, Tools and Global Adoption ( http://arxiv.org/abs/2010.07086v3 )

ライセンス: Link先を確認
Abdul Wahab Muzaffar, Muhammad Tahir, Muhammad Waseem Anwar, Qaiser Chaudry, Shamaila Rasheed Mir, Yawar Rasheed(参考訳) 高等教育におけるeラーニングは、自然災害やパンデミックなどの危機的状況で必然的に恩恵を受けるため、過去10年間で指数関数的に増加している。 Eラーニングにおけるオンライン試験の信頼性、公正、シームレスな実行は極めて重要である。 特に,eラーニングプラットフォーム上では,学生とインストラクターの身体的存在を伴わないオンライン試験が実施されている。 これは、オンライン試験中の完全性やセキュリティなど、いくつかの問題を引き起こす。 このような問題に対処するため、研究者は様々な技術やツールをしばしば提案した。 しかし,最近の研究,特にオンライン試験の分野での成果を要約し分析する研究は,文献では見つからない。 本稿では,過去5年間に発行された53の研究では,オンライン試験用SLRを選定し,分析する。 次いで、選択した研究を対象とする5つの主要なオンライン試験機能を特定し、オンライン試験ソリューションの実施に向けた基礎的な開発アプローチを検討する。 さらに16の重要なテクニックと11のデータセットが提示される。 また、選択した研究で提案されている21のオンライン試験ツールが特定される。 また、選択した研究で使用される25の既存ツールも紹介されている。 最後に,オンライン試験研究における各国の参加について検討した。 オンライン試験のグローバル導入の要因を特定し,検討した。 これにより、既存のeラーニングインフラストラクチャと全体的なコストに基づいて、特定の国に適したオンライン試験システムの選択が容易になる。 結論として,本論文は,ドメインの研究者や実践者が,所定の要件に従って,特定のオンライン試験ソリューションを実装するための基盤となる開発アプローチ,ツール,技術とともに,適切な機能を選択するための確かなプラットフォームを提供する。

E-learning in higher education is exponentially increased during the past decade due to its inevitable benefits in critical situations like natural disasters, and pandemic. The reliable, fair, and seamless execution of online exams in E-learning is highly significant. Particularly, online exams are conducted on E-learning platforms without the physical presence of students and instructors at the same place. This poses several issues like integrity and security during online exams. To address such issues, researchers frequently proposed different techniques and tools. However, a study summarizing and analyzing latest developments, particularly in the area of online examination, is hard to find in the literature. In this article, an SLR for online examination is performed to select and analyze 53 studies published during the last five years. Subsequently, five leading online exams features targeted in the selected studies are identified and underlying development approaches for the implementation of online exams solutions are explored. Furthermore, 16 important techniques and 11 datasets are presented. In addition, 21 online exams tools proposed in the selected studies are identified. Additionally, 25 leading existing tools used in the selected studies are also presented. Finally, the participation of countries in online exam research is investigated. Key factors for the global adoption of online exams are identified and investigated. This facilitates the selection of right online exam system for a particular country on the basis of existing E-learning infrastructure and overall cost. To conclude, the findings of this article provide a solid platform for the researchers and practitioners of the domain to select appropriate features along with underlying development approaches, tools and techniques for the implementation of a particular online exams solution as per given requirements.
翻訳日:2023-04-29 04:46:08 公開日:2021-02-12
# 軽量中間量子秘密共有プロトコル

Lightweight Mediated Semi-Quantum Secret Sharing Protocol ( http://arxiv.org/abs/2010.06911v2 )

ライセンス: Link先を確認
Chia-Wei Tsai, Zong-Liang Zhang, Bo-Cheng Jian, Yao-Chung Chang(参考訳) 流出する半量子秘密共有プロトコルには,(1) ディーラーは量子ユーザでなければならず,(2) 古典的利用者はトロイの木馬検出器を装備しなければならない,(2) 古典的ディーラーが不正な第三者(tp)の助けを借りて古典的エージェントと秘密を共有することができるような,新しい中間的半量子秘密共有(msqss)プロトコルを提案する,という2つの課題がある。 提案したMSQSSプロトコルは一方通行の量子通信を採用しており、トロイの木馬攻撃から解放されている。 さらに,提案プロトコルが集団攻撃に対して有効であることを示すため,セキュリティ解析を行った。 既存のSQSSプロトコルと比較して、提案されたMSQSSプロトコルはより軽量で実用的なものである。

Due to the exiting semi-quantum secret sharing protocol have two challenges including (1) the dealer must be the quantum user, and (2) the classical users must equip with the Trojan Horse detectors, this study wants to propose a novel mediate semi-quantum secret sharing (MSQSS) protocol to let a classical dealer can share his/her secrets to the classical agents with the help of a dishonest third-party (TP). The proposed MSQSS protocol adopts the one-way quantum communication and thus it is free from the Trojan Horse attacks. Furthermore, the security analysis is given for proving that the proposed protocol can be against the collective attack. Comparing to the exiting SQSS protocols, the proposed MSQSS protocol is more lightweight and more practical.
翻訳日:2023-04-29 02:56:10 公開日:2021-02-12
# 多体局在遷移における臨界点の符号

Signatures of a critical point in the many-body localization transition ( http://arxiv.org/abs/2010.08759v2 )

ライセンス: Link先を確認
\'Angel L. Corps, Rafael A. Molina, Armando Rela\~no(参考訳) 多体局在遷移を起こす不規則相互作用スピン鎖は、ダイナミクスがカオス的で可積分である2つの制限行動によって特徴づけられる。 しかし、それらの遷移領域はまだ完全には理解されていない。 本稿では,2つの異なる動的位相を区別する,典型的な有限スケールを示す臨界点の有限サイズ前駆体を提案する。 マイクロキャノニカル平均からの全1次元運動量分布の対角ゆらぎを超越したクルトシスは、パラダイム的乱れの$J_1$-$J_2$モデルにおいて、この特異点において最大である。 正確な対角化が可能なシステムサイズについては、この最大スケールの位置とサイズはシステムサイズと直線的に一致している。 さらに,この特異点が,thoulessとheisenberg energiesが一致するのと同じ障害強度で見つかることを示した。 この点の下には、スペクトル統計はThoulessエネルギーまで普遍ランダム行列の挙動に従う。 その上、カオス的な振る舞いの痕跡は残らず、スペクトル統計学は一般化された半ポアソニアンモデルによってよく説明され、最終的に積分可能なポアソニアン挙動へと繋がる。 そこで本論文では, 熱力学限界における臨界点が, 存在すれば, 障害強度の値によって与えられるべきであるとする, 多体局在遷移の総合シナリオを提案する。

Disordered interacting spin chains that undergo a many-body localization transition are characterized by two limiting behaviors where the dynamics are chaotic and integrable. However, the transition region between them is not fully understood yet. We propose here a possible finite-size precursor of a critical point that shows a typical finite-size scaling and distinguishes between two different dynamical phases. The kurtosis excess of the diagonal fluctuations of the full one-dimensional momentum distribution from its microcanonical average is maximum at this singular point in the paradigmatic disordered $J_1$-$J_2$ model. For system sizes accessible to exact diagonalization, both the position and the size of this maximum scale linearly with the system size. Furthermore, we show that this singular point is found at the same disorder strength at which the Thouless and the Heisenberg energies coincide. Below this point, the spectral statistics follow the universal random matrix behavior up to the Thouless energy. Above it, no traces of chaotic behavior remain, and the spectral statistics are well described by a generalized semi-Poissonian model, eventually leading to the integrable Poissonian behavior. We provide, thus, an integrated scenario for the many-body localization transition, conjecturing that the critical point in the thermodynamic limit, if it exists, should be given by this value of disorder strength.
翻訳日:2023-04-28 19:51:25 公開日:2021-02-12
# はしご幾何学における$\mathbb{Z}_N$格子ゲージ理論

$\mathbb{Z}_N$ lattice gauge theory in a ladder geometry ( http://arxiv.org/abs/2011.06534v2 )

ライセンス: Link先を確認
Jens Nyhegn, Chia-Min Chung, Michele Burrello(参考訳) 格子ゲージ理論のアナログ量子シミュレーションの実現の観点から、ラダージオメトリーは超低温原子実験に関係のある興味深い遊び場を提供する。 ここでは、2脚はしごで定義されたハミルトン格子ゲージ理論について検討する。 我々は局所的な$\mathbb{z}_n$ゲージ対称性を持つゲージボソンとヒッグス物質の自由度の両方を含むモデルを考える。 実効的低エネルギー場理論と密度行列再正規化群シミュレーションの両方に基づいて位相図を考察する。 N\ge 5$の場合、拡張されたギャップレスクーロン相が出現し、ベレジンスキー-コステリッツ-チューレス相が周囲のギャップ付き位相から遷移する。 伝統的な封じ込めとヒッグス体制の他に、はしご幾何学に由来する新しい四極性領域も観察する。

Under the perspective of realizing analog quantum simulations of lattice gauge theories, ladder geometries offer an intriguing playground, relevant for ultracold atom experiments. Here, we investigate Hamiltonian lattice gauge theories defined in two-leg ladders. We consider a model that includes both gauge boson and Higgs matter degrees of freedom with local $\mathbb{Z}_N$ gauge symmetries. We study its phase diagram based on both an effective low-energy field theory and density matrix renormalization group simulations. For $N\ge 5$, an extended gapless Coulomb phase emerges, which is separated by a Berezinskii-Kosterlitz-Thouless phase transition from the surrounding gapped phase. Besides the traditional confined and Higgs regimes, we also observe a novel quadrupolar region, originated by the ladder geometry.
翻訳日:2023-04-24 07:38:45 公開日:2021-02-12
# 置換群における最大絡み合いの制約

Constraints on Maximal Entanglement Under Groups of Permutations ( http://arxiv.org/abs/2011.14507v2 )

ライセンス: Link先を確認
Alexander Meill, Jayden Butts, Elijah Sanderson(参考訳) 我々は、パーティーラベルに作用する対称群の部分群の作用の下で対称な物理系における絡み合いの簡易な特徴づけを提供する。 絡み合いの集合は本質的に等しく、群作用の下で同じ軌道に横たわり、循環群、二面体群、多面体群を示す。 次に、物理対称性群の正規化子および正規化部分群を利用することにより、これらの絡み合いの最大値に対する新しい一般化された関係を導入する。

We provide a simplified characterization of entanglement in physical systems which are symmetric under the action of subgroups of the symmetric group acting on the party labels. Sets of entanglements are inherently equal, lying in the same orbit under the group action, which we demonstrate for cyclic, dihedral, and polyhedral groups. We then introduce new, generalized relationships for the maxima of those entanglement by exploiting the normalizer and normal subgroups of the physical symmetry group.
翻訳日:2023-04-22 14:54:04 公開日:2021-02-12
# 非線形振動空洞における動的カシミール効果

Dynamical Casimir effect in nonlinear vibrating cavities ( http://arxiv.org/abs/2012.02129v2 )

ライセンス: Link先を確認
Lianna A. Akopyan, Dmitrii A. Trunin(参考訳) 運動方程式の非線形項は、相関関数に対して世俗的に増加するループ補正を誘導することができる。 近年、このような補正は不均一に動く理想ミラーによる粒子生成に影響を与えることが示されている。 この結論は、理想的な振動空洞と単一半透明ミラーの場合にまで拡張する。 これらのモデルは自然の赤外線と紫外線のスケールを提供し、ループの挙動をより正確に研究できる。 どちらの場合も、ケルディシュプロパゲータに対する2ループ補正は時間とともに2次的に増加する。 この成長は半古典的近似の崩壊を示し、動的カシミール効果のバルク非線形性は大きな進化時間では無視できないことを強調する。

Nonlinear terms in the equations of motion can induce secularly growing loop corrections to correlation functions. Recently such corrections were shown to affect the particle production by a nonuniformly moving ideal mirror. We extend this conclusion to the cases of ideal vibrating cavity and single semitransparent mirror. These models provide natural IR and UV scales and allow a more accurate study of the loop behavior. In both cases we confirm that two-loop correction to the Keldysh propagator quadratically grows with time. This growth indicates a breakdown of the semiclassical approximation and emphasizes that bulk nonlinearities in the dynamical Casimir effect cannot be neglected for large evolution times.
翻訳日:2023-04-22 05:17:06 公開日:2021-02-12
# 医療シフト作業におけるコンピュータ支援型セルフスケジューリングプラクティスの設計と適用

Design and Appropriation of Computer-supported Self-scheduling Practices in Healthcare Shift Work ( http://arxiv.org/abs/2102.02132v2 )

ライセンス: Link先を確認
Alarith Uhde and Matthias Laschke and Marc Hassenzahl(参考訳) シフトスケジューリングは、社会生活やレクリエーション活動の枠組みを定めているため、医療従事者の幸福に影響を及ぼす。 複雑で時間がかかるため、自動化のターゲットになっています。 しかし、既存のシステムは効率の改善に重点を置いている。 労働者のニーズと活動的な参加は明確な役割を果たさない。 この傾向とは対照的に、私たちは、シフトプランニング中に医療従事者がよりコントロールできる、ソーシャルプラクティスに基づく、労働者中心で、幸福志向のセルフスケジューリングシステムを設計しました。 続く9カ月の鑑定調査の結果,集団における社会的地位に注意を払っていた労働者や,より自発的な生活習慣を持つ労働者は,他者に比べてシステムの利用頻度が低かった。 さらに,コンフリクト防止対策をいくつか明らかにし,競争的シフト分散パラダイムから社会的支援へ焦点を移すことを示唆した。 我々は、個別の計画プラクティス、自己リーダーシップ、紛争への対処を支援するためのガイドラインで締めくくります。

Shift scheduling impacts healthcare workers' well-being because it sets the frame for their social life and recreational activities. Since it is complex and time-consuming, it has become a target for automation. However, existing systems mostly focus on improving efficiency. The workers' needs and their active participation do not play a pronounced role. Contrasting this trend, we designed a social practice-based, worker-centered, and well-being-oriented self-scheduling system which gives healthcare workers more control during shift planning. In a following nine month appropriation study, we found that workers who were cautious about their social standing in the group or who had a more spontaneous personal lifestyle used our system less often than others. Moreover, we revealed several conflict prevention practices and suggest to shift the focus away from a competitive shift distribution paradigm towards supporting these pro-social practices. We conclude with guidelines to support individual planning practices, self-leadership, and for dealing with conflicts.
翻訳日:2023-04-12 22:25:48 公開日:2021-02-12
# ハミルトン量子ゲートのエネルギーコスト

Energetic cost of Hamiltonian quantum gates ( http://arxiv.org/abs/2102.05118v3 )

ライセンス: Link先を確認
Sebastian Deffner(参考訳) ランダウアーの原理は現代の情報熱力学の発展の基盤となった。 しかし、元々の始まりにおいて、原理は半形式的議論と散逸的ダイナミクスに依存している。 したがって、ランダウアーの原理がユニタリ量子コンピューティングにどのように適用されるかは明らかではない。 ここでは、ハミルトンゲート演算のエネルギーコストを定量化することにより、論理量子状態に符号化されたシャノン情報の変化を束縛する不等式を証明する。 この境界の実用性は、理論と実験においてエネルギー論的に最適な量子ゲートを識別する方法を概説することによって示される。 この分析は、ショアの符号のような非相互作用量子ビットによる量子誤り訂正符号のエネルギー的コストを論じることによって締めくくられる。

Landauer's principle laid the main foundation for the development of modern thermodynamics of information. However, in its original inception the principle relies on semiformal arguments and dissipative dynamics. Hence, if and how Landauer's principle applies to unitary quantum computing is less than obvious. Here, we prove an inequality bounding the change of Shannon information encoded in the logical quantum states by quantifying the energetic cost of Hamiltonian gate operations. The utility of this bound is demonstrated by outlining how it can be applied to identify energetically optimal quantum gates in theory and experiment. The analysis is concluded by discussing the energetic cost of quantum error correcting codes with non-interacting qubits, such as Shor's code.
翻訳日:2023-04-12 02:57:35 公開日:2021-02-12
# 量子検証の理論的および実験的展望

Theoretical and Experimental Perspectives of Quantum Verification ( http://arxiv.org/abs/2102.05927v2 )

ライセンス: Link先を確認
Jose Carrasco, Andreas Elben, Christian Kokail, Barbara Kraus and Peter Zoller(参考訳) 本論では,提案する実験として定式化した特定の例の文脈における量子デバイスの検証について論じる。 最初の例は、設計目標としてのハミルトニアンを、デバイス上に用意された量子状態に対して親ハミルトニアンと比較する、ハミルトン学習としてのアナログ量子シミュレータの検証である。 第2の例は、量子レベルでのクロスデバイス検証、すなわち異なる量子デバイスで用意された量子状態の比較について論じる。 本稿では,特にランダム化計測を用いたプロトコルに着目し,既存の実験機器とプラットフォームを比較可能な中央データリポジトリの構築を提案する。 最後の例では、コンピュータ科学の観点からの量子デバイスの出力の検証に対処し、量子プロセッサのユーザがその出力の正確性をどのように確信できるかという問題に対処し、現在のデバイスで最小限のデモンストレーションを提案する。

In this perspective we discuss verification of quantum devices in the context of specific examples, formulated as proposed experiments. Our first example is verification of analog quantum simulators as Hamiltonian learning, where the input Hamiltonian as design goal is compared with the parent Hamiltonian for the quantum states prepared on the device. The second example discusses cross-device verification on the quantum level, i.e. by comparing quantum states prepared on different quantum devices. We focus in particular on protocols using randomized measurements, and we propose establishing a central data repository, where existing experimental devices and platforms can be compared. In our final example, we address verification of the output of a quantum device from a computer science perspective, addressing the question of how a user of a quantum processor can be certain about the correctness of its output, and propose minimal demonstrations on present day devices.
翻訳日:2023-04-11 12:11:15 公開日:2021-02-12
# ダイヤモンド窒素空洞中心を用いたナノスケール分光の量子制御

Quantum Control for Nanoscale Spectroscopy With Diamond Nitrogen-Vacancy Centers: A Short Review ( http://arxiv.org/abs/2102.06373v1 )

ライセンス: Link先を確認
Santiago Hern\'andez-G\'omez and Nicole Fabbri(参考訳) 色中心に基づくダイヤモンド量子技術は近年急速に発展している。 窒素空白(nv)色中心は、その優れたスピン特性と光アドレス性により、特に関心を集めている。 NVセンターは、室温での高感度と空間分解能を前例のない組み合わせで提供する革新的なマルチモード量子強化センサーの実現に使用されている。 技術進歩と潜在的なセンシング応用の拡大により、NV量子センサの性能向上に対する需要が高まっている。 量子制御はこの需要に対応する上で重要な役割を果たす。 この短いレビューは、量子制御支援量子センシングと磁場の分光の最近の進歩の概要を提供する。

Diamond quantum technologies based on color centers have rapidly emerged in the most recent years. The nitrogen-vacancy (NV) color center has attracted a particular interest, thanks to its outstanding spin properties and optical addressability. The NV center has been used to realize innovative multimode quantum-enhanced sensors that offer an unprecedented combination of high sensitivity and spatial resolution at room temperature. The technological progress and the widening of potential sensing applications have induced an increasing demand for performance advances of NV quantum sensors. Quantum control plays a key role in responding to this demand. This short review affords an overview on recent advances in quantum control-assisted quantum sensing and spectroscopy of magnetic fields.
翻訳日:2023-04-11 08:13:02 公開日:2021-02-12
# 気候変動懐疑主義者は、どのように反対意見に関わりますか? オンラインフォーラムにおける社会的アイデンティティと認知不協和の理解機構

How do climate change skeptics engage with opposing views? Understanding mechanisms of social identity and cognitive dissonance in an online forum ( http://arxiv.org/abs/2102.06516v1 )

ライセンス: Link先を確認
Lisa Oswald, Jonathan Bright(参考訳) 対立する見解との関わりは、イデオロギーの ‘echo chambers’ を壊すのに役立つだろうか? この問題は、学術者、政策立案者、活動家がソーシャルメディアで政治議論を規制する方法に疑問を呈する中、依然として批判的だ。 本研究では,reddit上の主要な気候変動懐疑的オンラインコミュニティにおける反対意見の影響を検討することで,議論に寄与する。 大量の投稿(n = 3000)が不協和音または子音として手作業でコード化され、リンクされたウェブサイトから推測された5万以上の投稿の完全なデータセットを自動分類できるようになった。 その結果, 声道不協和音は, 声道不協和音よりも, 声道不協和音の方が, 声道不協和音の方が, 声道不協和音がコミュニティ活動の刺激となることがわかった。 また、不協和音の投稿に関わったユーザーはフォーラムに戻る可能性が高かった。 アイデンティティ理論と一致して、対立する見解との対立はフォーラムで、特にコミュニティに深く関与しているユーザーの間で活動を引き起こした。 その結果,社会的アイデンティティ理論とエコーチェンバーの理論が議論され,拡張された。

Does engagement with opposing views help break down ideological `echo chambers'; or does it backfire and reinforce them? This question remains critical as academics, policymakers and activists grapple with the question of how to regulate political discussion on social media. In this study, we contribute to the debate by examining the impact of opposing views within a major climate change skeptic online community on Reddit. A large sample of posts (N = 3000) was manually coded as either dissonant or consonant which allowed the automated classification of the full dataset of more than 50,000 posts, with codes inferred from linked websites. We find that ideologically dissonant submissions act as a stimulant to activity in the community: they received more attention (comments) than consonant submissions, even though they received lower scores through up-voting and down-voting. Users who engaged with dissonant submissions were also more likely to return to the forum. Consistent with identity theory, confrontation with opposing views triggered activity in the forum, particularly among users that are highly engaged with the community. In light of the findings, theory of social identity and echo chambers is discussed and enhanced.
翻訳日:2023-04-11 08:07:58 公開日:2021-02-12
# ニュースが悪いニュースでない場合 -- ニュースメディアコンテンツからネガティブな出来事を検出する

When no news is bad news -- Detection of negative events from news media content ( http://arxiv.org/abs/2102.06505v1 )

ライセンス: Link先を確認
Kristoffer L. Nielbo, Frida Haestrup, Kenneth C. Enevoldsen, Peter B. Vahlstrup, Rebekah B. Baglini, Andreas Roepstorff(参考訳) コビッド19号の最初の波の間、ニュースメディアのコンテンツの流れの中で情報の切り離しが観測された。 読者が経験したニュースソース(すなわち、すべてのニュースがコロナニュースに変換された)間のコンテンツアライメントの系譜は、メディアがパンデミックイベントに単調に集中するにつれ、ニュースコンテンツの新規性は低下した。 新型コロナウイルスのパンデミックが続く中、このニューステーマは極めて持続的であることが判明し、ニュースメディアの視点では、同じニュースが何度も繰り返されるパラドックス的な状況となった。 この現象は, ニュースメディアの変化の追跡に利用されてきたが, 本研究では, メディアの新たな情報分離行動が, ネガティブな事象に起因するニュースメディアコンテンツの変化を確実に検出するために, ベイズ的アプローチを用いて, 変化点検出を確実に行うことができるという主張を実験的に検証した。

During the first wave of Covid-19 information decoupling could be observed in the flow of news media content. The corollary of the content alignment within and between news sources experienced by readers (i.e., all news transformed into Corona-news), was that the novelty of news content went down as media focused monotonically on the pandemic event. This all-important Covid-19 news theme turned out to be quite persistent as the pandemic continued, resulting in the, from a news media's perspective, paradoxical situation where the same news was repeated over and over. This information phenomenon, where novelty decreases and persistence increases, has previously been used to track change in news media, but in this study we specifically test the claim that new information decoupling behavior of media can be used to reliably detect change in news media content originating in a negative event, using a Bayesian approach to change point detection.
翻訳日:2023-04-11 08:07:32 公開日:2021-02-12
# インフォームドワンショット動的アルゴリズム選択のためのベンチマークデータ活用

Leveraging Benchmarking Data for Informed One-Shot Dynamic Algorithm Selection ( http://arxiv.org/abs/2102.06481v1 )

ライセンス: Link先を確認
Furong Ye, Carola Doerr, Thomas B\"ack(参考訳) 進化的アルゴリズムを実際に応用する上での鍵となる課題は、目の前の問題に最も適したアルゴリズムインスタンスの選択である。 この決定がさらに複雑になるのは、異なるアルゴリズムが最適化プロセスの異なる段階に適しているかもしれないことである。 したがって、動的アルゴリズムの選択と構成は進化計算においてよく研究されているトピックである。 しかしながら、ハイパーヒューリスティックスやパラメータ制御の研究は通常、アルゴリズムの実行中にアルゴリズムを選択する必要がある設定を仮定するが、ハイパーパラメータチューニングや自動アルゴリズム構成のようなautomlアプローチは、最終的な推奨を行う前に異なる構成を評価する可能性を仮定する。 しかし実際には,これら2つの設定の間には,実行前にアルゴリズムインスタンスを決定する必要がある("oneshot"設定)という,中間の立場にあることが多い。 本研究では,このような先行性能データを用いて,疑似ボアリーン最適化問題の解に対するインフォームド動的アルゴリズム選択スキームを推定する方法を分析した。 我々の特定のユースケースは遺伝的アルゴリズムのファミリーだと考えている。

A key challenge in the application of evolutionary algorithms in practice is the selection of an algorithm instance that best suits the problem at hand. What complicates this decision further is that different algorithms may be best suited for different stages of the optimization process. Dynamic algorithm selection and configuration are therefore well-researched topics in evolutionary computation. However, while hyper-heuristics and parameter control studies typically assume a setting in which the algorithm needs to be chosen while running the algorithms, without prior information, AutoML approaches such as hyper-parameter tuning and automated algorithm configuration assume the possibility of evaluating different configurations before making a final recommendation. In practice, however, we are often in a middle-ground between these two settings, where we need to decide on the algorithm instance before the run ("oneshot" setting), but where we have (possibly lots of) data available on which we can base an informed decision. We analyze in this work how such prior performance data can be used to infer informed dynamic algorithm selection schemes for the solution of pseudo-Boolean optimization problems. Our specific use-case considers a family of genetic algorithms.
翻訳日:2023-04-11 08:07:13 公開日:2021-02-12
# p^3$価価原子の強磁場三重イオン化

Strong-field triple ionization of atoms with $p^3$ valence shell ( http://arxiv.org/abs/2102.06466v1 )

ライセンス: Link先を確認
Jakub S. Prauzner-Bechcicki and Dmitry K. Efimov and Micha{\l} Mandrysz and Jakub Zakrzewski(参考訳) 強パルスフェムト秒レーザー場と外殻(例えば窒素)に3つの等価電子を持つ原子との相互作用を格子法による時間依存schr\"{o}dinger方程式の数値積分により研究した。 ソフトコア電位と3つの活性電子を持つ制限幾何モデルを用いて, 完全に反対称波動関数から生じる単一, 二重および三重イオン化収率を計算し, 抽出した。 直接三重イオン化チャネルは、単重イオン化および直接二重イオン化と接続されたチャネルよりも大きな収率を生み出す。 n s^2 n p^1$ 構成の初期の結果と比較し、ここでの差異は電子の運動量分布を通じて実際にアクセス可能であることを示唆する。

The interaction of strong pulsed femtosecond laser field with atoms having three equivalent electrons in the outer shell ($p^3$ configuration, e.g. nitrogen) is studied via numerical integration of a time-dependent Schr\"{o}dinger equation on a grid approach. Single, double and triple ionization yields originating from a completely antisymmetric wave function are calculated and extracted using a restricted-geometry model with the soft-core potential and three active electrons. The direct triple ionization channel is found to produce a larger yield than the channel connected with single and then direct double ionization. Compared against earlier results investigating the $n s^ 2 n p^1$ configuration, we propose that the differences found here might in fact be accessible through electron's momentum distribution.
翻訳日:2023-04-11 08:06:55 公開日:2021-02-12
# 農業におけるブロックチェーン

Blockchain in agriculture ( http://arxiv.org/abs/2102.09401v1 )

ライセンス: Link先を確認
Andreas Kamilaris, Ian Cole and Francesc X. Prenafeta-Boldu(参考訳) ブロックチェーンは、銀行のような仲介者を必要としない、分散不信任者間のユビキタスな金融取引を可能にする、新興のデジタル技術である。 この章では、農業と食品サプライチェーンにおけるブロックチェーン技術の影響を調査し、現在進行中のプロジェクトとイニシアティブを提示し、これらのプロジェクトの成熟度に関する批判的な見解で、全体的な意味、課題、ポテンシャルについて論じる。 ブロックチェーンは、食品の透明なサプライチェーンに向けた有望な技術であり、さまざまな食品製品や食品関連問題で進行中のイニシアチブが数多く存在するが、多くの障壁と課題が存在しており、農家やシステムの間で広く普及している。 これらの課題には技術的な側面、教育、政策、規制の枠組みが含まれる。

Blockchain is an emerging digital technology allowing ubiquitous financial transactions among distributed untrusted parties, without the need of intermediaries such as banks. This chapter examines the impact of blockchain technology in agriculture and food supply chain, presents existing ongoing projects and initiatives, and discusses overall implications, challenges and potential, with a critical view over the maturity of these projects. Our findings indicate that blockchain is a promising technology towards a transparent supply chain of food, with many ongoing initiatives in various food products and food-related issues, but many barriers and challenges still exist, which hinder its wider popularity among farmers and systems. These challenges involve technical aspects, education, policies and regulatory frameworks.
翻訳日:2023-04-11 07:59:55 公開日:2021-02-12
# gradeer: オープンソースのモジュラーハイブリッドグレーダ

Gradeer: An Open-Source Modular Hybrid Grader ( http://arxiv.org/abs/2102.09400v1 )

ライセンス: Link先を確認
Benjamin Clegg (1), Maria-Cruz Villa-Uriol (1), Phil McMinn (1), Gordon Fraser (2) ((1) University of Sheffield, (2) University of Passau)(参考訳) 自動評価は、学生のプログラムを評価する過程を大幅に単純化する。 しかし、マニュアルアセスメントは学生と教師の両方に利益をもたらす。 我々は、教師が自動評価と手動評価の両方の利点を活用できるハイブリッドアセスメントツールであるGrageerを紹介した。 このツールはモジュラーデザインを特徴とし、新たなグレーディング機能を追加することができる。 gradeerは、コードインスペクタを自動ロードし、生徒のプログラムを実行し、後でグレーディングを停止し、その場で再開することで、手動のグレーディングを直接支援する。 gradeerを使って、入門のjavaプログラミングコースの年末の割り当てを評価し、そのハイブリッドアプローチがいくつかの利点をもたらすことを見出しました。

Automated assessment has been shown to greatly simplify the process of assessing students' programs. However, manual assessment still offers benefits to both students and tutors. We introduce Gradeer, a hybrid assessment tool, which allows tutors to leverage the advantages of both automated and manual assessment. The tool features a modular design, allowing new grading functionality to be added. Gradeer directly assists manual grading, by automatically loading code inspectors, running students' programs, and allowing grading to be stopped and resumed in place at a later time. We used Gradeer to assess an end of year assignment for an introductory Java programming course, and found that its hybrid approach offers several benefits.
翻訳日:2023-04-11 07:59:41 公開日:2021-02-12
# 量子近似最適化のための経験的性能境界

Empirical performance bounds for quantum approximate optimization ( http://arxiv.org/abs/2102.06813v1 )

ライセンス: Link先を確認
Phillip C. Lotshaw, Travis S. Humble, Rebekah Herrman, James Ostrowski, George Siopsis(参考訳) 量子近似最適化アルゴリズム(QAOA)は、結合最適化問題を解決するため、ノイズの多い中間スケールの量子コンピュータの変分法である。 特定の問題インスタンスに関するパフォーマンスバウンダリの定量化は、QAOAが現実のアプリケーションの解決に有効である可能性についての洞察を提供する。 ここでは、QAOAの純粋状態ダイナミクスを数値シミュレーションすることにより、9つ以上の頂点を持つ非同型非重み付きグラフ上のMaxCutのすべてのケースを解く。 QAOA深度を最大3層まで測定すると,最大カット回収確率が広くなる一方,近似比の分布は増加と共に狭くなることがわかった。 QAOA は、ほとんどのグラフに対して有界な Goemans-Williamson 近似比を超える。 また,maxcut を qaoa で解くための高効率なヒューリスティックを提供する最適化された変分回路パラメータのアンサンブル内で一貫したパターンを同定する。 得られたデータセットは、現在進行中の実験的な実現をテストするために使用されるQAOAパフォーマンスに関する経験的境界を確立するためのベンチマークとして提示される。

The quantum approximate optimization algorithm (QAOA) is a variational method for noisy, intermediate-scale quantum computers to solve combinatorial optimization problems. Quantifying performance bounds with respect to specific problem instances provides insight into when QAOA may be viable for solving real-world applications. Here, we solve every instance of MaxCut on non-isomorphic unweighted graphs with nine or fewer vertices by numerically simulating the pure-state dynamics of QAOA. Testing up to three layers of QAOA depth, we find that distributions of the approximation ratio narrow with increasing depth while the probability of recovering the maximum cut generally broadens. We find QAOA exceeds the Goemans-Williamson approximation ratio bound for most graphs. We also identify consistent patterns within the ensemble of optimized variational circuit parameters that offer highly efficient heuristics for solving MaxCut with QAOA. The resulting data set is presented as a benchmark for establishing empirical bounds on QAOA performance that may be used to test on-going experimental realizations.
翻訳日:2023-04-11 07:59:29 公開日:2021-02-12
# 高次元パリティ時間対称系における量子情報ダイナミクス

Quantum information dynamics in a high-dimensional parity-time-symmetric system ( http://arxiv.org/abs/2102.06721v1 )

ライセンス: Link先を確認
Zhihao Bian, Lei Xiao, Kunkun Wang, Franck Assogba Onanga, Frantisek Ruzicka, Wei Yi, Yogesh N. Joglekar, and Peng Xue(参考訳) パリティ時間 (\mathcal{pt}$) 対称性を持つ非エルミート系は、固有ベクトルの結合によって生じる例外的性質を持つ例外点(eps)をもたらす。 このようなシステムは古典的領域において広く研究され、二階以上のEPが提案または実現されている。 対照的に、$\mathcal{pt}$-symmetric 系の量子情報の研究は二次元ヒルベルト空間を持つ系に限定されている。 ここでは、単光子干渉計を用いて、4階例外点の4次元$\mathcal{PT}$-対称系の量子力学をシミュレートする。 系の密度行列を$\mathcal{PT}$-symmetric unbreakken and broken region のコヒーレントで非単位的進化を追跡することにより、系全体のエントロピーダイナミクスとゲイン・アンド・ロスサブシステムの両方を観察する。 我々のセットアップは高次元の $\mathcal{PT}$-symmetric システムにスケーラブルであり、その結果はリッチな力学と臨界特性を指し示している。

Non-Hermitian systems with parity-time ($\mathcal{PT}$) symmetry give rise to exceptional points (EPs) with exceptional properties that arise due to the coalescence of eigenvectors. Such systems have been extensively explored in the classical domain, where second or higher order EPs have been proposed or realized. In contrast, quantum information studies of $\mathcal{PT}$-symmetric systems have been confined to systems with a two-dimensional Hilbert space. Here by using a single-photon interferometry setup, we simulate quantum dynamics of a four-dimensional $\mathcal{PT}$-symmetric system across a fourth-order exceptional point. By tracking the coherent, non-unitary evolution of the density matrix of the system in $\mathcal{PT}$-symmetry unbroken and broken regions, we observe the entropy dynamics for both the entire system, and the gain and loss subsystems. Our setup is scalable to the higher-dimensional $\mathcal{PT}$-symmetric systems, and our results point towards the rich dynamics and critical properties.
翻訳日:2023-04-11 07:59:09 公開日:2021-02-12
# 凸対状態を持つ3次元量子系のシミュレーション

Simulation of three-dimensional quantum systems with projected entangled-pair states ( http://arxiv.org/abs/2102.06715v1 )

ライセンス: Link先を確認
Patrick C.G. Vlaar, Philippe Corboz(参考訳) テンソルネットワークアルゴリズムは、1次元および2次元の量子多体系を研究するための非常に強力なツールであることが証明されている。 しかし、これらの3次元量子系への応用は、主に3次元テンソルネットワークの効率的な収縮が非常に難しいため、これまで限られてきた。 本稿では,無限射影対合対状態(iPEPS)の2つの縮約手法を3次元で開発・ベンチマークする。 最初のアプローチは、完全な3Dネットワークを近似する効果的な環境を含むテンソルの有限クラスタの収縮に基づいている。 第2のアプローチは、ネットワークの層を境界iPEPSで反復的に収縮させ、続いてコーナー転送行列再正規化グループを用いて準2Dネットワークを収縮させることにより、ネットワークの完全な収縮を行う。 立方格子上のHeisenbergモデルとBose-Hubbardモデルのベンチマークデータは、アルゴリズムが他のアプローチと比較して競争力のある結果をもたらすことを示している。

Tensor network algorithms have proven to be very powerful tools for studying one- and two-dimensional quantum many-body systems. However, their application to three-dimensional (3D) quantum systems has so far been limited, mostly because the efficient contraction of a 3D tensor network is very challenging. In this paper we develop and benchmark two contraction approaches for infinite projected entangled-pair states (iPEPS) in 3D. The first approach is based on a contraction of a finite cluster of tensors including an effective environment to approximate the full 3D network. The second approach performs a full contraction of the network by first iteratively contracting layers of the network with a boundary iPEPS, followed by a contraction of the resulting quasi-2D network using the corner transfer matrix renormalization group. Benchmark data for the Heisenberg and Bose-Hubbard models on the cubic lattice show that the algorithms provide competitive results compared to other approaches, making iPEPS a promising tool to study challenging open problems in 3D.
翻訳日:2023-04-11 07:58:50 公開日:2021-02-12
# 2つの空間分離モードの単一光子励起は、ホモダイン測定によってベル不等式を破ることができるか?

Can single photon excitation of two spatially separated modes lead to a violation of Bell inequality via homodyne measurements? ( http://arxiv.org/abs/2102.06689v1 )

ライセンス: Link先を確認
Tamoghna Das, Marcin Karczewski, Antonio Mandarino, Marcin Markiewicz, Bianka Woloncewicz and Marek \.Zukowski(参考訳) 我々は、単一光子のベル非古典性を明らかにすることを目的とした全光学的ホモダイン測定に基づく実験スキームを再考する。 我々はTan, Walls and Collett (TWC, 1991) と Hardy (1994) によって提案されたスキームに焦点を当てる。 これまでの研究から、Tan, Walls and Collett のセットアップは正確な局所的な隠れ変数モデルで記述できるため、この提案の主張された非古典性は明らかであり、ハーディが提案した非古典性証明は不可能である。 この研究では、ハーディのアプローチのどの特徴が非古典性を確認するのに重要であるかという問題を解決する。 Hardyの仕組みはTan, Walls, Collettの2つの点で異なっている。 (i)50~50個のビームスプリッターの入力モードの1つの初期状態として真空による単一光子励起の重ね合わせを導入し、2つの分離可能な(励起)モードの重ね合わせ状態を生成する。 (ii) 最終測定においてハーディの提案は局所振動子場の様々な強度を利用するが、twcの場合それらは一定である。 実際、ハーディのスキームの局所発振器はオンまたはオフである(局所的な設定は局所補助体の有無によって指定される)。 本稿では, 局所発振器の強度が, 設定から設定まで様々であることを示す。これはハーディ設定における局所リアリズムの違反を許容する重要な特徴であるが, 入力モードの初期状態として真空を用いた単一光子励起の初期重ね合わせを使用する必要はない。 完全なオン/オフ検出方式で操作する必要はない。 ベルの非古典性を証明するためのTan, Walls, Collettのスキームの失敗にもかかわらず、それらのスキームが絡み合いの指標として機能することを示す。

We reconsider the all-optical homodyne-measurement based experimental schemes that aim to reveal Bell nonclassicality of a single photon, often termed `nonlocality'. We focus on the schemes put forward by Tan, Walls and Collett (TWC, 1991) and Hardy (1994). In the light of our previous work the Tan, Walls and Collett setup can be described by a precise local hidden variable model, hence the claimed nonclassicality of this proposal is apparent, whereas the nonclassicality proof proposed by Hardy is impeccable. In this work we resolve the following problem: which feature of the Hardy's approach is crucial for its successful confirmation of nonclassicality. The scheme of Hardy differs from the Tan, Walls and Collett setup in two aspects. (i) It introduces a superposition of a single photon excitation with vacuum as the initial state of one of the input modes of a 50-50 beamsplitter, which creates the superposition state of two separable (exit) modes under investigation. (ii) In the final measurements Hardy's proposal utilises a varying strengths of the local oscillator fields, whereas in the TWC case they are constant. In fact the local oscillators in Hardy's scheme are either on or off (the local setting is specified by the presence or absence of the local auxiliary field). We show that it is the varying strength of the local oscillators, from setting to setting, which is the crucial feature enabling violation of local realism in the Hardy setup, whereas it is not necessary to use initial superposition of a single photon excitation with vacuum as the initial state of the input mode. Neither one needs to operate in the fully on/off detection scheme. Despite the failure of the Tan, Walls and Collett scheme in proving Bell nonclassicality, we show that their scheme can serve as an entanglement indicator.
翻訳日:2023-04-11 07:57:55 公開日:2021-02-12
# 非エルミート的$\cal{PT}$-対称フラットバンド格子における安定ブロッホ振動とランダウ・ツェナートンネル

Stable Bloch oscillations and Landau-Zener tunneling in a non-Hermitian $\cal{PT}$-symmetric flat band lattice ( http://arxiv.org/abs/2102.06608v1 )

ライセンス: Link先を確認
J. Ramya Parkavi, V. K. Chandrasekar and M. Lakshmanan(参考訳) 本稿は,非エルミート系における安定ブロッホ振動とランダウツェナートンネルの存在について,外部場に曝露した場合の研究を目的とする。 非エルミート的$\cal{pt}$-symmetric diamond chain networkと、その輸送ダイナミクスを2つの異なる状況(フラットバンドの場合と非フラットバンドの場合)で検討した。 考慮された系は、平坦帯と非平坦帯の両方のパラメトリック領域において、unbroken-$\cal{pt}$ phase や完全実固有スペクトルをサポートしない。 フラットバンドの場合、利得損失パラメータの臨界値まで、バンドはギャップレスまたは分離不能であることが判明し、他の値に対してはバンドを分離する。 非平坦なバンドの場合を考えると、全てのバンドは複素分散性であり、孤立している。 完全崩壊した$\cal{pt}$位相の場合、合成電場のような外部場の適用により安定なダイナミクスやブロッホ振動が得られる可能性を考察する。 特に、複素バンドが分離された場合、合成電場によって誘導されるランダウ・ツェナートンネルがブロッホ振動を可能にすることを指摘した。 これらのブロッホ振動の振幅は大きく、長い伝播距離を保ち、システムの破壊された$\cal{PT}$相でスーパーブロッホ振動が観測できることを明らかにする。 また,非エルミート系における輸送現象の制御方法を示す増幅ブロッホ振動について報告する。

This article aims to study the existence of stable Bloch oscillations and Landau-Zener tunneling in a non-Hermitian system when exposed to external fields. We investigate a non-Hermitian $\cal{PT}$-symmetric diamond chain network and its transport dynamics in two different situations, namely in a flat band case and a non-flat band case. The considered system does not support unbroken-$\cal{PT}$ phase or completely real eigenspectra in any of the parametric regions in both the flat and non-flat band cases. In the flat band case, up to a critical value of the gain-loss parameter, the bands are found to be gapless or inseparable, and for other values the bands are isolated. Considering the non-flat band case, all the bands are found to be complex dispersive and are also isolated. In the case of completely broken $\cal{PT}$ phase, we look upon the possibility to have stable dynamics or Bloch oscillations upon the application of external fields like synthetic electric field. In particular, when the complex bands are isolated, we point out that the Landau-Zener tunneling induced by the synthetic electric field can enable Bloch oscillations. The amplitude of these Bloch oscillations is large and persists for a long propagation distance which reveals that super Bloch oscillations can be observed in the broken $\cal{PT}$ phase of the system. We also report the amplified Bloch oscillations which pave the way towards controlling transport phenomena in non-Hermitian systems.
翻訳日:2023-04-11 07:56:48 公開日:2021-02-12
# 音声反対例の人間による評価について

On the human evaluation of audio adversarial examples ( http://arxiv.org/abs/2001.08444v2 )

ライセンス: Link先を確認
Jon Vadillo and Roberto Santana(参考訳) 人間と機械の相互作用はますます音声コミュニケーションに依存している。 機械学習モデルは通常、人間の音声コマンドの解釈に適用される。 しかし、これらのモデルは、故意に摂動して間違った予測を生じさせるような、敵対的な例によって騙される可能性がある。 敵の摂動を発生させる新しい技術の開発に多くの研究が注がれているが、人間の摂動にどう気付くかを決定する側面には注意が向けられていない。 この問題は, 摂動が検出できない場合にのみ, 提案した対向摂動戦略の騙し率が高いことが問題となる。 本稿では,これらの攻撃を発生させる手法の有効性を評価するために一般的に適用されている,音声対向例の文献における歪み指標が,人間の摂動に対する認識の信頼性を測る尺度であることを示す。 分析的枠組みと18名の被験者が対向例を評価する実験を用いて,規則が採用する指標は,音声領域における対向例の知覚的類似性の信頼性の尺度ではないことを示す。

Human-machine interaction is increasingly dependent on speech communication. Machine Learning models are usually applied to interpret human speech commands. However, these models can be fooled by adversarial examples, which are inputs intentionally perturbed to produce a wrong prediction without being noticed. While much research has been focused on developing new techniques to generate adversarial perturbations, less attention has been given to aspects that determine whether and how the perturbations are noticed by humans. This question is relevant since high fooling rates of proposed adversarial perturbation strategies are only valuable if the perturbations are not detectable. In this paper we investigate to which extent the distortion metrics proposed in the literature for audio adversarial examples, and which are commonly applied to evaluate the effectiveness of methods for generating these attacks, are a reliable measure of the human perception of the perturbations. Using an analytical framework, and an experiment in which 18 subjects evaluate audio adversarial examples, we demonstrate that the metrics employed by convention are not a reliable measure of the perceptual similarity of adversarial examples in the audio domain.
翻訳日:2023-01-07 12:54:22 公開日:2021-02-12
# グローバルモデルとローカルモデルの混合学習

Federated Learning of a Mixture of Global and Local Models ( http://arxiv.org/abs/2002.05516v3 )

ライセンス: Link先を確認
Filip Hanzely and Peter Richt\'arik(参考訳) フェデレート学習モデルのトレーニングのための新しい最適化形式を提案する。 標準定式化は、すべての参加デバイスにまたがるプライベートデータからトレーニングされた単一のグローバルモデルを見つけるために構築された経験的リスク最小化問題である。 対照的に、当社の定式化では、従来のグローバルモデルとローカルモデルとの明確なトレードオフを求めており、各デバイスが通信なしで独自のプライベートデータから学習することができる。 さらに,新たな定式化の解決と通信複雑性保証の証明のために,SGDの複数の効率的な変種(部分的参加および分散化なし)を開発した。 特に,本手法は平均化/局所sgd法と同一ではないため,連合学習における局所的ステップの役割に光を当てている。 特に、私たちは初めてです。 一 ローカルステップが異種データの問題に対するコミュニケーションを改善すること、及び ii) パーソナライゼーションはコミュニケーションの複雑さを減少させる。

We propose a new optimization formulation for training federated learning models. The standard formulation has the form of an empirical risk minimization problem constructed to find a single global model trained from the private data stored across all participating devices. In contrast, our formulation seeks an explicit trade-off between this traditional global model and the local models, which can be learned by each device from its own private data without any communication. Further, we develop several efficient variants of SGD (with and without partial participation and with and without variance reduction) for solving the new formulation and prove communication complexity guarantees. Notably, our methods are similar but not identical to federated averaging / local SGD, thus shedding some light on the role of local steps in federated learning. In particular, we are the first to i) show that local steps can improve communication for problems with heterogeneous data, and ii) point out that personalization yields reduced communication complexity.
翻訳日:2023-01-02 08:37:56 公開日:2021-02-12
# スーパーバイザとしての最適制御による視覚ナビゲーション

Visual Navigation Among Humans with Optimal Control as a Supervisor ( http://arxiv.org/abs/2003.09354v2 )

ライセンス: Link先を確認
Varun Tolani, Somil Bansal, Aleksandra Faust, Claire Tomlin(参考訳) 現実世界のビジュアルナビゲーションでは、ロボットは慣れない人間の慣れ親しんだダイナミックな環境で操作する必要がある。 人間のまわりの航行は、将来の動きを予想する必要があるため、特に難しい。 本稿では,学習に基づく知覚とモデルに基づく最適制御を組み合わせて,単眼のRGB画像のみに基づく人間間のナビゲーションを提案する。 我々のアプローチは、新しいデータ生成ツールであるHumANavによって実現され、室内の環境シーンを人間とリアルにレンダリングし、シミュレーションで完全に知覚モジュールを訓練するために使用される。 移動ロボットのシミュレーションと実験を通じて,学習されたナビゲーションポリシーが,人間の将来の動きを明示的に予測することなく,人間に予測・反応し,これまで認識されていなかった環境や人間の行動に一般化し,シミュレーションから現実へ直接移動できることを実証する。 私たちのアプローチと実験を説明したビデオとHumANavのデモはプロジェクトのWebサイトで公開されている。

Real world visual navigation requires robots to operate in unfamiliar, human-occupied dynamic environments. Navigation around humans is especially difficult because it requires anticipating their future motion, which can be quite challenging. We propose an approach that combines learning-based perception with model-based optimal control to navigate among humans based only on monocular, first-person RGB images. Our approach is enabled by our novel data-generation tool, HumANav that allows for photorealistic renderings of indoor environment scenes with humans in them, which are then used to train the perception module entirely in simulation. Through simulations and experiments on a mobile robot, we demonstrate that the learned navigation policies can anticipate and react to humans without explicitly predicting future human motion, generalize to previously unseen environments and human behaviors, and transfer directly from simulation to reality. Videos describing our approach and experiments, as well as a demo of HumANav are available on the project website.
翻訳日:2022-12-21 21:59:18 公開日:2021-02-12
# 文脈埋め込みのマルチレゾリューショングリッドを用いた教師なし単語ポリセミー量化

Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings ( http://arxiv.org/abs/2003.10224v2 )

ライセンス: Link先を確認
Christos Xypolopoulos, Antoine J.-P. Tixier, Michalis Vazirgiannis(参考訳) ある単語の感覚(polysemy)の数は、非常に主観的な概念であり、注釈家やリソースによって大きく異なる。 文脈埋め込み空間における単純な幾何学に基づいて,ポリセミーを推定する新しい手法を提案する。 私たちのアプローチは完全に教師なし、純粋にデータ駆動です。 我々は,wordnet,onnotes,oxford,wikipediaなどの有名な人間構成資源から得られた6つのランキングと,6つの標準指標について,高い相関性(強い統計的意義)があることを示す厳密な実験を行った。 また,人間ランキングの相関関係を可視化し分析した。 我々の方法の貴重な副産物は、与えられた単語の異なる感覚を含む文を、余分なコストでサンプリングする能力である。 最後に、我々の手法の完全に教師なしの性質は、どんな言語にも適用できる。 コードとデータはhttps://github.com/ksipos/polysemy-assesment で公開されている。 この論文はEACL 2021で長い論文として受け入れられた。

The number of senses of a given word, or polysemy, is a very subjective notion, which varies widely across annotators and resources. We propose a novel method to estimate polysemy, based on simple geometry in the contextual embedding space. Our approach is fully unsupervised and purely data-driven. We show through rigorous experiments that our rankings are well correlated (with strong statistical significance) with 6 different rankings derived from famous human-constructed resources such as WordNet, OntoNotes, Oxford, Wikipedia etc., for 6 different standard metrics. We also visualize and analyze the correlation between the human rankings. A valuable by-product of our method is the ability to sample, at no extra cost, sentences containing different senses of a given word. Finally, the fully unsupervised nature of our method makes it applicable to any language. Code and data are publicly available at https://github.com/ksipos/polysemy-assessment . The paper was accepted as a long paper at EACL 2021.
翻訳日:2022-12-21 00:07:55 公開日:2021-02-12
# 線形貯水池力学における入力状態表現

Input-to-State Representation in linear reservoirs dynamics ( http://arxiv.org/abs/2003.10585v3 )

ライセンス: Link先を確認
Pietro Verzelli and Cesare Alippi and Lorenzo Livi and Peter Tino(参考訳) Reservoirコンピューティングは、トレーニングの単純さと近似性能のために、リカレントニューラルネットワークを設計する一般的なアプローチである。 これらのネットワークの繰り返し部分は(勾配降下などを通じて)訓練されていないため、力学系から神経科学まで幅広い背景を持つ研究者の大規模なコミュニティによる分析研究に訴えかける。 しかし、単純な線形の場合でさえ、これらのネットワークの動作原理は完全には理解されておらず、設計は通常ヒューリスティックスによって駆動される。 このようなネットワークの力学の新たな解析法が提案され、制御性行列を用いて状態の進化を表現することができる。 このような行列は、ネットワークダイナミクスの健全な特性を符号化し、特に、そのランクはネットワークのメモリ容量の入出力測定値を表す。 提案手法を用いることで, 異なる貯水池アーキテクチャを比較し, 循環トポロジが有効である理由を説明することができる。

Reservoir computing is a popular approach to design recurrent neural networks, due to its training simplicity and approximation performance. The recurrent part of these networks is not trained (e.g., via gradient descent), making them appealing for analytical studies by a large community of researchers with backgrounds spanning from dynamical systems to neuroscience. However, even in the simple linear case, the working principle of these networks is not fully understood and their design is usually driven by heuristics. A novel analysis of the dynamics of such networks is proposed, which allows the investigator to express the state evolution using the controllability matrix. Such a matrix encodes salient characteristics of the network dynamics; in particular, its rank represents an input-indepedent measure of the memory capacity of the network. Using the proposed approach, it is possible to compare different reservoir architectures and explain why a cyclic topology achieves favourable results as verified by practitioners.
翻訳日:2022-12-20 08:14:54 公開日:2021-02-12
# 量子計測による教師あり学習

Supervised Learning with Quantum Measurements ( http://arxiv.org/abs/2004.01227v2 )

ライセンス: Link先を確認
Fabio A. Gonz\'alez, Vladimir Vargas-Calder\'on, Herbert Vinck-Posada(参考訳) 本稿では,量子力学を支える数学的形式に基づく教師あり機械学習の新しい手法について述べる。 この方法は予測関数を構築する方法として射影量子計測を用いる。 具体的には、入力変数と出力変数の関係は二成分量子システムの状態として表される。 状態は、密度行列を生成する平均化プロセスを通じて、トレーニングサンプルから推定される。 新たな入力サンプルから作成した操作者と二成分系で投影計測を行い、出力を表すサブシステムの状態を得るために部分的トレースを適用することにより、新規サンプルのラベルの予測を行う。 この方法はベイズ推論分類の一般化であり、カーネルベースの学習法の一種と見なすことができる。 この手法の顕著な特徴は、最適化によってパラメータを学習する必要がなくなることである。 本手法は,異なる2次元分類基準問題と異なる量子情報符号化を用いて記述する。

This paper reports a novel method for supervised machine learning based on the mathematical formalism that supports quantum mechanics. The method uses projective quantum measurement as a way of building a prediction function. Specifically, the relationship between input and output variables is represented as the state of a bipartite quantum system. The state is estimated from training samples through an averaging process that produces a density matrix. Prediction of the label for a new sample is made by performing a projective measurement on the bipartite system with an operator, prepared from the new input sample, and applying a partial trace to obtain the state of the subsystem representing the output. The method can be seen as a generalization of Bayesian inference classification and as a type of kernel-based learning method. One remarkable characteristic of the method is that it does not require learning any parameters through optimization. We illustrate the method with different 2-D classification benchmark problems and different quantum information encodings.
翻訳日:2022-12-17 13:23:49 公開日:2021-02-12
# 機械学習の理論に向けて

Towards a theory of machine learning ( http://arxiv.org/abs/2004.09280v4 )

ライセンス: Link先を確認
Vitaly Vanchurin(参考訳) ニューラルネットワークを,(1)状態ベクトル,(2)入力投影,(3)出力投影,(4)重み行列,(5)バイアスベクトル,(6)活性化マップ,(7)損失関数からなるセグタプルとして定義する。 我々は、損失関数は、制御されたシステムと教師なしシステムの両方に対して境界(すなわち入力と出力のニューロン)またはバルク(すなわち隠されたニューロン)に課すことができると論じる。 最大エントロピーの原理を適用し、ラグランジュ乗算器(あるいは逆温度パラメータ)によってバルク損失関数に課される制約を受ける状態ベクトルの正準アンサンブルを導出する。 平衡において、正準分割関数は、温度の関数とバイアスベクトルと重み行列の関数の2つの因子の積でなければならないことを示す。 その結果、全シャノンエントロピーは、それぞれ熱力学的エントロピーとニューラルネットワークの複雑さを表す2つの項からなる。 学習の第一法則と第二法則を導出する:学習中、全エントロピーはシステムが平衡(すなわち第二法則)に達するまで減少しなければならず、損失関数の増分は熱力学的エントロピーの増分と複雑性の増分(すなわち第一法則)に比例しなければならない。 エントロピー破壊を計算し,学習効率が最適ニューラルネットワークアーキテクチャで最大化される全自由エネルギーのラプラシアンによって与えられることを示すとともに,多くの隠蔽層を有するディープネットワークにおいて最適化条件がより満足される理由を説明する。 確率勾配降下法を用いて教師付きフィードフォワードニューラルネットワークを訓練することにより,モデルの鍵特性を数値的に検証した。 また、宇宙全体が最も基本的なレベルでニューラルネットワークである可能性についても論じる。

We define a neural network as a septuple consisting of (1) a state vector, (2) an input projection, (3) an output projection, (4) a weight matrix, (5) a bias vector, (6) an activation map and (7) a loss function. We argue that the loss function can be imposed either on the boundary (i.e. input and/or output neurons) or in the bulk (i.e. hidden neurons) for both supervised and unsupervised systems. We apply the principle of maximum entropy to derive a canonical ensemble of the state vectors subject to a constraint imposed on the bulk loss function by a Lagrange multiplier (or an inverse temperature parameter). We show that in an equilibrium the canonical partition function must be a product of two factors: a function of the temperature and a function of the bias vector and weight matrix. Consequently, the total Shannon entropy consists of two terms which represent respectively a thermodynamic entropy and a complexity of the neural network. We derive the first and second laws of learning: during learning the total entropy must decrease until the system reaches an equilibrium (i.e. the second law), and the increment in the loss function must be proportional to the increment in the thermodynamic entropy plus the increment in the complexity (i.e. the first law). We calculate the entropy destruction to show that the efficiency of learning is given by the Laplacian of the total free energy which is to be maximized in an optimal neural architecture, and explain why the optimization condition is better satisfied in a deep network with a large number of hidden layers. The key properties of the model are verified numerically by training a supervised feedforward neural network using the method of stochastic gradient descent. We also discuss a possibility that the entire universe on its most fundamental level is a neural network.
翻訳日:2022-12-13 04:32:03 公開日:2021-02-12
# ベクトルクリティカルアルゴリズムにおけるサンプル複素性境界の改善

Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms ( http://arxiv.org/abs/2004.12956v4 )

ライセンス: Link先を確認
Tengyu Xu, Zhe Wang, Yingbin Liang(参考訳) アクタ-クリティック(ac)アルゴリズムは、強化学習において最適な方針を見つけるための一般的な手法である。 無限の地平線シナリオでは、ACアルゴリズムとNACアルゴリズムの有限サンプル収束速度が最近確立されているが、各イテレーションにおいて独立で同一に分散されたサンプリング(すなわちd)と単一サンプル更新の下では確立されていない。 対照的に,本論文では,マルコフサンプリング下でのacとnacの収束率とサンプル複雑性を,各イテレーション毎のミニバッチデータ,一般ポリシークラス近似のアクタを用いて特徴付ける。 ミニバッチACが$\epsilon$-accurate定常点に達するためのサンプルの全体的な複雑さは、$\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$の順序でACの既知のサンプルの複雑さを向上し、$\epsilon$-accurate大域的最適点を得るためのミニバッチNACの全体的なサンプルの複雑さは、$\mathcal{O}(\epsilon^{-1}/\log(1/\epsilon)の順序でNACの既存のサンプルの複雑さを向上することを示した。 さらに、本研究で特徴付けられるacとnacのサンプル複雑性は、それぞれ$\mathcal{o}((1-\gamma)^{-3})$と$\mathcal{o}((1-\gamma)^{-4}\epsilon^{-1}/\log(1/\epsilon)$の係数によって、政策勾配(pg)と自然政策勾配(npg)のそれを上回る。 これは、ACとNACがPGとNPGを無限の地平線の下で順に性能改善できることを示す最初の理論的研究である。

The actor-critic (AC) algorithm is a popular method to find an optimal policy in reinforcement learning. In the infinite horizon scenario, the finite-sample convergence rate for the AC and natural actor-critic (NAC) algorithms has been established recently, but under independent and identically distributed (i.i.d.) sampling and single-sample update at each iteration. In contrast, this paper characterizes the convergence rate and sample complexity of AC and NAC under Markovian sampling, with mini-batch data for each iteration, and with actor having general policy class approximation. We show that the overall sample complexity for a mini-batch AC to attain an $\epsilon$-accurate stationary point improves the best known sample complexity of AC by an order of $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$, and the overall sample complexity for a mini-batch NAC to attain an $\epsilon$-accurate globally optimal point improves the existing sample complexity of NAC by an order of $\mathcal{O}(\epsilon^{-1}/\log(1/\epsilon))$. Moreover, the sample complexity of AC and NAC characterized in this work outperforms that of policy gradient (PG) and natural policy gradient (NPG) by a factor of $\mathcal{O}((1-\gamma)^{-3})$ and $\mathcal{O}((1-\gamma)^{-4}\epsilon^{-1}/\log(1/\epsilon))$, respectively. This is the first theoretical study establishing that AC and NAC attain orderwise performance improvement over PG and NPG under infinite horizon due to the incorporation of critic.
翻訳日:2022-12-09 04:36:21 公開日:2021-02-12
# 深部生成モデルを用いた半教師付きソースローカライゼーション

Semi-supervised source localization with deep generative modeling ( http://arxiv.org/abs/2005.13163v3 )

ライセンス: Link先を確認
Michael J. Bianco, Sharon Gannot, and Peter Gerstoft(参考訳) 本稿では,変分オートエンコーダを用いた深部生成モデルに基づく半教師付きローカライズ手法を提案する。 残響環境におけるローカライゼーションは依然として課題であり、機械学習(ML)が対処において約束している。 大規模なデータ量であっても、残響環境における教師あり学習に利用できるラベルの数は少ない。 本稿では,畳み込みVAEを用いた半教師付き学習(SSL)によってこの問題に対処する。 VAEは、ラベル付きとラベルなしのRTFサンプルの両方で、DOA分類器と並行して相対移動関数(RTF)の位相を生成するように訓練されている。 VAE-SSLアプローチは、SRP-PHATと完全な教師付きCNNと比較される。 VAE-SSLはラベル制限シナリオにおいて,SRP-PHATとCNNのどちらよりも優れていることがわかった。

We propose a semi-supervised localization approach based on deep generative modeling with variational autoencoders (VAEs). Localization in reverberant environments remains a challenge, which machine learning (ML) has shown promise in addressing. Even with large data volumes, the number of labels available for supervised learning in reverberant environments is usually small. We address this issue by performing semi-supervised learning (SSL) with convolutional VAEs. The VAE is trained to generate the phase of relative transfer functions (RTFs), in parallel with a DOA classifier, on both labeled and unlabeled RTF samples. The VAE-SSL approach is compared with SRP-PHAT and fully-supervised CNNs. We find that VAE-SSL can outperform both SRP-PHAT and CNN in label-limited scenarios.
翻訳日:2022-11-28 09:50:52 公開日:2021-02-12
# グラフィカル正規化フロー

Graphical Normalizing Flows ( http://arxiv.org/abs/2006.02548v3 )

ライセンス: Link先を確認
Antoine Wehenkel and Gilles Louppe(参考訳) ベース分布と一連の単射ニューラルネットワークを組み合わせることで、流れモデル複素確率分布を正規化する。 最先端アーキテクチャは、スカラーからベクトルへの可逆関数を持ち上げるために結合と自己回帰変換に依存している。 この研究では、これらの変換を確率的グラフィカルモデルとして再検討し、事前定義されたトポロジーと各ノードの学習可能な密度を持つベイズネットワークに還元することを示す。 この新たな視点から,所定あるいは学習可能なグラフィカル構造を持つ新しい非可逆変換であるグラフィカル正規化フローを提案する。 このモデルは、ベイジアンネットワークの解釈可能性と正規化フローの表現能力の両方を保ちながら、正規化フローにドメイン知識を注入する有望な方法を提供する。 グラフィカルコンディショナーが関連するグラフ構造を仮説化できない場合に発見することを示す。 さらに,$\ell_1$-penalizationが回収した構造および得られた密度推定の質に及ぼす影響を解析した。 最後に, グラフィカルコンディショナーは, 競合するホワイトボックス密度推定器につながることを示す。 私たちの実装はhttps://github.com/awehenkel/dag-nfで利用可能です。

Normalizing flows model complex probability distributions by combining a base distribution with a series of bijective neural networks. State-of-the-art architectures rely on coupling and autoregressive transformations to lift up invertible functions from scalars to vectors. In this work, we revisit these transformations as probabilistic graphical models, showing they reduce to Bayesian networks with a pre-defined topology and a learnable density at each node. From this new perspective, we propose the graphical normalizing flow, a new invertible transformation with either a prescribed or a learnable graphical structure. This model provides a promising way to inject domain knowledge into normalizing flows while preserving both the interpretability of Bayesian networks and the representation capacity of normalizing flows. We show that graphical conditioners discover relevant graph structure when we cannot hypothesize it. In addition, we analyze the effect of $\ell_1$-penalization on the recovered structure and on the quality of the resulting density estimation. Finally, we show that graphical conditioners lead to competitive white box density estimators. Our implementation is available at https://github.com/AWehenkel/DAG-NF.
翻訳日:2022-11-25 17:26:37 公開日:2021-02-12
# ミスマッチ自己励磁プロセスの適合性試験

Goodness-of-Fit Test for Mismatched Self-Exciting Processes ( http://arxiv.org/abs/2006.09439v3 )

ライセンス: Link先を確認
Song Wei, Shixiang Zhu, Minghe Zhang, Yao Xie(参考訳) 近年、実世界のアプリケーションに適用できる範囲が広いこともあって、自己引用点プロセスのための生成モデルの開発に多くの研究がなされている。 しかし、通常未知であるため、生成モデルが自然や地中をいかにうまく捉えているかを定量化することは滅多にない。 一般的に問題となるのは、生成モデルが通常、(例えば、ニューラルネットワークの豊かな代表力を通じて)基底に良い近似を提供するが、正確には基底であるとは限らないという事実である。 したがって、従来のGoFテストフレームワークを使用してパフォーマンスを評価することはできません。 本稿では,この問題に準最大形推定器(QMLE)の古典的統計理論と新たな関連性を持たせることで,自己励振過程の生成モデルに対するGOFテストを開発する。 本稿では,GOFテストのための非パラメトリック自己正規化統計学:一般スコア統計学(GS)について述べるとともに,GS統計学の漸近分布を確立する際のモデル不特定性を明示的に把握する。 数値シミュレーションと実データ実験により,提案したGS試験の性能評価を行った。

Recently there have been many research efforts in developing generative models for self-exciting point processes, partly due to their broad applicability for real-world applications. However, rarely can we quantify how well the generative model captures the nature or ground-truth since it is usually unknown. The challenge typically lies in the fact that the generative models typically provide, at most, good approximations to the ground-truth (e.g., through the rich representative power of neural networks), but they cannot be precisely the ground-truth. We thus cannot use the classic goodness-of-fit (GOF) test framework to evaluate their performance. In this paper, we develop a GOF test for generative models of self-exciting processes by making a new connection to this problem with the classical statistical theory of Quasi-maximum-likelihood estimator (QMLE). We present a non-parametric self-normalizing statistic for the GOF test: the Generalized Score (GS) statistics, and explicitly capture the model misspecification when establishing the asymptotic distribution of the GS statistic. Numerical simulation and real-data experiments validate our theory and demonstrate the proposed GS test's good performance.
翻訳日:2022-11-20 20:21:00 公開日:2021-02-12
# 高周波金融のための機能制御の学習

Learning a functional control for high-frequency finance ( http://arxiv.org/abs/2006.09611v2 )

ライセンス: Link先を確認
Laura Leal, Mathieu Lauri\`ere, Charles-Albert Lehalle(参考訳) 我々は,高頻度データに対する最適取引のための制御器を生成するために,ディープニューラルネットワークを用いる。 ニューラルネットワークは、トレーダの好み、すなわちリスク回避パラメータと最適な制御との間のマッピングを初めて学習する。 このマッピングを学ぶ上で重要な課題は、トレーダーの行動が市場への影響を通じてクローズドループにおける価格変動に影響を与えることである。 効率的な実行によって生じる探索-探索トレードオフは、トレーダーの好みを調整し、学習フェーズ中に十分な軌道が生成されることを保証する。 ニューラルネットワークはまずモンテカルロ計画によって生成された軌道に基づいてトレーニングされ、歴史的な軌道を訓練する前に適切な初期化が行われる。 さらに,機械学習が生成する制御の説明可能性に関する金融規制当局の真の要求に応えるため,スタイリングされた最適取引問題の閉形式解に通常当てはまる空間上で得られる「ブラックボックス制御」を投影し,透明な構造へと導く。 閉形式解を持たないより現実的な損失関数に対しては、生成した制御と説明可能なバージョンの間の平均距離が小さいことを示す。 これにより、金融規制当局によるML生成制御の受け入れへの扉が開ける。

We use a deep neural network to generate controllers for optimal trading on high frequency data. For the first time, a neural network learns the mapping between the preferences of the trader, i.e. risk aversion parameters, and the optimal controls. An important challenge in learning this mapping is that in intraday trading, trader's actions influence price dynamics in closed loop via the market impact. The exploration--exploitation tradeoff generated by the efficient execution is addressed by tuning the trader's preferences to ensure long enough trajectories are produced during the learning phase. The issue of scarcity of financial data is solved by transfer learning: the neural network is first trained on trajectories generated thanks to a Monte-Carlo scheme, leading to a good initialization before training on historical trajectories. Moreover, to answer to genuine requests of financial regulators on the explainability of machine learning generated controls, we project the obtained "blackbox controls" on the space usually spanned by the closed-form solution of the stylized optimal trading problem, leading to a transparent structure. For more realistic loss functions that have no closed-form solution, we show that the average distance between the generated controls and their explainable version remains small. This opens the door to the acceptance of ML-generated controls by financial regulators.
翻訳日:2022-11-19 21:42:26 公開日:2021-02-12
# 重み付き部分コーパスと近隣住民による条件付き独立試験

Conditional independence testing via weighted partial copulas and nearest neighbors ( http://arxiv.org/abs/2006.12839v3 )

ライセンス: Link先を確認
Pascal Bianchi and Kevin Elgui and Fran\c{c}ois Portier(参考訳) 本稿では条件付き独立性をテストするための \textit{weighted partial copula}関数を提案する。 提案手法は以下の2つの成分から得られた。 (i) テスト統計量は \textit{weighted partial copula} の明示的cracker-von mises変換である。 (ii)推定条件付辺縁の積測度からサンプルを生成して条件付独立性を模倣したブートストラップ手順を用いて拒絶領域を算出する。 条件付き独立性の下では、スムーズな局所線形推定器を用いて境界線を推定するときに、 \textit{weighted partial copula proces} の弱収束が確立される。 最後に, 実験部では, カーネルベーステストなどの最新手法と比較して, 提案手法が競争力を有することを示す。

This paper introduces the \textit{weighted partial copula} function for testing conditional independence. The proposed test procedure results from these two ingredients: (i) the test statistic is an explicit Cramer-von Mises transformation of the \textit{weighted partial copula}, (ii) the regions of rejection are computed using a bootstrap procedure which mimics conditional independence by generating samples from the product measure of the estimated conditional marginals. Under conditional independence, the weak convergence of the \textit{weighted partial copula proces}s is established when the marginals are estimated using a smoothed local linear estimator. Finally, an experimental section demonstrates that the proposed test has competitive power compared to recent state-of-the-art methods such as kernel-based test.
翻訳日:2022-11-17 23:38:52 公開日:2021-02-12
# ベイジアンEMアルゴリズムの収束に対する力学系アプローチ

A Dynamical Systems Approach for Convergence of the Bayesian EM Algorithm ( http://arxiv.org/abs/2006.12690v2 )

ライセンス: Link先を確認
Orlando Romero, Subhro Das, Pin-Yu Chen, S\'ergio Pequito(参考訳) システムと制御(S\&C)に基づく最適化アルゴリズムの分析の最近の進歩の中で、機械学習(ML)アルゴリズムとその応用に特化している作業は十分ではない。 本稿では、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかにして強力なツールとなり得るかを説明する。 本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM(Maximum a reari expectation-maximization)と呼ばれる最適化アルゴリズムを用いて行うことに着目した。 力学系安定性理論の第一原理に従い、MAP-EMの収束条件を開発する。 さらに、追加の仮定が満たされれば、高速収束(線形あるいは二次)が達成され、私たちのS&Cアプローチなしでは発表が困難であった可能性がある。 本論文では,EMアプリケーションに十分な条件の集合を効果的に拡張し,他のMLアルゴリズムの類似したS&Cベース収束解析の可能性を示す。

Out of the recent advances in systems and control (S\&C)-based analysis of optimization algorithms, not enough work has been specifically dedicated to machine learning (ML) algorithms and its applications. This paper addresses this gap by illustrating how (discrete-time) Lyapunov stability theory can serve as a powerful tool to aid, or even lead, in the analysis (and potential design) of optimization algorithms that are not necessarily gradient-based. The particular ML problem that this paper focuses on is that of parameter estimation in an incomplete-data Bayesian framework via the popular optimization algorithm known as maximum a posteriori expectation-maximization (MAP-EM). Following first principles from dynamical systems stability theory, conditions for convergence of MAP-EM are developed. Furthermore, if additional assumptions are met, we show that fast convergence (linear or quadratic) is achieved, which could have been difficult to unveil without our adopted S\&C approach. The convergence guarantees in this paper effectively expand the set of sufficient conditions for EM applications, thereby demonstrating the potential of similar S\&C-based convergence analysis of other ML algorithms.
翻訳日:2022-11-17 22:35:32 公開日:2021-02-12
# NASTransfer: 大規模ニューラルネットワーク検索におけるアーキテクチャ転送可能性の解析

NASTransfer: Analyzing Architecture Transferability in Large Scale Neural Architecture Search ( http://arxiv.org/abs/2006.13314v2 )

ライセンス: Link先を確認
Rameswar Panda, Michele Merler, Mayoore Jaiswal, Hui Wu, Kandan Ramakrishnan, Ulrich Finkler, Chun-Fu Chen, Minsik Cho, David Kung, Rogerio Feris, Bishwaranjan Bhattacharjee(参考訳) neural architecture search(nas)は、機械学習においてオープンかつ挑戦的な問題である。 NASは大きな可能性をもっているが、既存のNAS手法の殆どの禁止的な計算要求は、大規模タスクでアーキテクチャを直接検索することを困難にしている。 大規模なNASを実行する典型的な方法は、小さなデータセット上のアーキテクチャ的なビルディングブロック(大きなデータセットからのプロキシセットまたは全く異なる小さなデータセット)を検索し、そのブロックを大きなデータセットに転送することである。 プロキシデータセットからの転送の約束を示す最近の多くの結果にもかかわらず、異なるソースデータセットの影響を研究する異なるNASメソッドの包括的な評価はまだ解決されていない。 本研究では,ImageNet1K や ImageNet22K などの大規模ベンチマークを用いて,異なるNAS手法のアーキテクチャ伝達可能性の解析を行う。 私たちはそれを見つけました (i)プロキシセットのサイズとドメインは、ターゲットデータセットのアーキテクチャ性能に影響しないように思われる。 平均して、全く異なる小さなデータセット(cifar10など)を使用して検索されたアーキテクチャの転送性能は、プロキシターゲットデータセット上で直接検索されたアーキテクチャと同等である。 しかし、プロキシセットの設計は異なるNASメソッドのランキングにかなりの影響を及ぼす。 (ii)異なるNASメソッドは、ソースデータセット(例:CIFAR10)で同様のパフォーマンスを示すが、大きなデータセット(例:ImageNet1K)への転送性能に大きく異なる。 (iii)大規模なデータセットであっても、ランダムサンプリングベースラインは非常に競争力があるが、プロキシセットと検索戦略の適切な組み合わせの選択は、それよりも大幅に改善することができる。 当社の広範な実証分析は,nasアルゴリズムの今後の設計に有用であると考えています。

Neural Architecture Search (NAS) is an open and challenging problem in machine learning. While NAS offers great promise, the prohibitive computational demand of most of the existing NAS methods makes it difficult to directly search the architectures on large-scale tasks. The typical way of conducting large scale NAS is to search for an architectural building block on a small dataset (either using a proxy set from the large dataset or a completely different small scale dataset) and then transfer the block to a larger dataset. Despite a number of recent results that show the promise of transfer from proxy datasets, a comprehensive evaluation of different NAS methods studying the impact of different source datasets has not yet been addressed. In this work, we propose to analyze the architecture transferability of different NAS methods by performing a series of experiments on large scale benchmarks such as ImageNet1K and ImageNet22K. We find that: (i) The size and domain of the proxy set does not seem to influence architecture performance on the target dataset. On average, transfer performance of architectures searched using completely different small datasets (e.g., CIFAR10) perform similarly to the architectures searched directly on proxy target datasets. However, design of proxy sets has considerable impact on rankings of different NAS methods. (ii) While different NAS methods show similar performance on a source dataset (e.g., CIFAR10), they significantly differ on the transfer performance to a large dataset (e.g., ImageNet1K). (iii) Even on large datasets, random sampling baseline is very competitive, but the choice of the appropriate combination of proxy set and search strategy can provide significant improvement over it. We believe that our extensive empirical analysis will prove useful for future design of NAS algorithms.
翻訳日:2022-11-17 21:22:49 公開日:2021-02-12
# RL Unplugged: オフライン強化学習のためのベンチマークスイート

RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning ( http://arxiv.org/abs/2006.13888v4 )

ライセンス: Link先を確認
Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Tom Le Paine, Sergio Gomez Colmenarejo, Konrad Zolna, Rishabh Agarwal, Josh Merel, Daniel Mankowitz, Cosmin Paduraru, Gabriel Dulac-Arnold, Jerry Li, Mohammad Norouzi, Matt Hoffman, Ofir Nachum, George Tucker, Nicolas Heess and Nando de Freitas(参考訳) 強化学習のオフライン手法は、強化学習研究と実世界の応用とのギャップを埋めるのに役立つ可能性がある。 これにより、オフラインデータセットからポリシーを学ぶことができ、コスト、安全性、倫理的懸念など、現実世界のオンラインデータ収集に関連する懸念を克服することができる。 本稿では,オフラインRL手法の評価と比較を行うRL Unpluggedというベンチマークを提案する。 RL Unpluggedはゲーム(例えばAtariベンチマーク)やシミュレーションモーター制御問題(例えばDM Control Suite)を含む様々な領域のデータを含んでいる。 データセットには、部分的または完全に観測可能で、連続的または離散的アクションを使用し、確率的対決定論的ダイナミクスを持つドメインが含まれている。 本稿では、RL Unpluggedにおける各領域に対する詳細な評価プロトコルを提案し、これらのプロトコルを用いて教師付き学習とオフラインRL手法の広範な解析を行う。 本論文で提示したすべてのタスクとすべてのアルゴリズムのデータをリリースします。 我々のベンチマークスイートが実験の再現性を高め、限られた計算予算で挑戦的なタスクを研究できるようになれば、RLの研究はより体系的で、コミュニティ全体でアクセスしやすいものになると期待しています。 今後は、RL Unpluggedを、研究コミュニティと私たち自身の貢献したデータセットで進化し、成長する、生きたベンチマークスイートとして見ている。 プロジェクトページはhttps://git.io/jjuhd.com/で閲覧できます。

Offline methods for reinforcement learning have a potential to help bridge the gap between reinforcement learning research and real-world applications. They make it possible to learn policies from offline datasets, thus overcoming concerns associated with online data collection in the real-world, including cost, safety, or ethical concerns. In this paper, we propose a benchmark called RL Unplugged to evaluate and compare offline RL methods. RL Unplugged includes data from a diverse range of domains including games (e.g., Atari benchmark) and simulated motor control problems (e.g., DM Control Suite). The datasets include domains that are partially or fully observable, use continuous or discrete actions, and have stochastic vs. deterministic dynamics. We propose detailed evaluation protocols for each domain in RL Unplugged and provide an extensive analysis of supervised learning and offline RL methods using these protocols. We will release data for all our tasks and open-source all algorithms presented in this paper. We hope that our suite of benchmarks will increase the reproducibility of experiments and make it possible to study challenging tasks with a limited computational budget, thus making RL research both more systematic and more accessible across the community. Moving forward, we view RL Unplugged as a living benchmark suite that will evolve and grow with datasets contributed by the research community and ourselves. Our project page is available on https://git.io/JJUhd.
翻訳日:2022-11-17 09:33:39 公開日:2021-02-12
# 自動運転車の雨条件下での物体検出:最新技術と新興技術のレビュー

Object Detection Under Rainy Conditions for Autonomous Vehicles: A Review of State-of-the-Art and Emerging Techniques ( http://arxiv.org/abs/2006.16471v4 )

ライセンス: Link先を確認
Mazin Hnewa and Hayder Radha(参考訳) 先進的な自動車の能動安全システム、特に自動運転車は、視覚データに重きを置き、歩行者、交通標識、照明、その他の周辺車両を分類・ローカライズし、対応する車両が環境の中で安全に行動するのを支援している。 しかし,雨天など厳しい気象シナリオ下では,物体検出手法の性能は著しく低下する可能性がある。 レーディング・アプローチの開発において大きな進歩があったにもかかわらず、特に自動運転の文脈において、物体検出に対する雨の影響は概ね未熟である。 本論文の目的は,雨条件が自律走行車両の物体検出能力に与える影響を緩和するための先駆的候補を表現する,最先端および新興技術に関するチュートリアルを提供することである。 我々のゴールは、澄んだ雨条件下で収集した視覚データを用いて訓練・試験された物体検出手法の性能を調査し、分析することである。 また,雨天時の物体検出問題に対処するために検討されている,おもなレーディング手法,ディープラーニングに基づくドメイン適応,画像翻訳フレームワークの有効性と限界を調査し,評価する。 本チュートリアルでは,様々な調査手法の実験結果を紹介する。

Advanced automotive active-safety systems, in general, and autonomous vehicles, in particular, rely heavily on visual data to classify and localize objects such as pedestrians, traffic signs and lights, and other nearby cars, to assist the corresponding vehicles maneuver safely in their environments. However, the performance of object detection methods could degrade rather significantly under challenging weather scenarios including rainy conditions. Despite major advancements in the development of deraining approaches, the impact of rain on object detection has largely been understudied, especially in the context of autonomous driving. The main objective of this paper is to present a tutorial on state-of-the-art and emerging techniques that represent leading candidates for mitigating the influence of rainy conditions on an autonomous vehicle's ability to detect objects. Our goal includes surveying and analyzing the performance of object detection methods trained and tested using visual data captured under clear and rainy conditions. Moreover, we survey and evaluate the efficacy and limitations of leading deraining approaches, deep-learning based domain adaptation, and image translation frameworks that are being considered for addressing the problem of object detection under rainy conditions. Experimental results of a variety of the surveyed techniques are presented as part of this tutorial.
翻訳日:2022-11-15 05:48:36 公開日:2021-02-12
# 適応カスケード部分モジュラ最大化

Adaptive Cascade Submodular Maximization ( http://arxiv.org/abs/2007.03592v2 )

ライセンス: Link先を確認
Shaojie Tang and Jing Yuan(参考訳) 本稿では,適応設定下でのカスケード部分モジュラー最大化問題を提案し,検討する。 問題の入力はアイテムの集合であり、各アイテムは既知の確率分布から引き出される特定の状態(すなわち、アイテムの限界寄与)にある。 しかし、選択する前に実際の状態を知ることはできない。 確率的サブモジュラー最大化に関する既存の研究と比較すると、問題の1つの独特な設定は、各項目が、現在の項目を選択した後に次の項目を選択できる確率を表す継続確率に関連付けられていることである。 直感的には、この用語は選択される機会の観点から、次の全ての項目に対して1つの項目を選択することの外部性を捉えている。 したがって、ポリシーによって選択できるアイテムの実際のセットは、アイテムの選択に採用する特定の順序に依存するため、従来のサブモジュラー集合最適化問題とは根本的に異なる問題となる。 本研究の目的は,選択項目の有効性を最大化するために,選択項目の最適シーケンスを特定することである。 確率的ユーティリティ関数のクラスである \emph{adaptive cascade submodular function} を提案し,多くの応用領域における目的関数が適応的カスケード部分モジュラリティを満たすことを示す。 次に、適応カスケード部分モジュラー最大化問題に対する0.12$近似アルゴリズムを開発する。

In this paper, we propose and study the cascade submodular maximization problem under the adaptive setting. The input of our problem is a set of items, each item is in a particular state (i.e., the marginal contribution of an item) which is drawn from a known probability distribution. However, we can not know its actual state before selecting it. As compared with existing studies on stochastic submodular maximization, one unique setting of our problem is that each item is associated with a continuation probability which represents the probability that one is allowed to continue to select the next item after selecting the current one. Intuitively, this term captures the externality of selecting one item to all its subsequent items in terms of the opportunity of being selected. Therefore, the actual set of items that can be selected by a policy depends on the specific ordering it adopts to select items, this makes our problem fundamentally different from classical submodular set optimization problems. Our objective is to identify the best sequence of selecting items so as to maximize the expected utility of the selected items. We propose a class of stochastic utility functions, \emph{adaptive cascade submodular functions}, and show that the objective functions in many practical application domains satisfy adaptive cascade submodularity. Then we develop a $0.12$ approximation algorithm to the adaptive cascade submodular maximization problem.
翻訳日:2022-11-12 18:21:20 公開日:2021-02-12
# 隠れパラメータブロックmdpのためのロバスト状態抽象化の学習

Learning Robust State Abstractions for Hidden-Parameter Block MDPs ( http://arxiv.org/abs/2007.07206v4 )

ライセンス: Link先を確認
Amy Zhang, Shagun Sodhani, Khimya Khetarpal, Joelle Pineau(参考訳) 多くの制御タスクは、共通の潜在構造を持つようにモデル化できる類似のダイナミクスを示す。 HiP-MDP(Hidden-Parameter Markov Decision Processs)は、マルチタスク設定におけるサンプル効率を改善するために、この構造を明示的にモデル化する。 しかし、この設定は、リッチな観測空間を持つ実世界のシナリオにおける適用を制限する状態の可観測性について強い仮定をする。 本研究では、HiP-MDP設定から共通構造のアイデアを活用し、それを拡張してブロックMDPにインスパイアされた堅牢な状態抽象化を実現する。 マルチタスク強化学習(MTRL)とメタ強化学習(Meta-RL)の両方のための新しいフレームワークのインスタンス化を導出する。 さらに、タスクと状態の類似性に基づく転送と一般化のバウンダリと、タスク数よりもタスク全体のサンプルの集合数に依存するサンプル複雑性バウンダリと、同じ環境仮定を使用する前の作業よりも大幅に改善する。 提案手法の有効性をさらに実証するため,マルチタスクおよびメタ強化学習ベースラインの改善を実証的に比較,示す。

Many control tasks exhibit similar dynamics that can be modeled as having common latent structure. Hidden-Parameter Markov Decision Processes (HiP-MDPs) explicitly model this structure to improve sample efficiency in multi-task settings. However, this setting makes strong assumptions on the observability of the state that limit its application in real-world scenarios with rich observation spaces. In this work, we leverage ideas of common structure from the HiP-MDP setting, and extend it to enable robust state abstractions inspired by Block MDPs. We derive instantiations of this new framework for both multi-task reinforcement learning (MTRL) and meta-reinforcement learning (Meta-RL) settings. Further, we provide transfer and generalization bounds based on task and state similarity, along with sample complexity bounds that depend on the aggregate number of samples across tasks, rather than the number of tasks, a significant improvement over prior work that use the same environment assumptions. To further demonstrate the efficacy of the proposed method, we empirically compare and show improvement over multi-task and meta-reinforcement learning baselines.
翻訳日:2022-11-10 13:22:08 公開日:2021-02-12
# 上位対実的信頼境界--文脈帯域に対する新しい最適化原理

Upper Counterfactual Confidence Bounds: a New Optimism Principle for Contextual Bandits ( http://arxiv.org/abs/2007.07876v3 )

ライセンス: Link先を確認
Yunbei Xu and Assaf Zeevi(参考訳) 不確実性に直面した楽観主義の原理は、多武装の盗賊や強化学習において最も広く使われ、成功したアイデアの1つである。 しかし、既存の楽観的なアルゴリズム(主に UCB とその変種)は大きなコンテキスト空間を扱うことができないことが多い。 本質的には、一般的な文脈的バンディット問題の既存の実行アルゴリズムはすべて重み付けされた行動割当スキームに依存しており、最適化に基づくアルゴリズムの理論的保証は制限された定式化でのみ知られている。 本稿では、実現可能性条件下での一般的なコンテキスト帯域について検討し、"Upper Counterfactual Confidence Bounds"(UCCB)と呼ばれる楽観的アルゴリズムを設計するための単純な汎用原理を提案する。 これらのアルゴリズムは,大規模文脈空間の存在下では最適かつ効率的であることが証明できる。 UCCBの主な構成要素は以下のとおりである。 1)行動空間ではなく政策空間における信頼境界の体系的分析 2) 文脈設定における楽観主義の力を表現するために用いられるポテンシャル関数の観点。 さらに, UCCBの原理を無限の作用空間に拡張し, 新たに導入された「対実的作用発散」という概念を通じて信頼境界を構築する方法を示す。

The principle of optimism in the face of uncertainty is one of the most widely used and successful ideas in multi-armed bandits and reinforcement learning. However, existing optimistic algorithms (primarily UCB and its variants) are often unable to deal with large context spaces. Essentially all existing well performing algorithms for general contextual bandit problems rely on weighted action allocation schemes; and theoretical guarantees for optimism-based algorithms are only known for restricted formulations. In this paper we study general contextual bandits under the realizability condition, and propose a simple generic principle to design optimistic algorithms, dubbed "Upper Counterfactual Confidence Bounds" (UCCB). We show that these algorithms are provably optimal and efficient in the presence of large context spaces. Key components of UCCB include: 1) a systematic analysis of confidence bounds in policy space rather than in action space; and 2) the potential function perspective that is used to express the power of optimism in the contextual setting. We further show how the UCCB principle can be extended to infinite action spaces, by constructing confidence bounds via the newly introduced notion of "counterfactual action divergence."
翻訳日:2022-11-10 05:28:23 公開日:2021-02-12
# オンラインベイズ推論を用いた生涯強化学習

Lifelong Incremental Reinforcement Learning with Online Bayesian Inference ( http://arxiv.org/abs/2007.14196v2 )

ライセンス: Link先を確認
Zhi Wang, Chunlin Chen, Daoyi Dong(参考訳) 長期強化学習(RL)エージェントの中枢的な能力は、環境の変化に応じてその振る舞いを漸進的に適応させることであり、現実のシナリオにおける将来の学習を促進するために、以前の経験を段階的に構築することである。 本稿では,動的環境への効率的な生涯適応のための新たなインクリメンタルアルゴリズムであるLifeLong Incremental Reinforcement Learning (LLIRL)を提案する。 我々は、潜在空間におけるクラスタリング環境パラメータに相当するパラメータ化された環境モデルの無限混合を含むライブラリを開発し、維持する。 混合物上の事前分布を中国レストランプロセス(crp)として定式化し、環境変化を事前に知らせる外部情報なしで新たな環境モデルを段階的にインスタンス化する。 生涯学習中は,オンラインベイズ推定を用いた期待最大化(em)アルゴリズムを用いて,混合の完全漸進的更新を行う。 EMでは、Eステップは環境からクラスタへの割り当ての後方予測を推定し、Mステップは将来の学習のための環境パラメータを更新する。 この方法では、すべての環境モデルを必要に応じて適応させ、新しいモデルが環境変化のためにインスタンス化され、以前の環境が再び遭遇したときに古いモデルが検索される。 LLIRLは既存の手法よりも優れており、生涯学習のための様々な動的環境への効果的な漸進的適応を可能にする。

A central capability of a long-lived reinforcement learning (RL) agent is to incrementally adapt its behavior as its environment changes, and to incrementally build upon previous experiences to facilitate future learning in real-world scenarios. In this paper, we propose LifeLong Incremental Reinforcement Learning (LLIRL), a new incremental algorithm for efficient lifelong adaptation to dynamic environments. We develop and maintain a library that contains an infinite mixture of parameterized environment models, which is equivalent to clustering environment parameters in a latent space. The prior distribution over the mixture is formulated as a Chinese restaurant process (CRP), which incrementally instantiates new environment models without any external information to signal environmental changes in advance. During lifelong learning, we employ the expectation maximization (EM) algorithm with online Bayesian inference to update the mixture in a fully incremental manner. In EM, the E-step involves estimating the posterior expectation of environment-to-cluster assignments, while the M-step updates the environment parameters for future learning. This method allows for all environment models to be adapted as necessary, with new models instantiated for environmental changes and old models retrieved when previously seen environments are encountered again. Experiments demonstrate that LLIRL outperforms relevant existing methods, and enables effective incremental adaptation to various dynamic environments for lifelong learning.
翻訳日:2022-11-06 01:36:00 公開日:2021-02-12
# 探索のオフラインメタ学習

Offline Meta Learning of Exploration ( http://arxiv.org/abs/2008.02598v3 )

ライセンス: Link先を確認
Ron Dorfman, Idan Shenfeld, Aviv Tamar(参考訳) Offline Meta Reinforcement Learning (OMRL) 問題:$N$の通常のRLエージェントの完全なトレーニングログ、$N$の異なるタスクでトレーニングされたメタエージェントを与えられた場合、同じタスクディストリビューションから、新しい、目に見えないタスクですぐに報酬を最大化できるメタエージェントを設計する。 特に、従来のRLエージェントがそれぞれ異なるタスクを探索し、活用する一方で、メタエージェントはデータ内の規則性を識別する必要がある。 ここでは、ベイズ RL (BRL) のビューを取得し、オフラインデータからベイズ最適化ポリシーを学習する。 近年のVaribad BRLアプローチに基づいて,適応的ニューラル信念推定に基づく探索戦略の立案を学習するオフポリチックBRL法を開発した。 しかし、そのような信念をオフラインデータから推測する学習は、MDP曖昧さと呼ばれる新しい識別可能性の問題をもたらす。 この問題を特徴付け,データ収集と修正手順による解決を提案する。 最後に,難解な報酬タスクを含む多様なドメイン上でのフレームワークの評価を行い,データ内の任意のrlエージェントによる探索と質的に異なる効果的な探索行動の学習を実証する。

Consider the following instance of the Offline Meta Reinforcement Learning (OMRL) problem: given the complete training logs of $N$ conventional RL agents, trained on $N$ different tasks, design a meta-agent that can quickly maximize reward in a new, unseen task from the same task distribution. In particular, while each conventional RL agent explored and exploited its own different task, the meta-agent must identify regularities in the data that lead to effective exploration/exploitation in the unseen task. Here, we take a Bayesian RL (BRL) view, and seek to learn a Bayes-optimal policy from the offline data. Building on the recent VariBAD BRL approach, we develop an off-policy BRL method that learns to plan an exploration strategy based on an adaptive neural belief estimate. However, learning to infer such a belief from offline data brings a new identifiability issue we term MDP ambiguity. We characterize the problem, and suggest resolutions via data collection and modification procedures. Finally, we evaluate our framework on a diverse set of domains, including difficult sparse reward tasks, and demonstrate learning of effective exploration behavior that is qualitatively different from the exploration used by any RL agent in the data.
翻訳日:2022-11-02 06:28:05 公開日:2021-02-12
# TRU-NET: 降雨の高精度予測のためのディープラーニングアプローチ

TRU-NET: A Deep Learning Approach to High Resolution Prediction of Rainfall ( http://arxiv.org/abs/2008.09090v2 )

ライセンス: Link先を確認
Rilwan Adewoyin, Peter Dueben, Peter Watson, Yulan He, Ritabrata Dutta(参考訳) 気候モデル(CM)は、気候変動が洪水や強い降水イベントのリスクに与える影響を評価するために用いられる。 しかし、これらの数値シミュレータは降水現象を正確に表現することが困難であり、主に大気中のマルチスケール力学をシミュレーションする際の空間分解能の制限によるものである。 高分解能降水量の予測を改善するために,局所降水量よりも予測可能なモデル場(変数)のCMシミュレーションを入力として,Deep Learning (DL) アプローチを適用した。 そこで本研究では,連続した畳み込み-再帰層間の新たな2次元クロスアテンション機構を特徴とするエンコーダ-デコーダモデルである tru-net (temporal recurrent u-net) を提案する。 降雨のゼロスキュート%イベントパターンを捉えるために,条件付き連続損失関数を用いた。 実験により, 短期降水予測でよく見られるDLモデルよりも, RMSEおよびMAEスコアの低い値が一貫して得られ, 最新の動的気象モデルによる降雨予測の改善が示された。 さらに, 各種学習・試験・データ定式化戦略の下で, モデルの性能を評価することにより, 季節や地域によって, 堅牢で高品質な結果を出力するのに十分なデータが存在することを示す。

Climate models (CM) are used to evaluate the impact of climate change on the risk of floods and strong precipitation events. However, these numerical simulators have difficulties representing precipitation events accurately, mainly due to limited spatial resolution when simulating multi-scale dynamics in the atmosphere. To improve the prediction of high resolution precipitation we apply a Deep Learning (DL) approach using an input of CM simulations of the model fields (weather variables) that are more predictable than local precipitation. To this end, we present TRU-NET (Temporal Recurrent U-Net), an encoder-decoder model featuring a novel 2D cross attention mechanism between contiguous convolutional-recurrent layers to effectively model multi-scale spatio-temporal weather processes. We use a conditional-continuous loss function to capture the zero-skewed %extreme event patterns of rainfall. Experiments show that our model consistently attains lower RMSE and MAE scores than a DL model prevalent in short term precipitation prediction and improves upon the rainfall predictions of a state-of-the-art dynamical weather model. Moreover, by evaluating the performance of our model under various, training and testing, data formulation strategies, we show that there is enough data for our deep learning approach to output robust, high-quality results across seasons and varying regions.
翻訳日:2022-10-27 04:19:06 公開日:2021-02-12
# マルチソース適応のための識別手法

A Discriminative Technique for Multiple-Source Adaptation ( http://arxiv.org/abs/2008.11036v2 )

ライセンス: Link先を確認
Corinna Cortes and Mehryar Mohri and Ananda Theertha Suresh and Ningshan Zhang(参考訳) 本稿では,マルチソース適応のための新しい識別手法,MSA,問題を提案する。 各ソースドメインの密度推定に依存する以前の作業とは異なり、このソリューションは、ソースドメインからラベルなしのデータから正確に推定できる条件付き確率のみを必要とする。 我々は、R'enyiの発散に基づく一般的な保証や、条件付きMaxentを用いてソースドメインに属する点の条件付き確率を推定する場合の学習境界など、新しい手法の詳細な分析を行う。 これらの保証は、カーネル密度推定を用いて生成解を導出できるものと好意的に比較できることを示す。 実世界の応用実験により、新しい識別的MSAアルゴリズムは、以前の生成的解と他のドメイン適応ベースラインよりも優れていることが示された。

We present a new discriminative technique for the multiple-source adaptation, MSA, problem. Unlike previous work, which relies on density estimation for each source domain, our solution only requires conditional probabilities that can easily be accurately estimated from unlabeled data from the source domains. We give a detailed analysis of our new technique, including general guarantees based on R\'enyi divergences, and learning bounds when conditional Maxent is used for estimating conditional probabilities for a point to belong to a source domain. We show that these guarantees compare favorably to those that can be derived for the generative solution, using kernel density estimation. Our experiments with real-world applications further demonstrate that our new discriminative MSA algorithm outperforms the previous generative solution as well as other domain adaptation baselines.
翻訳日:2022-10-25 03:06:33 公開日:2021-02-12
# 逆最適化を用いた投資ポートフォリオからのリスク優先学習

Learning Risk Preferences from Investment Portfolios Using Inverse Optimization ( http://arxiv.org/abs/2010.01687v3 )

ライセンス: Link先を確認
Shi Yu, Haoran Wang, Chaosheng Dong(参考訳) 現代ポートフォリオ理論(MPT)の基本原理は、ポートフォリオのパフォーマンスに関するリスクの定量化に基づいている。 MPTは投資業界に大きな影響を与え、パッシブ投資の成功と普及を促してきたが、現実のアプリケーションにはまだ欠点がある。 主な課題の1つは、投資家が耐えうるリスクのレベル、すなわち \emph{risk-preference} は、意思決定における心理学や行動科学と密接に関連する主観的な選択である。 本稿では,平均分散ポートフォリオ割り当てフレームワークを用いた逆最適化を用いて,既存ポートフォリオのリスク選好を測定する新しい手法を提案する。 当社のアプローチでは,同時観測ポートフォリオと市場価格データを用いて,学習者が継続的にリアルタイムリスク選好を推定できる。 我々は,20年間の資産価格と10年間の相互ファンドポートフォリオ保有からなる実市場データについて,この手法を実証する。 さらに、このフィールドに現在適用されている2つのよく知られたリスク測定値を用いて、定量化リスク優先パラメータを検証した。 提案手法は、Robo-advisingのような自動化・個人化されたポートフォリオ管理における実践的かつ実りある革新をもたらし、長期投資の視野で金融アドバイザーの意思決定インテリジェンスを強化する。

The fundamental principle in Modern Portfolio Theory (MPT) is based on the quantification of the portfolio's risk related to performance. Although MPT has made huge impacts on the investment world and prompted the success and prevalence of passive investing, it still has shortcomings in real-world applications. One of the main challenges is that the level of risk an investor can endure, known as \emph{risk-preference}, is a subjective choice that is tightly related to psychology and behavioral science in decision making. This paper presents a novel approach of measuring risk preference from existing portfolios using inverse optimization on the mean-variance portfolio allocation framework. Our approach allows the learner to continuously estimate real-time risk preferences using concurrent observed portfolios and market price data. We demonstrate our methods on real market data that consists of 20 years of asset pricing and 10 years of mutual fund portfolio holdings. Moreover, the quantified risk preference parameters are validated with two well-known risk measurements currently applied in the field. The proposed methods could lead to practical and fruitful innovations in automated/personalized portfolio management, such as Robo-advising, to augment financial advisors' decision intelligence in a long-term investment horizon.
翻訳日:2022-10-11 04:15:53 公開日:2021-02-12
# CNN埋め込み空間の交換可能性を探る

Exploring the Interchangeability of CNN Embedding Spaces ( http://arxiv.org/abs/2010.02323v4 )

ライセンス: Link先を確認
David McNeely-White, Benjamin Sattelberg, Nathaniel Blanchard, Ross Beveridge(参考訳) CNNの特徴空間は線形にマッピングできるため、しばしば交換可能である。 この等価性は、アーキテクチャのバリエーション、データセットのトレーニング、ネットワークタスクにまたがる。 具体的には,10個の画像分類CNNと4個の顔認識CNNをマッピングした。 1つのCNNによって生成された画像埋め込みを、同一タスクで訓練された第2CNNの特徴空間に対応する埋め込みに変換すると、それぞれの画像分類または顔認証性能が大半が保存される。 同じクラスにトレーニングされ、共通のバックエンドロジット(ソフトマックス)アーキテクチャを共有するcnnの場合、リニアマッピングは常にバックエンド層重みから直接計算される。 しかし、分類器の完全知識を持つ閉集合解析の場合、制限がある。 そこで, 画像分類タスクと顔認識のオープンセットタスクの両方に対して, マッピングを推定する経験的手法を提案する。 その結果、CNNの埋め込みの本質的に交換可能な性質を、2つの重要な共通認識タスクに対して明らかにした。 この意味合いは広く、共通のタスクのために設計され訓練されたネットワークによって学習される表現間の共通性が示唆されている。 一つの実用的な意味は、一般的に使われているCNNの顔埋め込みをこれらのマッピングを用いて比較できるということである。

CNN feature spaces can be linearly mapped and consequently are often interchangeable. This equivalence holds across variations in architectures, training datasets, and network tasks. Specifically, we mapped between 10 image-classification CNNs and between 4 facial-recognition CNNs. When image embeddings generated by one CNN are transformed into embeddings corresponding to the feature space of a second CNN trained on the same task, their respective image classification or face verification performance is largely preserved. For CNNs trained to the same classes and sharing a common backend-logit (soft-max) architecture, a linear-mapping may always be calculated directly from the backend layer weights. However, the case of a closed-set analysis with perfect knowledge of classifiers is limiting. Therefore, empirical methods of estimating mappings are presented for both the closed-set image classification task and the open-set task of face recognition. The results presented expose the essentially interchangeable nature of CNNs embeddings for two important and common recognition tasks. The implications are far-reaching, suggesting an underlying commonality between representations learned by networks designed and trained for a common task. One practical implication is that face embeddings from some commonly used CNNs can be compared using these mappings.
翻訳日:2022-10-10 20:56:05 公開日:2021-02-12
# データストリームからの公平かつ代表的なサブセット選択

Fair and Representative Subset Selection from Data Streams ( http://arxiv.org/abs/2010.04412v2 )

ライセンス: Link先を確認
Yanhao Wang and Francesco Fabbri and Michael Mathioudakis(参考訳) 大規模データストリームから代表項目の小さなサブセットを抽出する問題について検討する。 ソーシャルネットワーク分析やレコメンダシステムのような多くのデータマイニングや機械学習のアプリケーションでは、この問題は濃度制約$k$の単調部分モジュラー関数の最大化として定式化することができる。 本研究では,ストリーム内のデータ項目が複数の非結合群の1つに属する設定を考察し,各グループから与えられた項目数に選択を限定する追加の制約である \emph{fairness} を用いて最適化問題を検討する。 次に,ストリーミングサブモジュラー最大化問題のフェアネス認識型に対する効率的なアルゴリズムを提案する。 特に、まず、$ (\frac{1}{2}-\varepsilon) $-approximation algorithmを指定し、$ O(\frac{1}{\varepsilon} \log \frac{k}{\varepsilon}) $ は任意の定値 $ \varepsilon>0 $ に対してストリームを渡る。 さらに,バッファサイズと処理後時間が無制限である場合の近似比が$(\frac{1}{2}-\varepsilon)$となる単一パスストリーミングアルゴリズムを与え,バッファサイズが境界付けられたより実用的な設定にそれを適用する方法について検討する。 最後に,提案アルゴリズムの有効性を実世界の2つのアプリケーション,すなわち,大グラフ上での「emph{maximum coverage」と「emph{personalized recommendation」に示す。

We study the problem of extracting a small subset of representative items from a large data stream. In many data mining and machine learning applications such as social network analysis and recommender systems, this problem can be formulated as maximizing a monotone submodular function subject to a cardinality constraint $k$. In this work, we consider the setting where data items in the stream belong to one of several disjoint groups and investigate the optimization problem with an additional \emph{fairness} constraint that limits selection to a given number of items from each group. We then propose efficient algorithms for the fairness-aware variant of the streaming submodular maximization problem. In particular, we first give a $ (\frac{1}{2}-\varepsilon) $-approximation algorithm that requires $ O(\frac{1}{\varepsilon} \log \frac{k}{\varepsilon}) $ passes over the stream for any constant $ \varepsilon>0 $. Moreover, we give a single-pass streaming algorithm that has the same approximation ratio of $(\frac{1}{2}-\varepsilon)$ when unlimited buffer sizes and post-processing time are permitted, and discuss how to adapt it to more practical settings where the buffer sizes are bounded. Finally, we demonstrate the efficiency and effectiveness of our proposed algorithms on two real-world applications, namely \emph{maximum coverage on large graphs} and \emph{personalized recommendation}.
翻訳日:2022-10-09 06:25:47 公開日:2021-02-12
# 最大平均差を用いた確率測度の最適定量化

Optimal quantisation of probability measures using maximum mean discrepancy ( http://arxiv.org/abs/2010.07064v4 )

ライセンス: Link先を確認
Onur Teymur, Jackson Gorham, Marina Riabiz and Chris. J. Oates(参考訳) いくつかの研究者は、確率測度、すなわち代表点集合による目標分布を近似する方法として、最大平均偏差(mmd)の最小化を提案した。 離散候補集合上でmmdを厳格に最小化する逐次アルゴリズムを考える。 本稿では,新しい非ミオピックアルゴリズムを提案し,統計効率の向上と計算コストの削減を両立させるため,この手法を各イテレーションにおける候補セットのミニバッチに適用した変種について検討する。 候補点がターゲットからサンプリングされると、これらの新しいアルゴリズム(およびそれらのミニバッチ変種)の一貫性が確立される。 ベイズキューブ内のノードの最適化やマルコフ連鎖出力の縮小など,様々な重要な計算問題に対するアルゴリズムの実証を行った。

Several researchers have proposed minimisation of maximum mean discrepancy (MMD) as a method to quantise probability measures, i.e., to approximate a target distribution by a representative point set. We consider sequential algorithms that greedily minimise MMD over a discrete candidate set. We propose a novel non-myopic algorithm and, in order to both improve statistical efficiency and reduce computational cost, we investigate a variant that applies this technique to a mini-batch of the candidate set at each iteration. When the candidate points are sampled from the target, the consistency of these new algorithm - and their mini-batch variants - is established. We demonstrate the algorithms on a range of important computational problems, including optimisation of nodes in Bayesian cubature and the thinning of Markov chain output.
翻訳日:2022-10-07 13:01:40 公開日:2021-02-12
# レイリー商関数によるスパース正準相関解析におけるミニマックス準ベイズ推定

Minimax Quasi-Bayesian estimation in sparse canonical correlation analysis via a Rayleigh quotient function ( http://arxiv.org/abs/2010.08627v2 )

ライセンス: Link先を確認
Qiuyun Zhu, Yves Atchade(参考訳) 標準相関解析(CCA)は、データセット間の関係を探索する一般的な統計手法である。 スパース標準相関ベクトルの推定は、近年、CCA問題の重要かつ挑戦的なバリエーションとして、広く応用されている。 疎標準相関ベクトルに対する現在利用可能な速度-最適推定器は計算に費用がかかる。 我々は,最小推定率を達成する準ベイズ推定法を提案し,マルコフ・チェイン・モンテカルロ(MCMC)による計算は容易である。 この手法は ([37]) 上に構築され、準log-likelyhood として再スケールされたレイリー商関数を使用する。 しかし,これらの著者とは異なり,この擬似ログ類似性とスパイク・アンド・スラブ先行性を組み合わせたベイズ的枠組みを採用し,推論の正則化とスパーシティの促進に寄与する。 提案手法の連続的, 乱雑な両データに対する経験的挙動を調べた結果, 最先端の手法よりも優れていたことが判明した。 応用として,この手法を用いて臨床変数とプロテオミクスデータを最大に相関させ,コビッドウイルス病の理解を深める。

Canonical correlation analysis (CCA) is a popular statistical technique for exploring the relationship between datasets. The estimation of sparse canonical correlation vectors has emerged in recent years as an important but challenging variation of the CCA problem, with widespread applications. Currently available rate-optimal estimators for sparse canonical correlation vectors are expensive to compute. We propose a quasi-Bayesian estimation procedure that achieves the minimax estimation rate, and yet is easy to compute by Markov Chain Monte Carlo (MCMC). The method builds on ([37]) and uses a re-scaled Rayleigh quotient function as a quasi-log-likelihood. However unlike these authors, we adopt a Bayesian framework that combines this quasi-log-likelihood with a spike-and-slab prior that serves to regularize the inference and promote sparsity. We investigated the empirical behavior of the proposed method on both continuous and truncated data, and we noted that it outperforms several state-of-the-art methods. As an application, we use the methodology to maximally correlate clinical variables and proteomic data for a better understanding of covid-19 disease.
翻訳日:2022-10-06 20:47:40 公開日:2021-02-12
# 物理インフォームGANによる沿岸洪水の可視化

Physics-informed GANs for Coastal Flood Visualization ( http://arxiv.org/abs/2010.08103v2 )

ライセンス: Link先を確認
Bj\"orn L\"utjens, Brandon Leshchinskiy, Christian Requena-Mesa, Farrukh Chishtie, Natalia D\'iaz-Rodriguez, Oc\'eane Boulais, Aaron Pi\~na, Dava Newman, Alexander Lavin, Yarin Gal, Chedy Ra\"issi(参考訳) 気候変動が自然災害の激しさを増すにつれ、社会は適応のためのより良いツールを必要としている。 例えば、洪水は最も頻繁な自然災害であるが、ハリケーンのとき、地域は主に雲に覆われており、緊急管理官はミッション計画のために直観的な洪水の可視化に頼る必要がある。 これらの緊急管理を支援するため,現在および将来の沿岸洪水の衛星画像を生成する深層学習パイプラインを構築した。 我々は,Pix2pixHDと呼ばれる最先端のGANを開発し,NOAA SLOSH(NoAA SLOSH)の出力と物理的に一致した画像を生成する。 物理ベースのフラッドマップと比較して画像を評価することにより,提案手法が物理一貫性とフォトリアリズムの両方においてベースラインモデルを上回ることを見出した。 この研究は沿岸の洪水の可視化に焦点を絞ったものであるが、気候変動が地球をどのように形成するかをグローバルに可視化することを目指している。

As climate change increases the intensity of natural disasters, society needs better tools for adaptation. Floods, for example, are the most frequent natural disaster, but during hurricanes the area is largely covered by clouds and emergency managers must rely on nonintuitive flood visualizations for mission planning. To assist these emergency managers, we have created a deep learning pipeline that generates visual satellite images of current and future coastal flooding. We advanced a state-of-the-art GAN called pix2pixHD, such that it produces imagery that is physically-consistent with the output of an expert-validated storm surge model (NOAA SLOSH). By evaluating the imagery relative to physics-based flood maps, we find that our proposed framework outperforms baseline models in both physical-consistency and photorealism. While this work focused on the visualization of coastal floods, we envision the creation of a global visualization of how climate change will shape our earth.
翻訳日:2022-10-06 20:46:36 公開日:2021-02-12
# 圧縮型マルチチャネルブラインドデコンボリューションのための展開型ニューラルネットワーク

Unfolding Neural Networks for Compressive Multichannel Blind Deconvolution ( http://arxiv.org/abs/2010.11391v2 )

ライセンス: Link先を確認
Bahareh Tolooshams, Satish Mulleti, Demba Ba, and Yonina C. Eldar(参考訳) 圧縮性スパースマルチチャネルブラインドデコンボリューション問題に対して,学習構造を持つ展開型ニューラルネットワークを提案する。 この問題では、各チャネルの測定は共通のソース信号とスパースフィルタの畳み込みとして与えられる。 ランダムなプロジェクションや定型化された圧縮行列を適用して圧縮を行う従来の手法とは異なり,本論文ではデータから圧縮行列を学習することを提案する。 提案するネットワークは,全測定値からソースを学習し,スパースフィルタを推定するために教師なしで訓練される。 そして、推定音源から、信号再構成とスパースフィルタ回復を最適化しながら、構造化圧縮演算子を学習する。 圧縮の効率的な構造は、実用的なハードウェア実装を可能にする。 提案したニューラルネットワークは, 展開されたアプローチに基づいて構築されたオートエンコーダであり, エンコーダは, 圧縮演算子とソースを用いて圧縮された測定値をスパースフィルタの推定値にマッピングし, 線形畳み込みデコーダは全測定値を再構成する。 本手法は,従来の圧縮型スパースマルチチャネルブラインドデコンボリューション法よりも,スパースフィルタリカバリの精度と速度において優れていることを示す。

We propose a learned-structured unfolding neural network for the problem of compressive sparse multichannel blind-deconvolution. In this problem, each channel's measurements are given as convolution of a common source signal and sparse filter. Unlike prior works where the compression is achieved either through random projections or by applying a fixed structured compression matrix, this paper proposes to learn the compression matrix from data. Given the full measurements, the proposed network is trained in an unsupervised fashion to learn the source and estimate sparse filters. Then, given the estimated source, we learn a structured compression operator while optimizing for signal reconstruction and sparse filter recovery. The efficient structure of the compression allows its practical hardware implementation. The proposed neural network is an autoencoder constructed based on an unfolding approach: upon training, the encoder maps the compressed measurements into an estimate of sparse filters using the compression operator and the source, and the linear convolutional decoder reconstructs the full measurements. We demonstrate that our method is superior to classical structured compressive sparse multichannel blind-deconvolution methods in terms of accuracy and speed of sparse filter recovery.
翻訳日:2022-10-04 08:02:41 公開日:2021-02-12
# 量子畳み込みニューラルネットワークによる自動音声認識のための特徴抽出

Decentralizing Feature Extraction with Quantum Convolutional Neural Network for Automatic Speech Recognition ( http://arxiv.org/abs/2010.13309v2 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Jun Qi, Samuel Yen-Chi Chen, Pin-Yu Chen, Sabato Marco Siniscalchi, Xiaoli Ma, Chin-Hui Lee(参考訳) 本稿では,音声認識におけるプライバシ保護問題に対処するために,連合学習における新しい分散特徴抽出手法を提案する。 特徴抽出のための量子回路エンコーダと、リカレントニューラルネットワーク(RNN)に基づくエンドツーエンド音響モデル(AM)で構成される量子畳み込みニューラルネットワーク(QCNN)上に構築されている。 分散アーキテクチャにおけるモデルパラメータ保護を強化するために、入力音声をまず量子コンピューティングサーバにアップストリームしてメルスペクトルを抽出し、対応する畳み込み特徴をランダムパラメータを持つ量子回路アルゴリズムを用いて符号化する。 符号化された機能は、最終認識のためにローカルRNNモデルにダウンストリームされる。 提案された分散フレームワークは、量子学習の進歩を利用してモデルをセキュアにし、プライバシ漏洩攻撃を避ける。 提案するqcnnエンコーダは、google speech commandデータセット上でテストされ、分散モデルにおいて95.12%の競合精度を達成している。 また、異なる量子回路エンコーダアーキテクチャの詳細な研究を行い、QCNNベースの特徴抽出器の設計に関する洞察を提供する。 ニューラルサリエンシ分析は,提案したQCNN特徴,クラス活性化マップ,入力スペクトログラムの相関関係を示す。 我々は将来の研究のために実施する。

We propose a novel decentralized feature extraction approach in federated learning to address privacy-preservation issues for speech recognition. It is built upon a quantum convolutional neural network (QCNN) composed of a quantum circuit encoder for feature extraction, and a recurrent neural network (RNN) based end-to-end acoustic model (AM). To enhance model parameter protection in a decentralized architecture, an input speech is first up-streamed to a quantum computing server to extract Mel-spectrogram, and the corresponding convolutional features are encoded using a quantum circuit algorithm with random parameters. The encoded features are then down-streamed to the local RNN model for the final recognition. The proposed decentralized framework takes advantage of the quantum learning progress to secure models and to avoid privacy leakage attacks. Testing on the Google Speech Commands Dataset, the proposed QCNN encoder attains a competitive accuracy of 95.12% in a decentralized model, which is better than the previous architectures using centralized RNN models with convolutional features. We also conduct an in-depth study of different quantum circuit encoder architectures to provide insights into designing QCNN-based feature extractors. Neural saliency analyses demonstrate a correlation between the proposed QCNN features, class activation maps, and input spectrograms. We provide an implementation for future studies.
翻訳日:2022-10-02 18:04:58 公開日:2021-02-12
# 混合信号スパイク学習回路を用いた効率的な平衡ネットワークの実現

Implementing efficient balanced networks with mixed-signal spike-based learning circuits ( http://arxiv.org/abs/2010.14353v2 )

ライセンス: Link先を確認
Julian B\"uchel, Jonathan Kakon, Michel Perez, Giacomo Indiveri(参考訳) 効率的なバランスドネットワーク(ebns)は、興奮性および抑制性シナプス電流が短い時間スケールでバランスをとるスパイキングニューロンのネットワークであり、高い符号化精度、低い発火率、分散情報表現などの符号化特性が望ましい。 これらの利点は、そのようなネットワークを低消費電力のニューロモルフィックプロセッサに実装することが望ましいことである。 しかし、アナログ混合信号ニューロモルフィック回路におけるデバイスミスマッチの程度は、不可能ではないとしても、事前訓練されたEBNの使用を困難にしている。 この問題を克服するために,スパイキングニューロンのランダムに接続されたネットワークを緊密にバランスの取れた状態に駆動する,オンチップ実装に適した新しい局所学習ルールを開発した。 本稿では,このルールを実装し,低レベル回路シミュレーションにおいて期待される動作を示す集積回路について述べる。 提案手法は,アナログ混合信号ニューロモルフィックハードウェア上でのタイトなバランスの取れたネットワークのシステムレベル実装への道を開く。 それらのコーディング特性とスパースアクティビティのおかげで、ニューロモルフィック電子ECNは、低レイテンシで超低消費電力で、データ処理にクラウドコンピューティングに依存しない極端エッジコンピューティングアプリケーションに理想的に適合する。

Efficient Balanced Networks (EBNs) are networks of spiking neurons in which excitatory and inhibitory synaptic currents are balanced on a short timescale, leading to desirable coding properties such as high encoding precision, low firing rates, and distributed information representation. It is for these benefits that it would be desirable to implement such networks in low-power neuromorphic processors. However, the degree of device mismatch in analog mixed-signal neuromorphic circuits renders the use of pre-trained EBNs challenging, if not impossible. To overcome this issue, we developed a novel local learning rule suitable for on-chip implementation that drives a randomly connected network of spiking neurons into a tightly balanced regime. Here we present the integrated circuits that implement this rule and demonstrate their expected behaviour in low-level circuit simulations. Our proposed method paves the way towards a system-level implementation of tightly balanced networks on analog mixed-signal neuromorphic hardware. Thanks to their coding properties and sparse activity, neuromorphic electronic EBNs will be ideally suited for extreme-edge computing applications that require low-latency, ultra-low power consumption and which cannot rely on cloud computing for data processing.
翻訳日:2022-10-02 12:42:14 公開日:2021-02-12
# Panoster: LiDAR点雲のエンドツーエンドのパノプティクスセグメンテーション

Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds ( http://arxiv.org/abs/2010.15157v2 )

ライセンス: Link先を確認
Stefano Gasperini, Mohammad-Ali Nikouei Mahani, Alvaro Marcos-Ramiro, Nassir Navab, Federico Tombari(参考訳) パノプティックセグメンテーションは、これまで別々に扱っていたセマンティクスとインスタンスセグメンテーションを統一し、より包括的で効率的な知覚システムを構築するための一歩を踏み出した。 本稿では,lidar 点雲に対する新しい提案フリーな panoptic segmentation 法 panoster を提案する。 ピクセルやポイントをオブジェクトにグループ化するいくつかのステップに依存する以前のアプローチとは異なり、Panosterは学習ベースのクラスタリングソリューションを組み込んだシンプルなフレームワークを提案している。 推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。 ポストプロセッシングがなければ、パノスターはsemantickittiベンチマークに関する公開アプローチの中で最先端の成果に到達し、ヒューリスティックなテクニックを活用することでさらにリードを上げた。 さらに,本手法を様々な既存セマンティックアーキテクチャに柔軟かつ効果的に適用し,汎視的予測を実現する方法について述べる。

Panoptic segmentation has recently unified semantic and instance segmentation, previously addressed separately, thus taking a step further towards creating more comprehensive and efficient perception systems. In this paper, we present Panoster, a novel proposal-free panoptic segmentation method for LiDAR point clouds. Unlike previous approaches relying on several steps to group pixels or points into objects, Panoster proposes a simplified framework incorporating a learning-based clustering solution to identify instances. At inference time, this acts as a class-agnostic segmentation, allowing Panoster to be fast, while outperforming prior methods in terms of accuracy. Without any post-processing, Panoster reached state-of-the-art results among published approaches on the challenging SemanticKITTI benchmark, and further increased its lead by exploiting heuristic techniques. Additionally, we showcase how our method can be flexibly and effectively applied on diverse existing semantic architectures to deliver panoptic predictions.
翻訳日:2022-10-02 05:12:51 公開日:2021-02-12
# StyleMelGAN: 時間適応正規化を用いた高忠実度逆数ボコーダ

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization ( http://arxiv.org/abs/2011.01557v2 )

ライセンス: Link先を確認
Ahmed Mustafa, Nicola Pia, Guillaume Fuchs(参考訳) 近年,ニューラルボコーダは,合成音声の自然性や知覚的品質において,古典的な音声生成アプローチを超越している。 WaveNetやWaveGlowのような計算量の多いモデルは最高の結果を得るが、MelGANやParallel WaveGANのような軽量のGANモデルは知覚品質の点で劣っている。 そこで我々は,低計算量で高忠実度音声を合成できる軽量なニューラルボコーダであるStyleMelGANを提案する。 StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響特性を持つ低次元ノイズベクトルをスタイルする。 効率的な訓練のために、複数のランダムウィンドウ判別器は、マルチスケールのスペクトル再構成損失による正規化により、フィルタバンクによって解析された音声信号を逆向きに評価する。 並列性の高い音声生成は、cpuやgpuのリアルタイム処理よりも数倍高速である。 MUSHRA と P.800 の聴取試験では、StyleMelGAN はコピー合成やテキスト音声のシナリオにおいて、以前の神経ボコーダよりも優れていた。

In recent years, neural vocoders have surpassed classical speech generation approaches in naturalness and perceptual quality of the synthesized speech. Computationally heavy models like WaveNet and WaveGlow achieve best results, while lightweight GAN models, e.g. MelGAN and Parallel WaveGAN, remain inferior in terms of perceptual quality. We therefore propose StyleMelGAN, a lightweight neural vocoder allowing synthesis of high-fidelity speech with low computational complexity. StyleMelGAN employs temporal adaptive normalization to style a low-dimensional noise vector with the acoustic features of the target speech. For efficient training, multiple random-window discriminators adversarially evaluate the speech signal analyzed by a filter bank, with regularization provided by a multi-scale spectral reconstruction loss. The highly parallelizable speech generation is several times faster than real-time on CPUs and GPUs. MUSHRA and P.800 listening tests show that StyleMelGAN outperforms prior neural vocoders in copy-synthesis and Text-to-Speech scenarios.
翻訳日:2022-09-30 06:23:55 公開日:2021-02-12
# 低ランク遷移をもつエピソード線形二次レギュレータ

Episodic Linear Quadratic Regulators with Low-rank Transitions ( http://arxiv.org/abs/2011.01568v2 )

ライセンス: Link先を確認
Tianyu Wang, Lin F. Yang(参考訳) LQR(Linear Quadratic Regulators)は、現実世界の膨大な応用を実現する。 近年,LQRのダイナミクスが不明な場合,LQRの効率的な学習アルゴリズムに注目が集まっている。 既存の結果は、状態の環境次元を含むシステムのパラメータに依存するエピソード数を用いて、未知のシステムを効果的に制御することを学ぶ。 しかし、これらの伝統的なアプローチは、例えば状態が高解像度の画像であるような一般的なシナリオでは非効率になる。 本稿では,本システムの低ランク構造を効率的に学習するためのアルゴリズムを提案する。 ランク-$m$の問題に対して、我々のアルゴリズムは$K$-episode regret bound of order $\widetilde{O}(m^{3/2} K^{1/2})$を達成する。 その結果、アルゴリズムのサンプルの複雑さは、周囲の次元ではなくランクの$m$と、桁違いに大きい$d$にのみ依存する。

Linear Quadratic Regulators (LQR) achieve enormous successful real-world applications. Very recently, people have been focusing on efficient learning algorithms for LQRs when their dynamics are unknown. Existing results effectively learn to control the unknown system using number of episodes depending polynomially on the system parameters, including the ambient dimension of the states. These traditional approaches, however, become inefficient in common scenarios, e.g., when the states are high-resolution images. In this paper, we propose an algorithm that utilizes the intrinsic system low-rank structure for efficient learning. For problems of rank-$m$, our algorithm achieves a $K$-episode regret bound of order $\widetilde{O}(m^{3/2} K^{1/2})$. Consequently, the sample complexity of our algorithm only depends on the rank, $m$, rather than the ambient dimension, $d$, which can be orders-of-magnitude larger.
翻訳日:2022-09-30 05:39:00 公開日:2021-02-12
# BW-EDA-EEND: 可変話者に対するエンドツーエンドニューラル話者ダイアリゼーション

BW-EDA-EEND: Streaming End-to-End Neural Speaker Diarization for a Variable Number of Speakers ( http://arxiv.org/abs/2011.02678v2 )

ライセンス: Link先を確認
Eunjung Han, Chul Lee, Andreas Stolcke(参考訳) 本稿では,多様な話者に対して段階的にデータを処理する新しいオンラインエンドツーエンド型ニューラルダイアリゼーションシステムBW-EDA-EENDを提案する。 このシステムは、堀口らのEncoder-Decoder-Attractor (EDA)アーキテクチャに基づいているが、インクリメンタルなTransformerエンコーダを使用し、左のコンテキストにのみ対応し、隠された状態のブロックレベルの再帰を利用してブロックからブロックへの情報を伝達し、アルゴリズムの複雑さを線形にする。 線形時間で入力を処理する無限遅延BW-EDA-EENDでは、オフラインのEDA-EENDに比べて10秒のコンテキストサイズで最大2つの話者に対して中程度の劣化しか示さない。 2つ以上の話者では、オンラインとオフラインの精度の差は大きくなるが、アルゴリズムは1~4人の話者に対してベースラインのオフラインクラスタリングダイアリゼーションシステムよりも優れており、コンテキストサイズが10秒と同等の精度を示している。 音声が到着するとダイアリゼーション出力をブロック単位で生成する制限レイテンシBW-EDA-EENDに対して,オフラインクラスタリングシステムに匹敵する精度を示す。

We present a novel online end-to-end neural diarization system, BW-EDA-EEND, that processes data incrementally for a variable number of speakers. The system is based on the Encoder-Decoder-Attractor (EDA) architecture of Horiguchi et al., but utilizes the incremental Transformer encoder, attending only to its left contexts and using block-level recurrence in the hidden states to carry information from block to block, making the algorithm complexity linear in time. We propose two variants: For unlimited-latency BW-EDA-EEND, which processes inputs in linear time, we show only moderate degradation for up to two speakers using a context size of 10 seconds compared to offline EDA-EEND. With more than two speakers, the accuracy gap between online and offline grows, but the algorithm still outperforms a baseline offline clustering diarization system for one to four speakers with unlimited context size, and shows comparable accuracy with context size of 10 seconds. For limited-latency BW-EDA-EEND, which produces diarization outputs block-by-block as audio arrives, we show accuracy comparable to the offline clustering-based system.
翻訳日:2022-09-29 12:33:19 公開日:2021-02-12
# 分子特性予測のためのグラフニューラルネットワークにおける原子表現の比較

Comparison of Atom Representations in Graph Neural Networks for Molecular Property Prediction ( http://arxiv.org/abs/2012.04444v2 )

ライセンス: Link先を確認
Agnieszka Pocha, Tomasz Danel, {\L}ukasz Maziarka(参考訳) グラフニューラルネットワークは最近、化学物質の分析の標準的な方法となっている。 分子特性予測の分野では、新しいモデルアーキテクチャの設計に重点が置かれ、原子の成熟の重要性はしばしば小さくなっている。 2つのグラフニューラルネットワークを対比すると、異なるatom特徴の使用は、ネットワークアーキテクチャへの結果の不正帰属につながる可能性がある。 この問題をよりよく理解するために、グラフモデルに対する複数の原子表現を比較し、自由エネルギー、溶解性、代謝安定性の予測について評価する。 我々の知る限りでは、これはグラフニューラルネットワークの予測性能に対する原子表現の関連性に焦点を当てた最初の方法論研究である。

Graph neural networks have recently become a standard method for analysing chemical compounds. In the field of molecular property prediction, the emphasis is now put on designing new model architectures, and the importance of atom featurisation is oftentimes belittled. When contrasting two graph neural networks, the use of different atom features possibly leads to the incorrect attribution of the results to the network architecture. To provide a better understanding of this issue, we compare multiple atom representations for graph models and evaluate them on the prediction of free energy, solubility, and metabolic stability. To the best of our knowledge, this is the first methodological study that focuses on the relevance of atom representation to the predictive performance of graph neural networks.
翻訳日:2022-09-22 01:54:02 公開日:2021-02-12
# 時間畳み込みネットワークを用いた手話セグメンテーション

Sign language segmentation with temporal convolutional networks ( http://arxiv.org/abs/2011.12986v2 )

ライセンス: Link先を確認
Katrin Renz, Nicolaj C. Stache, Samuel Albanie, G\"ul Varol(参考訳) 本研究の目的は,連続手話ビデオにおける記号間の時間的境界の位置を決定することである。 提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。 bslcorpus、phoenix14、bsl-1kデータセットに対するアプローチの有効性を実証し、以前の技術よりも大幅に改善し、新しい署名者、言語、ドメインに一般化する能力を示した。

The objective of this work is to determine the location of temporal boundaries between signs in continuous sign language videos. Our approach employs 3D convolutional neural network representations with iterative temporal segment refinement to resolve ambiguities between sign boundary cues. We demonstrate the effectiveness of our approach on the BSLCORPUS, PHOENIX14 and BSL-1K datasets, showing considerable improvement over the prior state of the art and the ability to generalise to new signers, languages and domains.
翻訳日:2022-09-21 03:12:55 公開日:2021-02-12
# Resilience-Enabled Extreme Events Reconnaissanceのためのテキスト分析

Text Analytics for Resilience-Enabled Extreme Events Reconnaissance ( http://arxiv.org/abs/2011.13087v2 )

ライセンス: Link先を確認
Alicia Y. Tsai and Selim Gunay and Minjune Hwang and Pengyuan Zhai and Chenglong Li and Laurent El Ghaoui and Khalid M. Mosalam(参考訳) 自然災害後の偵察(地震など)は、建設環境の性能を理解し、回復をスピードアップし、回復力を高め、現在および将来の危険に関する情報的決定を行うために重要である。 自然言語処理(NLP)は,自動化による自然災害偵察の精度と効率を高めるために用いられる。 本研究は,(1)太平洋地震工学研究センター(PEER)サーバがホストする自動データ(ニュース・ソーシャルメディア)収集,(2)偵察報告の自動生成,(3)回復時間などの危険後の情報を抽出するためのソーシャルメディアの利用に焦点を当てた。 得られた結果は、自然災害偵察における様々なnlp法のさらなる開発とより広範な利用を奨励している。

Post-hazard reconnaissance for natural disasters (e.g., earthquakes) is important for understanding the performance of the built environment, speeding up the recovery, enhancing resilience and making informed decisions related to current and future hazards. Natural language processing (NLP) is used in this study for the purposes of increasing the accuracy and efficiency of natural hazard reconnaissance through automation. The study particularly focuses on (1) automated data (news and social media) collection hosted by the Pacific Earthquake Engineering Research (PEER) Center server, (2) automatic generation of reconnaissance reports, and (3) use of social media to extract post-hazard information such as the recovery time. Obtained results are encouraging for further development and wider usage of various NLP methods in natural hazard reconnaissance.
翻訳日:2022-09-20 09:12:32 公開日:2021-02-12
# 改良El Ni\~no予測のためのグラフニューラルネットワーク

Graph Neural Networks for Improved El Ni\~no Forecasting ( http://arxiv.org/abs/2012.01598v3 )

ライセンス: Link先を確認
Salva R\"uhling Cachay, Emma Erickson, Arthur Fender C. Bucker, Ernest Pokropek, Willa Potosnak, Salomey Osei, Bj\"orn L\"utjens(参考訳) 深層学習に基づくモデルは、El Ni\~no-Southern Oscillation (ENSO)の予測など、最先端の季節予測モデルを上回っている。 しかし、現在のディープラーニングモデルは、解釈が困難で、遠隔接続と呼ばれる大規模な大気パターンをモデル化できない畳み込みニューラルネットワークに基づいている。 そこで本研究では,時空間グラフニューラルネットワーク(gnn)の長期リード時間におけるenso予測への応用,粒度の向上,予測スキルの向上について述べる。 エッジによる情報フローの明示的なモデリングは、より解釈可能な予測を可能にする。 予備的な成果は、1ヶ月前と3ヶ月後の投影のための最先端技術システムよりも有望で優れています。

Deep learning-based models have recently outperformed state-of-the-art seasonal forecasting models, such as for predicting El Ni\~no-Southern Oscillation (ENSO). However, current deep learning models are based on convolutional neural networks which are difficult to interpret and can fail to model large-scale atmospheric patterns called teleconnections. Hence, we propose the application of spatiotemporal Graph Neural Networks (GNN) to forecast ENSO at long lead times, finer granularity and improved predictive skill than current state-of-the-art methods. The explicit modeling of information flow via edges may also allow for more interpretable forecasts. Preliminary results are promising and outperform state-of-the art systems for projections 1 and 3 months ahead.
翻訳日:2021-05-25 04:07:32 公開日:2021-02-12
# 代数的不定型深層ネットワーク(aidn) : 代数構造を表現するディープラーニングアプローチ

Algebraically-Informed Deep Networks (AIDN): A Deep Learning Approach to Represent Algebraic Structures ( http://arxiv.org/abs/2012.01141v3 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Matthew Dawson, Greg Muller(参考訳) 深層学習と数学のインターフェイスにおける中心的な問題の1つは、観測データから基礎となる数学的法則を自動的に解明できる学習システムを構築することである。 本稿では,代数構造と深層学習の橋梁構築に向けての一ステップを踏み出し,その上で,textbf{AIDN}, \textit{Algebraically-Informed Deep Networks}を紹介する。 \textbf{AIDN} は、ディープニューラルネットワークの集合を持つ有限表現代数オブジェクトを表現するディープラーニングアルゴリズムである。 textbf{aidn} によって得られる深層ネットワークは、アルゴリズムの入力として働く代数的構造の表現の代数的関係を満たすという意味では \textit{algebraically-informed} である。 提案したネットワークは、群、連想代数学、リー代数など、最も有限で表される代数構造の線型および非線形表現を頑健に計算することができる。 提案手法を評価し,低次元トポロジーにおいて重要な代数的および幾何学的対象への適用性を示す。 特に、ヤン・バクスター方程式の解とそのブレイド群への応用について研究する。 さらに、テンパーリー-リーブ代数の表現について研究する。 最後に,reshetikhin-turaev構成を用いて,提案する深層学習手法を用いて新たなリンク不変量を構築する方法を示す。 提案手法は、代数的および幾何学的構造に応用された深層学習における将来的な研究への道筋をたどると信じている。

One of the central problems in the interface of deep learning and mathematics is that of building learning systems that can automatically uncover underlying mathematical laws from observed data. In this work, we make one step towards building a bridge between algebraic structures and deep learning, and introduce \textbf{AIDN}, \textit{Algebraically-Informed Deep Networks}. \textbf{AIDN} is a deep learning algorithm to represent any finitely-presented algebraic object with a set of deep neural networks. The deep networks obtained via \textbf{AIDN} are \textit{algebraically-informed} in the sense that they satisfy the algebraic relations of the presentation of the algebraic structure that serves as the input to the algorithm. Our proposed network can robustly compute linear and non-linear representations of most finitely-presented algebraic structures such as groups, associative algebras, and Lie algebras. We evaluate our proposed approach and demonstrate its applicability to algebraic and geometric objects that are significant in low-dimensional topology. In particular, we study solutions for the Yang-Baxter equations and their applications on braid groups. Further, we study the representations of the Temperley-Lieb algebra. Finally, we show, using the Reshetikhin-Turaev construction, how our proposed deep learning approach can be utilized to construct new link invariants. We believe the proposed approach would tread a path toward a promising future research in deep learning applied to algebraic and geometric structures.
翻訳日:2021-05-25 03:39:50 公開日:2021-02-12
# (参考訳) ベイズ最適化における推定の実証的研究

An Empirical Study of Assumptions in Bayesian Optimisation ( http://arxiv.org/abs/2012.03826v3 )

ライセンス: CC BY 4.0
Alexander I. Cowen-Rivers, Wenlong Lyu, Rasul Tutunov, Zhi Wang, Antoine Grosnit, Ryan Rhys Griffiths, Hao Jianye, Jun Wang, Haitham Bou Ammar(参考訳) 機械学習のハイパーパラメータを効率的にチューニングしたいという欲求の高まりに触発され、ベイズ最適化に固有の従来的および非伝統的な仮定を厳格に分析する。 1) 超パラメータチューニングタスクの大部分はヘテロシステキティと非定常性を示し,2)パレートフロントソリューションを用いた多目的獲得アンサンブルはクエリ構成を大幅に改善し,3)ロバストでないタスクに比べてロバスト獲得の最大化は実証的な利点を与える。 これらの発見が実践者およびこの分野のさらなる研究の指針となることを願っている。

Inspired by the increasing desire to efficiently tune machine learning hyper-parameters, in this work we rigorously analyse conventional and non-conventional assumptions inherent to Bayesian optimisation. Across an extensive set of experiments we conclude that: 1) the majority of hyper-parameter tuning tasks exhibit heteroscedasticity and non-stationarity, 2) multi-objective acquisition ensembles with Pareto-front solutions significantly improve queried configurations, and 3) robust acquisition maximisation affords empirical advantages relative to its non-robust counterparts. We hope these findings may serve as guiding principles, both for practitioners and for further research in the field.
翻訳日:2021-05-18 10:14:25 公開日:2021-02-12
# 有限学習率確率勾配降下の雑音とゆらぎ

Noise and Fluctuation of Finite Learning Rate Stochastic Gradient Descent ( http://arxiv.org/abs/2012.03636v3 )

ライセンス: Link先を確認
Kangqiao Liu, Liu Ziyin, Masahito Ueda(参考訳) 消滅する学習率体制では、確率勾配降下(SGD)が比較的よく理解されている。 そこで本研究では,SGDの基本特性とその変種について,非消滅学習における検討を行う。 焦点は、正確に解決可能な結果を導き、その意味を議論することである。 この研究の主な貢献は、運動量のない二次損失関数における離散時間sgdの定常分布を導出することであり、特に、離散時間ダイナミクスによるゆらぎは歪んだ形をとっており、連続時間理論が予測できるよりも劇的に大きいことが示唆されている。 本研究における提案理論の適用例としては、SGDの変種近似誤差、ミニバッチノイズの効果、最適ベイズ推定、鋭い最小値からの脱出率、減衰ニュートン法や自然勾配勾配勾配を含むいくつかの2階法の定常分布などが挙げられる。

In the vanishing learning rate regime, stochastic gradient descent (SGD) is now relatively well understood. In this work, we propose to study the basic properties of SGD and its variants in the non-vanishing learning rate regime. The focus is on deriving exactly solvable results and discussing their implications. The main contributions of this work are to derive the stationary distribution for discrete-time SGD in a quadratic loss function with and without momentum; in particular, one implication of our result is that the fluctuation caused by discrete-time dynamics takes a distorted shape and is dramatically larger than a continuous-time theory could predict. Examples of applications of the proposed theory considered in this work include the approximation error of variants of SGD, the effect of minibatch noise, the optimal Bayesian inference, the escape rate from a sharp minimum, and the stationary distribution of a few second-order methods including damped Newton's method and natural gradient descent.
翻訳日:2021-05-16 21:47:07 公開日:2021-02-12
# 連続重力波候補のクラスタリングのための深層学習II:低SNR候補の同定

Deep learning for clustering of continuous gravitational wave candidates II: identification of low-SNR candidates ( http://arxiv.org/abs/2012.04381v2 )

ライセンス: Link先を確認
Banafsheh Beheshtipour, Maria Alessandra Papa(参考訳) 連続重力波信号の幅広い探索は、与えられた有意閾値を超える候補のフォローアップステージの階層に依存する。 これらのフォローアップを単純化し、計算コストを削減するための重要なステップは、1つのフォローアップ候補にまとめることである。 このステップはクラスタリングと呼ばれ、ディープラーニングネットワークで実行することを調査します。 最初の論文[1]では、大きな信号によるクラスタの正確な識別が可能なディープラーニングクラスタリングネットワークを実装した。 本稿では,多くの暗示信号によるクラスタ検出が可能なネットワークを実装した。 これら2つのネットワークは相補的であり、2つのネットワークのカスケードは、現在使われている手法と同等/より低い誤報率で、幅広い信号強度にわたって優れた検出効率を達成することを示す。

Broad searches for continuous gravitational wave signals rely on hierarchies of follow-up stages for candidates above a given significance threshold. An important step to simplify these follow-ups and reduce the computational cost is to bundle together in a single follow-up nearby candidates. This step is called clustering and we investigate carrying it out with a deep learning network. In our first paper [1], we implemented a deep learning clustering network capable of correctly identifying clusters due to large signals. In this paper, a network is implemented that can detect clusters due to much fainter signals. These two networks are complementary and we show that a cascade of the two networks achieves an excellent detection efficiency across a wide range of signal strengths, with a false alarm rate comparable/lower than that of methods currently in use.
翻訳日:2021-05-16 20:44:05 公開日:2021-02-12
# (参考訳) 分散化によるプライバシーの増幅

Privacy Amplification by Decentralization ( http://arxiv.org/abs/2012.05326v2 )

ライセンス: CC BY 4.0
Edwige Cyffers, Aur\'elien Bellet(参考訳) ユーティリティとプライバシの良好なトレードオフを達成する一方で、複数のパーティが所有するデータを分析することは、フェデレーション付き学習と分析において重要な課題である。 本研究では,ネットワークグラフのエッジに沿って通信することで情報交換を行う,完全分散プロトコルにおいて自然に発生する局所微分プライバシー(LDP)を緩和する手法を提案する。 ネットワークDPと呼ばれるこの緩和は、ユーザが分散システムのローカルビューしか持たないという事実を捉えます。 ネットワークdpの関連性を示すために,トークンがネットワークグラフ上でウォークを実行し,受信者によって順次更新される分散計算モデルについて検討する。 実和、ヒストグラム計算、勾配降下による最適化などのタスクに対しては、リングと完全位相に関する単純なアルゴリズムを提案する。 アルゴリズムのプライバシ・ユーティリティのトレードオフがLDPにおいて著しく改善されることを実証し、信頼/セキュアの集約とシャッフルに基づく手法で達成できるものさえも一致している。 本実験は,確率的勾配降下を伴う機械学習モデルの学習において,本手法の優れた有用性を示す。

Analyzing data owned by several parties while achieving a good trade-off between utility and privacy is a key challenge in federated learning and analytics. In this work, we introduce a novel relaxation of local differential privacy (LDP) that naturally arises in fully decentralized protocols, i.e., when participants exchange information by communicating along the edges of a network graph. This relaxation, that we call network DP, captures the fact that users have only a local view of the decentralized system. To show the relevance of network DP, we study a decentralized model of computation where a token performs a walk on the network graph and is updated sequentially by the party who receives it. For tasks such as real summation, histogram computation and optimization with gradient descent, we propose simple algorithms on ring and complete topologies. We prove that the privacy-utility trade-offs of our algorithms significantly improve upon LDP, and in some cases even match what can be achieved with methods based on trusted/secure aggregation and shuffling. Our experiments illustrate the superior utility of our approach when training a machine learning model with stochastic gradient descent.
翻訳日:2021-05-16 04:30:11 公開日:2021-02-12
# (参考訳) グラフィックバイリニアバンドにおけるベストアーム識別

Best Arm Identification in Graphical Bilinear Bandits ( http://arxiv.org/abs/2012.07641v2 )

ライセンス: CC BY 4.0
Geovani Rizk and Albert Thomas and Igor Colin and Rida Laraki and Yann Chevaleyre(参考訳) 本稿では,学習者(あるいは \emph{central entity})がグラフのノードにアームを割り当て,両端ノード間の相互作用を表す雑音の多いバイリニア報酬を各エッジで観測する,新しいグラフィカル双線形帯域問題を提案する。 両線形報酬の和を最大化するグラフ割り当てを学習者が求めている最適なアーム識別問題について検討する。 このバンドイット問題の幾何を効率的に利用することにより、理論的保証のあるランダムサンプリングに基づく 'emph{decentralized} 割り当て戦略を提案する。 特に、グラフ構造(例えば、グラフ構造)の影響を特徴付ける。 star, complete, circle) 収束率を計算し、この依存性を確認する実証実験を提案する。

We introduce a new graphical bilinear bandit problem where a learner (or a \emph{central entity}) allocates arms to the nodes of a graph and observes for each edge a noisy bilinear reward representing the interaction between the two end nodes. We study the best arm identification problem in which the learner wants to find the graph allocation maximizing the sum of the bilinear rewards. By efficiently exploiting the geometry of this bandit problem, we propose a \emph{decentralized} allocation strategy based on random sampling with theoretical guarantees. In particular, we characterize the influence of the graph structure (e.g. star, complete or circle) on the convergence rate and propose empirical experiments that confirm this dependency.
翻訳日:2021-05-08 23:43:11 公開日:2021-02-12
# redat:relabelingを用いたドメイン逆学習によるエンドツーエンドasrのアクセント不変表現

REDAT: Accent-Invariant Representation for End-to-End ASR by Domain Adversarial Training with Relabeling ( http://arxiv.org/abs/2012.07353v2 )

ライセンス: Link先を確認
Hu Hu, Xuesong Yang, Zeynab Raeesy, Jinxi Guo, Gokce Keskin, Harish Arsikere, Ariya Rastrow, Andreas Stolcke, Roland Maas(参考訳) アクセントのミスマッチは、エンドツーエンドのASRにとって重要な問題である。 本稿では,ドメイン逆行訓練(DAT)を用いたアクセントローバストRNN-Tシステムの構築により,この問題に対処することを目的とする。 DATの背後にある魔法を公開し、初めて、DATがアクセント不変表現を学ぶという理論的保証を提供する。 また、DATにおける勾配反転の実行は、領域出力分布間のジェンセン-シャノンのばらつきを最小化することと同値であることを示す。 等価性の証明に動機づけられたredatは,教師なしクラスタリングあるいはソフトラベルを使用してデータをリラベルする,datに基づく新しい手法である。 マルチアクセントデータを用いた23K時間の実験では、DATはネイティブおよび非ネイティブの英語アクセントのアクセント固有のベースラインよりも競争力のある結果を得るが、見知らぬアクセントに対するWERの相対的な減少は最大13%である。

Accents mismatching is a critical problem for end-to-end ASR. This paper aims to address this problem by building an accent-robust RNN-T system with domain adversarial training (DAT). We unveil the magic behind DAT and provide, for the first time, a theoretical guarantee that DAT learns accent-invariant representations. We also prove that performing the gradient reversal in DAT is equivalent to minimizing the Jensen-Shannon divergence between domain output distributions. Motivated by the proof of equivalence, we introduce reDAT, a novel technique based on DAT, which relabels data using either unsupervised clustering or soft labels. Experiments on 23K hours of multi-accent data show that DAT achieves competitive results over accent-specific baselines on both native and non-native English accents but up to 13% relative WER reduction on unseen accents; our reDAT yields further improvements over DAT by 3% and 8% relatively on non-native accents of American and British English.
翻訳日:2021-05-08 14:20:59 公開日:2021-02-12
# (参考訳) 胸部x線診断のための説明可能なモデルの構築と評価

Constructing and Evaluating an Explainable Model for COVID-19 Diagnosis from Chest X-rays ( http://arxiv.org/abs/2012.10787v2 )

ライセンス: CC BY 4.0
Rishab Khincha, Soundarya Krishnan, Tirtharaj Dash, Lovekesh Vig and Ashwin Srinivasan(参考訳) 本稿では,ctスキャンから得られたような高品質な画像を得るよりも,x線データを得ることが容易で安価である状況において,臨床医の診断を支援するモデルの構築に焦点をあてる。 深層ニューラルネットワークは、画像データから直接疾患検出のための高い予測モデルを構築することができることが繰り返し示されている。 しかし, そのブラックボックス性から, 臨床医の補助としての利用は, 何度も転落の一途をたどっている。 予測に臨床用語で表現された説明が伴っていれば、この難しさを和らげることができる。 本稿では,深層ニューラルネットワークを用いて,画像データからドメイン特有の特徴(グラウンドグラス不透明度や肺炎などの疾患表示などの形態学的特徴)を直接抽出する。 これらの特徴に関する予測は、胸部X線からCOVID-19を診断するためのシンボルモデル(決定木)を構築するために使用され、視覚(神経段階から派生した透明マップ)とテキスト(記号段階から派生した論理的記述)の2種類の説明を伴う。 放射線科医は、視覚的およびテキスト的説明の有用性を評価します。 以上の結果から,低レベル画像データからのドメイン固有特徴の同定にニューラルネットワークが有用であること,臨床的に関連のある特徴のテキスト的説明が有用であること,視覚的な説明が有用になるためには臨床的に有意義であること,などが分かる。

In this paper, our focus is on constructing models to assist a clinician in the diagnosis of COVID-19 patients in situations where it is easier and cheaper to obtain X-ray data than to obtain high-quality images like those from CT scans. Deep neural networks have repeatedly been shown to be capable of constructing highly predictive models for disease detection directly from image data. However, their use in assisting clinicians has repeatedly hit a stumbling block due to their black-box nature. Some of this difficulty can be alleviated if predictions were accompanied by explanations expressed in clinically relevant terms. In this paper, deep neural networks are used to extract domain-specific features(morphological features like ground-glass opacity and disease indications like pneumonia) directly from the image data. Predictions about these features are then used to construct a symbolic model (a decision tree) for the diagnosis of COVID-19 from chest X-rays, accompanied with two kinds of explanations: visual (saliency maps, derived from the neural stage), and textual (logical descriptions, derived from the symbolic stage). A radiologist rates the usefulness of the visual and textual explanations. Our results demonstrate that neural models can be employed usefully in identifying domain-specific features from low-level image data; that textual explanations in terms of clinically relevant features may be useful; and that visual explanations will need to be clinically meaningful to be useful.
翻訳日:2021-05-01 12:49:24 公開日:2021-02-12
# 少数のアンカーポイントからのデータ移動による輸送の堅牢化と解釈性の向上

Making transport more robust and interpretable by moving data through a small number of anchor points ( http://arxiv.org/abs/2012.11589v2 )

ライセンス: Link先を確認
Chi-Heng Lin, Mehdi Azabou, Eva L. Dyer(参考訳) 最適輸送(optimize transport, ot)は、機械学習、グラフィックス、視覚コミュニティ全体に適用可能な、分散アライメントのための広く使われている技術である。 しかし、トランスポートに関する構造的な仮定がなければ、OTは特に高次元において、外れ値やノイズに対して脆弱である。 本稿では,この構造を利用してデータの低次元構造を同時に学習し,アライメントタスクを解く構造OTの新たな形式を提案する。 OTと比較すると、結果として得られるトランスポートプランは構造的解釈性が向上し、個々のデータポイントと局所幾何学との間の接続が強調され、ノイズやサンプリングに対してより堅牢である。 提案手法は合成だけでなく,実際のデータセットにも適用し,ノイズの多い環境でのアライメントが容易であり,ドメインシフトの修正と解釈に使用できることを示す。

Optimal transport (OT) is a widely used technique for distribution alignment, with applications throughout the machine learning, graphics, and vision communities. Without any additional structural assumptions on trans-port, however, OT can be fragile to outliers or noise, especially in high dimensions. Here, we introduce a new form of structured OT that simultaneously learns low-dimensional structure in data while leveraging this structure to solve the alignment task. Compared with OT, the resulting transport plan has better structural interpretability, highlighting the connections between individual data points and local geometry, and is more robust to noise and sampling. We apply the method to synthetic as well as real datasets, where we show that our method can facilitate alignment in noisy settings and can be used to both correct and interpret domain shift.
翻訳日:2021-04-27 06:25:31 公開日:2021-02-12
# (参考訳) モジュール型ネットワークとタスク駆動型事前学習による効率的連続学習

Efficient Continual Learning with Modular Networks and Task-Driven Priors ( http://arxiv.org/abs/2012.12631v2 )

ライセンス: CC BY 4.0
Tom Veniat and Ludovic Denoyer and Marc'Aurelio Ranzato(参考訳) 継続学習(continual learning:cl)における既存の文献は、過去のタスクの実施方法を思い出せない破滅的な忘れを克服することに焦点を当てている。 しかし、clシステムの他の望ましい特性として、以前のタスクから知識を転送したり、メモリをスケールしたり、タスク数でサブ線形に計算したりできる。 現在のベンチマークはタスクの短いストリームを忘れることだけに焦点を当てているため、まず、これらの新しい軸をまたいでclアルゴリズムを調べるための新しいベンチマークスイートを提案します。 最後に、モジュールが特定のタスクを実行するために構成できるアトミックなスキルを表す新しいモジュールアーキテクチャを紹介します。 タスクの学習は、どの過去のモジュールを再利用するか、どの新しいモジュールをインスタンス化して現在のタスクを解決するかを判断するのを減らす。 学習アルゴリズムは,モジュールを結合するあらゆる方法の指数関数探索空間上でタスク駆動前処理を活用し,タスクの長いストリームでの効率的な学習を可能にする。 このモジュラーアーキテクチャと学習アルゴリズムは、広く使われているCLベンチマークで競争力を発揮しつつ、本研究で導入したより困難なベンチマークでは優れたパフォーマンスが得られることを示す。

Existing literature in Continual Learning (CL) has focused on overcoming catastrophic forgetting, the inability of the learner to recall how to perform tasks observed in the past. There are however other desirable properties of a CL system, such as the ability to transfer knowledge from previous tasks and to scale memory and compute sub-linearly with the number of tasks. Since most current benchmarks focus only on forgetting using short streams of tasks, we first propose a new suite of benchmarks to probe CL algorithms across these new axes. Finally, we introduce a new modular architecture, whose modules represent atomic skills that can be composed to perform a certain task. Learning a task reduces to figuring out which past modules to re-use, and which new modules to instantiate to solve the current task. Our learning algorithm leverages a task-driven prior over the exponential search space of all possible ways to combine modules, enabling efficient learning on long streams of tasks. Our experiments show that this modular architecture and learning algorithm perform competitively on widely used CL benchmarks while yielding superior performance on the more challenging benchmarks we introduce in this work.
翻訳日:2021-04-26 00:49:34 公開日:2021-02-12
# Cauchy-Schwarz正規化オートエンコーダ

Cauchy-Schwarz Regularized Autoencoder ( http://arxiv.org/abs/2101.02149v2 )

ライセンス: Link先を確認
Linh Tran, Maja Pantic, Marc Peter Deisenroth(参考訳) 教師なし学習における最近の研究は、潜在変数モデルの効率的な推論と学習に焦点を当てている。 証拠を最大化することでこれらのモデルを訓練することは、通常難解である。 したがって、共通の近似はエビデンスの下限(elbo)を最大化することである。 変分オートエンコーダ(VAE)は、大規模なデータセットに対してELBOを効率的に最適化する、強力で広く使われている生成モデルのクラスである。 しかしながら、VAEのデフォルトのガウス選択は、真の後部を表す能力に強い制約を課し、結果として全体的な性能が低下する。 ガウス混合モデル(GMM)はよりリッチなものとなるが、Kulback-LeiblerのGMMへの分散性のため、VAEフレームワーク内で効率的に扱うことはできない。 我々は,gaussian mixed に対する解析的解法を優先して,共通 vae フレームワークから逸脱した。 GMMの事前推定を効率的に行うために、GMMに対して解析的に計算できるコーシーシュワルツの発散に基づく新しい制約付き目的を導入する。 この新しい目的により、よりリッチでマルチモーダルなプリエントを自動エンコーディングフレームワークに組み込むことができます。 我々は,様々なデータセットに関する実証研究を行い,その目的は,密度推定,教師なしクラスタリング,半教師付き学習,顔分析における変分自動エンコーディングモデルにより改善することを示す。

Recent work in unsupervised learning has focused on efficient inference and learning in latent variables models. Training these models by maximizing the evidence (marginal likelihood) is typically intractable. Thus, a common approximation is to maximize the Evidence Lower BOund (ELBO) instead. Variational autoencoders (VAE) are a powerful and widely-used class of generative models that optimize the ELBO efficiently for large datasets. However, the VAE's default Gaussian choice for the prior imposes a strong constraint on its ability to represent the true posterior, thereby degrading overall performance. A Gaussian mixture model (GMM) would be a richer prior, but cannot be handled efficiently within the VAE framework because of the intractability of the Kullback-Leibler divergence for GMMs. We deviate from the common VAE framework in favor of one with an analytical solution for Gaussian mixture prior. To perform efficient inference for GMM priors, we introduce a new constrained objective based on the Cauchy-Schwarz divergence, which can be computed analytically for GMMs. This new objective allows us to incorporate richer, multi-modal priors into the autoencoding framework. We provide empirical studies on a range of datasets and show that our objective improves upon variational auto-encoding models in density estimation, unsupervised clustering, semi-supervised learning, and face analysis.
翻訳日:2021-04-11 00:13:28 公開日:2021-02-12
# (参考訳) エッジコンピューティング環境におけるaiopsに向けて

Towards AIOps in Edge Computing Environments ( http://arxiv.org/abs/2102.09001v1 )

ライセンス: CC BY 4.0
Soeren Becker, Florian Schmidt, Anton Gulenko, Alexander Acker, Odej Kao(参考訳) エッジコンピューティングは、5gのような新しいネットワーク技術の要求に応える技術として導入された。 計算リソースをネットワークのエッジに分散して顧客に向けて分散することで、集中型クラウドコンピューティング環境に関連する課題を克服することを目指している。 新興インフラの複雑さは、自動運転車やヘルスケアといった重要なユースケースにおける障害の増加とともに、大幅に増加する。 ai(artificial intelligence for it operations)は、機械学習手法を使用して複雑なインフラストラクチャを管理する人手を支援することを目的としている。 本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。 エッジデバイス上での高周波監視ソリューションのオーバーヘッドを評価し,エッジデバイス上での3つの異常検出アルゴリズムの適用性に関する性能実験を行った。 その結果、高い頻度でメトリクスを収集し、特定の異常検出アルゴリズムを直接エッジデバイス上で実行し、リソース利用に十分なオーバーヘッドを課すことが可能であることがわかった。

Edge computing was introduced as a technical enabler for the demanding requirements of new network technologies like 5G. It aims to overcome challenges related to centralized cloud computing environments by distributing computational resources to the edge of the network towards the customers. The complexity of the emerging infrastructures increases significantly, together with the ramifications of outages on critical use cases such as self-driving cars or health care. Artificial Intelligence for IT Operations (AIOps) aims to support human operators in managing complex infrastructures by using machine learning methods. This paper describes the system design of an AIOps platform which is applicable in heterogeneous, distributed environments. The overhead of a high-frequency monitoring solution on edge devices is evaluated and performance experiments regarding the applicability of three anomaly detection algorithms on edge devices are conducted. The results show, that it is feasible to collect metrics with a high frequency and simultaneously run specific anomaly detection algorithms directly on edge devices with a reasonable overhead on the resource utilization.
翻訳日:2021-04-06 05:19:31 公開日:2021-02-12
# コンテキストドロップアウトによるマルチモーダル句読点予測

Multimodal Punctuation Prediction with Contextual Dropout ( http://arxiv.org/abs/2102.11012v1 )

ライセンス: Link先を確認
Andrew Silva, Barry-John Theobald, Nicholas Apostoloff(参考訳) 自動音声認識(asr)は家電製品で広く使われている。 ASRは技術の有用性とアクセシビリティを大幅に改善するが、通常出力は句読点のないワードシーケンスのみである。 これにより、ユーザインテントを推測するあいまいさが生じる可能性がある。 まず,IWSLT 2012 TED Taskで8%改善した句読点予測のためのトランスフォーマーベースの手法を提案する。 次に,音声と音声の両方から学習するマルチモーダルモデルについて述べる。音声と書き起こしの両方を持つ内部データセット上で,テキストのみのアルゴリズムよりも8%向上する。 最後に,テスト時に可変量の将来のコンテキストを処理可能なコンテキストドロップアウトを用いたモデル学習手法を提案する。

Automatic speech recognition (ASR) is widely used in consumer electronics. ASR greatly improves the utility and accessibility of technology, but usually the output is only word sequences without punctuation. This can result in ambiguity in inferring user-intent. We first present a transformer-based approach for punctuation prediction that achieves 8% improvement on the IWSLT 2012 TED Task, beating the previous state of the art [1]. We next describe our multimodal model that learns from both text and audio, which achieves 8% improvement over the text-only algorithm on an internal dataset for which we have both the audio and transcriptions. Finally, we present an approach to learning a model using contextual dropout that allows us to handle variable amounts of future context at test time.
翻訳日:2021-04-05 00:38:45 公開日:2021-02-12
# リカレントニューラルネットワークを用いた位相回復とオートフォーカスによるホログラフィック画像再構成

Holographic image reconstruction with phase recovery and autofocusing using recurrent neural networks ( http://arxiv.org/abs/2102.12281v1 )

ライセンス: Link先を確認
Luzhe Huang, Tairan Liu, Xilin Yang, Yi Luo, Yair Rivenson, Aydogan Ozcan(参考訳) デジタルホログラフィーは、バイオメディカルイメージングにおいて最も広く使われているラベルなし顕微鏡技術の1つである。 ホログラムの欠落相情報の回復はホログラム画像再構成の重要なステップである。 本稿では,複数のホログラムを用いた畳み込み型リカレントニューラルネットワーク(rnn)に基づく位相復元手法を提案する。 深層学習型ホログラフィー法は,ヒト組織試料およびパパニコラオ(Pap)スミアの顕微鏡的特徴を画像化することにより,その成功を実証した。 これらの結果は, ホログラフィ画像と位相復元のための再帰的ニューラルネットワークを用いた最初の実証であり, 既存の手法と比較して, 再構成された画像品質を改善しつつ, 視野深度と推定速度も向上した。

Digital holography is one of the most widely used label-free microscopy techniques in biomedical imaging. Recovery of the missing phase information of a hologram is an important step in holographic image reconstruction. Here we demonstrate a convolutional recurrent neural network (RNN) based phase recovery approach that uses multiple holograms, captured at different sample-to-sensor distances to rapidly reconstruct the phase and amplitude information of a sample, while also performing autofocusing through the same network. We demonstrated the success of this deep learning-enabled holography method by imaging microscopic features of human tissue samples and Papanicolaou (Pap) smears. These results constitute the first demonstration of the use of recurrent neural networks for holographic imaging and phase recovery, and compared with existing methods, the presented approach improves the reconstructed image quality, while also increasing the depth-of-field and inference speed.
翻訳日:2021-04-05 00:38:23 公開日:2021-02-12
# 自己教師付きマルチセンサ変化検出

Self-supervised Multisensor Change Detection ( http://arxiv.org/abs/2103.05102v1 )

ライセンス: Link先を確認
Sudipan Saha, Patrick Ebel, Xiao Xiang Zhu(参考訳) マルチモーダルおよびマルチセンサーデータ分析は、機械学習研究の長年の目標である。 本稿では,バイタイム衛星画像における自己教師あり変化検出の文脈で,マルチセンサ解析を再考する。 ほとんどの変化検出方法は、前変化画像と後変化画像が同一のセンサによって取得されると仮定する。 しかし, 自然災害などの現実的なシナリオでは, 発生前後の最新の画像を使用する方が現実的であり, 異なるセンサを用いて取得することができる。 特に,光学式開口レーダと合成開口レーダ(SAR)センサーで得られた画像の組み合わせに関心がある。 光画像はコンピュータビジョンの自然なイメージに似ているが、同じシーンを撮影しても、SAR画像は大きく異なるように見える。 これに加えて、変更検出方法は、ターゲットイメージペアのみの使用、ラベル付きデータ、追加のラベル付きデータの使用に制限されることが多い。 このような制約は、従来の教師付き機械学習と、マルチセンサー変化検出のための教師なし生成アプローチの範囲を制限する。 近年の自己教師付き学習手法の急速な発展は、その一部がごく少数の画像で機能することさえ示している。 そこで本研究では,深層クラスタリングとコントラスト学習を用いて,ネットワークを自己教師付きで訓練するために使用されるラベルなし標的バイタイム画像のみを用いたマルチセンサ変化検出手法を提案する。 訓練されたネットワークは,変化を示すマルチモーダル衛星データを用いて評価され,自己監視手法の利点が実証された。

Multimodal and multisensor data analysis is a long-standing goal in machine learning research. In this paper we revisit multisensor analysis in context of self-supervised change detection in bi-temporal satellite images. Most change detection methods assume that pre-change and post-change images are acquired by the same sensor. However, in many real-life scenarios, e.g., natural disaster, it is more practical to use the latest available images before and after the occurrence of incidence, which may be acquired using different sensors. In particular, we are interested in the combination of the images acquired by optical and Synthetic Aperture Radar (SAR) sensors. While optical images are like the natural images dealt in computer vision, SAR images appear vastly different even when capturing the same scene. Adding to this, change detection methods are often constrained to use only target image-pair, no labeled data, and no additional unlabeled data. Such constraints limit the scope of traditional supervised machine learning and unsupervised generative approaches for multi-sensor change detection. Recent rapid development of self-supervised learning methods has shown that some of them can even work with only few images. Motivated by this, in this work we propose a method for multi-sensor change detection using only the unlabeled target bi-temporal images that are used for training a network in self-supervised fashion by using deep clustering and contrastive learning. The trained network is evaluated on multi-modal satellite data showing change and the benefits of our self-supervised approach are demonstrated.
翻訳日:2021-04-05 00:38:07 公開日:2021-02-12
# 多因子最適化におけるクラスタ化短絡木問題に対する二段階符号化方式

A bi-level encoding scheme for the clustered shortest-path tree problem in multifactorial optimization ( http://arxiv.org/abs/2102.09954v1 )

ライセンス: Link先を確認
Huynh Thi Thanh Binh, Ta Bao Thang, Nguyen Duc Thai, Pham Dinh Thanh(参考訳) CluSPT(Clustered Shortest-Path Tree Problem)は、実生活における様々な最適化問題において重要な役割を果たしている。 近年、CluSPTを扱うためにMFEA(Multifactorial Evolutionary Algorithm)がいくつか導入されているが、これらの研究には、進化演算子が完全なグラフ上でのみ動作すること、大規模な検索空間上で解を見つけるための膨大なリソース消費など、いくつかの欠点がある。 これらの限界を克服するため,本論文では,mfeaに基づく手法を提案する。 提案手法はジクストラのアルゴリズムを用いてクラスタ内のスパンディングツリーを構築し,また進化演算子を用いてスパンディングツリー接続クラスタを構築する。 このアプローチは正確なアルゴリズムと近似アルゴリズムの両方を利用するので、アルゴリズムは完全かつスパースなグラフでも効率的に機能することができる。 さらに、個々のエンコーディングやデコードといった進化的演算子も、パフォーマンスやメモリ使用について非常に考慮して設計されている。 我々は,すべてのソリューションが有効であることを保証するための補修方法の有効性の実証を行った。 提案手法の有効性を評価するため,様々な種類のユークリッドインスタンスについて実験を行った。 実験結果から,既存のヒューリスティックアルゴリズムの有効性が示唆された。 また,提案するmfeaの影響を解析し,今後の研究に有用である可能性が示唆された。

The Clustered Shortest-Path Tree Problem (CluSPT) plays an important role in various types of optimization problems in real-life. Recently, some Multifactorial Evolutionary Algorithm (MFEA) have been introduced to deal with the CluSPT, however these researches still have some shortcomings such as evolution operators only perform on complete graphs, huge resource consumption for finding the solution on large search spaces. To overcome these limitations, this paper describes a MFEA-based approach to solve the CluSPT. The proposed algorithm utilizes Dijkstra's algorithm to construct the spanning trees in clusters while using evolutionary operators for building the spanning tree connecting clusters. This approach takes advantage of both exact and approximate algorithms so it enables the algorithm to function efficiently on complete and sparse graphs alike. Furthermore, evolutionary operators such as individual encoding and decoding methods are also designed with great consideration regarding performance and memory usage. We have included a proof on the repairing method's efficacy in ensuring all solutions are valid. We have conducted tests on various types of Euclidean instances to assess the effectiveness of the proposed algorithm and methods. Experiment results point out the effectiveness of the proposed algorithm existing heuristic algorithms in most of the test cases. The impact of the proposed MFEA was analyzed and a possible influential factor that may be useful for further study was also pointed out.
翻訳日:2021-04-05 00:36:49 公開日:2021-02-12
# (参考訳) 胸部CTスキャンによるCOVID-19検出のための3次元ディープラーニングモデルの自動設計とベンチマーク

Automated Model Design and Benchmarking of 3D Deep Learning Models for COVID-19 Detection with Chest CT Scans ( http://arxiv.org/abs/2101.05442v2 )

ライセンス: CC BY 4.0
Xin He, Shihao Wang, Xiaowen Chu, Shaohuai Shi, Jiangping Tang, Xin Liu, Chenggang Yan, Jiyong Zhang, Guiguang Ding(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、数カ月にわたって世界中に広がった。 その透過性と高い病原性は人々の生命を脅かすため、正確かつ迅速に新型コロナウイルスの感染を検知することが重要である。 近年の研究では、ディープラーニング(DL)ベースのソリューションが、胸部CTスキャンに基づく新型コロナウイルスの検出に役立つことが示されている。 しかし、既存の研究のほとんどは2Dデータセットに焦点を当てており、実際のCTスキャンは3D画像であるため、品質の低いモデルになる可能性がある。 さらに、報告された結果は、比較的不公平な比較で異なるデータセットの幅広いスペクトルにまたがっている。 本稿では,まず最先端3Dモデル(ResNet3D101,DenseNet3D121,MC3\_18)を用いて,3つの胸部CTスキャンデータセットのベースライン性能を確立する。 そこで我々は,Gumbel Softmax法を用いて3次元胸部CTスキャンのための3次元DLモデルを自動的に検索し,探索効率を向上させるために,識別可能なニューラルアーキテクチャ探索(DNAS)フレームワークを提案する。 さらに、モデル上でのクラス活性化マッピング(CAM)技術を活用し、結果の解釈可能性を提供する。 実験の結果, 自動検索モデル(CovidNet3D)は, モデルサイズが数十倍小さく, 精度が高い3つのデータセット上で, ベースラインの人間設計モデルよりも優れていた。 さらに、CAMがCOVID-19データセットのCovidNet3Dにうまく適用でき、診断の解釈が可能であることも確認された。

The COVID-19 pandemic has spread globally for several months. Because its transmissibility and high pathogenicity seriously threaten people's lives, it is crucial to accurately and quickly detect COVID-19 infection. Many recent studies have shown that deep learning (DL) based solutions can help detect COVID-19 based on chest CT scans. However, most existing work focuses on 2D datasets, which may result in low quality models as the real CT scans are 3D images. Besides, the reported results span a broad spectrum on different datasets with a relatively unfair comparison. In this paper, we first use three state-of-the-art 3D models (ResNet3D101, DenseNet3D121, and MC3\_18) to establish the baseline performance on the three publicly available chest CT scan datasets. Then we propose a differentiable neural architecture search (DNAS) framework to automatically search for the 3D DL models for 3D chest CT scans classification with the Gumbel Softmax technique to improve the searching efficiency. We further exploit the Class Activation Mapping (CAM) technique on our models to provide the interpretability of the results. The experimental results show that our automatically searched models (CovidNet3D) outperform the baseline human-designed models on the three datasets with tens of times smaller model size and higher accuracy. Furthermore, the results also verify that CAM can be well applied in CovidNet3D for COVID-19 datasets to provide interpretability for medical diagnosis.
翻訳日:2021-03-29 09:52:25 公開日:2021-02-12
# GO-Finder:ハンドヘルド物体発見による失われた物体の発見を支援する登録不要ウェアラブルシステム

GO-Finder: A Registration-Free Wearable System for Assisting Users in Finding Lost Objects via Hand-Held Object Discovery ( http://arxiv.org/abs/2101.07314v2 )

ライセンス: Link先を確認
Takuma Yagi, Takumi Nishiyasu, Kunimasa Kawasaki, Moe Matsuki, Yoichi Sato(参考訳) 人々は失われたオブジェクトを探すのに膨大な時間と労力を費やします。 失われた物体の位置を人々に思い出させるため、その位置に関する情報を提供する様々な計算システムが開発されている。 しかし、オブジェクトを見つけるのを支援する以前のシステムは、ユーザーが事前にターゲットオブジェクトを登録する必要がある。 この要件はユーザーに厄介な負担を課し、システムが予期しないほど失われているオブジェクトを思い出させるのに役立ちません。 GO-Finder(ジェネリックオブジェクトファインダ)は,ハンドヘルドオブジェクトの自動検出と画像ベースの候補選択という2つの重要な特徴に基づいて,任意の数のオブジェクトを見つけるのを支援する,登録不要なウェアラブルカメラベースのシステムである。 ウェアラブルカメラから撮影したビデオから、Go-Finderは手持ちのオブジェクトを自動的に検出してグループ化し、オブジェクトの視覚的タイムラインを形成する。 ユーザーはスマートフォンアプリでタイムラインを閲覧することでオブジェクトの最後の外観を検索できる。 本研究では,GO-Finderの使用による利用者のメリットを調査し,オブジェクト検索作業における精度の向上と精神的負担の軽減を目標とした。

People spend an enormous amount of time and effort looking for lost objects. To help remind people of the location of lost objects, various computational systems that provide information on their locations have been developed. However, prior systems for assisting people in finding objects require users to register the target objects in advance. This requirement imposes a cumbersome burden on the users, and the system cannot help remind them of unexpectedly lost objects. We propose GO-Finder ("Generic Object Finder"), a registration-free wearable camera based system for assisting people in finding an arbitrary number of objects based on two key features: automatic discovery of hand-held objects and image-based candidate selection. Given a video taken from a wearable camera, Go-Finder automatically detects and groups hand-held objects to form a visual timeline of the objects. Users can retrieve the last appearance of the object by browsing the timeline through a smartphone app. We conducted a user study to investigate how users benefit from using GO-Finder and confirmed improved accuracy and reduced mental load regarding the object search task by providing clear visual cues on object locations.
翻訳日:2021-03-27 05:50:59 公開日:2021-02-12
# (参考訳) コントラストのない自己指導型学習ダイナミクスの理解

Understanding self-supervised Learning Dynamics without Contrastive Pairs ( http://arxiv.org/abs/2102.06810v1 )

ライセンス: CC BY 4.0
Yuandong Tian and Xinlei Chen and Surya Ganguli(参考訳) 自己監視学習(SSL)に対する対照的なアプローチは、同じデータポイント(正のペア)の2つの拡張ビュー間の距離を最小化し、異なるデータポイント(負のペア)から同じことを最大化することによって表現を学びます。 しかし、最近の byol や simsiam のようなアプローチは、負のペアを使わずに驚くべき性能を示し、基本的な理論的疑問を提起している。 単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。 私たちの分析は、非コントラストSSLメソッドがどのように学習し、表現の崩壊を避けるか、予測ネットワーク、停止勾配、指数移動平均、および重量崩壊などの複数の要因がどのように機能するかについての概念的な洞察を与えます。 この単純な理論は、stl-10とimagenetの両方における実世界のアブレーション研究の結果を再要約する。 さらに,本理論の動機付けとして,入力の統計値に基づいて予測器を設定する新しい手法を提案する。 線形予測器の場合、この手法は予測器の勾配トレーニングを5\%$で上回り、imagenetではバッチノルムを用いたより複雑な2層非線形予測器と比較可能である。 コードはhttps://github.com/facebookresearch/luckmatters/tree/master/sslでリリースされる。

Contrastive approaches to self-supervised learning (SSL) learn representations by minimizing the distance between two augmented views of the same data point (positive pairs) and maximizing the same from different data points (negative pairs). However, recent approaches like BYOL and SimSiam, show remarkable performance {\it without} negative pairs, raising a fundamental theoretical question: how can SSL with only positive pairs avoid representational collapse? We study the nonlinear learning dynamics of non-contrastive SSL in simple linear networks. Our analysis yields conceptual insights into how non-contrastive SSL methods learn, how they avoid representational collapse, and how multiple factors, like predictor networks, stop-gradients, exponential moving averages, and weight decay all come into play. Our simple theory recapitulates the results of real-world ablation studies in both STL-10 and ImageNet. Furthermore, motivated by our theory we propose a novel approach that \emph{directly} sets the predictor based on the statistics of its inputs. In the case of linear predictors, our approach outperforms gradient training of the predictor by $5\%$ and on ImageNet it performs comparably with more complex two-layer non-linear predictors that employ BatchNorm. Code is released in https://github.com/facebookresearch/luckmatters/tree/master/ssl.
翻訳日:2021-02-17 18:48:27 公開日:2021-02-12
# (参考訳) MIMIC-IF:MIMIC-IVデータセットを用いたディープラーニングモデルの解釈性と公平性評価

MIMIC-IF: Interpretability and Fairness Evaluation of Deep Learning Models on MIMIC-IV Dataset ( http://arxiv.org/abs/2102.06761v1 )

ライセンス: CC BY 4.0
Chuizheng Meng, Loc Trinh, Nan Xu, Yan Liu(参考訳) 最近の大規模医療データセットのリリースは、医療アプリケーションのためのデータ駆動ディープラーニングモデルの研究を大いに推進した。 しかし、このような深いブラックボックスモデルの性質から、人間の命がかかっている医療シナリオにおける解釈可能性、公平性、偏見に対する懸念は、データセットとモデルの両方を慎重に徹底的に検査することを要求する。 本研究では、最大の公開医療データセットであるMIMIC-IV(Medical Information Mart for Intensive Care, Version IV)に焦点を当て、病院内死亡予測のためのディープラーニングモデルの解釈可能性および予測公平性だけでなく、データセット表現バイアスの包括的な分析を行う。 解釈可能性の観点からは,(1)最良な解釈方法が様々な予測モデルにおいて致命率予測の重要な特徴を同定し,(2)人口統計学的特徴が予測に重要であることを観察する。 公平性の観点からは,(1) 民族, 性別, 年齢を問わず, 患者集団に機械的換気を規定する異なる治療法が存在すること, (2) 調査対象の死亡予測器は概ね公平である一方で, IMV-LSTM(Interpretable Multi-Variable Long Short-Term Memory)モデルでは, 全ての保護群で最も正確で偏りのない予測が提供される。 さらに,解釈可能性法と公正度指標との具体的な関係を,解釈可能性法による特徴の重要性が,死亡予測器の潜在的な相違の定量化に有効であることを示す。

The recent release of large-scale healthcare datasets has greatly propelled the research of data-driven deep learning models for healthcare applications. However, due to the nature of such deep black-boxed models, concerns about interpretability, fairness, and biases in healthcare scenarios where human lives are at stake call for a careful and thorough examinations of both datasets and models. In this work, we focus on MIMIC-IV (Medical Information Mart for Intensive Care, version IV), the largest publicly available healthcare dataset, and conduct comprehensive analyses of dataset representation bias as well as interpretability and prediction fairness of deep learning models for in-hospital mortality prediction. In terms of interpretabilty, we observe that (1) the best performing interpretability method successfully identifies critical features for mortality prediction on various prediction models; (2) demographic features are important for prediction. In terms of fairness, we observe that (1) there exists disparate treatment in prescribing mechanical ventilation among patient groups across ethnicity, gender and age; (2) all of the studied mortality predictors are generally fair while the IMV-LSTM (Interpretable Multi-Variable Long Short-Term Memory) model provides the most accurate and unbiased predictions across all protected groups. We further draw concrete connections between interpretability methods and fairness metrics by showing how feature importance from interpretability methods can be beneficial in quantifying potential disparities in mortality predictors.
翻訳日:2021-02-17 16:42:17 公開日:2021-02-12
# (参考訳) ラデマッハ複雑性とシャノンエントロピーに基づくAIの不確かさ

AI Uncertainty Based on Rademacher Complexity and Shannon Entropy ( http://arxiv.org/abs/2102.07638v1 )

ライセンス: CC BY 4.0
Mingyong Zhou(参考訳) 本稿では,古典的ラデマッハ複雑性とシャノンエントロピーに基づくパターン分類におけるAIの不確実性,キャパシティ,進化に関する理論的および実践的な議論を,通信チャネル符号化の観点から提示する。 最初のAI能力は通信チャネルで定義されます。 古典的ラデマッハ複雑性とシャノンエントロピーは、ラデマッハ複雑性によって測定される複雑性のパターン分類問題を考えると、それらの定義と密接に関連していることが定性的に示される。 第2に、通信符号化に関するシャノンの数学的理論に基づいて、分類問題においてゼロに近づくAIの誤差率に十分な、必要な条件を導出する。 本稿では、Shannonエントロピーの1/2基準を導出し、エラー率がゼロに近づいたり、AIパターン分類問題でゼロになったりする。 最後に、誤り率がゼロに近い、またはゼロであるAIパターン分類の例を提供することで、分析と理論を示します。

In this paper from communication channel coding perspective we are able to present both a theoretical and practical discussion of AI's uncertainty, capacity and evolution for pattern classification based on the classical Rademacher complexity and Shannon entropy. First AI capacity is defined as in communication channels. It is shown qualitatively that the classical Rademacher complexity and Shannon entropy used in communication theory is closely related by their definitions, given a pattern classification problem with a complexity measured by Rademacher complexity. Secondly based on the Shannon mathematical theory on communication coding, we derive several sufficient and necessary conditions for an AI's error rate approaching zero in classifications problems. A 1/2 criteria on Shannon entropy is derived in this paper so that error rate can approach zero or is zero for AI pattern classification problems. Last but not least, we show our analysis and theory by providing examples of AI pattern classifications with error rate approaching zero or being zero.
翻訳日:2021-02-17 15:50:44 公開日:2021-02-12
# (参考訳) ニューラルネットワークライブラリ - エンジニアの視点から設計されたディープラーニングフレームワーク

Neural Network Libraries: A Deep Learning Framework Designed from Engineers' Perspectives ( http://arxiv.org/abs/2102.06725v1 )

ライセンス: CC BY 4.0
Akio Hayakawa, Masato Ishii, Yoshiyuki Kobayashi, Akira Nakamura, Takuya Narihira, Yukio Obuchi, Andrew Shin, Takuya Yashima, Kazuki Yoshiyama(参考訳) ディープラーニングツールやフレームワークは数多く存在するが、この分野の急速に増加する複雑さは、より柔軟なネットワーク設計、分散設定の高速な計算、さまざまなツール間の互換性など、新たな要求と課題をもたらす。 本稿では,ニューラルネットワークライブラリ(https://nnabla.org)について,ユーザビリティと互換性を重視した,エンジニアの視点から設計されたディープラーニングフレームワークについて紹介する。 私たちはそれぞれの設計原則とそのメリットを詳しく説明し、実験を通じて試みを検証する。

While there exist a plethora of deep learning tools and frameworks, the fast-growing complexity of the field brings new demands and challenges, such as more flexible network design, speedy computation on distributed setting, and compatibility between different tools. In this paper, we introduce Neural Network Libraries (https://nnabla.org), a deep learning framework designed from engineer's perspective, with emphasis on usability and compatibility as its core design principles. We elaborate on each of our design principles and its merits, and validate our attempts via experiments.
翻訳日:2021-02-17 10:43:38 公開日:2021-02-12
# (参考訳) グラフニューラルネットワークにおけるデータ中毒の強化学習

Reinforcement Learning For Data Poisoning on Graph Neural Networks ( http://arxiv.org/abs/2102.06800v1 )

ライセンス: CC0 1.0
Jacob Dineen, A S M Ahsan-Ul Haque, Matthew Bielskas(参考訳) 敵対的機械学習は、訓練するモデルの堅牢性の欠如と、攻撃者がデータを改ざんできるクラウドソーシングの実践により、コンピュータサイエンスの相当なサブフィールドとして登場した。 過去2年間、グラフに対する敵対的な攻撃で関心が高まってきたが、グラフ分類設定はほとんど触れられていない。 グラフ分類データセットはクラスラベルを持つ離散グラフで構成されているため、関連する研究は間接強化学習アプローチに有利な直接勾配最適化を禁じている。 強化学習エージェントを用いたグラフ分類のためのニューラルネットワークに対するデータポゾニング(訓練時間)攻撃の新たな問題について検討する。

Adversarial Machine Learning has emerged as a substantial subfield of Computer Science due to a lack of robustness in the models we train along with crowdsourcing practices that enable attackers to tamper with data. In the last two years, interest has surged in adversarial attacks on graphs yet the Graph Classification setting remains nearly untouched. Since a Graph Classification dataset consists of discrete graphs with class labels, related work has forgone direct gradient optimization in favor of an indirect Reinforcement Learning approach. We will study the novel problem of Data Poisoning (training time) attack on Neural Networks for Graph Classification using Reinforcement Learning Agents.
翻訳日:2021-02-17 09:41:14 公開日:2021-02-12
# (参考訳) モデル認識生成学習を用いたブラインド染色分離と蛍光顕微鏡画像への応用

Blind stain separation using model-aware generative learning and its applications on fluorescence microscopy images ( http://arxiv.org/abs/2102.06802v1 )

ライセンス: CC BY 4.0
Xingyu Li(参考訳) 多重染色は通常、生体画像解析において生体物質を強調するために用いられる。 共局在定量化のための複数の汚れを分解するには、通常ブラインドソース分離を行う。 先行モデルに基づく染色分離法は通常、画像上の汚れの空間分布に依存し、共局在問題を解くことができない。 機械学習の利点により、この目的のために深い生成モデルが使用される。 画像モデルの以前の知識は純粋にデータ駆動のソリューションでは無視されるため、これらの手法は準最適である。 本研究では,バイオメディカルイメージングの物理モデルを用いて学習プロセスの標準化を行う,新たな学習ベースブラインドソース分離フレームワークを提案する。 導入されたモデル関連敵対損失は、フレームワーク内のすべてのジェネレータを結合し、生成モデルの能力を制限する。 さらに,学習中の世代間混乱を回避するため,提案フレームワークの学習アルゴリズムを改良した。 本稿では, 蛍光顕微鏡画像における蛍光アンミキシングをフレームワークの応用例として取り上げる。 一般蛍光顕微鏡画像の定性的および定量的実験により,従来のモデルに基づく手法と学習に基づく手法の両方よりも提案手法が優れていることを示す。

Multiple stains are usually used to highlight biological substances in biomedical image analysis. To decompose multiple stains for co-localization quantification, blind source separation is usually performed. Prior model-based stain separation methods usually rely on stains' spatial distributions over an image and may fail to solve the co-localization problem. With the advantage of machine learning, deep generative models are used for this purpose. Since prior knowledge of imaging models is ignored in purely data-driven solutions, these methods may be sub-optimal. In this study, a novel learning-based blind source separation framework is proposed, where the physical model of biomedical imaging is incorporated to regularize the learning process. The introduced model-relevant adversarial loss couples all generators in the framework and limits the capacities of the generative models. Further more, a training algorithm is innovated for the proposed framework to avoid inter-generator confusion during learning. This paper particularly takes fluorescence unmixing in fluorescence microscopy images as an application example of the proposed framework. Qualitative and quantitative experimentation on a public fluorescence microscopy image set demonstrates the superiority of the proposed method over both prior model-based approaches and learning-based methods.
翻訳日:2021-02-17 06:52:04 公開日:2021-02-12
# (参考訳) They, Them, Theirs: Rewriting with Gender-Neutral English

They, Them, Theirs: Rewriting with Gender-Neutral English ( http://arxiv.org/abs/2102.06788v1 )

ライセンス: CC BY 4.0
Tony Sun, Kellie Webster, Apu Shah, William Yang Wang, Melvin Johnson(参考訳) レスポンシブルな技術開発には、サポートを希望する多様なユーザセットを含むアプリケーションが関与する。 この重要な部分は、人を参照する多くの方法を理解し、必要に応じてさまざまな形態を柔軟に変更できるようにすることです。 私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。 我々は、書き直しタスクを定義し、評価ベンチマークを作成し、人間のラベル付きデータなしで、1%の単語誤り率で性別中立の英語を生成するためにモデルをどのように訓練するかを示す。 本稿では,本課題の実践的応用と倫理的考察について論じ,今後の包括的自然言語システムへの取り組みの方向性について述べる。

Responsible development of technology involves applications being inclusive of the diverse set of users they hope to support. An important part of this is understanding the many ways to refer to a person and being able to fluently change between the different forms as needed. We perform a case study on the singular they, a common way to promote gender inclusion in English. We define a re-writing task, create an evaluation benchmark, and show how a model can be trained to produce gender-neutral English with <1% word error rate with no human-labeled data. We discuss the practical applications and ethical considerations of the task, providing direction for future work into inclusive natural language systems.
翻訳日:2021-02-17 06:25:54 公開日:2021-02-12
# (参考訳) 音声認識システムにおける音韻-ニューラルハイブリッドモデルによる補正

Hybrid phonetic-neural model for correction in speech recognition systems ( http://arxiv.org/abs/2102.06744v1 )

ライセンス: CC BY 4.0
Rafael Viana-C\'amara, Mario Campos-Soberanis, Diego Campos-Sobrino(参考訳) 自動音声認識(ASR)は、アプリケーションとユーザ間の自然なコミュニケーション機構を提供するため、複数の設定において関連分野である。 ASRは特定のアプリケーションドメイン固有の言語を使用する環境で失敗することが多い。 後処理、特に自動スペルチェック、ディープラーニングアプローチを通じて、クローズドASRのエラーを減らすための戦略が検討されている。 本稿では,テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,ディープニューラルネットワークを用いて詳細に検討する。 その結果, 単語誤り率 (WER) は, 単語誤り率 (WER) と音声誤り率 (音韻補正) の両方で低下し, 特定の言語領域における閉ASRによる誤りを減らすための後処理補正戦略とともに深層学習モデルの実行可能性を示した。

Automatic speech recognition (ASR) is a relevant area in multiple settings because it provides a natural communication mechanism between applications and users. ASRs often fail in environments that use language specific to particular application domains. Some strategies have been explored to reduce errors in closed ASRs through post-processing, particularly automatic spell checking, and deep learning approaches. In this article, we explore using a deep neural network to refine the results of a phonetic correction algorithm applied to a telesales audio database. The results exhibit a reduction in the word error rate (WER), both in the original transcription and in the phonetic correction, which shows the viability of deep learning models together with post-processing correction strategies to reduce errors made by closed ASRs in specific language domains.
翻訳日:2021-02-17 01:40:08 公開日:2021-02-12
# (参考訳) 学生紛争グラフを最小化するエッジ

Edge Minimizing the Student Conflict Graph ( http://arxiv.org/abs/2102.06743v1 )

ライセンス: CC BY 4.0
Joshua S. Friedman(参考訳) 多くの学校ではコースが設けられている。 時間指定の前に、各セクションに学生を割り当てる必要があります。 本稿では,学生競合グラフ(scg)におけるエッジ数(ポテンシャル競合)を最小化するハイブリッド近似分割アルゴリズムを提案する。 初期解を得るための欲望のあるアルゴリズムから始めて,エッジ数を減らす制約プログラミングベースアルゴリズム(cp-sat)を継続する。 この分割アルゴリズムを,高度に制約された時間分割モデルに適用する。

In many schools, courses are given in sections. Prior to timetabling students need to be assigned to individual sections. We give a hybrid approximation sectioning algorithm that minimizes the number of edges (potential conflicts) in the student conflict graph (SCG). We start with a greedy algorithm to obtain a starting solution and then continue with a constraint programming based algorithm (CP-SAT) that reduces the number of edges. We apply the sectioning algorithm to a highly constrained timetabling model which we specify.
翻訳日:2021-02-16 22:21:26 公開日:2021-02-12
# グラフニューラルネットワークのための一元化ロッキーチケット仮説

A Unified Lottery Ticket Hypothesis for Graph Neural Networks ( http://arxiv.org/abs/2102.06790v1 )

ライセンス: Link先を確認
Tianlong Chen, Yongduo Sui, Xuxi Chen, Aston Zhang, Zhangyang Wang(参考訳) グラフのサイズが急速に増加し、より深いグラフニューラルネットワーク(GNN)が出現するにつれ、GNNのトレーニングと推論はますます高価になる。 既存のネットワークウェイトプルーニングアルゴリズムは、グラフのサイズと接続性によって引き起こされるGNNの主空間と計算ボトルネックに対処できない。 本稿ではまず,グラフ隣接行列とモデル重みを同時に生成し,大規模グラフ上でのGNN推論を効果的に高速化する統一GNNスペーシフィケーション(UGS)フレームワークを提案する。 このツールを利用することで、グラフ抽選券(GLT)をコアサブデータセットとスパースサブネットワークのペアとして定義し、元のGNNと全密度グラフとを同時適用することで、最近人気になった宝くじチケット仮説を初めてGNNに一般化する。 畳み込みニューラルネットワークのそれと同様、GLTは、トレーニングのパフォーマンスをフルモデルとグラフに一致させるために、単独でトレーニングすることが可能で、ランダムに初期化および自己教師付きGNNから引き出すことができる。 提案手法は,大規模グラフデータセット(Cora, Citeseer, PubMed)と,難易度の高いOpen Graph Benchmark(OGB)の大規模データセットを用いて,さまざまなGNNアーキテクチャや多様なタスクに対して実験的に検証されている。 具体的には,ノード分類においてGLTは20%~98%のMACを小さなグラフで保存し,25%~85%のMACを大きなグラフで保存する。 リンク予測では、GLTは予測性能を損なうことなく、小さくて大きなグラフデータセットに48%〜97%、70%のMACを節約します。 コードはhttps://github.com/VITA-Group/Unified-LTH-GNNで入手できる。

With graphs rapidly growing in size and deeper graph neural networks (GNNs) emerging, the training and inference of GNNs become increasingly expensive. Existing network weight pruning algorithms cannot address the main space and computational bottleneck in GNNs, caused by the size and connectivity of the graph. To this end, this paper first presents a unified GNN sparsification (UGS) framework that simultaneously prunes the graph adjacency matrix and the model weights, for effectively accelerating GNN inference on large-scale graphs. Leveraging this new tool, we further generalize the recently popular lottery ticket hypothesis to GNNs for the first time, by defining a graph lottery ticket (GLT) as a pair of core sub-dataset and sparse sub-network, which can be jointly identified from the original GNN and the full dense graph by iteratively applying UGS. Like its counterpart in convolutional neural networks, GLT can be trained in isolation to match the performance of training with the full model and graph, and can be drawn from both randomly initialized and self-supervised pre-trained GNNs. Our proposal has been experimentally verified across various GNN architectures and diverse tasks, on both small-scale graph datasets (Cora, Citeseer and PubMed), and large-scale datasets from the challenging Open Graph Benchmark (OGB). Specifically, for node classification, our found GLTs achieve the same accuracies with 20%~98% MACs saving on small graphs and 25%~85% MACs saving on large ones. For link prediction, GLTs lead to 48%~97% and 70% MACs saving on small and large graph datasets, respectively, without compromising predictive performance. Codes available at https://github.com/VITA-Group/Unified-LTH-GNN.
翻訳日:2021-02-16 16:15:22 公開日:2021-02-12
# ディープラーニングとCADモデルを用いた新しい物体検出法

A novel method for object detection using deep learning and CAD models ( http://arxiv.org/abs/2102.06729v1 )

ライセンス: Link先を確認
Igor Garcia Ballhausen Sampaio and Luigy Machaca and Jos\'e Viterbo and Joris Gu\'erin(参考訳) オブジェクト検出(OD)は、他のアプリケーションの中で生産ラインの品質管理に使用することができる業界にとって重要なコンピュータビジョンの問題です。 近年,Deep Learning (DL) 手法により,複雑な実世界の画像上でのODモデルの訓練が可能になった。 しかし、これらのモデルの採用は、高品質のトレーニングデータセットの収集の難しさと大幅なコストによって、まだ制限されています。 一方、生産ラインのコンテキストにODを適用すると、検出対象のCADモデルが利用可能になることがよくあります。 本稿では,オブジェクトのCADモデルを用いた完全自動化手法を導入し,このオブジェクトを検出するための完全に訓練されたODモデルを返す。 そこで我々は、オブジェクトを含む画像のリアルなラベル付きデータセットを生成するBlenderスクリプトを作成し、ODモデルのトレーニングに使用した。 この手法は2つの実例で実験的に検証され、合成画像のみを訓練しながら実画像上でうまく機能するodモデルを生成することができることを示した。 提案手法は,新しいオブジェクトへの適応が容易で柔軟性が高いため,産業におけるオブジェクト検出モデルの採用を促進する可能性がある。 したがって、大幅なコスト削減、生産性の向上、製品品質の向上につながります。

Object Detection (OD) is an important computer vision problem for industry, which can be used for quality control in the production lines, among other applications. Recently, Deep Learning (DL) methods have enabled practitioners to train OD models performing well on complex real world images. However, the adoption of these models in industry is still limited by the difficulty and the significant cost of collecting high quality training datasets. On the other hand, when applying OD to the context of production lines, CAD models of the objects to be detected are often available. In this paper, we introduce a fully automated method that uses a CAD model of an object and returns a fully trained OD model for detecting this object. To do this, we created a Blender script that generates realistic labeled datasets of images containing the object, which are then used for training the OD model. The method is validated experimentally on two practical examples, showing that this approach can generate OD models performing well on real images, while being trained only on synthetic images. The proposed method has potential to facilitate the adoption of object detection models in industry as it is easy to adapt for new objects and highly flexible. Hence, it can result in significant costs reduction, gains in productivity and improved products quality.
翻訳日:2021-02-16 16:13:29 公開日:2021-02-12
# meta-learned subgoalsによるオプションの発見

Discovery of Options via Meta-Learned Subgoals ( http://arxiv.org/abs/2102.06741v1 )

ライセンス: Link先を確認
Vivek Veeriah, Tom Zahavy, Matteo Hessel, Zhongwen Xu, Junhyuk Oh, Iurii Kemaev, Hado van Hasselt, David Silver, Satinder Singh(参考訳) オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。 しかしながら、このトピックに関する以前の取り組みにもかかわらず、環境とのインタラクションを通じて選択肢を見つける問題は依然として課題である。 本稿では,マルチタスクRL環境で有用な選択肢を発見するための新しいメタグラデーション手法を提案する。 私たちのアプローチは、RLエージェントのマネージャ-ワーカーの分解に基づいており、マネージャはタスクに依存しない発見オプションとプリミティブアクションの両方でタスク依存ポリシーを学び、環境からの報酬を最大化します。 各オプションのサブゴールを定義するoption-reward関数とterminate関数はニューラルネットワークとしてパラメータ化され、その有用性を最大化するためにメタ勾配を通じてトレーニングされる。 グリッドワールドとDeepMind Labタスクに関する実証分析では,(1)マルチタスクRLドメインにおける有意義で多様な時間的拡張オプションを発見できる,(2)トレーニングタスクの学習中にエージェントが頻繁に使用する,(3)ランダムに初期化したマネージャがまったく新しいタスクでより早く学習できる,といったことが示されている。

Temporal abstractions in the form of options have been shown to help reinforcement learning (RL) agents learn faster. However, despite prior work on this topic, the problem of discovering options through interaction with an environment remains a challenge. In this paper, we introduce a novel meta-gradient approach for discovering useful options in multi-task RL environments. Our approach is based on a manager-worker decomposition of the RL agent, in which a manager maximises rewards from the environment by learning a task-dependent policy over both a set of task-independent discovered-options and primitive actions. The option-reward and termination functions that define a subgoal for each option are parameterised as neural networks and trained via meta-gradients to maximise their usefulness. Empirical analysis on gridworld and DeepMind Lab tasks show that: (1) our approach can discover meaningful and diverse temporally-extended options in multi-task RL domains, (2) the discovered options are frequently used by the agent while learning to solve the training tasks, and (3) that the discovered options help a randomly initialised manager learn faster in completely new tasks.
翻訳日:2021-02-16 16:12:08 公開日:2021-02-12
# 適応エントロピー木探索を用いたロバストで効率的な計画法

Robust and Efficient Planning using Adaptive Entropy Tree Search ( http://arxiv.org/abs/2102.06808v1 )

ライセンス: Link先を確認
Piotr Kozakowski, Miko{\l}aj Pacek, Piotr Mi{\l}o\'s(参考訳) 本稿では,Adaptive EntropyTree Search (ANTS)アルゴリズムを提案する。 ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。 ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。 このメカニズムにより、ANTSプランナーは目覚ましいハイパーパラメータの堅牢性を享受し、Atariベンチマークで高いスコアを獲得し、AlphaZeroに似た計画学習ループの有能なコンポーネントである。 これらの機能はすべて、複雑なタスクのための一般的なプランナーにとって魅力的な選択肢であると考えています。

In this paper, we present the Adaptive EntropyTree Search (ANTS) algorithm. ANTS builds on recent successes of maximum entropy planning while mitigating its arguably major drawback - sensitivity to the temperature setting. We endow ANTS with a mechanism, which adapts the temperature to match a given range of action selection entropy in the nodes of the planning tree. With this mechanism, the ANTS planner enjoys remarkable hyper-parameter robustness, achieves high scores on the Atari benchmark, and is a capable component of a planning-learning loop akin to AlphaZero. We believe that all these features make ANTS a compelling choice for a general planner for complex tasks.
翻訳日:2021-02-16 16:11:45 公開日:2021-02-12
# Demystifying Inductive Biases for $\beta$-VAE based Architectures

Demystifying Inductive Biases for $\beta$-VAE Based Architectures ( http://arxiv.org/abs/2102.06822v1 )

ライセンス: Link先を確認
Dominik Zietlow, Michal Rolinek, Georg Martius(参考訳) $\beta$-Variational-Autoencoders ($\beta$-VAEs)のパフォーマンスと、意味的に意味のある、非絡み合った表現の学習におけるそれらの変形は比類のないものである。 一方、非監視的な束縛の不可能を示唆する理論的な議論がある。 この研究では、VAEベースのアーキテクチャの成功に責任を持つ帰納バイアスに光を当てた。 古典的なデータセットでは, 生成因子によって誘導される分散構造は, VAEの目的によって促進される潜伏方向と都合よく一致していることを示す。 これは、VAEの解き放つ能力が依存する重要なバイアスを構築します。 既存のデータセットの小さく精巧な摂動によって、様々なアーキテクチャで容易に活用できる便利な相関構造を隠蔽する。 これを実証するために, (i) 生成因子が完全に保存された標準データセットの修正版を構築し, (ii) 画像はばらつきの小さな変化を引き起こす穏やかな変換を行う。 (iii) 先行する \textbf{vae-based disentanglement architectures は,非変数法の性能が変わらず, 異角表現を生成しない。 我々の修正の構成は自明で、$\beta$-vaes の機械的な理解と pca への接続の最近の進歩に依存している。 私たちは、独立した関心を持つ追加の洞察を提供することで、このつながりを強化します。

The performance of $\beta$-Variational-Autoencoders ($\beta$-VAEs) and their variants on learning semantically meaningful, disentangled representations is unparalleled. On the other hand, there are theoretical arguments suggesting the impossibility of unsupervised disentanglement. In this work, we shed light on the inductive bias responsible for the success of VAE-based architectures. We show that in classical datasets the structure of variance, induced by the generating factors, is conveniently aligned with the latent directions fostered by the VAE objective. This builds the pivotal bias on which the disentangling abilities of VAEs rely. By small, elaborate perturbations of existing datasets, we hide the convenient correlation structure that is easily exploited by a variety of architectures. To demonstrate this, we construct modified versions of standard datasets in which (i) the generative factors are perfectly preserved; (ii) each image undergoes a mild transformation causing a small change of variance; (iii) the leading \textbf{VAE-based disentanglement architectures fail to produce disentangled representations whilst the performance of a non-variational method remains unchanged}. The construction of our modifications is nontrivial and relies on recent progress on mechanistic understanding of $\beta$-VAEs and their connection to PCA. We strengthen that connection by providing additional insights that are of stand-alone interest.
翻訳日:2021-02-16 16:11:33 公開日:2021-02-12
# Agnostic Corrupted Supervision による深層ニューラルネットワークの学習

Learning Deep Neural Networks under Agnostic Corrupted Supervision ( http://arxiv.org/abs/2102.06735v1 )

ライセンス: Link先を確認
Boyang Liu, Mengying Sun, Ding Wang, Pang-Ning Tan, Jiayu Zhou(参考訳) 破損したデータポイントが一般化のパフォーマンスに大きく影響する可能性があるため、破損した監督の存在下で深い神経モデルを訓練することは困難です。 この問題を解決するために,汚職の種類を前提とせずに強力な保証を実現する効率的なロバストアルゴリズムを提案し,分類問題と回帰問題の両方に対する統一フレームワークを提供する。 データポイントの品質(例えば、個々の損失値に基づいて)を定量化し、それに従ってフィルタリングする既存のアプローチとは異なり、提案アルゴリズムは平均勾配に対するデータポイントの集合的影響を制御することに重点を置いている。 破損したデータポイントがアルゴリズムによって除外されない場合でも、データポイントは損失値に基づく最先端のフィルタリング手法と比較して、全体的な損失に非常に限定的な影響を与える。 複数のベンチマークデータセットに関する広範な実験は、異なる種類の破損下でのアルゴリズムの堅牢性を示した。

Training deep neural models in the presence of corrupted supervision is challenging as the corrupted data points may significantly impact the generalization performance. To alleviate this problem, we present an efficient robust algorithm that achieves strong guarantees without any assumption on the type of corruption and provides a unified framework for both classification and regression problems. Unlike many existing approaches that quantify the quality of the data points (e.g., based on their individual loss values), and filter them accordingly, the proposed algorithm focuses on controlling the collective impact of data points on the average gradient. Even when a corrupted data point failed to be excluded by our algorithm, the data point will have a very limited impact on the overall loss, as compared with state-of-the-art filtering methods based on loss values. Extensive experiments on multiple benchmark datasets have demonstrated the robustness of our algorithm under different types of corruption.
翻訳日:2021-02-16 16:06:56 公開日:2021-02-12
# INSTA-YOLO:リアルタイムインスタンスセグメンテーション

INSTA-YOLO: Real-Time Instance Segmentation ( http://arxiv.org/abs/2102.06777v1 )

ライセンス: Link先を確認
Eslam Mohamed, Abdelrahman Shaker, Hazem Rashed, Ahmad El-Sallab, Mayada Hadhoud(参考訳) インスタンスセグメンテーションは、さまざまなコンピュータビジョンアプリケーションで最近大きな注目を集めています。 同じクラスに属する場合でも、シーンのさまざまなオブジェクトに異なるIDを提供することを目指しています。 インスタンスセグメンテーションは通常、2段階のパイプラインとして実行される。 まず、オブジェクトを検出し、検出されたボックス領域内のセマンティックセグメンテーションを行い、コストのかかるアップサンプリングを行う。 本稿では,リアルタイムインスタンス分割のための一段階のエンドツーエンドディープラーニングモデルであるInsta-YOLOを提案する。 ピクセル単位で予測する代わりに、モデルはデカルト空間の2dポイントで表されるオブジェクトの輪郭としてインスタンスを予測する。 当社のモデルは,Carvana,Cityscapes,Airbusの3つのデータセットで評価する。 結果は、例のセグメンテーションの最先端モデルと比較します。 その結果,GTX-1080 GPUの2倍の速度でmAPの競合精度が得られた。

Instance segmentation has gained recently huge attention in various computer vision applications. It aims at providing different IDs to different objects of the scene, even if they belong to the same class. Instance segmentation is usually performed as a two-stage pipeline. First, an object is detected, then semantic segmentation within the detected box area is performed which involves costly up-sampling. In this paper, we propose Insta-YOLO, a novel one-stage end-to-end deep learning model for real-time instance segmentation. Instead of pixel-wise prediction, our model predicts instances as object contours represented by 2D points in Cartesian space. We evaluate our model on three datasets, namely, Carvana,Cityscapes and Airbus. We compare our results to the state-of-the-art models for instance segmentation. The results show our model achieves competitive accuracy in terms of mAP at twice the speed on GTX-1080 GPU.
翻訳日:2021-02-16 16:03:04 公開日:2021-02-12
# 公正なニューラルネットワークの訓練に関する技術的課題

Technical Challenges for Training Fair Neural Networks ( http://arxiv.org/abs/2102.06764v1 )

ライセンス: Link先を確認
Valeriia Cherepanova and Vedant Nanda and Micah Goldblum and John P. Dickerson and Tom Goldstein(参考訳) 機械学習アルゴリズムはアプリケーション間で広く展開されているため、その予測の公平性、特に高利害率設定(顔認識や医用画像など)に関して多くの懸念が持ち上がっている。 これらの懸念に対応するため、コミュニティは公平さの様々な概念と不公平な行動の是正方法を提案し、定式化した。 古典モデルでは公平性の制約が広く研究されているが、深層ニューラルネットワークに公平性を与える方法の有効性は不明である。 本稿では,これらのモデルが公平性目標に過度に適合し,意図しない,望ましくない結果をもたらすことを観察する。 最先端のアーキテクチャを用いて顔認識と自動診断データセットの実験を行っています。

As machine learning algorithms have been widely deployed across applications, many concerns have been raised over the fairness of their predictions, especially in high stakes settings (such as facial recognition and medical imaging). To respond to these concerns, the community has proposed and formalized various notions of fairness as well as methods for rectifying unfair behavior. While fairness constraints have been studied extensively for classical models, the effectiveness of methods for imposing fairness on deep neural networks is unclear. In this paper, we observe that these large models overfit to fairness objectives, and produce a range of unintended and undesirable consequences. We conduct our experiments on both facial recognition and automated medical diagnosis datasets using state-of-the-art architectures.
翻訳日:2021-02-16 16:01:44 公開日:2021-02-12
# ハイブリッドダイナミクスモデリングのためのラグランジアンニューラルネットワークとハミルトンニューラルネットワークの拡張可能な接触モデル

A Differentiable Contact Model to Extend Lagrangian and Hamiltonian Neural Networks for Modeling Hybrid Dynamics ( http://arxiv.org/abs/2102.06794v1 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Biswadip Dey, Amit Chakraborty(参考訳) 適切な帰納バイアスの導入は、データからダイナミクスを学ぶ上で重要な役割を果たす。 ラグランジアンまたはハミルトン力学をニューラルネットワークアーキテクチャの設計に組み込むことにより、学習されたダイナミクスにおけるエネルギー保存を強制する方法を模索しています。 しかし、これらの既存のアプローチは微分方程式に基づいており、状態の連続性を許さないため、学習できるシステムのクラスが制限される。 レッグロボットやロボットマニピュレーターなどの実際のシステムは、接触と衝突を伴い、州内での不連続性をもたらします。 本論文では,非摩擦と摩擦,弾性と非弾性の両方の接触力学を捕捉できる微分可能な接触モデルを提案する。 このモデルは、関節角度の限界のような不等式制約も満たすことができる。 提案する接触モデルはラグランジアンとハミルトンのニューラルネットワークの範囲を広げ、接触特性とシステム特性の同時学習を可能にする。 この枠組みは, 再構成係数と摩擦係数の異なる, 一連の挑戦的な2次元および3次元物理系上で実証する。

The incorporation of appropriate inductive bias plays a critical role in learning dynamics from data. A growing body of work has been exploring ways to enforce energy conservation in the learned dynamics by incorporating Lagrangian or Hamiltonian dynamics into the design of the neural network architecture. However, these existing approaches are based on differential equations, which does not allow discontinuity in the states, and thereby limits the class of systems one can learn. Real systems, such as legged robots and robotic manipulators, involve contacts and collisions, which introduce discontinuities in the states. In this paper, we introduce a differentiable contact model, which can capture contact mechanics, both frictionless and frictional, as well as both elastic and inelastic. This model can also accommodate inequality constraints, such as limits on the joint angles. The proposed contact model extends the scope of Lagrangian and Hamiltonian neural networks by allowing simultaneous learning of contact properties and system properties. We demonstrate this framework on a series of challenging 2D and 3D physical systems with different coefficients of restitution and friction.
翻訳日:2021-02-16 16:01:32 公開日:2021-02-12
# Kronecker-factored Quasi-Newton Methods for Convolutional Neural Networks

Kronecker-factored Quasi-Newton Methods for Convolutional Neural Networks ( http://arxiv.org/abs/2102.06737v1 )

ライセンス: Link先を確認
Yi Ren, Donald Goldfarb(参考訳) 二階法は一階法よりも豊かな曲率情報を用いることで最適化を加速する能力を持つ。 しかしながら、トレーニングパラメータの数が非常に多い深層学習環境では、ほとんどが非現実的です。 本稿では,畳み込みニューラルネットワーク(cnns)を学習するための,kf-qn-cnnを提案する。ここでは,ヘシアンは層毎ブロック対角行列で近似し,各層の対角ブロックは,その層に制限されたヘシアンの構造に対応するクロネッカー積で近似する。 比較的穏やかな条件下でのKF-QN-CNNの変種に対して,BFGSの新しい減衰・ヘシアン作用技術は,CNNモデルにおけるKronecker行列の非凸性と特に大きなサイズを扱うように設計されている。 KF-QN-CNNは1次法に匹敵するメモリ要件を持ち、従来の2次法よりも時間単位の複雑さがはるかに少ない。 KF-QN-CNNは,いくつかのCNNモデルにおける最先端の1次・2次手法と比較して,全ての試験において優れた性能を示した。

Second-order methods have the capability of accelerating optimization by using much richer curvature information than first-order methods. However, most are impractical in a deep learning setting where the number of training parameters is huge. In this paper, we propose KF-QN-CNN, a new Kronecker-factored quasi-Newton method for training convolutional neural networks (CNNs), where the Hessian is approximated by a layer-wise block diagonal matrix and each layer's diagonal block is further approximated by a Kronecker product corresponding to the structure of the Hessian restricted to that layer. New damping and Hessian-action techniques for BFGS are designed to deal with the non-convexity and the particularly large size of Kronecker matrices in CNN models and convergence results are proved for a variant of KF-QN-CNN under relatively mild conditions. KF-QN-CNN has memory requirements comparable to first-order methods and much less per-iteration time complexity than traditional second-order methods. Compared with state-of-the-art first- and second-order methods on several CNN models, KF-QN-CNN consistently exhibited superior performance in all of our tests.
翻訳日:2021-02-16 15:59:06 公開日:2021-02-12
# 深層学習におけるランダム行列理論の適用性

Applicability of Random Matrix Theory in Deep Learning ( http://arxiv.org/abs/2102.06740v1 )

ライセンス: Link先を確認
Nicholas P Baskerville and Diego Granziol and Jonathan P Keating(参考訳) 人工ニューラルネットワークの損失面ヘッシアンの局所スペクトル統計を調査し、ガウス直交エンサンブル統計といくつかのネットワークアーキテクチャとデータセットの優れた一致を発見した。 これらの結果は、ニューラルネットワークのモデリングに対するランダム行列理論の適用可能性に新たな光を当て、ディープラーニングにおける損失面の研究において、これまで認識されていなかった役割を示唆している。 これらの観測から着想を得た本研究では,重み空間における距離関数としての損失勾配の増大を予測し,ヘッシアンスペクトル密度をランクデジェネラシーとアウトプライヤで実現する,ニューラルネットワークの真の損失面に関する新しいモデルを提案する。 我々はさらに,ニューラルネットワークにおける真の損失面の重要性を検証し,これまでの研究とは対照的に,グローバル最小の探索の指数的困難さは,芸術性能の達成に実際的な効果をもたらすことを見出した。

We investigate the local spectral statistics of the loss surface Hessians of artificial neural networks, where we discover excellent agreement with Gaussian Orthogonal Ensemble statistics across several network architectures and datasets. These results shed new light on the applicability of Random Matrix Theory to modelling neural networks and suggest a previously unrecognised role for it in the study of loss surfaces in deep learning. Inspired by these observations, we propose a novel model for the true loss surfaces of neural networks, consistent with our observations, which allows for Hessian spectral densities with rank degeneracy and outliers, extensively observed in practice, and predicts a growing independence of loss gradients as a function of distance in weight-space. We further investigate the importance of the true loss surface in neural networks and find, in contrast to previous work, that the exponential hardness of locating the global minimum has practical consequences for achieving state of the art performance.
翻訳日:2021-02-16 15:58:38 公開日:2021-02-12
# パラメータフリー局所加速条件勾配

Parameter-free Locally Accelerated Conditional Gradients ( http://arxiv.org/abs/2102.06806v1 )

ライセンス: Link先を確認
Alejandro Carderera, Jelena Diakonikolas, Cheuk Yin Lin, Sebastian Pokutta(参考訳) プロジェクションフリー条件勾配(CG)法は、プロジェクションがしばしば計算的に禁止されるが、制約セットに対する線形最適化が計算的に可能であるような制約付き最適化のアルゴリズムである。 プロジェクションベースの方法とは異なり、グローバルに加速された収束率は一般的にCGでは実現できない。 しかし, 局所加速CG (LaCG) に関する最近の研究は, CGの局所加速度が多くの興味ある設定で可能であることを実証している。 LaCGの主な欠点は、目的関数の滑らかさと強い凸性パラメータの知識を必要とすることである。 パラメータフリー局所加速CG(PF-LaCG)アルゴリズムを導入し,厳密な収束を保証することにより,この制限を解消する。 我々の理論結果は, 局所加速度を実証する数値実験によって補完され, 繰り返し回数とウォールクロック時間の両方において, 非加速アルゴリズムよりもPF-LaCGの実用的改善を示す。

Projection-free conditional gradient (CG) methods are the algorithms of choice for constrained optimization setups in which projections are often computationally prohibitive but linear optimization over the constraint set remains computationally feasible. Unlike in projection-based methods, globally accelerated convergence rates are in general unattainable for CG. However, a very recent work on Locally accelerated CG (LaCG) has demonstrated that local acceleration for CG is possible for many settings of interest. The main downside of LaCG is that it requires knowledge of the smoothness and strong convexity parameters of the objective function. We remove this limitation by introducing a novel, Parameter-Free Locally accelerated CG (PF-LaCG) algorithm, for which we provide rigorous convergence guarantees. Our theoretical results are complemented by numerical experiments, which demonstrate local acceleration and showcase the practical improvements of PF-LaCG over non-accelerated algorithms, both in terms of iteration count and wall-clock time.
翻訳日:2021-02-16 15:58:21 公開日:2021-02-12
# 分散確率非凸最適化のためのハイブリッド分散還元法

A hybrid variance-reduced method for decentralized stochastic non-convex optimization ( http://arxiv.org/abs/2102.06752v1 )

ライセンス: Link先を確認
Ran Xin and Usman A. Khan and Soummya Kar(参考訳) 本稿では,各ノードがスムーズな非凸局所コスト関数を持ち,ネットワークノードの目的が局所コストの和の−$\epsilon$-accurate 1次定常点を見つけることにある,−$n$ノードのネットワーク上の分散確率最適化について考察する。 我々は、各ノードが、正確な勾配のノイズバージョンを返す確率的な1次オラクルによってのみ、そのローカルコストにアクセスするオンライン設定に焦点を当てる。 そこで,本研究では,既存のアプローチを複雑性と実用性の両方で上回る,単一ループ分散分散型確率勾配法である \texttt{GT-HSGD} を提案する。 \texttt{GT-HSGD}アルゴリズムは、ネットワーク上に融合してグローバル勾配を追跡する特殊なローカルハイブリッド確率勾配推定器を実装している。 注目すべきことに、 \texttt{GT-HSGD} は、必要な誤差公差~$\epsilon$ が十分に小さい場合、ネットワークに依存しないオーラクル複雑性 _$O(n^{-1}\epsilon^{-3})$ を達成し、単一のノードで動作する集中型最適オンライン分散還元アプローチに関して線形速度アップをもたらす。 主な技術的結果を説明するために数値実験を行いました。

This paper considers decentralized stochastic optimization over a network of~$n$ nodes, where each node possesses a smooth non-convex local cost function and the goal of the networked nodes is to find an~$\epsilon$-accurate first-order stationary point of the sum of the local costs. We focus on an online setting, where each node accesses its local cost only by means of a stochastic first-order oracle that returns a noisy version of the exact gradient. In this context, we propose a novel single-loop decentralized hybrid variance-reduced stochastic gradient method, called \texttt{GT-HSGD}, that outperforms the existing approaches in terms of both the oracle complexity and practical implementation. The \texttt{GT-HSGD} algorithm implements specialized local hybrid stochastic gradient estimators that are fused over the network to track the global gradient. Remarkably, \texttt{GT-HSGD} achieves a network-independent oracle complexity of~$O(n^{-1}\epsilon^{-3})$ when the required error tolerance~$\epsilon$ is small enough, leading to a linear speedup with respect to the centralized optimal online variance-reduced approaches that operate on a single node. Numerical experiments are provided to illustrate our main technical results.
翻訳日:2021-02-16 15:53:42 公開日:2021-02-12
# グラフ-テキスト生成のための構造情報保存

Structural Information Preserving for Graph-to-Text Generation ( http://arxiv.org/abs/2102.06749v1 )

ライセンス: Link先を確認
Linfeng Song, Ante Wang, Jinsong Su, Yue Zhang, Kun Xu, Yubin Ge and Dong Yu(参考訳) グラフ・トゥ・テキスト生成の課題は、入力グラフの意味を保存した文を生成することである。 重要な欠陥として、現在の最先端モデルは出力を生成する際に入力グラフのコア構造情報を台無しにしたり、落としたりすることができる。 入力情報を保存するためのモデルとして,より豊かなトレーニング信号を活用することで,この問題に取り組むことを提案する。 特に,異なる側面に個別に焦点をあてた2種類の自動エンコーディングロスを導入する(a.k.a.)。 入力グラフのビュー)。 損失はバックプロパゲートされ、マルチタスクトレーニングを通じてモデルをよりよくキャリブレーションします。 グラフからテキストへの生成のための2つのベンチマークに関する実験は、最先端のベースラインに対するアプローチの有効性を示しています。 コードは \url{http://github.com/Soistesimmer/AMR-multiview} で入手できます。

The task of graph-to-text generation aims at producing sentences that preserve the meaning of input graphs. As a crucial defect, the current state-of-the-art models may mess up or even drop the core structural information of input graphs when generating outputs. We propose to tackle this problem by leveraging richer training signals that can guide our model for preserving input information. In particular, we introduce two types of autoencoding losses, each individually focusing on different aspects (a.k.a. views) of input graphs. The losses are then back-propagated to better calibrate our model via multi-task training. Experiments on two benchmarks for graph-to-text generation show the effectiveness of our approach over a state-of-the-art baseline. Our code is available at \url{http://github.com/Soistesimmer/AMR-multiview}.
翻訳日:2021-02-16 15:52:05 公開日:2021-02-12
# 私の言うとおりにせよ,私の言うとおりにせよ - 音声言語理解のためのシーケンス損失トレーニング

Do as I mean, not as I say: Sequence Loss Training for Spoken Language Understanding ( http://arxiv.org/abs/2102.06750v1 )

ライセンス: Link先を確認
Milind Rao, Pranav Dheram, Gautam Tiwari, Anirudh Raju, Jasha Droppo, Ariya Rastrow, Andreas Stolcke(参考訳) 音声言語理解(SLU)システムは、音声から意図または名前付き実体の意味だけでなく、転写を抽出し、音声活性化システムの不可欠なコンポーネントです。 SLUモデルは、音声から直接意味を抽出するか、パイプライン付き自動音声認識(ASR)と自然言語理解(NLU)モデルから構成されるが、典型的には、関連するパフォーマンス指標が単語またはセマンティックエラー率であっても、異なるエントロピーの損失によって訓練される。 本研究では,セマンティックエラーのプロキシとして,SLUメトリックに基づく非微分シーケンス損失を提案し,REINFORCEトリックを用いてASRモデルとSLUモデルの訓練を行う。 我々は、カスタムシーケンス損失トレーニングがオープンsluデータセットの最先端であり、大規模プロプライエタリデータセットにおけるasrとnluのパフォーマンスメトリクスの相対的に6%改善することを示す。 また, 意味的フィードバックのみを用いて, ASR と SLU モデルを転写せずに更新するために, セマンティックシーケンス損失訓練パラダイムをいかに利用できるかを示す。

Spoken language understanding (SLU) systems extract transcriptions, as well as semantics of intent or named entities from speech, and are essential components of voice activated systems. SLU models, which either directly extract semantics from audio or are composed of pipelined automatic speech recognition (ASR) and natural language understanding (NLU) models, are typically trained via differentiable cross-entropy losses, even when the relevant performance metrics of interest are word or semantic error rates. In this work, we propose non-differentiable sequence losses based on SLU metrics as a proxy for semantic error and use the REINFORCE trick to train ASR and SLU models with this loss. We show that custom sequence loss training is the state-of-the-art on open SLU datasets and leads to 6% relative improvement in both ASR and NLU performance metrics on large proprietary datasets. We also demonstrate how the semantic sequence loss training paradigm can be used to update ASR and SLU models without transcripts, using semantic feedback alone.
翻訳日:2021-02-16 15:42:57 公開日:2021-02-12
# 知識と文脈による検索エンジン支援

Supporting search engines with knowledge and context ( http://arxiv.org/abs/2102.06762v1 )

ライセンス: Link先を確認
Nikos Voskarides(参考訳) 検索エンジンは知識を活用して情報アクセスを改善する。 知識を効果的に活用するために、検索エンジンはコンテキスト、すなわちユーザに関する情報とクエリを考慮すべきである。 この論文では、コンテキストを考慮に入れながら、知識を活用する検索エンジンのサポートを目指しています。 本論文の第1部では,検索結果を豊かにするための文脈などの知識を検索エンジンが積極的に提供する場合に,構造化知識をユーザによりアクセスしやすくする方法について検討する。 第1の課題として,テキストコーパスから知識事実の記述を取得する方法を検討する。 次に,知識事実の記述を自動生成する方法を検討する。 最後に、知識事実、すなわち、クエリ事実に関連する事実を自動的に発見する方法について検討する。 本論文の第2部では,インタラクティブな知識収集を改善する方法について考察する。 ユーザが検索エンジンと対話して,構造化されていない巨大な知識リポジトリ上で知識を収集する会話型検索に注目する。 会話検索の例としてマルチターンパス検索に重点を置いています。 用語分類タスクとしてクエリ解決のモデル化を提案し,それに対処する方法を提案する。 本論文の最後のパートでは,ニュース分野のプロフェッショナルライターを対象とした検索エンジンサポートに注目した。 本研究では,ニュース記事のコーパスから知識を探究することで,イベントナラティブ作成を支援する方法について検討する。 本研究では,既存のニュース記事から不完全なナラティブや関連記事をシミュレートするデータセット構築手順を提案する。 本研究では,複数のランチャーのパフォーマンス,語彙と意味について検討し,このタスクの特徴について考察する。

Search engines leverage knowledge to improve information access. In order to effectively leverage knowledge, search engines should account for context, i.e., information about the user and query. In this thesis, we aim to support search engines in leveraging knowledge while accounting for context. In the first part of this thesis, we study how to make structured knowledge more accessible to the user when the search engine proactively provides such knowledge as context to enrich search results. As a first task, we study how to retrieve descriptions of knowledge facts from a text corpus. Next, we study how to automatically generate knowledge fact descriptions. And finally, we study how to contextualize knowledge facts, that is, to automatically find facts related to a query fact. In the second part of this thesis, we study how to improve interactive knowledge gathering. We focus on conversational search, where the user interacts with the search engine to gather knowledge over large unstructured knowledge repositories. We focus on multi-turn passage retrieval as an instance of conversational search. We propose to model query resolution as a term classification task and propose a method to address it. In the final part of this thesis, we focus on search engine support for professional writers in the news domain. We study how to support such writers create event-narratives by exploring knowledge from a corpus of news articles. We propose a dataset construction procedure for this task that relies on existing news articles to simulate incomplete narratives and relevant articles. We study the performance of multiple rankers, lexical and semantic, and provide insights into the characteristics of this task.
翻訳日:2021-02-16 15:42:36 公開日:2021-02-12
# 情報検索のための古典的および神経的語彙的翻訳モデルの検討 : 解釈可能性、有効性、効率上の利点

Exploring Classic and Neural Lexical Translation Models for Information Retrieval: Interpretability, Effectiveness, and Efficiency Benefits ( http://arxiv.org/abs/2102.06815v1 )

ライセンス: Link先を確認
Leonid Boytsov, Zico Kolter(参考訳) 辞書翻訳モデル(IBM Model 1)の英語テキスト検索における有用性,特にエンドツーエンドで訓練された神経変種について検討する。 ニューラルモデル1をアグリゲータ層として使用し,コンテキストフリーあるいはコンテキスト化されたクエリ/ドキュメント埋め込みに適用する。 ニューラルランキングシステムを設計するこの新しいアプローチは、有効性、効率性、解釈性に利点がある。 具体的には,既存のBERTモデルの最大シーケンス長の制限を克服するために,BERTをベースとしたコンテキスト型埋め込み(1)上に解釈可能なニューラルモデル1層を追加しても,精度や効率は低下しないことを示す。 コンテキストフリーのニューラルモデル1はBERTベースのランキングモデルよりも効果的ではありませんが、CPU上で効率的に実行できます(高価なインデックスタイムプリコンピューティングや大きなテンソルでのクエリタイム操作なしで)。 モデル1を使用して、2020年後半にMS MARCOドキュメントランキングリーダーボードで最高のニューラルおよび非ニューラルランを作成しました。

We study the utility of the lexical translation model (IBM Model 1) for English text retrieval, in particular, its neural variants that are trained end-to-end. We use the neural Model1 as an aggregator layer applied to context-free or contextualized query/document embeddings. This new approach to design a neural ranking system has benefits for effectiveness, efficiency, and interpretability. Specifically, we show that adding an interpretable neural Model 1 layer on top of BERT-based contextualized embeddings (1) does not decrease accuracy and/or efficiency; and (2) may overcome the limitation on the maximum sequence length of existing BERT models. The context-free neural Model 1 is less effective than a BERT-based ranking model, but it can run efficiently on a CPU (without expensive index-time precomputation or query-time operations on large tensors). Using Model 1 we produced best neural and non-neural runs on the MS MARCO document ranking leaderboard in late 2020.
翻訳日:2021-02-16 15:42:14 公開日:2021-02-12
# BERTを用いたソーシャルメディアコミュニティ間の英語変化の特徴付け

Characterizing English Variation across Social Media Communities with BERT ( http://arxiv.org/abs/2102.06820v1 )

ライセンス: Link先を確認
Li Lucy and David Bamman(参考訳) インターネット社会グループ間の言語変化を特徴付ける多くの先行研究は、これらのグループで使われる単語の種類に焦点を当ててきた。 本研究は,404 Reddit コミュニティにおける2ヶ月の英語コメントを分析し,単語感覚の変化を特徴付けるために BERT を用いて,このような研究を拡張した。 コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。 利用者が作成した用語集を用いてメトリクスを検証し,社会言語理論を用いて言語変化とコミュニティ行動の傾向を結びつける。 高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。

Much previous work characterizing language variation across Internet social groups has focused on the types of words used by these groups. We extend this type of study by employing BERT to characterize variation in the senses of words as well, analyzing two months of English comments in 474 Reddit communities. The specificity of different sense clusters to a community, combined with the specificity of a community's unique word types, is used to identify cases where a social group's language deviates from the norm. We validate our metrics using user-created glossaries and draw on sociolinguistic theories to connect language variation with trends in community behavior. We find that communities with highly distinctive language are medium-sized, and their loyal and highly engaged users interact in dense networks.
翻訳日:2021-02-16 15:41:57 公開日:2021-02-12
# パークアウトイベントデータを用いた路上駐車スペースの自動抽出と検証

Towards automatic extraction and validation of on-street parking spaces using park-out events data ( http://arxiv.org/abs/2102.06758v1 )

ライセンス: Link先を確認
Martin Gebert and J.-Emeterio Navarro-B(参考訳) 本稿では,路上駐車場に有効な地図を自動作成するための2つのアプローチを提案する。 そのため、car2goのパークアウトイベントデータを使用します。 1つ目は空間アグリゲーション、もう1つは機械学習アルゴリズムを使用する。 前者はラスタ化と道路分割を選択し、後者は決定木を選択しました。 これらのアプローチの結果を比較し,そのメリットとデメリットについて論じる。 さらに,ベルリン市内の一地区での結果を示し,元の不均衡データから92%の分類精度を報告した。 最後に, 長期にわたるデータ収集から, 空間的ガウス密度をデータに適合させるまで, パーキングスペースを手作業で検証し, 注記し, 真理データを改善するためのアプリケーションの利用まで, さらなる作業について考察する。

This article proposes two different approaches to automatically create a map for valid on-street car parking spaces. For this, we use park-out events data from car2go. The first one uses spatial aggregation and the second a machine learning algorithm. For the former, we chose rasterization and road sectioning; for the latter we chose decision trees. We compare the results of these approaches and discuss their advantages and disadvantages. Furthermore, we show our results for a neighborhood in the city of Berlin and report a classification accuracy of 92% on the original imbalanced data. Finally, we discuss further work; from gathering more data over a longer period of time to fitting spatial Gaussian densities to the data and the usage of apps for manual validation and annotation of parking spaces to improve ground truth data.
翻訳日:2021-02-16 15:41:44 公開日:2021-02-12
# 深層強化学習を用いた不変環境表現による自動運転の一般化意思決定

Generalizing Decision Making for Automated Driving with an Invariant Environment Representation using Deep Reinforcement Learning ( http://arxiv.org/abs/2102.06765v1 )

ライセンス: Link先を確認
Karl Kurzer, Philip Sch\"orner, Alexander Albers, Hauke Thomsen, Karam Daaboul, J. Marius Z\"ollner(参考訳) 自動運転に適用する意思決定のためのデータ駆動アプローチは、世界の可変性に適用性を確保するために、適切な一般化戦略を必要とする。 現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。 そこで我々は,エゴ車の観点から不変環境表現を提案する。 この表現は安全な意思決定に必要な情報を全て符号化する。 新規な環境表現の一般化能力を評価するために、エージェントをシナリオの小さなサブセットでトレーニングし、セット全体を評価します。 ここでは,エージェントが抽象化によって,未知のシナリオにうまく一般化できることを示す。 さらに、エージェントが性能を大きく変更することなく、閉塞を伴う交差点をナビゲートできるシンプルな閉塞モデルを提示します。

Data driven approaches for decision making applied to automated driving require appropriate generalization strategies, to ensure applicability to the world's variability. Current approaches either do not generalize well beyond the training data or are not capable to consider a variable number of traffic participants. Therefore we propose an invariant environment representation from the perspective of the ego vehicle. The representation encodes all necessary information for safe decision making. To assess the generalization capabilities of the novel environment representation, we train our agents on a small subset of scenarios and evaluate on the entire set. Here we show that the agents are capable to generalize successfully to unseen scenarios, due to the abstraction. In addition we present a simple occlusion model that enables our agents to navigate intersections with occlusions without a significant change in performance.
翻訳日:2021-02-16 15:41:31 公開日:2021-02-12
# 機械換気制御のための機械学習

Machine Learning for Mechanical Ventilation Control ( http://arxiv.org/abs/2102.06779v1 )

ライセンス: Link先を確認
Daniel Suo, Udaya Ghai, Edgar Minasyan, Paula Gradu, Xinyi Chen, Naman Agarwal, Cyril Zhang, Karan Singh, Julienne LaChance, Tom Zadjel, Manuel Schottdorf, Daniel Cohen, Elad Hazan(参考訳) 麻酔科医が指定する気道圧の軌跡に応じて, 麻酔科医は鎮静患者の肺内への空気の流入・排出を許可しなければならない。 ハンドチューニングのpidコントローラーや同様の派生機種は、数十年間業界標準を構成してきたが、目標を過度にあるいは過度に撮影したり、急速に振動させることで振る舞うことができない。 まず、人工肺から収集したデータに基づいてシミュレータを訓練します。 次に、これらのシミュレータでディープニューラルネットワークコントローラをトレーニングし、PIDコントローラよりも目標圧力波形をかなりよく追跡できることを示します。 さらに、学習したコントローラは、PIDコントローラよりも、様々な特性を持つ肺をまたいで一般化することを示す。

We consider the problem of controlling an invasive mechanical ventilator for pressure-controlled ventilation: a controller must let air in and out of a sedated patient's lungs according to a trajectory of airway pressures specified by a clinician. Hand-tuned PID controllers and similar variants have comprised the industry standard for decades, yet can behave poorly by over- or under-shooting their target or oscillating rapidly. We consider a data-driven machine learning approach: First, we train a simulator based on data we collect from an artificial lung. Then, we train deep neural network controllers on these simulators.We show that our controllers are able to track target pressure waveforms significantly better than PID controllers. We further show that a learned controller generalizes across lungs with varying characteristics much more readily than PID controllers do.
翻訳日:2021-02-16 15:41:19 公開日:2021-02-12
# Q-Value Weighted Regression: 限定データによる強化学習

Q-Value Weighted Regression: Reinforcement Learning with Limited Data ( http://arxiv.org/abs/2102.06782v1 )

ライセンス: Link先を確認
Piotr Kozakowski, {\L}ukasz Kaiser, Henryk Michalewski, Afroz Mohiuddin, Katarzyna Ka\'nska(参考訳) オフライン環境でのサンプル効率とパフォーマンスは、深層強化学習の重要な課題として現れている。 これらの点で優れた単純なRLアルゴリズムであるQ-Value Weighted Regression (QWR)を紹介します。 QWR(Advantage Weighted Regression, AWR)は、オフラインでも連続的な制御タスクで非常によく機能するが、サンプル効率は低く、高次元の観測空間と競合する、非政治的なアクター批判アルゴリズムである。 我々は、その欠点を説明し、これらの洞察を用いてQWRを動機付けるAWRの分析を行う。 本稿では,QWRがタスクにおける最先端のアルゴリズムと連続的および離散的な動作を一致させることを実験的に示した。 特にqwrは、mujocoスイートのsacと同等の結果と、atariゲームセットで高度に調整されたレインボー実装と同等のhyperparametersyieldsセットを持つ結果が得られる。 また、QWRがオフラインのRL設定で良好に動作することを検証する。

Sample efficiency and performance in the offline setting have emerged as significant challenges of deep reinforcement learning. We introduce Q-Value Weighted Regression (QWR), a simple RL algorithm that excels in these aspects. QWR is an extension of Advantage Weighted Regression (AWR), an off-policy actor-critic algorithm that performs very well on continuous control tasks, also in the offline setting, but has low sample efficiency and struggles with high-dimensional observation spaces. We perform an analysis of AWR that explains its shortcomings and use these insights to motivate QWR. We show experimentally that QWR matches the state-of-the-art algorithms both on tasks with continuous and discrete actions. In particular, QWR yields results on par with SAC on the MuJoCo suite and - with the same set of hyperparameters - yields results on par with a highly tuned Rainbow implementation on a set of Atari games. We also verify that QWR performs well in the offline RL setting.
翻訳日:2021-02-16 15:40:44 公開日:2021-02-12
# ナレッジディルミネーションのための学生フレンドリーな教師ネットワーク学習

Learning Student-Friendly Teacher Networks for Knowledge Distillation ( http://arxiv.org/abs/2102.07650v1 )

ライセンス: Link先を確認
Dae Young Park, Moon-Hyun Cha, Changwook Jeong, Daesin Kim, Bohyung Han(参考訳) 本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。 事前教育を受けた教師に与えた学習モデルの効果的な学習に依拠する既存の方法のほとんどとは対照的に,生徒に親しみやすい教師モデルを学び,その結果,より知識伝達に適することを目指す。 言い換えれば、教師モデルを最適化する時点でも、提案されたアルゴリズムは学生のブランチを共同で学習し、学生に優しい表現を得る。 本手法の主な目的は教員モデルの訓練であり,それに続く知識蒸留手順は単純であるため,既存の知識蒸留アルゴリズムのほとんどは,精度と収束速度の観点から学生モデルの性能を向上させるためにこの手法を採用することができる。 提案アルゴリズムは,教師と学生のアーキテクチャの様々な組み合わせによる知識蒸留技術において,優れた精度を示す。

We propose a novel knowledge distillation approach to facilitate the transfer of dark knowledge from a teacher to a student. Contrary to most of the existing methods that rely on effective training of student models given pretrained teachers, we aim to learn the teacher models that are friendly to students and, consequently, more appropriate for knowledge transfer. In other words, even at the time of optimizing a teacher model, the proposed algorithm learns the student branches jointly to obtain student-friendly representations. Since the main goal of our approach lies in training teacher models and the subsequent knowledge distillation procedure is straightforward, most of the existing knowledge distillation algorithms can adopt this technique to improve the performance of the student models in terms of accuracy and convergence speed. The proposed algorithm demonstrates outstanding accuracy in several well-known knowledge distillation techniques with various combinations of teacher and student architectures.
翻訳日:2021-02-16 15:33:57 公開日:2021-02-12
# スパースの価格の決定:サブスペースオフセットによるスパース初期化ネットワークのパフォーマンス向上

Dense for the Price of Sparse: Improved Performance of Sparsely Initialized Networks via a Subspace Offset ( http://arxiv.org/abs/2102.07655v1 )

ライセンス: Link先を確認
Ilan Price, Jared Tanner(参考訳) ニューラルネットワークは高い空間に切断され、高い精度を維持することは十分に確立されている。 最近の研究は初期化直後の刈り込みに重点を置いており、スパルシティーによって得られる計算の節約を訓練プロセスに拡張できるようにしている。 本研究では,学習可能なカーネルパラメータを0.01%に抑えながら,情報伝達とトレーニング性を維持する新しい「DCT + Sparse」層アーキテクチャを提案する。 これらのレイヤで構築されたネットワークの標準的なトレーニングは、様々なベンチマークネットワークアーキテクチャやデータセット上で、最先端の精度を実現していることを示す。 さらに、これらの結果は、ネットワーク内のトレーニング可能なパラメータの位置を決定するための単純なヒューリスティックのみを使用して達成され、競合する prune-at-initialization アルゴリズムで要求されるように、最初に完全な未実行のネットワークで格納または計算する必要がない。 標準のスパース層からDCTとスパース層への切り替えは、ネットワークのストレージフットプリントを増大させず、小さな計算オーバーヘッドしか発生しません。

That neural networks may be pruned to high sparsities and retain high accuracy is well established. Recent research efforts focus on pruning immediately after initialization so as to allow the computational savings afforded by sparsity to extend to the training process. In this work, we introduce a new `DCT plus Sparse' layer architecture, which maintains information propagation and trainability even with as little as 0.01% trainable kernel parameters remaining. We show that standard training of networks built with these layers, and pruned at initialization, achieves state-of-the-art accuracy for extreme sparsities on a variety of benchmark network architectures and datasets. Moreover, these results are achieved using only simple heuristics to determine the locations of the trainable parameters in the network, and thus without having to initially store or compute with the full, unpruned network, as is required by competing prune-at-initialization algorithms. Switching from standard sparse layers to DCT plus Sparse layers does not increase the storage footprint of a network and incurs only a small additional computational overhead.
翻訳日:2021-02-16 15:33:42 公開日:2021-02-12
# マルウェアに対する普遍的対向的摂動

Universal Adversarial Perturbations for Malware ( http://arxiv.org/abs/2102.06747v1 )

ライセンス: Link先を確認
Raphael Labaca-Castro, Luis Mu\~noz-Gonz\'alez, Feargus Pendlebury, Gabi Dreo Rodosek, Fabio Pierazzi, Lorenzo Cavallaro(参考訳) 機械学習の分類モデルは、モデルの出力を操作できる効果的な入力固有の摂動に対して脆弱である。 universal adversarial perturbation (uaps)は、入力空間全体に一般化するノイズパターンを識別することで、攻撃者がこれらの攻撃例の生成を大幅に拡大することができる。 UAPは、コンピュータビジョンを超えてアプリケーション領域で検討されているが、攻撃者が困難な問題空間の制約を満たすことを理由にしなければならないマルウェアなどの実現可能な攻撃の特定の文脈における特性と影響についてはほとんど知られていない。 本稿では,マルウェア分類におけるUAPの課題と強みについて考察する。 課題空間変換のシーケンスを生成し、それに対応する特徴空間埋め込みにおいてUAPを誘導し、現実的な攻撃的知識の多様性を考慮した脅威モデル間での有効性を評価する。 さらに,問題空間変換から得られた知識を用いて,逆トレーニングに基づく緩和手法を提案し,代替の特徴空間防御法と比較する。 実験では,1 % FPRで3 % TPRのコストで,ホワイトボックスAndroid エスケープ攻撃の有効性を ~20 % に制限した。 また,本手法が Windows マルウェアなど,より制限のあるアプリケーションドメインにどのように適用できるかを示す。 特徴空間における敵対的トレーニングは、大規模かつしばしば制約のない領域を扱う必要があるが、問題空間におけるUAPは、分類器をより効果的に強化できる特定の脆弱性を特定し、新たな普遍的な敵対的変換を攻撃者に特定するための課題と関連するコストをシフトさせる。

Machine learning classification models are vulnerable to adversarial examples -- effective input-specific perturbations that can manipulate the model's output. Universal Adversarial Perturbations (UAPs), which identify noisy patterns that generalize across the input space, allow the attacker to greatly scale up the generation of these adversarial examples. Although UAPs have been explored in application domains beyond computer vision, little is known about their properties and implications in the specific context of realizable attacks, such as malware, where attackers must reason about satisfying challenging problem-space constraints. In this paper, we explore the challenges and strengths of UAPs in the context of malware classification. We generate sequences of problem-space transformations that induce UAPs in the corresponding feature-space embedding and evaluate their effectiveness across threat models that consider a varying degree of realistic attacker knowledge. Additionally, we propose adversarial training-based mitigations using knowledge derived from the problem-space transformations, and compare against alternative feature-space defenses. Our experiments limit the effectiveness of a white box Android evasion attack to ~20 % at the cost of 3 % TPR at 1 % FPR. We additionally show how our method can be adapted to more restrictive application domains such as Windows malware. We observe that while adversarial training in the feature space must deal with large and often unconstrained regions, UAPs in the problem space identify specific vulnerabilities that allow us to harden a classifier more effectively, shifting the challenges and associated cost of identifying new universal adversarial transformations back to the attacker.
翻訳日:2021-02-16 15:32:26 公開日:2021-02-12
# 統合拡散を用いたマルチモーダルデータ可視化・復調・クラスタリング

Multimodal data visualization, denoising and clustering with integrated diffusion ( http://arxiv.org/abs/2102.06757v1 )

ライセンス: Link先を確認
Manik Kuchroo, Abhinav Godavarthi, Guy Wolf, Smita Krishnaswamy(参考訳) 本稿では,マルチモーダルデータセット,あるいは同一システム上で複数の異なる測定値を用いて収集されたデータを組み合わせて,共同データ拡散演算子を作成する統合拡散法を提案する。 実世界のデータは局所雑音と大域雑音の両方に悩まされるため,両モードの複合情報を反映した拡散演算子を最適に計算する機構を導入する。 マルチモーダルデータを統合および分析する他の方法よりも優れた性能を発揮し、データ解読、可視化、クラスタリングにおけるこのジョイントオペレータの有用性を示します。 本手法を血液細胞から生成したマルチオムリックデータに適用し,遺伝子発現およびクロマチンアクセシビリティの測定を行った。 本手法は,共同データの幾何学をよりよく可視化し,既知の相互モダリティ関係を捉え,既知の細胞集団を同定する。 より一般に、統合拡散は、多くの医療および生物学的システムで生成されるマルチモーダルデータセットに広く適用できる。

We propose a method called integrated diffusion for combining multimodal datasets, or data gathered via several different measurements on the same system, to create a joint data diffusion operator. As real world data suffers from both local and global noise, we introduce mechanisms to optimally calculate a diffusion operator that reflects the combined information from both modalities. We show the utility of this joint operator in data denoising, visualization and clustering, performing better than other methods to integrate and analyze multimodal data. We apply our method to multi-omic data generated from blood cells, measuring both gene expression and chromatin accessibility. Our approach better visualizes the geometry of the joint data, captures known cross-modality associations and identifies known cellular populations. More generally, integrated diffusion is broadly applicable to multimodal datasets generated in many medical and biological systems.
翻訳日:2021-02-16 15:24:31 公開日:2021-02-12
# ばらつき低減を伴う確率勾配ランゲヴィンダイナミクス

Stochastic Gradient Langevin Dynamics with Variance Reduction ( http://arxiv.org/abs/2102.06759v1 )

ライセンス: Link先を確認
Zhishen Huang, Stephen Becker(参考訳) 確率勾配ランゲヴィンダイナミクス(SGLD)は、その大域的な最適化特性から最適化研究者の注目を集めている。 本稿では,分散化によって加速されたSGLDを用いた非凸客観的関数の局所最小化に対する収束性の改善を実証する。 さらに、SGLDスキームのエルゴジティ特性を証明し、非凸目標のグローバル最小化の可能性について洞察します。

Stochastic gradient Langevin dynamics (SGLD) has gained the attention of optimization researchers due to its global optimization properties. This paper proves an improved convergence property to local minimizers of nonconvex objective functions using SGLD accelerated by variance reductions. Moreover, we prove an ergodicity property of the SGLD scheme, which gives insights on its potential to find global minimizers of nonconvex objectives.
翻訳日:2021-02-16 15:24:15 公開日:2021-02-12
# Bi-APC:教師なしプレトレーニングのための双方向自動回帰予測符号化とその子どものASRへの応用

Bi-APC: Bidirectional Autoregressive Predictive Coding for Unsupervised Pre-training and Its Application to Children's ASR ( http://arxiv.org/abs/2102.06816v1 )

ライセンス: Link先を確認
Ruchao Fan, Amber Afshan and Abeer Alwan(参考訳) 本稿では,双方向非教師なしモデル事前学習 (upt) 法を提案し,児童自動音声認識 (asr) に適用する。 子供のASRを改善するための障害は、児童音声データベースの不足です。 この問題を緩和するための一般的なアプローチは、成人音声のデータを用いたモデル事前学習である。 事前トレーニングはアノテーションの可用性に応じて、教師付き(SPT)または教師なし(unsupervised)メソッドを使って行うことができる。 通常、sptはパフォーマンスが良くなる。 本稿では,事前学習データにラベルが付けられていない状況に対処するため,UTTに着目した。 UPT法であるオートレグレッシブ予測符号化(APC)は、1方向のみからフレームを予測し、一方向事前学習に限定します。 しかし、従来の双方向upt法はフレームのごく一部しか予測しない。 APCの利点を双方向事前学習に拡張するため,Bi-APCを提案する。 その後、適応技術を用いて、成人音声から学んだ知識(Librispeech corpus)を子供音声(OGI Kids corpus)に伝達します。 LSTMに基づくハイブリッドシステムについて検討した。 ユニLSTM構造では、APCはベースライン上のSPTに類似したWER改善を得る。 しかし、BLSTMに適用した場合、APCはSPTほど競争力はないが、提案したBi-APCはSPTに匹敵する改善がある。

We present a bidirectional unsupervised model pre-training (UPT) method and apply it to children's automatic speech recognition (ASR). An obstacle to improving child ASR is the scarcity of child speech databases. A common approach to alleviate this problem is model pre-training using data from adult speech. Pre-training can be done using supervised (SPT) or unsupervised methods, depending on the availability of annotations. Typically, SPT performs better. In this paper, we focus on UPT to address the situations when pre-training data are unlabeled. Autoregressive predictive coding (APC), a UPT method, predicts frames from only one direction, limiting its use to uni-directional pre-training. Conventional bidirectional UPT methods, however, predict only a small portion of frames. To extend the benefits of APC to bi-directional pre-training, Bi-APC is proposed. We then use adaptation techniques to transfer knowledge learned from adult speech (using the Librispeech corpus) to child speech (OGI Kids corpus). LSTM-based hybrid systems are investigated. For the uni-LSTM structure, APC obtains similar WER improvements to SPT over the baseline. When applied to BLSTM, however, APC is not as competitive as SPT, but our proposed Bi-APC has comparable improvements to SPT.
翻訳日:2021-02-16 15:24:09 公開日:2021-02-12
# ディープラーニングによる性能予測のための比較コード構造解析

Comparative Code Structure Analysis using Deep Learning for Performance Prediction ( http://arxiv.org/abs/2102.07660v1 )

ライセンス: Link先を確認
Nathan Pinnow, Tarek Ramadan, Tanzima Z. Islam, Chase Phelps, Jayaraman J. Thiagarajan(参考訳) パフォーマンス分析は、アプリケーション開発プロセスにおいて常に後発であり、アプリケーションの正確性に重点を置いています。 既存の静的および動的解析ツールの学習曲線は急勾配であり、実行可能最適化の結果を解釈するために低レベルの詳細を理解する必要がある。 さらに、アプリケーションのパフォーマンスは、アプリケーション、ランタイム、およびOSと基礎となるハードウェア間の相互作用から生じる無限の未知数の関数であり、特に大規模なラベル付きデータセットなしで、ディープラーニング技術を使用してモデル化することは困難です。 本稿では,これら2つの問題について,コミュニティに対してラベル付きデータセットの大規模コーパスを提示し,同じ問題の異なる正しい実装間のソースコードの相違を除いて,未知のすべてを軽減するための比較分析手法を提案する。 ソースコードを表現するために、抽象構文ツリーの階層構造から情報を自動抽出するテストにディープラーニングの力を入れます。 本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。 この研究は、アプリケーションのすべてのバージョンがモデルのパフォーマンスを向上させるコーポラに貢献し続けるので、パフォーマンスを意識したアプリケーション開発を可能にします。 組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。

Performance analysis has always been an afterthought during the application development process, focusing on application correctness first. The learning curve of the existing static and dynamic analysis tools are steep, which requires understanding low-level details to interpret the findings for actionable optimizations. Additionally, application performance is a function of an infinite number of unknowns stemming from the application-, runtime-, and interactions between the OS and underlying hardware, making it difficult, if not impossible, to model using any deep learning technique, especially without a large labeled dataset. In this paper, we address both of these problems by presenting a large corpus of a labeled dataset for the community and take a comparative analysis approach to mitigate all unknowns except their source code differences between different correct implementations of the same problem. We put the power of deep learning to the test for automatically extracting information from the hierarchical structure of abstract syntax trees to represent source code. This paper aims to assess the feasibility of using purely static information (e.g., abstract syntax tree or AST) of applications to predict performance change based on the change in code structure. This research will enable performance-aware application development since every version of the application will continue to contribute to the corpora, which will enhance the performance of the model. Our evaluations of several deep embedding learning methods demonstrate that tree-based Long Short-Term Memory (LSTM) models can leverage the hierarchical structure of source-code to discover latent representations and achieve up to 84% (individual problem) and 73% (combined dataset with multiple of problems) accuracy in predicting the change in performance.
翻訳日:2021-02-16 15:18:33 公開日:2021-02-12
# (参考訳) フルフレームビデオ安定化のためのニューラルリレンダリング

Neural Re-rendering for Full-frame Video Stabilization ( http://arxiv.org/abs/2102.06205v2 )

ライセンス: CC BY 4.0
Yu-Lun Liu, Wei-Sheng Lai, Ming-Hsuan Yang, Yung-Yu Chuang, Jia-Bin Huang(参考訳) 既存のビデオ安定化手法では、フレーム境界のアグレッシブトリミングや、安定化フレーム上の歪みアーチファクトの生成が必要である。 本稿では,まず高密度ワープ場を推定し,フルフレーム映像安定化のためのアルゴリズムを提案する。 フルフレーム安定化フレームは、隣接するフレームから歪んだコンテンツを融合することで合成することができる。 学習ベースのハイブリッド空間融合は、光学フローの不正確さと高速移動オブジェクトによって引き起こされるアーティファクトを緩和します。 NUSおよび自撮りビデオデータセットに対する本手法の有効性を検証した。 広範に実験を行った結果,従来のビデオ安定化手法に対するアプローチのメリットが示された。

Existing video stabilization methods either require aggressive cropping of frame boundaries or generate distortion artifacts on the stabilized frames. In this work, we present an algorithm for full-frame video stabilization by first estimating dense warp fields. Full-frame stabilized frames can then be synthesized by fusing warped contents from neighboring frames. The core technical novelty lies in our learning-based hybrid-space fusion that alleviates artifacts caused by optical flow inaccuracy and fast-moving objects. We validate the effectiveness of our method on the NUS and selfie video datasets. Extensive experiment results demonstrate the merits of our approach over prior video stabilization methods.
翻訳日:2021-02-16 12:53:44 公開日:2021-02-12
# (参考訳) 正規化流れのヤコブ式決定因子

Jacobian Determinant of Normalizing Flows ( http://arxiv.org/abs/2102.06539v1 )

ライセンス: CC BY 4.0
Huadong Liao and Jiawei He(参考訳) 正規化フローはターゲットとベース分布の間の微分型写像を学習し、その写像のヤコブ行列は別の実値関数を形成する。 本稿では,ヤコビ行列型写像が与えられた分布に対して一意であることを示す。 特に、フローのクラスの可能性は、個々のデータポイントの自動相関行列の固有値によって明示的に表現され、確率目標の理論的最適値を提供し、確率的PCAに関連するニューラルネットワークのパラメータ化とは独立している。 さらに、ヤコビ行列式は局所的な体積変化の尺度であり、MLEを最適化に使用すると最大化される。 流れの正規化を安定させるためには、体積の膨張性と収縮のバランスを維持することが必要であり、これは二相写像とその逆写像に対するリプシッツ制約を意味する。 これらの理論により、正規化フローを設計するいくつかの原則が提案された。 また,高次元データセット(celeba-hq 1024x1024など)の数値実験を行い,トレーニングの安定性について検討した。

Normalizing flows learn a diffeomorphic mapping between the target and base distribution, while the Jacobian determinant of that mapping forms another real-valued function. In this paper, we show that the Jacobian determinant mapping is unique for the given distributions, hence the likelihood objective of flows has a unique global optimum. In particular, the likelihood for a class of flows is explicitly expressed by the eigenvalues of the auto-correlation matrix of individual data point, and independent of the parameterization of neural network, which provides a theoretical optimal value of likelihood objective and relates to probabilistic PCA. Additionally, Jacobian determinant is a measure of local volume change and is maximized when MLE is used for optimization. To stabilize normalizing flows training, it is required to maintain a balance between the expansiveness and contraction of volume, meaning Lipschitz constraint on the diffeomorphic mapping and its inverse. With these theoretical results, several principles of designing normalizing flow were proposed. And numerical experiments on highdimensional datasets (such as CelebA-HQ 1024x1024) were conducted to show the improved stability of training.
翻訳日:2021-02-16 00:54:04 公開日:2021-02-12
# (参考訳) cpu上でのトランスフォーマの最適化性能

Optimizing Inference Performance of Transformers on CPUs ( http://arxiv.org/abs/2102.06621v1 )

ライセンス: CC BY-SA 4.0
Dave Dice and Alex Kogan(参考訳) Transformerアーキテクチャは自然言語処理(NLP)の分野に革命をもたらした。 トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。 これらのモデルのトレーニングには膨大な研究の注意が払われているが、推論性能を改善するための取り組みは比較的少ない。 本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能を実証的に分析することで,このギャップを解消する。 非常にポピュラーなBERTモデルに着目し,計算の大部分を行うTransformerアーキテクチャの主要なコンポーネントを特定し,高速化のための3つの最適化を提案する。 最適化はhughingfaceの推論ベンチマークを用いて評価され、x2.36までの高速化が示されている。 検討された最適化では、モデルの実装の変更は必要とせず、精度にも影響を与えない。

The Transformer architecture revolutionized the field of natural language processing (NLP). Transformers-based models (e.g., BERT) power many important Web services, such as search, translation, question-answering, etc. While enormous research attention is paid to the training of those models, relatively little efforts are made to improve their inference performance. This paper comes to address this gap by presenting an empirical analysis of scalability and performance of inferencing a Transformer-based model on CPUs. Focusing on the highly popular BERT model, we identify key components of the Transformer architecture where the bulk of the computation happens, and propose three optimizations to speed them up. The optimizations are evaluated using the inference benchmark from HuggingFace, and are shown to achieve the speedup of up to x2.36. The considered optimizations do not require any changes to the implementation of the models nor affect their accuracy.
翻訳日:2021-02-16 00:29:43 公開日:2021-02-12
# (参考訳) Min-Max-Plus Neural Networks

Min-Max-Plus Neural Networks ( http://arxiv.org/abs/2102.06358v1 )

ライセンス: CC BY 4.0
Ye Luo and Shiqing Fan(参考訳) 熱帯算術における演算に基づくMin-Max-Plus Neural Networks (MMP-NNs) と呼ばれるニューラルネットワークの新しいモデルを提案する。 一般に、MMP-NNは3種類の交互に積み重ねられた層、すなわち線形層、マイナスプラスの層および最高プラスの層で構成されます。 具体的には、後者の2つの層は、従来のニューラルネットワークの非線形部分に比べて訓練可能で洗練されたネットワークの非線形部分を構成する。 さらに, MMP-NN は, 非線形性表現の能力が高いため, 乗算演算数を大幅に削減したとしても, 連続関数の普遍近似器であることを示す。 さらに、MMP-NNのトレーニングプロセスにおいてバックプロパゲーションアルゴリズムを策定し、トレーニングにおける収束率を改善するための正規化アルゴリズムを導入する。

We present a new model of neural networks called Min-Max-Plus Neural Networks (MMP-NNs) based on operations in tropical arithmetic. In general, an MMP-NN is composed of three types of alternately stacked layers, namely linear layers, min-plus layers and max-plus layers. Specifically, the latter two types of layers constitute the nonlinear part of the network which is trainable and more sophisticated compared to the nonlinear part of conventional neural networks. In addition, we show that with higher capability of nonlinearity expression, MMP-NNs are universal approximators of continuous functions, even when the number of multiplication operations is tremendously reduced (possibly to none in certain extreme cases). Furthermore, we formulate the backpropagation algorithm in the training process of MMP-NNs and introduce an algorithm of normalization to improve the rate of convergence in training.
翻訳日:2021-02-16 00:11:55 公開日:2021-02-12
# (参考訳) スタイル転送のみを用いたアート画像の物体検出の改善

Improving Object Detection in Art Images Using Only Style Transfer ( http://arxiv.org/abs/2102.06529v1 )

ライセンス: CC BY 4.0
David Kadish, Sebastian Risi, Anders Sundnes L{\o}vlie(参考訳) 近年のディープラーニングニューラルネットワークによる物体検出の進歩にもかかわらず、これらのニューラルネットワークは、絵画や図面などの美術画像中の物体の識別に苦慮している。 この課題はクロス描写問題として知られており、部分的には、物体のテクスチャの識別をその形状よりも優先するニューラルネットワークの傾向に起因している。 本稿では,物体(特に人)をアートイメージにローカライズするためのニューラルネットワークのトレーニングプロセスを提案し,評価する。 AdaInスタイルの転送を使用してCOCOデータセットの画像を変更し、トレーニングと検証のための大規模なデータセットを生成します。 このデータセットは、Faster R-CNNオブジェクト検出ネットワークを微調整するために使用され、既存のPeople-Artテストデータセットでテストされる。 その結果、最先端の技術が大幅に改善され、ニューラルネットワークをトレーニングしてアート画像を処理するデータセットを作成するための新しい方法が前進しました。

Despite recent advances in object detection using deep learning neural networks, these neural networks still struggle to identify objects in art images such as paintings and drawings. This challenge is known as the cross depiction problem and it stems in part from the tendency of neural networks to prioritize identification of an object's texture over its shape. In this paper we propose and evaluate a process for training neural networks to localize objects - specifically people - in art images. We generate a large dataset for training and validation by modifying the images in the COCO dataset using AdaIn style transfer. This dataset is used to fine-tune a Faster R-CNN object detection network, which is then tested on the existing People-Art testing dataset. The result is a significant improvement on the state of the art and a new way forward for creating datasets to train neural networks to process art images.
翻訳日:2021-02-15 23:36:47 公開日:2021-02-12
# (参考訳) 認定防衛:なぜリラクゼーションがトレーニングを損なうのか?

Certified Defenses: Why Tighter Relaxations May Hurt Training? ( http://arxiv.org/abs/2102.06700v1 )

ライセンス: CC BY 4.0
Nikola Jovanovi\'c, Mislav Balunovi\'c, Maximilian Baader, Martin Vechev(参考訳) 凸リラクゼーションに基づく認定防御は、証明可能な堅牢なモデルを訓練するための確立された技術です。 主なコンポーネントは、単純な間隔からタイトなポリヘドラまで、リラクゼーションの選択です。 しかし、逆説的には、より厳しいリラクゼーションによるトレーニングが認定された堅牢性を悪化させる可能性があることが実証的に観察された。 いくつかの方法がこの問題を部分的に緩和するために設計されたが、根本原因はよく分かっていない。 本研究では,上記の現象を考察し,厳密性が認定ロバスト性低下の要因ではないことを示す。 具体的には、トレーニングダイナミクスに影響を与えるリラクゼーションの2つの重要な特徴を特定します。 次に,この2つの因子が,一般のリラクゼーション使用時のロバスト性の低下を説明することを実験的に証明した。 さらに、我々は初めて、より厳密な緩和(すなわち三角形)でうまくトレーニングできることを示し、これは我々の2つの性質によって支持される結果である。 全体として、この研究の洞察は、新しい効果的な認定防衛の体系的な発見を促進するのに役立つと考えています。

Certified defenses based on convex relaxations are an established technique for training provably robust models. The key component is the choice of relaxation, varying from simple intervals to tight polyhedra. Paradoxically, however, it was empirically observed that training with tighter relaxations can worsen certified robustness. While several methods were designed to partially mitigate this issue, the underlying causes are poorly understood. In this work we investigate the above phenomenon and show that tightness may not be the determining factor for reduced certified robustness. Concretely, we identify two key features of relaxations that impact training dynamics: continuity and sensitivity. We then experimentally demonstrate that these two factors explain the drop in certified robustness when using popular relaxations. Further, we show, for the first time, that it is possible to successfully train with tighter relaxations (i.e., triangle), a result supported by our two properties. Overall, we believe the insights of this work can help drive the systematic discovery of new effective certified defenses.
翻訳日:2021-02-15 23:07:42 公開日:2021-02-12
# (参考訳) MetaGrad:オンライン学習における複数学習率を用いた適応

MetaGrad: Adaptation using Multiple Learning Rates in Online Learning ( http://arxiv.org/abs/2102.06622v1 )

ライセンス: CC BY 4.0
Tim van Erven, Wouter M. Koolen, Dirk van der Hoeven(参考訳) 一般凸損失に対して頑健であるが,exp-concave や strong convex 関数を含む幅広い特殊関数に対してより高速な速度を実現するとともに,曲率を伴わない様々なタイプの確率的・非確率的関数を実現する,オンライン凸最適化のための新しい適応的手法 metagrad を提供する。 我々は、オフライン統計学習における速度を暗示することで知られるベルンシュタイン条件への接続を描いてこれを証明した。 metagradはさらに勾配のサイズに自動的に適応する。 その主な特徴は、複数の学習率を同時に考慮し、新しいメタアルゴリズムを用いてデータ上の経験的パフォーマンスに直接比例して重み付けされていることである。 MetaGradには3つのバージョンがあります。 フルマトリックスバージョンは完全な共分散行列を維持しており、次元の更新時間を2倍にすることができる学習タスクに適用できる。 他の2つのバージョンは、高次元学習タスクのスピードアップを提供し、その1つはスケッチに基づいており、もう1つは座標ごとに基本アルゴリズムのコピーを別々に実行している。 ベンチマークオンライン分類と回帰タスクでMetaGradのすべてのバージョンを評価し、オンライングラデーション下降とAdaGradの両方を一貫して上回ります。

We provide a new adaptive method for online convex optimization, MetaGrad, that is robust to general convex losses but achieves faster rates for a broad class of special functions, including exp-concave and strongly convex functions, but also various types of stochastic and non-stochastic functions without any curvature. We prove this by drawing a connection to the Bernstein condition, which is known to imply fast rates in offline statistical learning. MetaGrad further adapts automatically to the size of the gradients. Its main feature is that it simultaneously considers multiple learning rates, which are weighted directly proportional to their empirical performance on the data using a new meta-algorithm. We provide three versions of MetaGrad. The full matrix version maintains a full covariance matrix and is applicable to learning tasks for which we can afford update time quadratic in the dimension. The other two versions provide speed-ups for high-dimensional learning tasks with an update time that is linear in the dimension: one is based on sketching, the other on running a separate copy of the basic algorithm per coordinate. We evaluate all versions of MetaGrad on benchmark online classification and regression tasks, on which they consistently outperform both online gradient descent and AdaGrad.
翻訳日:2021-02-15 22:36:26 公開日:2021-02-12
# (参考訳) 効率的なコントラスト学習のためのセマンティカルコンディショニングネガティブサンプル

Semantically-Conditioned Negative Samples for Efficient Contrastive Learning ( http://arxiv.org/abs/2102.06603v1 )

ライセンス: CC BY 4.0
James O' Neill, Danushka Bollegala(参考訳) 負のサンプリングは制限係数 w.r.t である。 計量学習ニューラルネットワークの一般化。 その結果、一様負サンプリングはクラス境界に関する情報をほとんど提供せず、効率的な負サンプリングのための3つの新しい手法を提案する:(1)最も意味的に類似したクラスのトップから負のサンプルを抽出し、(2)最も意味的に類似したサンプルをトップ-$k$から抽出し、(3)対照的な潜在表現を補間して擬似負を生成する。 CIFAR-10, CIFAR-100, Tiny-ImageNet-200 で行った実験では,提案した \textit{Semantically Conditioned Negative Smpling} と Latent Mixup が一貫した性能向上をもたらすことが示された。 標準的な教師付き学習環境では、各種ネットワークアーキテクチャにおけるCIFAR-10におけるテスト精度を平均1.52 %向上させる。 知識蒸留では,(1)小イメージネット200では学生ネットワークのパフォーマンスが4.56\%,(2)教師がいない学生ネットワークでは3.29\%,(2)textit{hard-to-beat}ベースラインでは1.23\%,.72\%と,それぞれ4.56\%向上した(hinton et al., 2015)。

Negative sampling is a limiting factor w.r.t. the generalization of metric-learned neural networks. We show that uniform negative sampling provides little information about the class boundaries and thus propose three novel techniques for efficient negative sampling: drawing negative samples from (1) the top-$k$ most semantically similar classes, (2) the top-$k$ most semantically similar samples and (3) interpolating between contrastive latent representations to create pseudo negatives. Our experiments on CIFAR-10, CIFAR-100 and Tiny-ImageNet-200 show that our proposed \textit{Semantically Conditioned Negative Sampling} and Latent Mixup lead to consistent performance improvements. In the standard supervised learning setting, on average we increase test accuracy by 1.52\% percentage points on CIFAR-10 across various network architectures. In the knowledge distillation setting, (1) the performance of student networks increase by 4.56\% percentage points on Tiny-ImageNet-200 and 3.29\% on CIFAR-100 over student networks trained with no teacher and (2) 1.23\% and 1.72\% respectively over a \textit{hard-to-beat} baseline (Hinton et al., 2015).
翻訳日:2021-02-15 22:35:12 公開日:2021-02-12
# (参考訳) セキュアアグリゲーションを用いた連合学習のための分散離散ガウス機構

The Distributed Discrete Gaussian Mechanism for Federated Learning with Secure Aggregation ( http://arxiv.org/abs/2102.06387v1 )

ライセンス: CC BY 4.0
Peter Kairouz and Ziyu Liu and Thomas Steinke(参考訳) ユーザデバイスに分散したプライベートデータに関するトレーニングモデルを検討します。 プライバシーを確保するために、デバイス上のノイズを追加し、安全なアグリゲーションを使用して、騒々しい合計だけをサーバーに公開します。 本稿では,データを適切に識別し,セキュアアグリゲーションを行う前に離散ガウス雑音を付加する総合的なエンドツーエンドシステムを提案する。 我々は、離散ガウスの和に対する新しいプライバシー分析を提供する。 また,入力データの丸めとモジュラー和算術の効果も解析した。 私達の理論的保証はコミュニケーション、プライバシーおよび正確さ間の複雑な緊張を強調します。 広範な実験結果から,我々のソリューションは,1値あたり16ビットの精度で,セントラルディファレンシャルプライバシと同等の精度を達成できることが示されました。

We consider training models on private data that is distributed across user devices. To ensure privacy, we add on-device noise and use secure aggregation so that only the noisy sum is revealed to the server. We present a comprehensive end-to-end system, which appropriately discretizes the data and adds discrete Gaussian noise before performing secure aggregation. We provide a novel privacy analysis for sums of discrete Gaussians. We also analyze the effect of rounding the input data and the modular summation arithmetic. Our theoretical guarantees highlight the complex tension between communication, privacy, and accuracy. Our extensive experimental results demonstrate that our solution is essentially able to achieve a comparable accuracy to central differential privacy with 16 bits of precision per value.
翻訳日:2021-02-15 21:10:07 公開日:2021-02-12
# (参考訳) フローベースニューラル後部推定のためのグローバルパラメータの活用

Leveraging Global Parameters for Flow-based Neural Posterior Estimation ( http://arxiv.org/abs/2102.06477v1 )

ライセンス: CC BY 4.0
Pedro L. C. Rodrigues, Thomas Moreau, Gilles Louppe, Alexandre Gramfort(参考訳) 実験観測に基づく確率モデルのパラメータを推定することは、科学的方法の中心である。 特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。 これは、電波源の距離やパワーを推測する(ソースが近かったり弱かったり、遠かったり、強かったりする)など、多くの実用的な状況で発生する。 または電気生理学実験の増幅器の利益そして基礎頭脳の活動を推定するとき。 本研究では,グローバルパラメータを共有する観測の補助的集合によって伝達される付加情報を利用して,そのような不確定性を破る手法を提案する。 本手法はベイズ階層モデルへの正規化フローに基づくシミュレーションベース推論(SBI)の最近の発展を延長する。 分析解に適応可能な動機づけ例について,提案を定量的に検証し,計算神経科学からよく知られた非線形モデルに応用する。

Inferring the parameters of a stochastic model based on experimental observations is central to the scientific method. A particularly challenging setting is when the model is strongly indeterminate, i.e., when distinct sets of parameters yield identical observations. This arises in many practical situations, such as when inferring the distance and power of a radio source (is the source close and weak or far and strong?) or when estimating the amplifier gain and underlying brain activity of an electrophysiological experiment. In this work, we present a method for cracking such indeterminacy by exploiting additional information conveyed by an auxiliary set of observations sharing global parameters. Our method extends recent developments in simulation-based inference(SBI) based on normalizing flows to Bayesian hierarchical models. We validate quantitatively our proposal on a motivating example amenable to analytical solutions, and then apply it to invert a well known non-linear model from computational neuroscience.
翻訳日:2021-02-15 21:09:02 公開日:2021-02-12
# (参考訳) 確率自由パラメータ推論のためのロバストおよび積分ベイズニューラルネットワーク

Robust and integrative Bayesian neural networks for likelihood-free parameter inference ( http://arxiv.org/abs/2102.06521v1 )

ライセンス: CC BY 4.0
Fredrik Wrede, Robin Eriksson, Richard Jiang, Linda Petzold, Stefan Engblom, Andreas Hellander, Prashant Singh(参考訳) 要約統計を学習するための最先端のニューラルネットワークベースの手法は、シミュレーションベースの確率自由パラメータ推論に有望な結果をもたらした。 既存のアプローチでは、決定論的ニューラルネットワークに基づく後処理ステップとして密度推定が必要であり、ネットワーク予測の不確実性を考慮していない。 本研究では,ベイズニューラルネットワークを用いて要約統計学を学習し,カテゴリー分布を用いて後部密度を直接推定する頑健な統合手法を提案する。 適応サンプリングスキームは、シミュレーション位置を選択し、観測により条件付けられたネットワークの予測後部を効率的かつ反復的に洗練する。 これにより、比較的大きな先行空間上でより効率的で堅牢な収束が可能になる。 ベンチマークの例にアプローチを示し、関連する手法と比較する。

State-of-the-art neural network-based methods for learning summary statistics have delivered promising results for simulation-based likelihood-free parameter inference. Existing approaches require density estimation as a post-processing step building upon deterministic neural networks, and do not take network prediction uncertainty into account. This work proposes a robust integrated approach that learns summary statistics using Bayesian neural networks, and directly estimates the posterior density using categorical distributions. An adaptive sampling scheme selects simulation locations to efficiently and iteratively refine the predictive posterior of the network conditioned on observations. This allows for more efficient and robust convergence on comparatively large prior spaces. We demonstrate our approach on benchmark examples and compare against related methods.
翻訳日:2021-02-15 20:47:55 公開日:2021-02-12
# (参考訳) Q-Learningのサンプル複雑度における水平依存性の強調

Tightening the Dependence on Horizon in the Sample Complexity of Q-Learning ( http://arxiv.org/abs/2102.06548v1 )

ライセンス: CC BY 4.0
Gen Li, Changxiao Cai, Yuxin Chen, Yuantao Gu, Yuting Wei, Yuejie Chi(参考訳) モデルフリーの方法でマルコフ決定プロセス(MDP)の最適なQ機能を学ぶことを目指すQ-ラーニングは、強化学習の中心にあります。 同期設定(全ての状態-作用ペアの独立サンプルが各イテレーションで生成モデルから引き出されるような)に関しては、最近Q-ラーニングのサンプル効率を理解するためにかなりの進歩がなされている。 最適Q関数の射影 $\varepsilon$-accurate 推定を得るためには、最先端の理論では、$\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^5\varepsilon^{2}}$ のサンプルを、状態空間 $\mathcal{S}$ とアクション空間 $\mathcal{A}$ を持つ $\gamma$-discounted infinite-horizon MDP の順に求める。 本研究では,任意の0<\varepsilon <1$ に対して,同期型q-ラーニングのサンプル複雑性を$\frac{|\mathcal{s}||\mathcal{a}|}{(1-\gamma)^4\varepsilon^2}$ (いくつかの対数係数まで) に鋭くし,実効的な地平線$\frac{1}{1-\gamma}$ の順に改善する。 解析結果は有限ホライゾン MDP にも導出される。 計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。 我々の分析の重要な要素は、新しい誤り分解と再帰の確立であり、他のQ-ラーニングの有限サンプル性能の分析方法に光を当てる可能性がある。

Q-learning, which seeks to learn the optimal Q-function of a Markov decision process (MDP) in a model-free fashion, lies at the heart of reinforcement learning. When it comes to the synchronous setting (such that independent samples for all state-action pairs are drawn from a generative model in each iteration), substantial progress has been made recently towards understanding the sample efficiency of Q-learning. To yield an entrywise $\varepsilon$-accurate estimate of the optimal Q-function, state-of-the-art theory requires at least an order of $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^5\varepsilon^{2}}$ samples for a $\gamma$-discounted infinite-horizon MDP with state space $\mathcal{S}$ and action space $\mathcal{A}$. In this work, we sharpen the sample complexity of synchronous Q-learning to an order of $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^4\varepsilon^2}$ (up to some logarithmic factor) for any $0<\varepsilon <1$, leading to an order-wise improvement in terms of the effective horizon $\frac{1}{1-\gamma}$. Analogous results are derived for finite-horizon MDPs as well. Our finding unveils the effectiveness of vanilla Q-learning, which matches that of speedy Q-learning without requiring extra computation and storage. A key ingredient of our analysis lies in the establishment of novel error decompositions and recursions, which might shed light on how to analyze finite-sample performance of other Q-learning variants.
翻訳日:2021-02-15 20:07:10 公開日:2021-02-12
# (参考訳) 小さな事前学習が長い道のりをたどる:低リソース形態素リッチ言語における依存構文解析タスクのケーススタディ

A Little Pretraining Goes a Long Way: A Case Study on Dependency Parsing Task for Low-resource Morphologically Rich Languages ( http://arxiv.org/abs/2102.06551v1 )

ライセンス: CC BY 4.0
Jivnesh Sandhan, Amrith Krishna, Ashim Gupta, Laxmidhar Behera and Pawan Goyal(参考訳) 神経依存性解析は、多くのドメインや言語で顕著なパフォーマンスを達成している。 大量のラベル付きデータのボトルネックは、低リソース言語に対するこれらのアプローチの有効性を制限する。 本研究では,低リソース環境におけるMRL(モルフォロジカルリッチ言語)の依存性解析に焦点を当てる。 係り受け解析作業には形態情報が必要であるが、形態的曖昧さと強力なアナライザの欠如は、MRLに対してこの情報を得るための課題を提起する。 これらの課題に対処するために,プリトレーニングのための簡単な補助タスクを提案する。 低資源環境下で10MBLの実験を行い,提案した予備訓練法の有効性を測定し,平均2点(UAS)と3.6点(LAS)の絶対利得を観測する。 コードとデータ https://github.com/jivnesh/LCM

Neural dependency parsing has achieved remarkable performance for many domains and languages. The bottleneck of massive labeled data limits the effectiveness of these approaches for low resource languages. In this work, we focus on dependency parsing for morphological rich languages (MRLs) in a low-resource setting. Although morphological information is essential for the dependency parsing task, the morphological disambiguation and lack of powerful analyzers pose challenges to get this information for MRLs. To address these challenges, we propose simple auxiliary tasks for pretraining. We perform experiments on 10 MRLs in low-resource settings to measure the efficacy of our proposed pretraining method and observe an average absolute gain of 2 points (UAS) and 3.6 points (LAS). Code and data available at: https://github.com/jivnesh/LCM
翻訳日:2021-02-15 20:05:25 公開日:2021-02-12
# (参考訳) unseenドメイン上のロバストな白色物質ハイパーインテンシティセグメンテーション

Robust White Matter Hyperintensity Segmentation on Unseen Domain ( http://arxiv.org/abs/2102.06650v1 )

ライセンス: CC BY 4.0
Xingchen Zhao, Anthony Sicilia, Davneet Minhas, Erin O'Connor, Howard Aizenstein, William Klunk, Dana Tudorascu, Seong Jae Hwang(参考訳) 典型的な機械学習フレームワークは、トレーニングとテストデータが同じ分布に従うという前提に大きく依存している。 複数のサイトやスキャナーからデータセットを取得し始めた医療画像では、この同じ分布の仮定は、サイトまたはスキャナ依存因子によって誘導される系統的変動のために保持されないことが多い。 したがって、与えられたデータセットでトレーニングされたモデルが、他のディストリビューションからデータセット上で一貫して動作し、あるいは一般化することを単に期待することはできない。 本研究では,この課題に対処し,医療画像データに対する機械学習モデルの適用について検討する。 具体的には、テスト分布を知らずにモデルをトレーニングするドメイン一般化(DG)の難問について考察する。 つまり、私たちは一連の分布(ソース)からサンプルをトレーニングし、新しい見えない分布(ターゲット)からサンプルをテストします。 マルチサイトWMHセグメンテーションチャレンジデータセットと当社のローカル社内データセットを用いて,ホワイトマターハイパーインテンシティ(WMH)予測の課題に焦点を当てた。 機械的に異なる2つのDGアプローチ、すなわちドメイン対比学習とミックスアップが理論的相乗効果を持つかを特定する。 そこで,WMH予測を未知のターゲット領域上で飛躍的に改善した。

Typical machine learning frameworks heavily rely on an underlying assumption that training and test data follow the same distribution. In medical imaging which increasingly begun acquiring datasets from multiple sites or scanners, this identical distribution assumption often fails to hold due to systematic variability induced by site or scanner dependent factors. Therefore, we cannot simply expect a model trained on a given dataset to consistently work well, or generalize, on a dataset from another distribution. In this work, we address this problem, investigating the application of machine learning models to unseen medical imaging data. Specifically, we consider the challenging case of Domain Generalization (DG) where we train a model without any knowledge about the testing distribution. That is, we train on samples from a set of distributions (sources) and test on samples from a new, unseen distribution (target). We focus on the task of white matter hyperintensity (WMH) prediction using the multi-site WMH Segmentation Challenge dataset and our local in-house dataset. We identify how two mechanically distinct DG approaches, namely domain adversarial learning and mix-up, have theoretical synergy. Then, we show drastic improvements of WMH prediction on an unseen target domain.
翻訳日:2021-02-15 19:52:20 公開日:2021-02-12
# (参考訳) クラス間の知識伝播による効率的な条件付きGAN転送

Efficient Conditional GAN Transfer with Knowledge Propagation across Classes ( http://arxiv.org/abs/2102.06696v1 )

ライセンス: CC BY 4.0
Mohamad Shahbazi, Zhiwu Huang, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool(参考訳) GAN(Generative Adversarial Network)は,非条件画像生成と条件画像生成の両方において顕著な結果を示した。 近年の文献では、訓練済みのGANは、異なるデータセット上で、小さなターゲットデータから画像生成を改善するために転送可能であることが示されている。 しかし, 条件付きGAN(cGAN)では, 条件なしのセットアップに比べて, 知識伝達の新たな機会となることが確認されていない。 特に、新しいクラスは関連する古いクラスから知識を借りたり、トレーニングを改善するために知識を共有したりすることができる。 このことは、クラス間の知識伝播を伴う効率的な条件付きGAN転送の問題を研究する動機となっている。 この問題に対処するために,従来のクラスから新しいクラスへの知識を明示的に伝達する新しいGAN転送手法を提案する。 鍵となるアイデアは、広く使われている条件付きバッチ正規化(bn)を強制して、新しいクラスのクラス固有の情報を古いクラスから学び、新しいクラス間で暗黙の知識を共有することである。 これにより、古いクラスから新しいクラスへの効率的な知識伝達が可能になり、BNパラメータは新しいクラスの数と直線的に増加する。 提案手法は, 効率的な条件付きGAN転送タスクに対して, 最先端の競合相手よりも明らかに優れていることを示す。 コードは以下の通り。 https://github.com/mshahbazi72/cGANTransfer

Generative adversarial networks (GANs) have shown impressive results in both unconditional and conditional image generation. In recent literature, it is shown that pre-trained GANs, on a different dataset, can be transferred to improve the image generation from a small target data. The same, however, has not been well-studied in the case of conditional GANs (cGANs), which provides new opportunities for knowledge transfer compared to unconditional setup. In particular, the new classes may borrow knowledge from the related old classes, or share knowledge among themselves to improve the training. This motivates us to study the problem of efficient conditional GAN transfer with knowledge propagation across classes. To address this problem, we introduce a new GAN transfer method to explicitly propagate the knowledge from the old classes to the new classes. The key idea is to enforce the popularly used conditional batch normalization (BN) to learn the class-specific information of the new classes from that of the old classes, with implicit knowledge sharing among the new ones. This allows for an efficient knowledge propagation from the old classes to the new classes, with the BN parameters increasing linearly with the number of new classes. The extensive evaluation demonstrates the clear superiority of the proposed method over state-of-the-art competitors for efficient conditional GAN transfer tasks. The code will be available at: https://github.com/mshahbazi72/cGANTransfer
翻訳日:2021-02-15 19:40:34 公開日:2021-02-12
# (参考訳) 神経逆テキスト正規化

Neural Inverse Text Normalization ( http://arxiv.org/abs/2102.06380v1 )

ライセンス: CC BY 4.0
Monica Sunkara, Chaitanya Shivade, Sravan Bodapati, Katrin Kirchhoff(参考訳) テキスト正規化技術の現状を探る貢献はいくつかあるが、逆テキスト正規化(ITN)の問題はいまだに未解明のままである。 最もよく知られているアプローチは、手動でキュレーションされたルールに依存し、したがってスケーラブルではない有限状態トランスデューサ(FST)ベースのモデルを利用します。 トランスベースのseq2seqモデルとFSTベースのテキスト正規化技術を活用したITNのための効率的で堅牢なニューラルネットワークソリューションを提案します。 言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。 次に、N Neural ITNとFSTを統合するためのハイブリッドフレームワークを提案し、本番環境における一般的な回復可能なエラーを克服する。 提案手法は,asr出力に対する不正確な摂動(インセプション,削除,置換)を最小化し,ドメインデータ外においても高品質を維持する。 事前トレーニングと融合したトランスフォーマーベースのモデルは、複数のデータセットにまたがって低いワールを達成し、英語、スペイン語、ドイツ語、イタリア語のデータセットのベースラインを上回ることができる。

While there have been several contributions exploring state of the art techniques for text normalization, the problem of inverse text normalization (ITN) remains relatively unexplored. The best known approaches leverage finite state transducer (FST) based models which rely on manually curated rules and are hence not scalable. We propose an efficient and robust neural solution for ITN leveraging transformer based seq2seq models and FST-based text normalization techniques for data preparation. We show that this can be easily extended to other languages without the need for a linguistic expert to manually curate them. We then present a hybrid framework for integrating Neural ITN with an FST to overcome common recoverable errors in production environments. Our empirical evaluations show that the proposed solution minimizes incorrect perturbations (insertions, deletions and substitutions) to ASR output and maintains high quality even on out of domain data. A transformer based model infused with pretraining consistently achieves a lower WER across several datasets and is able to outperform baselines on English, Spanish, German and Italian datasets.
翻訳日:2021-02-15 19:22:46 公開日:2021-02-12
# (参考訳) 言語モデルに関する多元的視点

Multiversal views on language models ( http://arxiv.org/abs/2102.06391v1 )

ライセンス: CC BY 4.0
Laria Reynolds and Kyle McDonell(参考訳) GPT-3のような言語モデルの好意性は、執筆における人間とAIのコラボレーションの可能性の新しい世界を開く。 本稿では,生成言語モデルがマルチバースジェネレータとして概念化される枠組みを提案する。 このフレームワークは、人間の想像力にも適用され、フィクションの読み書き方法の中心となります。 私たちは、人間の想像力とAIを組み合わせ、非線形フィクションを書き、探求し、理解することを可能にする新しい形のインターフェースを通じて、この共通点を探求することを求めます。 我々は,新しい多言語GPT-3支援書込みインタフェースを開発し,テストすることによって,このアプローチを積極的に進めることから得られた早期知見について論じる。

The virtuosity of language models like GPT-3 opens a new world of possibility for human-AI collaboration in writing. In this paper, we present a framework in which generative language models are conceptualized as multiverse generators. This framework also applies to human imagination and is core to how we read and write fiction. We call for exploration into this commonality through new forms of interfaces which allow humans to couple their imagination to AI to write, explore, and understand non-linear fiction. We discuss the early insights we have gained from actively pursuing this approach by developing and testing a novel multiversal GPT-3-assisted writing interface.
翻訳日:2021-02-15 19:10:59 公開日:2021-02-12
# (参考訳) EvoSplit: 複数ラベルデータセットを非結合なサブセットに分割する進化的アプローチ

EvoSplit: An evolutionary approach to split a multi-label data set into disjoint subsets ( http://arxiv.org/abs/2102.06154v2 )

ライセンス: CC BY 4.0
Francisco Florez-Revuelta(参考訳) 本稿では、教師付き機械学習のための非結合サブセットにマルチラベルデータセットを分散するための新しい進化的アプローチであるEvoSplitを提案する。 現在、データセットプロバイダは、データセットをランダムに分割するか、あるいは元のデータセットのラベル(またはラベルペア)分布を異なるサブセットに維持することを目的とした反復成層法を用いている。 同じ目的に続き、本論文はまず、これらの分布の類似性を独立に最大化する分割を求める、単目的進化的アプローチを提案する。 次に,両分布(ラベルとラベルペア)を同時に考慮し,類似性を最大化するために,新たな多目的進化アルゴリズムを提案する。 どちらのアプローチも、よく知られたマルチラベルデータセットと、現在コンピュータビジョンや機械学習アプリケーションで使われている大規模な画像データセットを使用して検証される。 EvoSplitは、ラベル分布、ラベルペア分布、例分布、折り畳みおよび折り畳みラベルペアの0の例に従って反復的な階層化と比較して、データセットの分割を改善します。

This paper presents a new evolutionary approach, EvoSplit, for the distribution of multi-label data sets into disjoint subsets for supervised machine learning. Currently, data set providers either divide a data set randomly or using iterative stratification, a method that aims to maintain the label (or label pair) distribution of the original data set into the different subsets. Following the same aim, this paper first introduces a single-objective evolutionary approach that tries to obtain a split that maximizes the similarity between those distributions independently. Second, a new multi-objective evolutionary algorithm is presented to maximize the similarity considering simultaneously both distributions (label and label pair). Both approaches are validated using well-known multi-label data sets as well as large image data sets currently used in computer vision and machine learning applications. EvoSplit improves the splitting of a data set in comparison to the iterative stratification following different measures: Label Distribution, Label Pair Distribution, Examples Distribution, folds and fold-label pairs with zero positive examples.
翻訳日:2021-02-15 19:04:49 公開日:2021-02-12
# (参考訳) Broad-UNet: マルチスケールな機能学習

Broad-UNet: Multi-scale feature learning for nowcasting tasks ( http://arxiv.org/abs/2102.06442v1 )

ライセンス: CC BY-SA 4.0
Jesus Garcia Fernandez, Siamak Mehrkanoon(参考訳) 気象予報は、気象成分を短期的に高分解能で予測するものである。 多くの人間の活動に影響を与えているため、現在正確なキャスティングが注目されている。 本稿では,衛星画像を用いた画像から画像への変換問題として,nowcasting問題を扱う。 我々は,この問題を解決するために,コアUNetモデルに基づく新しいアーキテクチャであるBroad-UNetを紹介した。 特に、提案されたbroad-unetは、arous spatial pyramid pooling (aspp)モジュールと同様に、非対称な並列畳み込みを備える。 このように、Broad-UNetモデルは、コアUNetモデルよりも少ないパラメータを使用しながら、マルチスケール機能を組み合わせることで、より複雑なパターンを学習します。 提案モデルは2つの異なるnowcastingタスクに適用される。 降水マップおよび雲カバー今のキャスト。 その結果,導入したBroad-UNetモデルでは,他のアーキテクチャと比較して精度の高い予測が可能であった。

Weather nowcasting consists of predicting meteorological components in the short term at high spatial resolutions. Due to its influence in many human activities, accurate nowcasting has recently gained plenty of attention. In this paper, we treat the nowcasting problem as an image-to-image translation problem using satellite imagery. We introduce Broad-UNet, a novel architecture based on the core UNet model, to efficiently address this problem. In particular, the proposed Broad-UNet is equipped with asymmetric parallel convolutions as well as Atrous Spatial Pyramid Pooling (ASPP) module. In this way, The the Broad-UNet model learns more complex patterns by combining multi-scale features while using fewer parameters than the core UNet model. The proposed model is applied on two different nowcasting tasks, i.e. precipitation maps and cloud cover nowcasting. The obtained numerical results show that the introduced Broad-UNet model performs more accurate predictions compared to the other examined architectures.
翻訳日:2021-02-15 18:01:36 公開日:2021-02-12
# (参考訳) スケーラブルベイジアン逆強化学習

Scalable Bayesian Inverse Reinforcement Learning ( http://arxiv.org/abs/2102.06483v1 )

ライセンス: CC BY 4.0
Alex J. Chan and Mihaela van der Schaar(参考訳) 報酬に対するベイズ的推論は、逆強化学習問題の誤った性質に対する理想的な解である。 残念なことに、現在の手法は、インナーループのMDPソルバを必要とするため、一般に小さな表のセッティングをはるかに超えておらず、また、それ自体をスケールする非ベイズ的手法でさえ、環境との広範囲な相互作用を必要とし、高い利害関係や医療のようなコストのかかる応用には不適当である。 本論文では,これらの2つの問題に対して,任意に複雑な状態空間にスケールする報酬に対する近似的後方分布を,その中間報酬に対する変動的アプローチにより,完全にオフラインで学習する手法である,近似的変分報酬推定学習(Approximate Variational Reward Imitation Learning, AVRIL)を提案する。 本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論と,集中型オフライン模倣学習アルゴリズムと競合するタスクパフォーマンスを実証する。

Bayesian inference over the reward presents an ideal solution to the ill-posed nature of the inverse reinforcement learning problem. Unfortunately current methods generally do not scale well beyond the small tabular setting due to the need for an inner-loop MDP solver, and even non-Bayesian methods that do themselves scale often require extensive interaction with the environment to perform well, being inappropriate for high stakes or costly applications such as healthcare. In this paper we introduce our method, Approximate Variational Reward Imitation Learning (AVRIL), that addresses both of these issues by jointly learning an approximate posterior distribution over the reward that scales to arbitrarily complicated state spaces alongside an appropriate policy in a completely offline manner through a variational approach to said latent reward. Applying our method to real medical data alongside classic control simulations, we demonstrate Bayesian reward inference in environments beyond the scope of current methods, as well as task performance competitive with focused offline imitation learning algorithms.
翻訳日:2021-02-15 17:33:00 公開日:2021-02-12
# (参考訳) ロックフォール検出のためのエンドツーエンドインテリジェントフレームワーク

End-to-End Intelligent Framework for Rockfall Detection ( http://arxiv.org/abs/2102.06491v1 )

ライセンス: CC BY 4.0
Thanasis Zoumpekas, Anna Puig, Maria Salam\'o, David Garc\'ia-Sell\'es, Laura Blanco Nu\~nez, Marta Guinau(参考訳) 岩石の検出は地質学の分野で重要な手順であり、関連するリスクを減らすのに役立ちます。 現在、地質学者は、地球レーザースキャナーやデジタルカメラなどのさまざまなキャプションデバイスから得られたポイントクラウドと画像データを使用して、ほぼ手動で岩石のイベントを特定します。 これらの技術で得られた点群の多時間的比較は、人間の専門知識やセンサーの感度などのいくつかの要因に依存する不正確さを示唆する岩石のイベントを識別するために面倒な視覚検査を必要とします。 本稿では,この課題に対処し,地質領域と意思決定支援システムの交差点で働く個人に対して,ロックフォールイベント検出のためのインテリジェントなフレームワークを提供する。 このような分析フレームワークの開発は、重要な研究課題を引き起こし、集中的な実験分析を正当化する。 特に,複数の機械学習アルゴリズムを用いて,ポイントクラウドデータのロックフォールクラスタを検出するインテリジェントシステムを提案する。 問題の極めて不均衡な性質から,複数のモデルと特徴選択手順を伴って,最先端の再サンプリング手法が数多く検討されている。 さまざまな機械学習パイプラインの組み合わせをベンチマークし、システムに組み込むためのよく知られたメトリクスを適用して比較した。 具体的には, 統計的および機械学習手法を開発し, 地上レーザースキャナから抽出した点雲データを, 地質学的文脈の異なる2つの異なるケーススタディ, スペインに分布するカステルフォリット・デ・ラ・ロカの玄武岩崖とコングロマリット・モンセラト・マッシフを用いて解析した。 実験データから,上述した機械学習パイプラインのいくつかは,山壁の落石事故を,実験的に証明された精度で検出できる可能性が示唆された。

Rockfall detection is a crucial procedure in the field of geology, which helps to reduce the associated risks. Currently, geologists identify rockfall events almost manually utilizing point cloud and imagery data obtained from different caption devices such as Terrestrial Laser Scanner or digital cameras. Multi-temporal comparison of the point clouds obtained with these techniques requires a tedious visual inspection to identify rockfall events which implies inaccuracies that depend on several factors such as human expertise and the sensibility of the sensors. This paper addresses this issue and provides an intelligent framework for rockfall event detection for any individual working in the intersection of the geology domain and decision support systems. The development of such an analysis framework poses significant research challenges and justifies intensive experimental analysis. In particular, we propose an intelligent system that utilizes multiple machine learning algorithms to detect rockfall clusters of point cloud data. Due to the extremely imbalanced nature of the problem, a plethora of state-of-the-art resampling techniques accompanied by multiple models and feature selection procedures are being investigated. Various machine learning pipeline combinations have been benchmarked and compared applying well-known metrics to be incorporated into our system. Specifically, we developed statistical and machine learning techniques and applied them to analyze point cloud data extracted from Terrestrial Laser Scanner in two distinct case studies, involving different geological contexts: the basaltic cliff of Castellfollit de la Roca and the conglomerate Montserrat Massif, both located in Spain. Our experimental data suggest that some of the above-mentioned machine learning pipelines can be utilized to detect rockfall incidents on mountain walls, with experimentally proven accuracy.
翻訳日:2021-02-15 17:14:56 公開日:2021-02-12
# (参考訳) 深部潜伏変動モデルによる因果効果の同定可能性に関する批判的考察

A Critical Look At The Identifiability of Causal Effects with Deep Latent Variable Models ( http://arxiv.org/abs/2102.06648v1 )

ライセンス: CC BY 4.0
Severi Rissanen, Pekka Marttinen(参考訳) 因果推論における深い潜在変数モデルの使用は、最近かなりの関心を集めているが、重要なオープンな質問は、それらの識別可能性である。 それらは有望な結果をもたらし、いくつかの単純なモデル定式化の識別可能性に理論が存在するが、因果効果が一般に潜伏変数と同一視できないことも分かっている。 本研究では, 因果効果変動オートエンコーダ(CEVAE)をケーススタディとして, 複数の合成および実世界のデータセットに基づく理論的考察と広範な実験により, 理論と実験結果のギャップについて検討する。 CEVAEはいくつかの単純なシナリオで確実に機能するように見えるが、モデルの本来の目的とは対照的に、不特定な潜在変数や複雑なデータ分布による正しい因果効果は特定できない。 その結果,識別可能性の問題は無視できないことが明らかとなり,今後の作業でさらに注意を払わなければならないと論じた。

Using deep latent variable models in causal inference has attracted considerable interest recently, but an essential open question is their identifiability. While they have yielded promising results and theory exists on the identifiability of some simple model formulations, we also know that causal effects cannot be identified in general with latent variables. We investigate this gap between theory and empirical results with theoretical considerations and extensive experiments under multiple synthetic and real-world data sets, using the causal effect variational autoencoder (CEVAE) as a case study. While CEVAE seems to work reliably under some simple scenarios, it does not identify the correct causal effect with a misspecified latent variable or a complex data distribution, as opposed to the original goals of the model. Our results show that the question of identifiability cannot be disregarded, and we argue that more attention should be paid to it in future work.
翻訳日:2021-02-15 16:39:43 公開日:2021-02-12
# (参考訳) Intelligent Software Web Agents: ギャップ分析

Intelligent Software Web Agents: A Gap Analysis ( http://arxiv.org/abs/2102.06607v1 )

ライセンス: CC BY 4.0
Sabrina Kirrane(参考訳) セマンティックウェブ技術は、特に知識表現、推論、データ統合に関して、その有効性を示しています。 しかし、マシン可読なWebデータをインテリジェントなソフトウェアWebエージェントによって自動的に操作できるオリジナルのセマンティックWebビジョンは、まだ実現されていない。 本稿では,既存の技術的課題と機会をよりよく理解するために,そのエージェントコミュニティからの要求やアーキテクチャの構成要素に関する研究によって導かれる,インテリジェントなソフトウェアWebエージェントの立場を考察する。 まず、インテリジェントなソフトウェアエージェントに関する要件とコアアーキテクチャコンポーネントの照合と要約から始めます。 その後、特定された要件を使用して、ユースケースシナリオを動機づけるセマンティックウェブエージェントのさらなる詳細化と、セマンティックWebエージェント文学に関する要件に関するさまざまな視点の要約の両方を行います。 最後に,ハイブリッドなセマンティックWebエージェントアーキテクチャを提案し,既存のセマンティックWeb標準が果たす役割について議論し,セマンティックWebエージェントのビジョンを現実化するのに役立つような,より広範なセマンティックWebコミュニティにおける既存の作業を指し示す。

Semantic web technologies have shown their effectiveness, especially when it comes to knowledge representation, reasoning, and data integrations. However, the original semantic web vision, whereby machine readable web data could be automatically actioned upon by intelligent software web agents, has yet to be realised. In order to better understand the existing technological challenges and opportunities, in this paper we examine the status quo in terms of intelligent software web agents, guided by research with respect to requirements and architectural components, coming from that agents community. We start by collating and summarising requirements and core architectural components relating to intelligent software agent. Following on from this, we use the identified requirements to both further elaborate on the semantic web agent motivating use case scenario, and to summarise different perspectives on the requirements when it comes to semantic web agent literature. Finally, we propose a hybrid semantic web agent architecture, discuss the role played by existing semantic web standards, and point to existing work in the broader semantic web community any beyond that could help us to make the semantic web agent vision a reality.
翻訳日:2021-02-15 16:12:48 公開日:2021-02-12
# (参考訳) 農業移動ロボットのシーン認識のための意味セグメンテーションのマルチソース擬似ラベル学習

Multi-source Pseudo-label Learning of Semantic Segmentation for the Scene Recognition of Agricultural Mobile Robots ( http://arxiv.org/abs/2102.06386v1 )

ライセンス: CC BY 4.0
Shigemichi Matsuzaki, Jun Miura and Hiroaki Masuzawa(参考訳) 本論文では, 農業用移動ロボットの環境認識のためのセマンティックセグメンテーションモデルを, 温室環境と異なる屋外シーンの公開データセットを利用した非監視領域適応により訓練する方法について述べる。 従来の意味セグメンテーションでは、ラベルは手動アノテーションによって与えられ、退屈で時間のかかる作業である。 手動アノテーションの必要性を回避する方法は、ラベル付きソースデータセットからラベル付きターゲットデータセットに知識を転送する非監視ドメイン適応(UDA)である。 セマンティックセグメンテーションのUDA手法のほとんどは、都市シーンの非フォトリアリスティック合成画像から実際のシーンへの適応タスクによって検証されている。 しかし、温室などの他のタイプの環境への適応の場合、この方法の有効性は十分に研究されていません。 さらに、このような環境に対して適切なソースデータセットを準備できるとは限らない。 本稿では,温室効果画像のモデルを学習するためのタスクとして,既存のudaのトレーニング手法を採用する。 外部画像の複数の公開データセットをソースデータセットとして利用するとともに,外観の異なるソースデータセットからの知識と,対象データセットからのラベルセットを転送することにより,疑似ラベル生成の簡便かつ効果的な方法を提案する。 本研究では,提案した擬似ラベル生成法と既存のトレーニング法を組み合わせることで,mIoUの最大14.3%の性能が,単一ソーストレーニングのベストスコアと比較して向上したことを実証した。

This paper describes a novel method of training a semantic segmentation model for environment recognition of agricultural mobile robots by unsupervised domain adaptation exploiting publicly available datasets of outdoor scenes that are different from our target environments i.e., greenhouses. In conventional semantic segmentation methods, the labels are given by manual annotation, which is a tedious and time-consuming task. A method to work around the necessity of the manual annotation is unsupervised domain adaptation (UDA) that transfer knowledge from labeled source datasets to unlabeled target datasets. Most of the UDA methods of semantic segmentation are validated by tasks of adaptation from non-photorealistic synthetic images of urban scenes to real ones. However, the effectiveness of the methods is not well studied in the case of adaptation to other types of environments, such as greenhouses. In addition, it is not always possible to prepare appropriate source datasets for such environments. In this paper, we adopt an existing training method of UDA to a task of training a model for greenhouse images. We propose to use multiple publicly available datasets of outdoor images as source datasets, and also propose a simple yet effective method of generating pseudo-labels by transferring knowledge from the source datasets that have different appearance and a label set from the target datasets. We demonstrate in experiments that by combining our proposed method of pseudo-label generation with the existing training method, the performance was improved by up to 14.3% of mIoU compared to the best score of the single-source training.
翻訳日:2021-02-15 16:11:47 公開日:2021-02-12
# (参考訳) 超解像度画像の多様なバージョンを幻覚する生成モデル

A Generative Model for Hallucinating Diverse Versions of Super Resolution Images ( http://arxiv.org/abs/2102.06624v1 )

ライセンス: CC BY 4.0
Mohamed Abderrahmen Abid, Ihsen Hedhli, Christian Gagn\'e(参考訳) 伝統的に、イメージスーパーレゾリューション技術の主な焦点は、低画質の画像から最も可能性が高い高品質な画像を1対1の低解像度マッピングを使って復元することである。 このようにして、特定の低解像度画像にマップする高分解能画像の有効なバージョンが一般に多数存在するという事実を無視します。 我々は、生成逆数モデルを用いて、同じ低解像度画像から異なる高解像度バージョンを得るという問題に取り組んでいる。 学習手法では,高分解能画像の学習に高周波数を活用し,これらの画像に含まれる構造情報を教師なしで保存・探索する。 CelebAデータセットの実験結果は、提案手法の有効性を検証し、低解像度画像から現実的および多様な高解像度画像の両方を生成することができる。

Traditionally, the main focus of image super-resolution techniques is on recovering the most likely high-quality images from low-quality images, using a one-to-one low- to high-resolution mapping. Proceeding that way, we ignore the fact that there are generally many valid versions of high-resolution images that map to a given low-resolution image. We are tackling in this work the problem of obtaining different high-resolution versions from the same low-resolution image using Generative Adversarial Models. Our learning approach makes use of high frequencies available in the training high-resolution images for preserving and exploring in an unsupervised manner the structural information available within these images. Experimental results on the CelebA dataset confirm the effectiveness of the proposed method, which allows the generation of both realistic and diverse high-resolution images from low-resolution images.
翻訳日:2021-02-15 15:51:04 公開日:2021-02-12
# (参考訳) Dual Hypergraph Convolutional Networks を用いた多重二部ネットワーク埋め込み

Multiplex Bipartite Network Embedding using Dual Hypergraph Convolutional Networks ( http://arxiv.org/abs/2102.06371v1 )

ライセンス: CC BY 4.0
Hansheng Xue and Luwei Yang and Vaibhav Rajan and Wen Jiang and Yi Wei and Yu Lin(参考訳) バイパートネットワークは、ノードが2つの異なるドメインから成り、領域間相互作用のみがエッジとして存在するグラフ構造である。 一般グラフからベクトルノード表現を学習するネットワーク埋め込み法は、等質なノードと異質なノードとエッジタイプの両方があり、その中には二部ネットワークの異なる特性をモデル化するものもある。 しかし、これらの手法は複数種類の相互作用(クリック、問い合わせ、購入など)とノード属性を持つ多重二部ネットワーク(eコマースなど)をモデル化するには不十分である。 ほとんどの実世界の多重二部ネットワークは疎結合であり、モデル化が難しい不均衡なノード分布を持つ。 本稿では、多重化二部グラフネットワークを2組の均一なハイパーグラフに変換するための教師なしデュアルハイパーグラフ畳み込みネットワーク(DualHGCN)モデルを開発し、スペクトルハイパーグラフ畳み込み演算子と、ドメイン内およびドメイン間の情報交換を促進するためのメッセージ間通信戦略を用いて、効率的なノード埋め込みを学習する。 リンク予測とノード分類タスクの4つの実世界のデータセットを用いてDualHGCNをベンチマークする。 広範な実験により,dualhgcnは最先端の手法を著しく上回っており,スパルシリティレベルや不均衡ノード分布に頑健であることが示された。

A bipartite network is a graph structure where nodes are from two distinct domains and only inter-domain interactions exist as edges. A large number of network embedding methods exist to learn vectorial node representations from general graphs with both homogeneous and heterogeneous node and edge types, including some that can specifically model the distinct properties of bipartite networks. However, these methods are inadequate to model multiplex bipartite networks (e.g., in e-commerce), that have multiple types of interactions (e.g., click, inquiry, and buy) and node attributes. Most real-world multiplex bipartite networks are also sparse and have imbalanced node distributions that are challenging to model. In this paper, we develop an unsupervised Dual HyperGraph Convolutional Network (DualHGCN) model that scalably transforms the multiplex bipartite network into two sets of homogeneous hypergraphs and uses spectral hypergraph convolutional operators, along with intra- and inter-message passing strategies to promote information exchange within and across domains, to learn effective node embedding. We benchmark DualHGCN using four real-world datasets on link prediction and node classification tasks. Our extensive experiments demonstrate that DualHGCN significantly outperforms state-of-the-art methods, and is robust to varying sparsity levels and imbalanced node distributions.
翻訳日:2021-02-15 15:27:09 公開日:2021-02-12
# (参考訳) ウィキペディアの大規模きめ細かいコンテキスト広告分類器のブートストラップ

Bootstrapping Large-Scale Fine-Grained Contextual Advertising Classifier from Wikipedia ( http://arxiv.org/abs/2102.06429v1 )

ライセンス: CC BY 4.0
Yiping Jin, Vishakha Kadam, Dittaya Wanvarie(参考訳) コンテキスト広告は、広告主に広告に最も関連するコンテキストをターゲットにする機会を提供します。 ただし、"automotive" と "sport" の代わりに "coupe" と "hatchback" といった細かいカテゴリを使ってページコンテンツをターゲットにしなければ、そのパワーは十分に利用できません。 広く使われている広告コンテンツ分類(IAB分類)は、23の粗粒度と355の細粒度からなる。 カテゴリが多ければ多いほど、教師付き分類モデルを構築するためのトレーニングドキュメントの収集や、ルールベースの分類システムにおける専門家によるルールの作成が極めて困難になる。 さらに細かな分類では、異なる分類が重なり合うか共起することが多く、正確な分類は困難である。 本研究では,ウィキペディアのカテゴリグラフをタップして,大規模細粒テキスト分類の課題に取り組む手法であるwiki2catを提案する。 IAB分類のカテゴリは、最初にグラフのカテゴリノードにマップされます。 その後、ラベルはグラフ全体に伝播し、テキスト分類器を誘導するラベル付きWikipedia文書のリストを取得します。 この方法は、手書きの文書や手書きのルールやキーワードを必要としないため、大規模な分類問題に最適です。 提案手法は,様々な学習ベースおよびキーワードベースラインでベンチマークし,公開データセットと300以上の細粒度カテゴリを含む新しいデータセットの競合性能を示す。

Contextual advertising provides advertisers with the opportunity to target the context which is most relevant to their ads. However, its power cannot be fully utilized unless we can target the page content using fine-grained categories, e.g., "coupe" vs. "hatchback" instead of "automotive" vs. "sport". The widely used advertising content taxonomy (IAB taxonomy) consists of 23 coarse-grained categories and 355 fine-grained categories. With the large number of categories, it becomes very challenging either to collect training documents to build a supervised classification model, or to compose expert-written rules in a rule-based classification system. Besides, in fine-grained classification, different categories often overlap or co-occur, making it harder to classify accurately. In this work, we propose wiki2cat, a method to tackle the problem of large-scaled fine-grained text classification by tapping on Wikipedia category graph. The categories in IAB taxonomy are first mapped to category nodes in the graph. Then the label is propagated across the graph to obtain a list of labeled Wikipedia documents to induce text classifiers. The method is ideal for large-scale classification problems since it does not require any manually-labeled document or hand-curated rules or keywords. The proposed method is benchmarked with various learning-based and keyword-based baselines and yields competitive performance on both publicly available datasets and a new dataset containing more than 300 fine-grained categories.
翻訳日:2021-02-15 15:05:18 公開日:2021-02-12
# (参考訳) スマートフォンにおけるマルウェア検出とデータ盗難分類のための非侵入型機械学習ソリューション

A Non-Intrusive Machine Learning Solution for Malware Detection and Data Theft Classification in Smartphones ( http://arxiv.org/abs/2102.06511v1 )

ライセンス: CC BY 4.0
Sai Vishwanath Venkatesh, Prasanna D. Kumaran, Joish J Bosco, Pravin R. Kumaar, Vineeth Vijayaraghavan(参考訳) スマートフォンには、コンピューターやラップトップよりも敏感で個人的な情報が含まれている。 スマートフォン機能の汎用性の増加に伴い、より多くのデータが脆弱になり、攻撃者に露出しています。 モバイルマルウェア攻撃に成功すれば、ユーザーの位置情報、写真、銀行情報さえ盗むことができる。 攻撃後戦略の欠如により、企業はデータ盗難により事業から撤退するリスクも負う。 したがって、スマートフォンのマルウェア侵入を検出するだけでなく、盗まれたデータを識別して評価し、回復を助け、将来の攻撃を防ぐ必要があります。 本稿では,マルウェア侵入を検知するだけでなく,監視対象のアプリで盗まれたデータの種類を識別する,アクセス可能な非侵入型機械学習ソリューションを提案する。 公開データ収集フレームワークSherLockを使用して取得したAndroidの使用データでこれを行います。 我々は,同一フレームワークを用いて収集した実世界データに対して,複数のユーザを対象としたアーキテクチャの性能をテストする。 我々のアーキテクチャは、マルウェアの検出において9%未満の不正確さを示し、盗まれたデータの種類について83%の確度で分類することができる。

Smartphones contain information that is more sensitive and personal than those found on computers and laptops. With an increase in the versatility of smartphone functionality, more data has become vulnerable and exposed to attackers. Successful mobile malware attacks could steal a user's location, photos, or even banking information. Due to a lack of post-attack strategies firms also risk going out of business due to data theft. Thus, there is a need besides just detecting malware intrusion in smartphones but to also identify the data that has been stolen to assess, aid in recovery and prevent future attacks. In this paper, we propose an accessible, non-intrusive machine learning solution to not only detect malware intrusion but also identify the type of data stolen for any app under supervision. We do this with Android usage data obtained by utilising publicly available data collection framework- SherLock. We test the performance of our architecture for multiple users on real-world data collected using the same framework. Our architecture exhibits less than 9% inaccuracy in detecting malware and can classify with 83% certainty on the type of data that is being stolen.
翻訳日:2021-02-15 14:53:01 公開日:2021-02-12
# (参考訳) コーデックへのエンハンシング:ベクトル量子オートエンコーダによる雑音ロバスト音声符号化

Enhancing into the codec: Noise Robust Speech Coding with Vector-Quantized Autoencoders ( http://arxiv.org/abs/2102.06610v1 )

ライセンス: CC BY 4.0
Jonah Casebeer, Vinjai Vale, Umut Isik, Jean-Marc Valin, Ritwik Giri, Arvindh Krishnaswamy(参考訳) 離散化ニューラルオートエンコーダに基づくオーディオコーデックが最近開発され、同等の品質の音声出力に対して、かなり高い圧縮レベルを提供することが示された。 しかし、これらのモデルは音声コンテンツと密結合しており、雑音下で意図しない出力を生成する。 WaveRNNデコーダを搭載したVQ-VAEオートエンコーダをベースに、コンプレッサーエンハンサーエンコーダと付属デコーダを開発し、ノイズの多い条件下での動作を示します。 また、コンプレッサーエンハンサーモデルは、クリーンな音声のみに訓練されたコンプレッサーモデルよりもクリーンな音声入力で優れた性能を発揮します。

Audio codecs based on discretized neural autoencoders have recently been developed and shown to provide significantly higher compression levels for comparable quality speech output. However, these models are tightly coupled with speech content, and produce unintended outputs in noisy conditions. Based on VQ-VAE autoencoders with WaveRNN decoders, we develop compressor-enhancer encoders and accompanying decoders, and show that they operate well in noisy conditions. We also observe that a compressor-enhancer model performs better on clean speech inputs than a compressor model trained only on clean speech.
翻訳日:2021-02-15 14:43:22 公開日:2021-02-12
# (参考訳) パーソナライズド・ビジュアライゼーション

Personalized Visualization Recommendation ( http://arxiv.org/abs/2102.06343v1 )

ライセンス: CC BY 4.0
Xin Qian, Ryan A. Rossi, Fan Du, Sungchul Kim, Eunyee Koh, Sana Malik, Tak Yeon Lee, Nesreen K. Ahmed(参考訳) 視覚化の推奨作業は、実際のユーザと過去の視覚化フィードバックではなく、基盤となるデータセットに基づいて視覚化をスコアリングすることのみに焦点を当てています。 これらのシステムはすべてのユーザに対して同じ視覚化を推奨するが、基本的なユーザの関心、意図、視覚化の好みは根本的に異なるが、極めて重要である。 本研究では,パーソナライズド・ビジュアライゼーション・レコメンデーションの問題を正式に導入し,それを解決するための汎用学習フレームワークを提案する。 特に,過去の可視化インタラクション(閲覧,クリック,手作業による生成など)とそれらの可視化データに基づいて,個々のユーザに対してパーソナライズされた可視化を推奨する。 さらに重要なのは、完全に異なるデータセットから視覚化が生成される場合でも、フレームワークが他のユーザに関連する視覚化から学ぶことができることだ。 実験は、特定のユーザーの意図や好みに合わせて高品質の視覚化推奨につながるアプローチの有効性を実証します。 この新しい問題の研究を支援するため、ユーザ中心の可視化コーパスをリリースし、17.4kのユーザが230万の属性と32kのユーザ生成視覚化を備えた94kのデータセットを探索した。

Visualization recommendation work has focused solely on scoring visualizations based on the underlying dataset and not the actual user and their past visualization feedback. These systems recommend the same visualizations for every user, despite that the underlying user interests, intent, and visualization preferences are likely to be fundamentally different, yet vitally important. In this work, we formally introduce the problem of personalized visualization recommendation and present a generic learning framework for solving it. In particular, we focus on recommending visualizations personalized for each individual user based on their past visualization interactions (e.g., viewed, clicked, manually created) along with the data from those visualizations. More importantly, the framework can learn from visualizations relevant to other users, even if the visualizations are generated from completely different datasets. Experiments demonstrate the effectiveness of the approach as it leads to higher quality visualization recommendations tailored to the specific user intent and preferences. To support research on this new problem, we release our user-centric visualization corpus consisting of 17.4k users exploring 94k datasets with 2.3 million attributes and 32k user-generated visualizations.
翻訳日:2021-02-15 14:24:13 公開日:2021-02-12
# (参考訳) 物理インフォームドグラフィカルニューラルネットワークによる電力系統のパラメータと状態推定

Physics-Informed Graphical Neural Network for Parameter & State Estimations in Power Systems ( http://arxiv.org/abs/2102.06349v1 )

ライセンス: CC BY 4.0
Laurent Pagnier and Michael Chertkov(参考訳) パラメータ推定(PE)と状態推定(SE)はシステム工学における最も幅広いタスクである。 測定が到着すると、自動的に、迅速かつ頻繁に行う必要があります。 ディープラーニング(dl)は課題に取り組むという約束を持っているが、これまでのところ、電力システムにおけるpeとseが懸念されているため、(a)電気の物理の欠如、解釈、(b) 運用体制においてデータが不足しているため、dlはシステムオペレーターの信頼を得られなかった。 そこで本論文では,電力システムの物理モデリングをGNN(Graphical Neural Networks)に組み込むハイブリッド方式を提案する。 PE と SE の信頼性の高い DL への進展を実現するため,実効電力ラインのアプタンスや NN パラメータなどの実効電力フロー(EPF)モデル内の物理的,解釈可能なパラメータを再構成し,非観測要素を暗黙的に表現する物理インフォームド手法である Power-GNN を構築した。 実験では、数千の負荷と数百の発電機を含む、さまざまな現実的な電力ネットワーク上でPower-GNNをテストする。 本稿では,Power-GNNがEPF物理を知らないバニラNN方式よりも優れていることを示す。

Parameter Estimation (PE) and State Estimation (SE) are the most wide-spread tasks in the system engineering. They need to be done automatically, fast and frequently, as measurements arrive. Deep Learning (DL) holds the promise of tackling the challenge, however in so far, as PE and SE in power systems is concerned, (a) DL did not win trust of the system operators because of the lack of the physics of electricity based, interpretations and (b) DL remained illusive in the operational regimes were data is scarce. To address this, we present a hybrid scheme which embeds physics modeling of power systems into Graphical Neural Networks (GNN), therefore empowering system operators with a reliable and explainable real-time predictions which can then be used to control the critical infrastructure. To enable progress towards trustworthy DL for PE and SE, we build a physics-informed method, named Power-GNN, which reconstructs physical, thus interpretable, parameters within Effective Power Flow (EPF) models, such as admittances of effective power lines, and NN parameters, representing implicitly unobserved elements of the system. In our experiments, we test the Power-GNN on different realistic power networks, including these with thousands of loads and hundreds of generators. We show that the Power-GNN outperforms vanilla NN scheme unaware of the EPF physics.
翻訳日:2021-02-15 14:22:54 公開日:2021-02-12
# (参考訳) 音声感情認識のための教師なし学習

Contrastive Unsupervised Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2102.06357v1 )

ライセンス: CC BY 4.0
Mao Li, Bo Yang, Joshua Levy, Andreas Stolcke, Viktor Rozgic, Spyros Matsoukas, Constantinos Papayiannis, Daniel Bone, Chao Wang(参考訳) 音声感情認識(SER)は、より自然な人間と機械のコミュニケーションを可能にする重要な技術である。 しかし、SERは長い間、公開の大規模なラベル付きデータセットの欠如に悩まされてきた。 この問題を回避するために、ラベルなしデータセット上の教師なし表現学習がSERにどのように役立つかを調査します。 コントラスト予測符号化 (cpc) 法はラベルなしデータセットから有意な表現を学習でき, 感情認識性能が向上することを示す。 本実験では,IEMOCAPの全ての感情的プリミティブ(活性化,価率,支配)に対する最新コンコーダンス相関係数(CCC)性能を達成した。 また, MSP-Podcastデータセットでは, ベースラインと比較し, 大幅な性能改善を行った。

Speech emotion recognition (SER) is a key technology to enable more natural human-machine communication. However, SER has long suffered from a lack of public large-scale labeled datasets. To circumvent this problem, we investigate how unsupervised representation learning on unlabeled datasets can benefit SER. We show that the contrastive predictive coding (CPC) method can learn salient representations from unlabeled datasets, which improves emotion recognition performance. In our experiments, this method achieved state-of-the-art concordance correlation coefficient (CCC) performance for all emotion primitives (activation, valence, and dominance) on IEMOCAP. Additionally, on the MSP- Podcast dataset, our method obtained considerable performance improvements compared to baselines.
翻訳日:2021-02-15 14:03:02 公開日:2021-02-12
# (参考訳) 敵に対するバックアップ戦略の深層強化学習

Deep Reinforcement Learning for Backup Strategies against Adversaries ( http://arxiv.org/abs/2102.06632v1 )

ライセンス: CC BY 4.0
Pascal Debus, Nicolas M\"uller, Konstantin B\"ottinger(参考訳) サイバーセキュリティにおける多くの防衛措置は、いまだにヒューリスティック、標準手順のカタログ、ベストプラクティスに支配されている。 データバックアップ戦略を考慮し,脅威モデルと意思決定問題を数学的にモデル化することを目指す。 確率的プロセスの言語でバックアップ戦略を策定することで、最適な防御を見つけるという課題を強化学習問題に変換できます。 これにより、防衛プロセスの計画を最適に支援することを学ぶ自律エージェントを訓練できます。 特に、最適なバックアップスキームを見つけるという問題に対処する:$k$のバックアップデバイスが与えられた場合、その目標は、一度にデータに感染できる攻撃者に対して防御することであり、その後にそれを破壊または暗号化することを選択し、同時に複数のバックアップを破損させることである。 この設定では、常に古いバックアップを置き換える通常のラウンドロビンスキームは、回避可能な露出に関してもはや最適ではない。 そこで, 防衛戦略を見出すために, この問題を離散連続行動空間のハイブリッドなマルコフ決定過程としてモデル化し, 深い決定論的政策勾配を用いて解いた。 提案アルゴリズムは, 各種露光測定値に対して, 既存のスキームと一致する, 超過するストレージデバイス更新スキームを探索できることを示した。

Many defensive measures in cyber security are still dominated by heuristics, catalogs of standard procedures, and best practices. Considering the case of data backup strategies, we aim towards mathematically modeling the underlying threat models and decision problems. By formulating backup strategies in the language of stochastic processes, we can translate the challenge of finding optimal defenses into a reinforcement learning problem. This enables us to train autonomous agents that learn to optimally support planning of defense processes. In particular, we tackle the problem of finding an optimal backup scheme in the following adversarial setting: Given $k$ backup devices, the goal is to defend against an attacker who can infect data at one time but chooses to destroy or encrypt it at a later time, potentially also corrupting multiple backups made in between. In this setting, the usual round-robin scheme, which always replaces the oldest backup, is no longer optimal with respect to avoidable exposure. Thus, to find a defense strategy, we model the problem as a hybrid discrete-continuous action space Markov decision process and subsequently solve it using deep deterministic policy gradients. We show that the proposed algorithm can find storage device update schemes which match or exceed existing schemes with respect to various exposure metrics.
翻訳日:2021-02-15 13:54:23 公開日:2021-02-12
# PAC-BUS:PAC-Bayesによるメタ学習境界と均一安定性

PAC-BUS: Meta-Learning Bounds via PAC-Bayes and Uniform Stability ( http://arxiv.org/abs/2102.06589v1 )

ライセンス: Link先を確認
Alec Farid and Anirudha Majumdar(参考訳) 我々は、メタラーニングの文脈において強い一般化の保証を提供するという問題に動機づけられている。 既存の一般化境界は、比較的単純な設定でも評価または空の保証を提供することが困難である。 我々は「ベース」と「メタ」のレベルでの一般化の質的に異なる課題に対処するために、2つの異なる一般化フレームワークを用いて、勾配に基づくメタ学習にほぼ正しい(pac)バウンドを導出する。 ベースレベルで一様安定なアルゴリズムとメタレベルでのPAC-Bayesフレームワークとのバウンドにバウンドを用いる。 その結果、ベース学習者が素早く適応するとよりタイトなPACバウンドとなり、それは正確にメタ学習の目標です。 我々の境界は、単位球面上のおもちゃの非凸問題やテキストベースの分類例において、他の境界よりも厳密な保証を提供する。 また,境界がゆるい設定のバウンドに動機づけられた実用的な正規化スキームを示し,ベースライン手法よりも性能が向上することを示す。

We are motivated by the problem of providing strong generalization guarantees in the context of meta-learning. Existing generalization bounds are either challenging to evaluate or provide vacuous guarantees in even relatively simple settings. We derive a probably approximately correct (PAC) bound for gradient-based meta-learning using two different generalization frameworks in order to deal with the qualitatively different challenges of generalization at the "base" and "meta" levels. We employ bounds for uniformly stable algorithms at the base level and bounds from the PAC-Bayes framework at the meta level. The result is a PAC-bound that is tighter when the base learner adapts quickly, which is precisely the goal of meta-learning. We show that our bound provides a tighter guarantee than other bounds on a toy non-convex problem on the unit sphere and a text-based classification example. We also present a practical regularization scheme motivated by the bound in settings where the bound is loose and demonstrate improved performance over baseline techniques.
翻訳日:2021-02-15 13:25:29 公開日:2021-02-12
# 動的ユーザ関心のモデリング:ニューラルマトリックス因子化アプローチ

Modeling Dynamic User Interests: A Neural Matrix Factorization Approach ( http://arxiv.org/abs/2102.06602v1 )

ライセンス: Link先を確認
Paramveer Dhillon and Sinan Aral(参考訳) 近年,ユーザのオンラインコンテンツ消費パターンを理解することへの関心が高まっている。 しかし、そのようなデータの非構造化、高次元、動的性質は、貴重な洞察の抽出を困難にします。 本稿では,行列ファクタリゼーションの単純化とニューラルネットワークの柔軟性を組み合わせて,消費者のオンライン消費パターンに関連する膨大なテキストデータコレクションから非線形パターンを効率的に抽出するモデルを提案する。 本モデルでは,ユーザのコンテンツ消費経路を,動的興味をモデル化するために使用される非線形ユーザとコンテンツファクタに分解する。 この自然な分解により、各ユーザのコンテンツ消費ジャーニーを、基礎となるコンテンツ属性のセットに対する動的確率重み付けで要約することができます。 モデルは推定が高速で、解釈が簡単で、外部データソースを経験的事前として活用することができる。 これらの利点により、この手法は現代のデータセットの課題によく適合します。 当社のモデルを使って、ボストン・グローブ読者の5年間での動的ニュース消費利益を理解する。 クラウドソースによる評価を含む詳細な質的研究は、ニュアンスとコヒーレントな消費パターンを正確に識別するモデルの能力を強調します。 これらの結果は、いくつかの競争力のあるベースライン方法よりも優れた堅牢な予測性能によってサポートされています。

In recent years, there has been significant interest in understanding users' online content consumption patterns. But, the unstructured, high-dimensional, and dynamic nature of such data makes extracting valuable insights challenging. Here we propose a model that combines the simplicity of matrix factorization with the flexibility of neural networks to efficiently extract nonlinear patterns from massive text data collections relevant to consumers' online consumption patterns. Our model decomposes a user's content consumption journey into nonlinear user and content factors that are used to model their dynamic interests. This natural decomposition allows us to summarize each user's content consumption journey with a dynamic probabilistic weighting over a set of underlying content attributes. The model is fast to estimate, easy to interpret and can harness external data sources as an empirical prior. These advantages make our method well suited to the challenges posed by modern datasets. We use our model to understand the dynamic news consumption interests of Boston Globe readers over five years. Thorough qualitative studies, including a crowdsourced evaluation, highlight our model's ability to accurately identify nuanced and coherent consumption patterns. These results are supported by our model's superior and robust predictive performance over several competitive baseline methods.
翻訳日:2021-02-15 13:25:10 公開日:2021-02-12
# sparse-push: 非iidデータセットを用いた有向および時変グラフ上のコミュニケーションとエネルギー効率の高い分散学習

Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed Learning over Directed & Time-Varying Graphs with non-IID Datasets ( http://arxiv.org/abs/2102.05715v2 )

ライセンス: Link先を確認
Sai Aparna Aketi, Amandeep Singh, Jan Rabaey(参考訳) 現在のディープラーニング(DL)システムは、利用可能なトレーニングデータの量を制限する集中型コンピューティングパラダイムに依存し、システムのレイテンシを高め、プライバシーとセキュリティの制約を追加します。 ピアツーピアのワイヤレス接続エッジデバイス上でのDLモデルの分散および分散トレーニングによって実現されるオンデバイス学習は、上記の制限を軽減するだけでなく、DLモデルを必要とする次世代のアプリケーションが環境から継続的に相互作用して学習できるようにする。 しかし、これは、デバイス間の通信量を最小限に抑えつつ、非IIDデータ分布に耐性があると同時に、時間変動および指向ピアツーピアグラフ構造を通じてDLモデルを訓練する新しいトレーニングアルゴリズムの開発を必要とする。 本研究では、ピアツーピア、ディレクティブ、時間変化のあるグラフトポロジのトレーニングを支援する通信効率の良い分散分散トレーニングアルゴリズムであるスパースプッシュを提案する。 提案アルゴリズムは,CIFAR-10データセット上でResNet-20やVGG11などの各種DLモデルをトレーニングする場合,通信性能がわずか1%低下した466倍の低減を実現する。 さらに,非IIDデータセットにおいて,通信圧縮がパフォーマンスの大幅な低下につながることを実証し,同様のレベルの通信圧縮を維持しながら,この性能低下を回復するSkew-Compensated Sparse Pushアルゴリズムを提案する。

Current deep learning (DL) systems rely on a centralized computing paradigm which limits the amount of available training data, increases system latency, and adds privacy and security constraints. On-device learning, enabled by decentralized and distributed training of DL models over peer-to-peer wirelessly connected edge devices, not only alleviate the above limitations but also enable next-gen applications that need DL models to continuously interact and learn from their environment. However, this necessitates the development of novel training algorithms that train DL models over time-varying and directed peer-to-peer graph structures while minimizing the amount of communication between the devices and also being resilient to non-IID data distributions. In this work we propose, Sparse-Push, a communication efficient decentralized distributed training algorithm that supports training over peer-to-peer, directed, and time-varying graph topologies. The proposed algorithm enables 466x reduction in communication with only 1% degradation in performance when training various DL models such as ResNet-20 and VGG11 over the CIFAR-10 dataset. Further, we demonstrate how communication compression can lead to significant performance degradation in-case of non-IID datasets, and propose Skew-Compensated Sparse Push algorithm that recovers this performance drop while maintaining similar levels of communication compression.
翻訳日:2021-02-15 13:24:55 公開日:2021-02-12
# 高速かつメモリ効率の良いスペクトル正規化が可能な奥行き分離可能な畳み込み

Depthwise Separable Convolutions Allow for Fast and Memory-Efficient Spectral Normalization ( http://arxiv.org/abs/2102.06496v1 )

ライセンス: Link先を確認
Christina Runkel, Christian Etmann, Michael M\"oller, Carola-Bibiane Sch\"onlieb(参考訳) モデルの増加は、ニューラルネットワークの畳み込み層のスペクトル規範の制御を必要とする。 トレーニング中に上界を推定し、強制するための方法がたくさんあるが、一般的には記憶と時間の両方でコストがかかる。 本研究では、深度分離可能な畳み込みのスペクトル正規化のための非常に単純な方法を紹介し、無視可能な計算とメモリオーバーヘッドを導入する。 MobileNetV2 のような標準アーキテクチャを用いた画像分類タスクに対する手法の有効性を実証する。

An increasing number of models require the control of the spectral norm of convolutional layers of a neural network. While there is an abundance of methods for estimating and enforcing upper bounds on those during training, they are typically costly in either memory or time. In this work, we introduce a very simple method for spectral normalization of depthwise separable convolutions, which introduces negligible computational and memory overhead. We demonstrate the effectiveness of our method on image classification tasks using standard architectures like MobileNetV2.
翻訳日:2021-02-15 13:24:30 公開日:2021-02-12
# LSTMに基づくクロス発話情報表現を用いたトランスフォーマー言語モデル

Transformer Language Models with LSTM-based Cross-utterance Information Representation ( http://arxiv.org/abs/2102.06474v1 )

ライセンス: Link先を確認
G. Sun, C. Zhang, P. C. Woodland(参考訳) クロス発話情報の効果的な組み込みは、自動音声認識(ASR)のための言語モデル(LM)を改善する可能性がある。 本稿では,Transformer LM (TLM) のより強力で堅牢なクロス発話表現を抽出するために,長期メモリ (LSTM) LM に隠された状態を使用する R-TLM を提案する。 クロス発話情報をエンコードするために、R-TLMは、トランスフォーマーブロックの一部にセグメントワイズ再発と共にLSTMモジュールを組み込む。 LSTMモジュール出力に加えて,LSTMモジュールをバイパスする融合層を用いたショートカット接続についても検討した。 提案システムは,AMI会議コーパス,Eval2000,RT03電話会話評価セットで評価された。 最高のR-TLMは、単発TLMベースラインに対して0.9%、0.6%、絶対WERを0.8%、AMI評価セット上では0.5%、0.3%、0.2%の絶対WERをそれぞれ削減した。 Eval2000とRT03の改良は重要なテストによってさらに支持された。 R-TLMは、認識エラーが起こりやすい単語のLMスコアを改善することが判明した。 R-TLM WERはLSTM-LMとの補間によりさらに低減できます。

The effective incorporation of cross-utterance information has the potential to improve language models (LMs) for automatic speech recognition (ASR). To extract more powerful and robust cross-utterance representations for the Transformer LM (TLM), this paper proposes the R-TLM which uses hidden states in a long short-term memory (LSTM) LM. To encode the cross-utterance information, the R-TLM incorporates an LSTM module together with a segment-wise recurrence in some of the Transformer blocks. In addition to the LSTM module output, a shortcut connection using a fusion layer that bypasses the LSTM module is also investigated. The proposed system was evaluated on the AMI meeting corpus, the Eval2000 and the RT03 telephone conversation evaluation sets. The best R-TLM achieved 0.9%, 0.6%, and 0.8% absolute WER reductions over the single-utterance TLM baseline, and 0.5%, 0.3%, 0.2% absolute WER reductions over a strong cross-utterance TLM baseline on the AMI evaluation set, Eval2000 and RT03 respectively. Improvements on Eval2000 and RT03 were further supported by significance tests. R-TLMs were found to have better LM scores on words where recognition errors are more likely to occur. The R-TLM WER can be further reduced by interpolation with an LSTM-LM.
翻訳日:2021-02-15 13:24:21 公開日:2021-02-12
# ユニバーサルグラフ上の関係抽出を改善するための2つのトレーニング戦略

Two Training Strategies for Improving Relation Extraction over Universal Graph ( http://arxiv.org/abs/2102.06540v1 )

ライセンス: Link先を確認
Qin Dai, Naoya Inoue, Ryo Takahashi and Kentaro Inui(参考訳) 本稿では,知識グラフ (kg) と大規模テキストコレクションを組み合わせた汎用グラフ (ug) の利用により,遠隔教師付き関係抽出 (ds-re) がいかに有用かを検討する。 UGを用いたDS-REの現状のニューラルモデルの直接的な拡張は、パフォーマンスの低下につながる可能性がある。 We first report that this degradation is associated with the difficulty in learning a UG and then propose two training strategies: (1) Path Type Adaptive Pretraining, which sequentially trains the model with different types of UG paths so as to prevent the reliance on a single type of UG path; and (2) Complexity Ranking Guided Attention mechanism, which restricts the attention span according to the complexity of a UG path so as to force the model to extract features not only from simple UG paths but also from complex ones. バイオメディカルおよびNYT10データセットの実験結果は、我々の手法の堅牢性を証明し、NYT10データセットの新たな最先端結果を達成する。 この論文で使用されるコードとデータセットは、https://github.com/baodaiqin/UGDSRE.comで入手できる。

This paper explores how the Distantly Supervised Relation Extraction (DS-RE) can benefit from the use of a Universal Graph (UG), the combination of a Knowledge Graph (KG) and a large-scale text collection. A straightforward extension of a current state-of-the-art neural model for DS-RE with a UG may lead to degradation in performance. We first report that this degradation is associated with the difficulty in learning a UG and then propose two training strategies: (1) Path Type Adaptive Pretraining, which sequentially trains the model with different types of UG paths so as to prevent the reliance on a single type of UG path; and (2) Complexity Ranking Guided Attention mechanism, which restricts the attention span according to the complexity of a UG path so as to force the model to extract features not only from simple UG paths but also from complex ones. Experimental results on both biomedical and NYT10 datasets prove the robustness of our methods and achieve a new state-of-the-art result on the NYT10 dataset. The code and datasets used in this paper are available at https://github.com/baodaiqin/UGDSRE.
翻訳日:2021-02-15 13:23:38 公開日:2021-02-12
# SCOUT: 自動車とVRUの軌道予測のためのソーシャル・コナンシスタント・アンダー・タンダブルグラフ注意ネットワーク

SCOUT: Socially-COnsistent and UndersTandable Graph Attention Network for Trajectory Prediction of Vehicles and VRUs ( http://arxiv.org/abs/2102.06361v1 )

ライセンス: Link先を確認
Sandra Carrasco, David Fern\'andez Llorca, Miguel \'Angel Sotelo(参考訳) 自律走行車は様々な条件下で動的に変化する環境を移動し、周囲の物体に継続的に影響される。 エージェント間の相互作用のモデリングは、他のエージェントの振る舞いを正確に予測し、安全で快適な動作計画を達成するために不可欠である。 本研究では,対話をモデル化するためのグラフとしてシーンのフレキシブルで汎用的な表現を用い,交通条件が混在した車と車載道路利用者(VRU)の社会的に一貫性のある軌跡を予測する新しい意識型グラフニューラルネットワークSCOUTを提案する。 InDおよびApolloScape Trajectoryベンチマークにおける既存の最先端手法よりも優れた性能を実現し、3つの異なる注意機構を探索し、鳥眼ビューと車載都市データの両方を用いて我々のスキームをテストする。 さらに、ラウンドデータセットのまったく新しいシナリオでテストすることで、モデルの柔軟性と転送性を評価します。 最終予測における各相互作用の重要性と影響は、統合勾配技術および学んだ注意の視覚化によって検討される。

Autonomous vehicles navigate in dynamically changing environments under a wide variety of conditions, being continuously influenced by surrounding objects. Modelling interactions among agents is essential for accurately forecasting other agents' behaviour and achieving safe and comfortable motion planning. In this work, we propose SCOUT, a novel Attention-based Graph Neural Network that uses a flexible and generic representation of the scene as a graph for modelling interactions, and predicts socially-consistent trajectories of vehicles and Vulnerable Road Users (VRUs) under mixed traffic conditions. We explore three different attention mechanisms and test our scheme with both bird-eye-view and on-vehicle urban data, achieving superior performance than existing state-of-the-art approaches on InD and ApolloScape Trajectory benchmarks. Additionally, we evaluate our model's flexibility and transferability by testing it under completely new scenarios on RounD dataset. The importance and influence of each interaction in the final prediction is explored by means of Integrated Gradients technique and the visualization of the attention learned.
翻訳日:2021-02-15 13:23:21 公開日:2021-02-12
# VitrAI -- 実世界で説明可能なAIを適用する

VitrAI -- Applying Explainable AI in the Real World ( http://arxiv.org/abs/2102.06518v1 )

ライセンス: Link先を確認
Marc Hanussek, Falko K\"otter, Maximilien Kintz, Jens Drawehn(参考訳) 説明可能な人工知能(XAI)の分野における最近の進歩と実際にの使用の増加に伴い、実用的な使用シナリオにおける異なるXAI方法およびそれらの説明品質の評価の必要性が発生します。 そこで本研究では,3つの実生活シナリオの文脈において,4つの異なるXAIアルゴリズムを均一に示すことを目的として,WebベースのサービスであるVitrAIについて述べる。 この研究は、XAIメソッドを採用する際の現実的な障害を明らかにし、上記のシナリオでどのように異なるアプローチがうまく機能するかを定性的に見積もる。

With recent progress in the field of Explainable Artificial Intelligence (XAI) and increasing use in practice, the need for an evaluation of different XAI methods and their explanation quality in practical usage scenarios arises. For this purpose, we present VitrAI, which is a web-based service with the goal of uniformly demonstrating four different XAI algorithms in the context of three real life scenarios and evaluating their performance and comprehensibility for humans. This work reveals practical obstacles when adopting XAI methods and gives qualitative estimates on how well different approaches perform in said scenarios.
翻訳日:2021-02-15 13:22:59 公開日:2021-02-12
# ニューラルネットワークにおけるスプラインモデルを活用した完全連結層の学習

Exploiting Spline Models for the Training of Fully Connected Layers in Neural Network ( http://arxiv.org/abs/2102.06554v1 )

ライセンス: Link先を確認
Kanya Mo (1), Shen Zheng (1), Xiwei Wang (1), Jinghua Wang (2), Klaus-Dieter Schewe (1) ((1) Zhejiang University, UIUC Institute, (2) University of Illinois at Urbana-Champaign)(参考訳) 完全連結(fc)層は、ニューラルネットワーク(ann)における最も基本的なモジュールの1つであり、パラメータの多さによる過剰フィッティングのリスクなどの問題から、トレーニングが困難かつ非効率であると考えられている。 線形スプラインの観点から ann を学習する以前の研究に基づいて,fc 層のトレーニングの困難さを緩和するスプラインベースアプローチを提案する。 いくつかのデータセットでは、まず多変量適応回帰スプライン(MARS)のようなスプライン法を通じて連続的なピースワイズ線形(CPWL)を得る。 次に、線形スプラインモデルからANNモデルを構築し、勾配降下最適化アルゴリズムを使用してデータセット上でANNモデルを訓練し続けます。 実験結果と理論的解析により,本手法は計算コストを削減し,FC層の収束を加速し,得られたモデル(FC層)の解釈性を大幅に向上させることが示された。

The fully connected (FC) layer, one of the most fundamental modules in artificial neural networks (ANN), is often considered difficult and inefficient to train due to issues including the risk of overfitting caused by its large amount of parameters. Based on previous work studying ANN from linear spline perspectives, we propose a spline-based approach that eases the difficulty of training FC layers. Given some dataset, we first obtain a continuous piece-wise linear (CPWL) fit through spline methods such as multivariate adaptive regression spline (MARS). Next, we construct an ANN model from the linear spline model and continue to train the ANN model on the dataset using gradient descent optimization algorithms. Our experimental results and theoretical analysis show that our approach reduces the computational cost, accelerates the convergence of FC layers, and significantly increases the interpretability of the resulting model (FC layers) compared with standard ANN training with random parameter initialization followed by gradient descent optimizations.
翻訳日:2021-02-15 13:22:35 公開日:2021-02-12
# 破損報酬を伴う強化学習エージェントの乱用

Disturbing Reinforcement Learning Agents with Corrupted Rewards ( http://arxiv.org/abs/2102.06587v1 )

ライセンス: Link先を確認
Rub\'en Majadas, Javier Garc\'ia and Fernando Fern\'andez(参考訳) Reinforcement Learning (RL)アルゴリズムは、AtariやStarcraftといった複雑なゲームの解決に成功し、サイバーセキュリティや自動運転といった現実世界のアプリケーションに大きな影響を与えている。 欠点として、近年の研究では、報酬関数のソフトな変化の影響下でRLアルゴリズムの性能が低下することを示した。 しかし、これらの障害がどの程度敏感であるかについては、攻撃の攻撃性や学習探索戦略によってはほとんど研究されていない。 本稿では,報酬の摂動に基づく異なる攻撃戦略の効果を分析し,その探索戦略による学習者の効果を考察する文献において,このギャップを埋めることを提案する。 すべての行動を説明するために、我々はMDPのサブクラスを選びます:エピソディック、確率的目標のみ報酬MDP、そして特に、インテリグブルグリッドドメインをベンチマークとして。 この領域では, 対人報酬を円滑に作成することで学習者を誤解させることが可能であり, 探索確率の低い値を用いることで, 学習した政策が不正報酬に対してより堅牢であることを示す。 最後に、提案した学習シナリオでは、各学習エピソードに対する攻撃が最小のコスト攻撃戦略である、という直感的な結果が生じる。

Reinforcement Learning (RL) algorithms have led to recent successes in solving complex games, such as Atari or Starcraft, and to a huge impact in real-world applications, such as cybersecurity or autonomous driving. In the side of the drawbacks, recent works have shown how the performance of RL algorithms decreases under the influence of soft changes in the reward function. However, little work has been done about how sensitive these disturbances are depending on the aggressiveness of the attack and the learning exploration strategy. In this paper, we propose to fill this gap in the literature analyzing the effects of different attack strategies based on reward perturbations, and studying the effect in the learner depending on its exploration strategy. In order to explain all the behaviors, we choose a sub-class of MDPs: episodic, stochastic goal-only-rewards MDPs, and in particular, an intelligible grid domain as a benchmark. In this domain, we demonstrate that smoothly crafting adversarial rewards are able to mislead the learner, and that using low exploration probability values, the policy learned is more robust to corrupt rewards. Finally, in the proposed learning scenario, a counterintuitive result arises: attacking at each learning episode is the lowest cost attack strategy.
翻訳日:2021-02-15 13:22:18 公開日:2021-02-12
# 高次元ベイズ推論のためのWasserstein勾配下降予測

Projected Wasserstein gradient descent for high-dimensional Bayesian inference ( http://arxiv.org/abs/2102.06350v1 )

ライセンス: Link先を確認
Yifei Wang, Wuchen Li and Peng Chen(参考訳) 本稿では,高次元ベイズ推論問題に対するWasserstein勾配降下法 (pWGD) を提案する。 WGDの粒子系の基底密度関数は、次元性の長年の呪いに直面するカーネル密度推定(KDE)によって近似される。 後方分布と先行分布の差における本質的な低ランク構造を生かして,この課題を克服する。 パラメータは、高次元のkdeの近似誤差を軽減するために低次元部分空間に投影される。 予測されたWasserstein勾配流を定式化し、その収束特性を軽度の仮定の下で解析する。 いくつかの数値実験では、パラメータ次元、サンプルサイズ、プロセッサコアに関するpWGDの精度、収束性、複雑さのスケーラビリティが示されている。

We propose a projected Wasserstein gradient descent method (pWGD) for high-dimensional Bayesian inference problems. The underlying density function of a particle system of WGD is approximated by kernel density estimation (KDE), which faces the long-standing curse of dimensionality. We overcome this challenge by exploiting the intrinsic low-rank structure in the difference between the posterior and prior distributions. The parameters are projected into a low-dimensional subspace to alleviate the approximation error of KDE in high dimensions. We formulate a projected Wasserstein gradient flow and analyze its convergence property under mild assumptions. Several numerical experiments illustrate the accuracy, convergence, and complexity scalability of pWGD with respect to parameter dimension, sample size, and processor cores.
翻訳日:2021-02-15 13:21:23 公開日:2021-02-12
# 大きなバッチオプティマイザの現実チェック:従来の汎用オプティマイザはバッチサイズで十分

A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes ( http://arxiv.org/abs/2102.06356v1 )

ライセンス: Link先を確認
Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl(参考訳) 最近、LARSとLAMBオプティマイザは、大規模なバッチサイズを使用してニューラルネットワークを高速にトレーニングするために提案されている。 LARSとLAMBはそれぞれヘビーボール運動量とアダムの更新規則にレイヤワイズ正規化を加え、著名なベンチマークやディープラーニングライブラリで人気を集めている。 しかし、標準オプティマイザと公正に比較することなく、LARSとLAMBが従来の汎用アルゴリズムよりも有益かどうかには疑問が残る。 本研究では,nesterov momentum や adam などの標準最適化アルゴリズムが,lars と lamb の結果と大きなバッチサイズで一致あるいは上回ることを実証する。 これらのバッチサイズにおける将来比較のための新しい強固なベースラインを構築し,ニューラルネットワークトレーニングにおけるオプティマイザ比較の難しさを浮き彫りにした。

Recently the LARS and LAMB optimizers have been proposed for training neural networks faster using large batch sizes. LARS and LAMB add layer-wise normalization to the update rules of Heavy-ball momentum and Adam, respectively, and have become popular in prominent benchmarks and deep learning libraries. However, without fair comparisons to standard optimizers, it remains an open question whether LARS and LAMB have any benefit over traditional, generic algorithms. In this work we demonstrate that standard optimization algorithms such as Nesterov momentum and Adam can match or exceed the results of LARS and LAMB at large batch sizes. Our results establish new, stronger baselines for future comparisons at these batch sizes and shed light on the difficulties of comparing optimizers for neural network training more generally.
翻訳日:2021-02-15 13:21:12 公開日:2021-02-12
# 確率微分方程式を持つ無限深ベイズ型ニューラルネットワーク

Infinitely Deep Bayesian Neural Networks with Stochastic Differential Equations ( http://arxiv.org/abs/2102.06559v1 )

ライセンス: Link先を確認
Winnie Xu, Ricky T.Q. Chen, Xuechen Li, David Duvenaud(参考訳) 我々は,最近提案された連続深度ベイズニューラルネットワーク群において,スケーラブルな近似推定を行う。 このモデルクラスでは、各層における分離重みに関する不確実性は確率微分方程式(SDE)に従う力学を生成する。 この無限パラメータ設定において、勾配に基づく確率的変分推論を示し、任意にフレキシブルな近似後部を生成する。 また、近似的な後方が真の後方に近づくと、ゼロ分散に近づく新しい勾配推定器も導出する。 このアプローチは、さらにメモリ効率の高いトレーニングとニューラルODEのチューナブルな精度を継承する。

We perform scalable approximate inference in a recently-proposed family of continuous-depth Bayesian neural networks. In this model class, uncertainty about separate weights in each layer produces dynamics that follow a stochastic differential equation (SDE). We demonstrate gradient-based stochastic variational inference in this infinite-parameter setting, producing arbitrarily-flexible approximate posteriors. We also derive a novel gradient estimator that approaches zero variance as the approximate posterior approaches the true posterior. This approach further inherits the memory-efficient training and tunable precision of neural ODEs.
翻訳日:2021-02-15 13:20:55 公開日:2021-02-12
# Bayesian Neural Networkが再訪

Bayesian Neural Network Priors Revisited ( http://arxiv.org/abs/2102.06571v1 )

ライセンス: Link先を確認
Vincent Fortuin, Adri\`a Garriga-Alonso, Florian Wenzel, Gunnar R\"atsch, Richard Turner, Mark van der Wilk, Laurence Aitchison(参考訳) 等方性ガウス前駆(isotropic gaussian priors)は、現代のベイズニューラルネットワーク推論のデファクトスタンダードである。 しかし、そのような単純な事前は、重み分布に関する真の信念を正確に反映するか、最適な性能を与えるかは、あり得ない。 SGDを用いて訓練された異なるネットワークにおけるニューラルネットワーク重みの要約統計について検討する。 我々は、フルコネクテッドネットワーク(FCNN)は重尾重み分布を示し、畳み込みニューラルネットワーク(CNN)重みは強い空間相関を示すことを発見した。 これらの観察を事前に組み込むことで、さまざまな画像分類データセットのパフォーマンスが向上する。 さらに、これらの優先事項は、FCNNの冷後効果も緩和するが、CNNでは、すべての温度で強力な改善が見られ、冷後効果の減少は見られない。

Isotropic Gaussian priors are the de facto standard for modern Bayesian neural network inference. However, such simplistic priors are unlikely to either accurately reflect our true beliefs about the weight distributions, or to give optimal performance. We study summary statistics of neural network weights in different networks trained using SGD. We find that fully connected networks (FCNNs) display heavy-tailed weight distributions, while convolutional neural network (CNN) weights display strong spatial correlations. Building these observations into the respective priors leads to improved performance on a variety of image classification datasets. Moreover, we find that these priors also mitigate the cold posterior effect in FCNNs, while in CNNs we see strong improvements at all temperatures, and hence no reduction in the cold posterior effect.
翻訳日:2021-02-15 13:20:48 公開日:2021-02-12
# 線形バンドにおけるパレート最適モデル選択

Pareto Optimal Model Selection in Linear Bandits ( http://arxiv.org/abs/2102.06593v1 )

ライセンス: Link先を確認
Yinglun Zhu, Robert Nowak(参考訳) 線形バンディット設定におけるモデル選択問題について検討し, 学習者はフライ上の最適仮説クラスの次元に適応し, バランス探索と搾取を行なわなければならない。 より具体的には、次元 $d_1 < d_2 < \dots$ の入れ子付き線形仮説クラスの列を仮定し、真の線型モデルを含む最小の仮説クラスに自動的に適応することを目標とする。 以前の論文では、このモデル選択問題に対して様々な保証を提供しているが、その分析は、適切な仮説クラスを見つけるために統計的テストを安価に行うことができる場合や、実際には比較的不十分に実行されることが多い「相関」マルチベースアルゴリズムのアイデアに基づいている場合に有効である。 これらの作品は主に後悔の表層に焦点をあてている。 本稿では,固定された作用集合であっても,未知の内在次元 $d_\star$ への適応にはコストがかかることを示す下界を最初に確立する:$d_\star$ のすべての値に対して,後悔すべき有界 $\widetilde{O}(\sqrt{d_\star T})$ を同時に達成できるアルゴリズムはない。 また,リニアバンディットのモデル選択問題において,有用な情報を効果的に要約する仮想混合アームを構築するという新しいアイデアを提案する。 作用集合の軽度な仮定の下で、下界の速度に一致することを保証したパレート最適アルゴリズムを設計する。 実験結果が理論結果を確認し, 先行作業と比較して, アルゴリズムの優位性を示した。

We study a model selection problem in the linear bandit setting, where the learner must adapt to the dimension of the optimal hypothesis class on the fly and balance exploration and exploitation. More specifically, we assume a sequence of nested linear hypothesis classes with dimensions $d_1 < d_2 < \dots$, and the goal is to automatically adapt to the smallest hypothesis class that contains the true linear model. Although previous papers provide various guarantees for this model selection problem, the analysis therein either works in favorable cases when one can cheaply conduct statistical testing to locate the right hypothesis class or is based on the idea of "corralling" multiple base algorithms which often performs relatively poorly in practice. These works also mainly focus on upper bounding the regret. In this paper, we first establish a lower bound showing that, even with a fixed action set, adaptation to the unknown intrinsic dimension $d_\star$ comes at a cost: there is no algorithm that can achieve the regret bound $\widetilde{O}(\sqrt{d_\star T})$ simultaneously for all values of $d_\star$. We also bring new ideas, i.e., constructing virtual mixture-arms to effectively summarize useful information, into the model selection problem in linear bandits. Under a mild assumption on the action set, we design a Pareto optimal algorithm with guarantees matching the rate in the lower bound. Experimental results confirm our theoretical results and show advantages of our algorithm compared to prior work.
翻訳日:2021-02-15 13:20:35 公開日:2021-02-12
# Cockpit: ディープニューラルネットワークをトレーニングするための実用的なデバッグツール

Cockpit: A Practical Debugging Tool for Training Deep Neural Networks ( http://arxiv.org/abs/2102.06604v1 )

ライセンス: Link先を確認
Frank Schneider and Felix Dangel and Philipp Hennig(参考訳) エンジニアがディープラーニングモデルをトレーニングする場合、彼らは"空飛ぶ盲人"です。 列車/テスト損失の監視など、リアルタイムトレーニング診断の一般的なアプローチは限られています。 これらのパフォーマンス指標によってのみネットワークのトレーニングプロセスを評価することは、デバッガを通じて内部状態にアクセスせずにソフトウェアをデバッグするようなものです。 そこで本研究では,学習機の内部動作を詳細に調べるための機器群であるcockpitと,実践者に対するより有意義で有意義なステータスレポートを提案する。 未経験のハイパーパラメータのように、学習フェーズと障害モードの識別を容易にする。 これらの機器は、最近初めて効率的にアクセス可能になった勾配分布と曲率に関する新しい高階情報を利用しています。 このようなデバッグツールは、PyTorchをオープンソース化することで、トレーニングプロセスのトラブルシューティングを改善し、新しい洞察を明らかにし、新しい方法やヒューリスティックの開発を支援する重要なステップであると考えています。

When engineers train deep learning models, they are very much "flying blind". Commonly used approaches for real-time training diagnostics, such as monitoring the train/test loss, are limited. Assessing a network's training process solely through these performance indicators is akin to debugging software without access to internal states through a debugger. To address this, we present Cockpit, a collection of instruments that enable a closer look into the inner workings of a learning machine, and a more informative and meaningful status report for practitioners. It facilitates the identification of learning phases and failure modes, like ill-chosen hyperparameters. These instruments leverage novel higher-order information about the gradient distribution and curvature, which has only recently become efficiently accessible. We believe that such a debugging tool, which we open-source for PyTorch, represents an important step to improve troubleshooting the training process, reveal new insights, and help develop novel methods and heuristics.
翻訳日:2021-02-15 13:20:08 公開日:2021-02-12
# リーマンデータ多様体上のベイズ方程式

Bayesian Quadrature on Riemannian Data Manifolds ( http://arxiv.org/abs/2102.06645v1 )

ライセンス: Link先を確認
Christian Fr\"ohlich, Alexandra Gessner, Philipp Hennig, Bernhard Sch\"olkopf, Georgios Arvanitidis(参考訳) リーマン多様体は、データに固有の非線形幾何学構造をモデル化する原理的な方法を提供する。 この多様体上のリーマン計量は、ジオメトリが認識する最短経路を決定し、それに応じて統計モデルを定義する手段を提供する。 しかし、これらの演算は通常計算的に要求される。 この計算の負担を軽減するため、リーマン統計の確率的数値解法を提唱する。 特に、データから学習したリーマン多様体上の正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。 このタスクでは、各関数の評価は高価な初期値問題の解に依存する。 従来の知識と活発な探索手法を両立させることにより,BQは要求される評価回数を大幅に削減し,モンテカルロ法を幅広い積分問題において上回ることを示す。 具体的応用として,分子動力学から提案された非線形データセットの枠組みを用いてリーマン幾何学を採用するメリットを強調する。

Riemannian manifolds provide a principled way to model nonlinear geometric structure inherent in data. A Riemannian metric on said manifolds determines geometry-aware shortest paths and provides the means to define statistical models accordingly. However, these operations are typically computationally demanding. To ease this computational burden, we advocate probabilistic numerical methods for Riemannian statistics. In particular, we focus on Bayesian quadrature (BQ) to numerically compute integrals over normal laws on Riemannian manifolds learned from data. In this task, each function evaluation relies on the solution of an expensive initial value problem. We show that by leveraging both prior knowledge and an active exploration scheme, BQ significantly reduces the number of required evaluations and thus outperforms Monte Carlo methods on a wide range of integration problems. As a concrete application, we highlight the merits of adopting Riemannian geometry with our proposed framework on a nonlinear dataset from molecular dynamics.
翻訳日:2021-02-15 13:19:51 公開日:2021-02-12
# ランダム化符号化によるバイアスフリースケーラブルガウス過程

Bias-Free Scalable Gaussian Processes via Randomized Truncations ( http://arxiv.org/abs/2102.06695v1 )

ライセンス: Link先を確認
Andres Potapczynski, Luhuan Wu, Dan Biderman, Geoff Pleiss and John P. Cunningham(参考訳) スケーラブルガウスプロセスメソッドは計算的に魅力的ですが、厳格な研究を必要とするモデリングバイアスを導入します。 本稿では,初期トランク型共役勾配 (CG) とランダムフーリエ特徴 (RFF) の2つの共通手法を解析する。 我々は、両方の方法が学習されたハイパーパラメータに体系的なバイアスを導入することを発見した:CGは不適合になり、RFFは過適合になりがちである。 分散の増大と引き換えにバイアスを排除したランダム化トランケーション推定器を用いて,これらの問題に対処する。 RFFの場合、バイアスから分散への変換は確かにトレードオフであり、追加の分散は最適化に有害であることを証明している。 しかし、CGの場合、偏りのない学習手順は、最小限の計算量でバイアスのある学習方法よりも有意に優れている。

Scalable Gaussian Process methods are computationally attractive, yet introduce modeling biases that require rigorous study. This paper analyzes two common techniques: early truncated conjugate gradients (CG) and random Fourier features (RFF). We find that both methods introduce a systematic bias on the learned hyperparameters: CG tends to underfit while RFF tends to overfit. We address these issues using randomized truncation estimators that eliminate bias in exchange for increased variance. In the case of RFF, we show that the bias-to-variance conversion is indeed a trade-off: the additional variance proves detrimental to optimization. However, in the case of CG, our unbiased learning procedure meaningfully outperforms its biased counterpart with minimal additional computation.
翻訳日:2021-02-15 13:19:36 公開日:2021-02-12
# ニューラルネットワーク量子化のトレードオフ

Confounding Tradeoffs for Neural Network Quantization ( http://arxiv.org/abs/2102.06366v1 )

ライセンス: Link先を確認
Sahaj Garg, Anirudh Jain, Joe Lou, Mitchell Nahmias(参考訳) ディープラーニングの計算とメモリフットプリントを減らすために、多くのニューラルネットワーク量子化技術が開発されている。 しかし、これらの手法は、高い精度と引き換えに推論の加速やリソースの複雑さに影響を与える可能性のあるトレードオフの確立によって評価される。 本研究では,その影響がしばしば見過ごされ,その影響が均一かつ混合予測後の量子化に与える影響を実証的に分析し,これらの統合的トレードオフが実際の量子化手法自体よりも量子化ネットワークの精度に大きな影響を与えることを見出した。 これらのトレードオフは、異なるユースケースで実現可能なハードウェアアクセラレーションを制限するため、研究者は「量子化カード」の構造を通じて、これらの設計選択を明示的に報告することを推奨する。 量子化カードは、研究者がより効果的に方法を比較するのに役立ち、エンジニアはハードウェアの量子化技術の適用性を決定するだろう。

Many neural network quantization techniques have been developed to decrease the computational and memory footprint of deep learning. However, these methods are evaluated subject to confounding tradeoffs that may affect inference acceleration or resource complexity in exchange for higher accuracy. In this work, we articulate a variety of tradeoffs whose impact is often overlooked and empirically analyze their impact on uniform and mixed-precision post-training quantization, finding that these confounding tradeoffs may have a larger impact on quantized network accuracy than the actual quantization methods themselves. Because these tradeoffs constrain the attainable hardware acceleration for different use-cases, we encourage researchers to explicitly report these design choices through the structure of "quantization cards." We expect quantization cards to help researchers compare methods more effectively and engineers determine the applicability of quantization techniques for their hardware.
翻訳日:2021-02-15 13:19:12 公開日:2021-02-12
# 短納期化に先駆けて最善を尽くす

A Too-Good-to-be-True Prior to Reduce Shortcut Reliance ( http://arxiv.org/abs/2102.06406v1 )

ライセンス: Link先を確認
Nikolay Dagaev, Brett D. Roads, Xiaoliang Luo, Daniel N. Barry, Kaustubh R. Patil, Bradley C. Love(参考訳) 標準的テスト条件下でのオブジェクト認識やその他のタスクでの印象的な性能にもかかわらず、ディープ畳み込みニューラルネットワーク(dcnn)はしばしば分散(o.o.d.)への一般化に失敗している。 サンプル この欠点の1つの原因は、現代のアーキテクチャは、コンテキストをまたがる深い不変量を取り込むことなく、カテゴリと相関する表面的な特徴「短い」に依存する傾向があることである。 現実世界の概念は、多くの場合、文脈によって表面的に異なる複雑な構造を持ち、あるコンテキストにおいて最も直感的で有望なソリューションを他のコンテキストに一般化できないものにすることができる。 o.o.d.を改良する潜在的な方法の1つ 一般化は、単純なソリューションがコンテキスト全体にわたって有効ではないと仮定し、それらをダウンウェイトすると仮定することです。 この誘導バイアスは、低容量ネットワーク(LCN)からの予測を使用して、大容量ネットワーク(HCN)のトレーニングを知らせる2段階のアプローチで実装します。 LCNの浅いアーキテクチャはショートカットを含む表面関係のみを学ぶことができるため、LCNがマスターできるHCNのトレーニングアイテムをダウンウェイトにすることで、HCNは広く一般化されるべきより深い不変機能に頼るように促します。 ショートカットを導入したCIFAR-10データセットの修正版を用いて、2段階のLCN-HCNアプローチによりショートカットへの依存が減少し、o.o.dが促進された。 一般化。

Despite their impressive performance in object recognition and other tasks under standard testing conditions, deep convolutional neural networks (DCNNs) often fail to generalize to out-of-distribution (o.o.d.) samples. One cause for this shortcoming is that modern architectures tend to rely on "shortcuts" - superficial features that correlate with categories without capturing deeper invariants that hold across contexts. Real-world concepts often possess a complex structure that can vary superficially across contexts, which can make the most intuitive and promising solutions in one context not generalize to others. One potential way to improve o.o.d. generalization is to assume simple solutions are unlikely to be valid across contexts and downweight them, which we refer to as the too-good-to-be-true prior. We implement this inductive bias in a two-stage approach that uses predictions from a low-capacity network (LCN) to inform the training of a high-capacity network (HCN). Since the shallow architecture of the LCN can only learn surface relationships, which includes shortcuts, we downweight training items for the HCN that the LCN can master, thereby encouraging the HCN to rely on deeper invariant features that should generalize broadly. Using a modified version of the CIFAR-10 dataset in which we introduced shortcuts, we found that the two-stage LCN-HCN approach reduced reliance on shortcuts and facilitated o.o.d. generalization.
翻訳日:2021-02-15 13:18:55 公開日:2021-02-12
# MSR-Video to Textデータセットのアノテーションクリーニング

Annotation Cleaning for the MSR-Video to Text Dataset ( http://arxiv.org/abs/2102.06448v1 )

ライセンス: Link先を確認
Haoran Chen, Jianmin Li, Simone Frintrop, Xiaolin Hu(参考訳) ビデオキャプションタスクは、機械によって自然言語でビデオコンテンツを記述することです。 この課題を解決するための多くの方法が提案されている。 MSR Video to Text(MSR-VTT)と呼ばれる大きなデータセットは、メソッドのパフォーマンスをテストするためのベックマークデータセットとしてよく使用されます。 しかし、人間のアノテーション、すなわちデータセット内のビデオ内容の記述は非常に騒々しいこと、例えば、重複キャプションが多数あり、多くのキャプションが文法的な問題を含んでいることを発見した。 これらの問題は、学習のためのビデオキャプションモデルに困難をもたらす可能性がある。 これらの問題を除去してMSR-VTTアノテーションをクリーン化し、クリーン化したデータセット上でいくつかの典型的なビデオキャプションモデルをテストした。 実験の結果,データクリーニングにより,一般的な定量的指標によって測定されたモデルの性能が向上した。 被験者を募集して,オリジナルデータセットとクリーンデータセットでトレーニングしたモデルの結果を評価した。 human behavior experimentは、クリーンなデータセットでトレーニングされたモデルが、ビデオクリップの内容に対してより一貫性があり、より関連のあるキャプションを生成することを実証した。 クリーンなデータセットが公開されている。

The video captioning task is to describe the video contents with natural language by the machine. Many methods have been proposed for solving this task. A large dataset called MSR Video to Text (MSR-VTT) is often used as the benckmark dataset for testing the performance of the methods. However, we found that the human annotations, i.e., the descriptions of video contents in the dataset are quite noisy, e.g., there are many duplicate captions and many captions contain grammatical problems. These problems may pose difficulties to video captioning models for learning. We cleaned the MSR-VTT annotations by removing these problems, then tested several typical video captioning models on the cleaned dataset. Experimental results showed that data cleaning boosted the performances of the models measured by popular quantitative metrics. We recruited subjects to evaluate the results of a model trained on the original and cleaned datasets. The human behavior experiment demonstrated that trained on the cleaned dataset, the model generated captions that were more coherent and more relevant to contents of the video clips. The cleaned dataset is publicly available.
翻訳日:2021-02-15 13:18:23 公開日:2021-02-12
# 深部ステガノグラフィーのレンズによるユニバーサル逆行性摂動 : フーリエ視点に向けて

Universal Adversarial Perturbations Through the Lens of Deep Steganography: Towards A Fourier Perspective ( http://arxiv.org/abs/2102.06479v1 )

ライセンス: Link先を確認
Chaoning Zhang, Philipp Benz, Adil Karjauv, In So Kweon(参考訳) 敵対的攻撃に対する関心の高まりは、人間の視覚とディープニューラルネットワーク(DNN)の不一致に起因する。 人間の知覚できない摂動はDNNをだます。 さらに、単一の摂動(Universal adversarial Perturbation、UAP)は、ほとんどの画像に対してDNNをだますために生成することができる。 近年,デコーダネットワークがわずかに乱れた表紙画像から秘密画像を復元するディープステガノグラフィータスクでも,同様の誤認識現象が観察されている。 我々は、両方の成功をフーリエの観点から統一的に説明しようと試みる。 a)周波数は、周波数分布を定量化するために提案されたエントロピーメトリックに基づいて、その性能に影響を与える重要な要因であり、(b)その成功は、高周波コンテンツに高い感度を持つdnnに起因している。 また、モデル一般化と堅牢性に関する深い洞察を提供する機能層分析も行っています。 さらに,(1)攻撃と隠蔽を同時に行うユニバーサル・シークレット・アドバイサル・パーターベーション(USAP),(2)人間の目では見えないハイパスUAP(HP-UAP)の2つの新しい変種を提案する。

The booming interest in adversarial attacks stems from a misalignment between human vision and a deep neural network (DNN), i.e. a human imperceptible perturbation fools the DNN. Moreover, a single perturbation, often called universal adversarial perturbation (UAP), can be generated to fool the DNN for most images. A similar misalignment phenomenon has recently also been observed in the deep steganography task, where a decoder network can retrieve a secret image back from a slightly perturbed cover image. We attempt explaining the success of both in a unified manner from the Fourier perspective. We perform task-specific and joint analysis and reveal that (a) frequency is a key factor that influences their performance based on the proposed entropy metric for quantifying the frequency distribution; (b) their success can be attributed to a DNN being highly sensitive to high-frequency content. We also perform feature layer analysis for providing deep insight on model generalization and robustness. Additionally, we propose two new variants of universal perturbations: (1) Universal Secret Adversarial Perturbation (USAP) that simultaneously achieves attack and hiding; (2) high-pass UAP (HP-UAP) that is less visible to the human eye.
翻訳日:2021-02-15 13:18:05 公開日:2021-02-12
# コントラスト正規化ファインチューニングによるコントラスト自己スーパービジョン視覚モデルのパワーの解放

Unleashing the Power of Contrastive Self-Supervised Visual Models via Contrast-Regularized Fine-Tuning ( http://arxiv.org/abs/2102.06605v1 )

ライセンス: Link先を確認
Yifan Zhang, Bryan Hooi, Dapeng Hu, Jian Liang, Jiashi Feng(参考訳) コントラスト型自己教師学習(CSL)は、ラベルのないデータを利用して、特徴空間に均一に散在するインスタンス識別視覚表現を提供するモデルを訓練する。 デプロイメントでは、クロスエントロピー損失を伴うモデルを直接微調整することが一般的な方法であるが、最適戦略ではないかもしれない。 クロスエントロピーはクラス間の機能を分離する傾向にあるが、得られたモデルはクラス内の機能分散を減らす能力が限られているため、下流のタスクでは不十分なパフォーマンスを損なう可能性がある。 本稿では,コントラスト学習を微調整に適用することでさらにメリットが得られるかを検討するとともに,教師付きコントラスト損失の最適化は,クラス判別表現学習と微調整時のモデル最適化の両方に有益であることを示す。 これらの知見に触発されて,コントラスト規則化チューニング(Core-tuning)を提案する。 コントラスト損失を微調整の目的に加える代わりに、Core-tuningは、新しい特徴混成戦略を通じてより効果的なコントラスト学習のためのハードサンプルペアを生成するとともに、混合サンプルを介して決定境界を滑らかにすることでモデルの一般化性を向上させる。 画像分類とセマンティックセグメンテーションに関する広範な実験は、コアチューニングの有効性を検証する。

Contrastive self-supervised learning (CSL) leverages unlabeled data to train models that provide instance-discriminative visual representations uniformly scattered in the feature space. In deployment, the common practice is to directly fine-tune models with the cross-entropy loss, which however may not be an optimal strategy. Although cross-entropy tends to separate inter-class features, the resulted models still have limited capability of reducing intra-class feature scattering that inherits from pre-training, and thus may suffer unsatisfactory performance on downstream tasks. In this paper, we investigate whether applying contrastive learning to fine-tuning would bring further benefits, and analytically find that optimizing the supervised contrastive loss benefits both class-discriminative representation learning and model optimization during fine-tuning. Inspired by these findings, we propose Contrast-regularized tuning (Core-tuning), a novel approach for fine-tuning contrastive self-supervised visual models. Instead of simply adding the contrastive loss to the objective of fine-tuning, Core-tuning also generates hard sample pairs for more effective contrastive learning through a novel feature mixup strategy, as well as improves the generalizability of the model by smoothing the decision boundary via mixed samples. Extensive experiments on image classification and semantic segmentation verify the effectiveness of Core-tuning.
翻訳日:2021-02-15 13:17:43 公開日:2021-02-12
# 教師なしドメイン適応のための逆分岐アーキテクチャ探索

Adversarial Branch Architecture Search for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2102.06679v1 )

ライセンス: Link先を確認
Luca Robbiano and Muhammad Rameez Ur Rahman and Fabio Galasso and Barbara Caputo and Fabio Maria Carlucci(参考訳) Unsupervised Domain Adaptation(UDA)は、さまざまな視覚領域で堅牢なパフォーマンスを可能にするため、視覚認識の重要な分野です。 ディープラーニング時代には、udaメソッドのパフォーマンスは、よりよい損失とネットワークアーキテクチャの改善、特に事前トレーニングされたバックボーンに補助的なドメイン調整ブランチを追加することで向上している。 しかし、これまで提案されたすべてのニューラルアーキテクチャは手作りであり、さらなる進歩を妨げる可能性がある。 ニューラルアーキテクチャサーチ(NAS)の現在の相反する子孫は、UDAでは利用できないモデル選択のラベルが必要であり、通常はアーキテクチャ全体に適用されるが、事前訓練されたモデルを使用することは、ハイパフォーマンスの厳しい要件である。 UDAのNASの文脈でこれらの側面に対処する以前の作業はない。 そこで本研究では,UDA用Adversarial Branch Architecture Search (ABAS)を提案し,ハンドクラフトなしでデータから補助ブランチネットワークを学習する。 私たちの主な貢献は、モデル選択のための新しいデータ駆動アンサンブルアプローチ、ターゲットラベルの欠如を回避すること、そしてiiです。 最適な補助ブランチを自動的に検索するパイプライン。 私達の知識のベストに、ABASは高性能のための厳密な条件である事前訓練された背骨に従うUDAのための最初のNASの方法です。 ABASは最適な補助分岐とその訓練されたパラメータを出力する。 DANNとALDAの2つの最新のUDA技術に適用すると、3つの標準CVデータセット(Office31、Office-Home、PACS)のパフォーマンスが向上する。 いずれの場合も、ABASは最高のパフォーマンスをもたらすブランチアーキテクチャをしっかりと見つける。 コードはリリースされる。

Unsupervised Domain Adaptation (UDA) is a key field in visual recognition, as it enables robust performances across different visual domains. In the deep learning era, the performance of UDA methods has been driven by better losses and by improved network architectures, specifically the addition of auxiliary domain-alignment branches to pre-trained backbones. However, all the neural architectures proposed so far are hand-crafted, which might hinder further progress. The current copious offspring of Neural Architecture Search (NAS) only alleviates hand-crafting so far, as it requires labels for model selection, which are not available in UDA, and is usually applied to the whole architecture, while using pre-trained models is a strict requirement for high performance. No prior work has addressed these aspects in the context of NAS for UDA. Here we propose an Adversarial Branch Architecture Search (ABAS) for UDA, to learn the auxiliary branch network from data without handcrafting. Our main contribution include i. a novel data-driven ensemble approach for model selection, to circumvent the lack of target labels, and ii. a pipeline to automatically search for the best performing auxiliary branch. To the best of our knowledge, ABAS is the first NAS method for UDA to comply with a pre-trained backbone, a strict requirement for high performance. ABAS outputs both the optimal auxiliary branch and its trained parameters. When applied to two modern UDA techniques, DANN and ALDA, it improves performance on three standard CV datasets (Office31, Office-Home and PACS). In all cases, ABAS robustly finds the branch architectures which yield best performances. Code will be released.
翻訳日:2021-02-15 13:17:17 公開日:2021-02-12
# 量子回路のパラメータ化による点集合マッチング

A Parameterised Quantum Circuit Approach to Point Set Matching ( http://arxiv.org/abs/2102.06697v1 )

ライセンス: Link先を確認
Mohammadreza Noormandipour, Hanchen Wang(参考訳) ポイントセット登録は、パターン認識、コンピュータビジョン、画像処理といった領域における課題の1つである。 このタスクの効率的な性能は、広く応用されているため、研究の話題となっている。 点集合マッチング問題に対するパラメータ化量子回路学習手法を提案する。 提案手法は,1)全ての可能な最適解角を見つけることができ,2)量子学習の優位性を示すことが可能であり,3)強力な損失関数の定義のためのカーネル埋め込み技術と積分確率メトリクスの恩恵を受けることができる。 さらに、理論的な枠組みは、十分な予備と概念実験結果の証明によって裏付けられている。

Point set registration is one of the challenging tasks in areas such as pattern recognition, computer vision and image processing. Efficient performance of this task has been a hot topic of research due to its widespread applications. We propose a parameterised quantum circuit learning approach to point set matching problem. The proposed method benefits from a kernel-based quantum generative model that: 1) is able to find all possible optimal matching solution angles, 2) is potentially able to show quantum learning supremacy, and 3) benefits from kernel-embedding techniques and integral probability metrics for the definition of a powerful loss function. Moreover, the theoretical framework has been backed up by satisfactory preliminary and proof of concept experimental results.
翻訳日:2021-02-15 13:16:48 公開日:2021-02-12
# 瞬き再考 : 瞬きの生理的表現による難易度の評価

Rethinking Eye-blink: Assessing Task Difficulty through Physiological Representation of Spontaneous Blinking ( http://arxiv.org/abs/2102.06690v1 )

ライセンス: Link先を確認
Youngjun Cho(参考訳) インタラクティブシステムのユーザビリティとアクセシビリティ向上には,タスク難易度とメンタルワークロードの継続的な評価が不可欠である。 この能力を達成するために、アイトラッキングのデータがしばしば調査され、標準的なblinkメトリクスの役割が限定されている。 本稿では,タスク難易度の自動推定のためのアイリンク応答解析のための新しい手法を提案する。 コアモジュールは、点滅に反映された情報の豊かさをキャプチャすることを目的としたアイリンクの時間周波数表現です。 本研究では,タスク難易度に対する感度が有意に向上することを示した。 次に,表現されたパターンを多次元の短期記憶リカレントニューラルネットワークで解析し,難易度関連パラメータへの非線形マッピングを行うフレームワークを構築する方法を示す。 このフレームワークはハンドエンジニアリング機能を使用した他の手法よりも優れていた。 このアプローチは、特別なデバイスを必要とせずに、内蔵カメラで機能する。 我々は、Rethinking Eye-blinkが現実世界のアプリケーションにどのように役立つかを議論することで締めくくります。

Continuous assessment of task difficulty and mental workload is essential in improving the usability and accessibility of interactive systems. Eye tracking data has often been investigated to achieve this ability, with reports on the limited role of standard blink metrics. Here, we propose a new approach to the analysis of eye-blink responses for automated estimation of task difficulty. The core module is a time-frequency representation of eye-blink, which aims to capture the richness of information reflected on blinking. In our first study, we show that this method significantly improves the sensitivity to task difficulty. We then demonstrate how to form a framework where the represented patterns are analyzed with multi-dimensional Long Short-Term Memory recurrent neural networks for their non-linear mapping onto difficulty-related parameters. This framework outperformed other methods that used hand-engineered features. This approach works with any built-in camera, without requiring specialized devices. We conclude by discussing how Rethinking Eye-blink can benefit real-world applications.
翻訳日:2021-02-15 13:16:38 公開日:2021-02-12
# ログレコードの自動解析について

On Automatic Parsing of Log Records ( http://arxiv.org/abs/2102.06320v1 )

ライセンス: Link先を確認
Jared Rand and Andriy Miranskyy(参考訳) ソフトウェアログ分析は、ソフトウェアソリューションの健全性を維持し、コンプライアンスとセキュリティを確保するのに役立つ。 既存のソフトウェアシステムは、様々なフォーマットでログを出力する異種コンポーネントで構成されている。 典型的な解決策は、手動で構築したパーサを使ってログを統合することだ。 代わりに,機械翻訳(MT)を用いて解析作業を自動化する可能性を検討する。 繰り返しニューラルネットワークベースのMTモデルをトレーニングするために使用した合成Apacheログレコードを生成するツールを作成します。 実世界のログに対するモデルの評価は、モデルがApacheログフォーマットを学び、個々のログレコードを解析できることを示しています。 実際の実世界のログ記録とMT予測の間の平均的な編集距離は28%以下である。 したがって,MT手法によるログ解析は有望であることを示す。

Software log analysis helps to maintain the health of software solutions and ensure compliance and security. Existing software systems consist of heterogeneous components emitting logs in various formats. A typical solution is to unify the logs using manually built parsers, which is laborious. Instead, we explore the possibility of automating the parsing task by employing machine translation (MT). We create a tool that generates synthetic Apache log records which we used to train recurrent-neural-network-based MT models. Models' evaluation on real-world logs shows that the models can learn Apache log format and parse individual log records. The median relative edit distance between an actual real-world log record and the MT prediction is less than or equal to 28%. Thus, we show that log parsing using an MT approach is promising.
翻訳日:2021-02-15 13:15:54 公開日:2021-02-12
# Shapley値と非パラメトリックブインコプラを用いた予測モデルの説明

Explaining predictive models using Shapley values and non-parametric vine copulas ( http://arxiv.org/abs/2102.06416v1 )

ライセンス: Link先を確認
Kjersti Aas, Thomas Nagler, Martin Jullum, Anders L{\o}land(参考訳) 予測説明のためのShapley値の当初の開発は、記述される特徴が独立しているという仮定に依存していた。 現実の機能が依存している場合、誤った説明につながる可能性がある。 そのため、最近は機能間の依存性を適切にモデル化し、見積もる試みがある。 提案手法は、独立性を前提とした従来のアプローチを明らかに上回るが、弱点がある。 本稿では,特徴間の依存性をモデル化する2つの新しい手法を提案する。 どちらのアプローチも、多変量非ガウス分布をモデル化するための柔軟なツールであり、広範囲の複雑な依存性を特徴付けることができる。 提案手法の性能はシミュレーションされたデータセットと実データセットで評価される。 実験は、ブドウのコプラアプローチが競合他社よりも真のシャプリー値により正確な近似を与えることを実証しています。

The original development of Shapley values for prediction explanation relied on the assumption that the features being described were independent. If the features in reality are dependent this may lead to incorrect explanations. Hence, there have recently been attempts of appropriately modelling/estimating the dependence between the features. Although the proposed methods clearly outperform the traditional approach assuming independence, they have their weaknesses. In this paper we propose two new approaches for modelling the dependence between the features. Both approaches are based on vine copulas, which are flexible tools for modelling multivariate non-Gaussian distributions able to characterise a wide range of complex dependencies. The performance of the proposed methods is evaluated on simulated data sets and a real data set. The experiments demonstrate that the vine copula approaches give more accurate approximations to the true Shapley values than its competitors.
翻訳日:2021-02-15 13:14:34 公開日:2021-02-12
# Bootstrapped Representation Learning on Graphs

Bootstrapped Representation Learning on Graphs ( http://arxiv.org/abs/2102.06514v1 )

ライセンス: Link先を確認
Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, R\'emi Munos, Petar Veli\v{c}kovi\'c, Michal Valko(参考訳) グラフニューラルネットワーク(GNN)の最先端の自己教師型学習手法は,コントラスト学習に基づいている。 したがって、それらは増分と負の例の建設に大きく依存します。 例えば、標準のPPIベンチマークでは、負対の数を増やすことで性能が向上し、ピーク性能を達成するためにノード数で計算とメモリコストが2倍になる。 最近導入された、負のペアを必要としない自己教師付き学習法であるBYOLに触発されて、この潜在的な二次的ボトルネックを取り除く自己教師付きグラフ表現法であるBootstrapped Graph Latents, BGRLを提案する。 BGRLは、いくつかの確立されたベンチマークデータセットの以前の監視されていない最新の結果を上回るか、一致させます。 さらに、GAT(Graph attentional)エンコーダの効果的な使用を可能にし、最先端の技術をさらに改善することができます。 特にPPIデータセットでは、GATをエンコーダとして、線形評価プロトコルを用いて最先端の70.49%マイクロF1を実現する。 検討中の他のすべてのデータセットでは、私たちのモデルは、しばしばそれらを超える同等の監督GNN結果と競争力があります。

Current state-of-the-art self-supervised learning methods for graph neural networks (GNNs) are based on contrastive learning. As such, they heavily depend on the construction of augmentations and negative examples. For example, on the standard PPI benchmark, increasing the number of negative pairs improves performance, thereby requiring computation and memory cost quadratic in the number of nodes to achieve peak performance. Inspired by BYOL, a recently introduced method for self-supervised learning that does not require negative pairs, we present Bootstrapped Graph Latents, BGRL, a self-supervised graph representation method that gets rid of this potentially quadratic bottleneck. BGRL outperforms or matches the previous unsupervised state-of-the-art results on several established benchmark datasets. Moreover, it enables the effective usage of graph attentional (GAT) encoders, allowing us to further improve the state of the art. In particular on the PPI dataset, using GAT as an encoder we achieve state-of-the-art 70.49% Micro-F1, using the linear evaluation protocol. On all other datasets under consideration, our model is competitive with the equivalent supervised GNN results, often exceeding them.
翻訳日:2021-02-15 13:14:21 公開日:2021-02-12
# 逐次神経後部と可能性近似

Sequential Neural Posterior and Likelihood Approximation ( http://arxiv.org/abs/2102.06522v1 )

ライセンス: Link先を確認
Samuel Wiqvist, Jes Frellsen, Umberto Picchini(参考訳) SNPLA(Sequence Neural posterior and likelylihood Approximation)アルゴリズムについて紹介する。 SNPLAは暗黙モデルにおける推論のための正規化フローベースのアルゴリズムである。 したがって、snplaは生成モデルからのシミュレーションのみを必要とするシミュレーションに基づく推論手法である。 同様の手法と比較して,SNPLAの主な利点は,本手法が後部と後部の両方を共同で学習することである。 SNPLAはマルコフ連鎖モンテカルロサンプリングと同様の方法で導入されたパラメータ提案関数の修正ステップを完全に避けるが、数値的に不安定か制限的である。 4 つの実験で,SNPLA は,後続関数と後続関数の連成学習により,SNPLA の推論問題がより複雑であるにもかかわらず,他の手法と同じ数のモデルシミュレーションを利用する場合,競争的に機能することを示した。

We introduce the sequential neural posterior and likelihood approximation (SNPLA) algorithm. SNPLA is a normalizing flows-based algorithm for inference in implicit models. Thus, SNPLA is a simulation-based inference method that only requires simulations from a generative model. Compared to similar methods, the main advantage of SNPLA is that our method jointly learns both the posterior and the likelihood. SNPLA completely avoid Markov chain Monte Carlo sampling and correction-steps of the parameter proposal function that are introduced in similar methods, but that can be numerically unstable or restrictive. Over four experiments, we show that SNPLA performs competitively when utilizing the same number of model simulations as used in other methods, even though the inference problem for SNPLA is more complex due to the joint learning of posterior and likelihood function.
翻訳日:2021-02-15 13:14:01 公開日:2021-02-12
# 不均質な処理効果推定のための疎ベイズ因果樹林

Sparse Bayesian Causal Forests for Heterogeneous Treatment Effects Estimation ( http://arxiv.org/abs/2102.06573v1 )

ライセンス: Link先を確認
Alberto Caron, Gianluca Baio and Ioanna Manolopoulou(参考訳) 本稿では,最近提案されている非パラメトリック因果回帰モデルであるベイズ因果樹林のスパース性誘導版を開発し,観測データを用いて不均質な処理効果を推定するように設計されている。 我々が導入するスパーシティ誘導成分は、利用可能な前処理コバリアリートの数が無視できない経験的研究によって動機づけられ、個々の治療効果の推定における関心表面の基礎となるスパーシティの程度が異なる。 この論文で提示された拡張版は、スパースベイズ因果樹林(sparse bayesian causal forest)と名付けられており、モデルが各共変量の重みをツリーアンサンブル内の対応するスプリット数で調整できる追加のプリデントを備えています。 これらの先行は、スパース設定へのモデルの適応性を改善し、治療効果推定のためのフレームワークでベイズ変数の完全選択を可能にし、不均一性を引き起こすモデレーション要因を明らかにする。 さらに, 本手法は, 関連する処理前共変量とそのモデルに組み込む結果に対する影響の相対的な大きさについて, 事前知識を付与する。 本手法のシミュレーション研究における性能について,ベイジアン因果樹林などの最新モデルと比較し,共変数の増加に伴うスケールアップと強固な連結シナリオの扱い方を示す。 最後に,実世界データを用いたアプリケーションの例を示す。

This paper develops a sparsity-inducing version of Bayesian Causal Forests, a recently proposed nonparametric causal regression model that employs Bayesian Additive Regression Trees and is specifically designed to estimate heterogeneous treatment effects using observational data. The sparsity-inducing component we introduce is motivated by empirical studies where the number of pre-treatment covariates available is non-negligible, leading to different degrees of sparsity underlying the surfaces of interest in the estimation of individual treatment effects. The extended version presented in this work, which we name Sparse Bayesian Causal Forest, is equipped with an additional pair of priors allowing the model to adjust the weight of each covariate through the corresponding number of splits in the tree ensemble. These priors improve the model's adaptability to sparse settings and allow to perform fully Bayesian variable selection in a framework for treatment effects estimation, and thus to uncover the moderating factors driving heterogeneity. In addition, the method allows prior knowledge about the relevant confounding pre-treatment covariates and the relative magnitude of their impact on the outcome to be incorporated in the model. We illustrate the performance of our method in simulated studies, in comparison to Bayesian Causal Forest and other state-of-the-art models, to demonstrate how it scales up with an increasing number of covariates and how it handles strongly confounded scenarios. Finally, we also provide an example of application using real-world data.
翻訳日:2021-02-15 13:13:33 公開日:2021-02-12
# ニューラルスケーリング法則の解説

Explaining Neural Scaling Laws ( http://arxiv.org/abs/2102.06701v1 )

ライセンス: Link先を確認
Yasaman Bahri, Ethan Dyer, Jared Kaplan, Jaehoon Lee, Utkarsh Sharma(参考訳) よく訓練されたニューラルネットワークのテスト損失は、トレーニングデータセットのサイズやネットワーク内のパラメータ数と正確なパワーロースケーリング関係に従うことが多い。 これらのスケーリング法則を説明・連結する理論を提案する。 データセットとモデルサイズの両方の分散制限と分解能制限のスケーリング挙動を,合計4つのスケーリングレギュレーションに対して同定する。 分散制限されたスケーリングは、振舞いのよい無限データまたは無限の幅の限界の存在から単に従うが、解像度制限された体制は、モデルが滑らかなデータ多様体を効果的に解決していることを示唆することによって説明することができる。 大きな幅制限では、これは特定のカーネルのスペクトルから等価に得ることができ、大きな幅と大きなデータセット解像度に制限されたスケーリング指数が双対性によって関連していることを示す。 大規模ランダム特徴と事前学習モデルの制御設定において,4つのスケーリングレジームをすべて示し,さまざまな標準アーキテクチャとデータセット上で経験則的に予測をテストした。 スーパークラス化イメージタスクは指数を変化させないが、(データセットを変更したりノイズを追加したりすることで)入力分布を変更することは強い効果がある。 アーキテクチャアスペクト比が指数のスケーリングに与える影響についてさらに検討する。

The test loss of well-trained neural networks often follows precise power-law scaling relations with either the size of the training dataset or the number of parameters in the network. We propose a theory that explains and connects these scaling laws. We identify variance-limited and resolution-limited scaling behavior for both dataset and model size, for a total of four scaling regimes. The variance-limited scaling follows simply from the existence of a well-behaved infinite data or infinite width limit, while the resolution-limited regime can be explained by positing that models are effectively resolving a smooth data manifold. In the large width limit, this can be equivalently obtained from the spectrum of certain kernels, and we present evidence that large width and large dataset resolution-limited scaling exponents are related by a duality. We exhibit all four scaling regimes in the controlled setting of large random feature and pretrained models and test the predictions empirically on a range of standard architectures and datasets. We also observe several empirical relationships between datasets and scaling exponents: super-classing image tasks does not change exponents, while changing input distribution (via changing datasets or adding noise) has a strong effect. We further explore the effect of architecture aspect ratio on scaling exponents.
翻訳日:2021-02-15 13:13:06 公開日:2021-02-12
# 神経BRDF表現と重要度サンプリング

Neural BRDF Representation and Importance Sampling ( http://arxiv.org/abs/2102.05963v2 )

ライセンス: Link先を確認
Alejandro Sztrajman, Gilles Rainer, Tobias Ritschel, Tim Weyrich(参考訳) 実世界の物質外観の制御されたキャプチャは、高度に現実的な反射率データの集計セットを得る。 しかし実際には、その高いメモリフットプリントは、オリジナルに忠実でありながら、レンダリングに効率的に使用できる表現に圧縮する必要がある。 レンダリング中に効率的なクエリに適さない高忠実度のアレイ圧縮戦略を適用するか、表現力に欠けるコンパクトな分析モデルを適用するかのいずれかによって、外観符号化の以前の作業は、多くの場合、これらの要件の1つを優先しました。 本稿では, BRDFデータをコンパクトなニューラルネットワークで表現し, 高精度な再構成と, 反射率の補間を組み込んだ効率的な実用的なレンダリングを実現する。 BRDFを軽量ネットワークとしてエンコードし、スペクトルハイライトの正確な再構築に不可欠なアダプティブアンギュラサンプリングによるトレーニングスキームを提案します。 さらに,重要サンプリングに適応する新しい手法を提案する。トレーニングされたネットワークを逆転するのではなく,重要サンプリングが知られている解析BRDFのパラメータにマッピング可能な埋め込みを学習する。 複数の実世界のデータセットから得られた異方性および異方性BRDFの符号化結果と、2つの異なる解析モデルにマッピングされた異方性BRDFのサンプリング性能を評価する。

Controlled capture of real-world material appearance yields tabulated sets of highly realistic reflectance data. In practice, however, its high memory footprint requires compressing into a representation that can be used efficiently in rendering while remaining faithful to the original. Previous works in appearance encoding often prioritised one of these requirements at the expense of the other, by either applying high-fidelity array compression strategies not suited for efficient queries during rendering, or by fitting a compact analytic model that lacks expressiveness. We present a compact neural network-based representation of BRDF data that combines high-accuracy reconstruction with efficient practical rendering via built-in interpolation of reflectance. We encode BRDFs as lightweight networks, and propose a training scheme with adaptive angular sampling, critical for the accurate reconstruction of specular highlights. Additionally, we propose a novel approach to make our representation amenable to importance sampling: rather than inverting the trained networks, we learn an embedding that can be mapped to parameters of an analytic BRDF for which importance sampling is known. We evaluate encoding results on isotropic and anisotropic BRDFs from multiple real-world datasets, and importance sampling performance for isotropic BRDFs mapped to two different analytic models.
翻訳日:2021-02-15 13:12:45 公開日:2021-02-12
# 学習変数MRI再構成のベイズ不確実性推定

Bayesian Uncertainty Estimation of Learned Variational MRI Reconstruction ( http://arxiv.org/abs/2102.06665v1 )

ライセンス: Link先を確認
Dominik Narnhofer and Alexander Effland and Erich Kobler and Kerstin Hammernik and Florian Knoll and Thomas Pock(参考訳) 最近のディープラーニングアプローチは、専用のベンチマークの量的スコアの改善に重点を置いているため、観測関連の不確実性を減らすだけである。 しかし、モデルの不確かさは体系的に分析されることは少ない。 本研究では, 震源の不確実性を定量化するベイズ変動フレームワークを提案する。 そこで, 変量設定下における下検体MRI再構成の線形逆問題を解く。 関連するエネルギー汎関数は、データ忠実度項と学習パラメトリック正則化器としての全深度変動(TDV)からなる。 認識的不確かさを推定するために、確率的最適制御問題において平均と共分散行列が学習される多変量ガウス分布からtdv正則化器のパラメータを導出する。 いくつかの数値実験では、このアプローチが低サンプルMRI再建のための競争結果をもたらすことを実証する。 さらに,再構成信頼性を可視化するための追加資源として放射線科医に提供できる画素単位の認識の不確かさを正確に定量化することができる。

Recent deep learning approaches focus on improving quantitative scores of dedicated benchmarks, and therefore only reduce the observation-related (aleatoric) uncertainty. However, the model-immanent (epistemic) uncertainty is less frequently systematically analyzed. In this work, we introduce a Bayesian variational framework to quantify the epistemic uncertainty. To this end, we solve the linear inverse problem of undersampled MRI reconstruction in a variational setting. The associated energy functional is composed of a data fidelity term and the total deep variation (TDV) as a learned parametric regularizer. To estimate the epistemic uncertainty we draw the parameters of the TDV regularizer from a multivariate Gaussian distribution, whose mean and covariance matrix are learned in a stochastic optimal control problem. In several numerical experiments, we demonstrate that our approach yields competitive results for undersampled MRI reconstruction. Moreover, we can accurately quantify the pixelwise epistemic uncertainty, which can serve radiologists as an additional resource to visualize reconstruction reliability.
翻訳日:2021-02-15 13:11:57 公開日:2021-02-12
# 完全最大流量計算のためのreluニューラルネットワーク

ReLU Neural Networks for Exact Maximum Flow Computation ( http://arxiv.org/abs/2102.06635v1 )

ライセンス: Link先を確認
Christoph Hertrich and Leon Sering(参考訳) 理論的な観点からのニューラルネットワーク(nns)の偉大な実証的成功を理解することは、現在コンピュータ科学で最もホットな研究トピックの1つです。 本稿では, 線形整列単位を用いたNNの表現力について, 組合せ最適化の観点から検討する。 特に、$n$ノードと$m$アークを持つ有向グラフを考えると、入力として可能な実値アーク容量から最大フローを計算する多項式サイズのNNが存在することを示しています。 これを証明するために、擬似符号言語Max-Affine Arithmetic Programs(MAAP)を開発し、自然複雑性対策に関するMAAPとNNの等価性を示す。 次に、最大フロー問題を正確に解くためにMAAPを設計し、サイズが$\mathcal{O}(m^2 n^2)$のNNに変換する。

Understanding the great empirical success of artificial neural networks (NNs) from a theoretical point of view is currently one of the hottest research topics in computer science. In this paper we study the expressive power of NNs with rectified linear units from a combinatorial optimization perspective. In particular, we show that, given a directed graph with $n$ nodes and $m$ arcs, there exists an NN of polynomial size that computes a maximum flow from any possible real-valued arc capacities as input. To prove this, we develop the pseudo-code language Max-Affine Arithmetic Programs (MAAPs) and show equivalence between MAAPs and NNs concerning natural complexity measures. We then design a MAAP to exactly solve the Maximum Flow Problem, which translates to an NN of size $\mathcal{O}(m^2 n^2)$.
翻訳日:2021-02-15 13:11:39 公開日:2021-02-12
# 微分生成音韻論

Differentiable Generative Phonology ( http://arxiv.org/abs/2102.05717v2 )

ライセンス: Link先を確認
Shijie Wu and Edoardo Maria Ponti and Ryan Cotterell(参考訳) Chomsky and Halle (1968) によって定式化された生成音韻学の目標は、言語で証明された音韻の集合を説明する形式的なシステムを指定することである。 伝統的に、規則(あるいは最適性理論の場合の制約)と基礎形式(UF)の集合は、音韻弦を生成するためにタンデムで働くように仮定される。 しかし、具体的な実現に関するUFの抽象化の程度は議論の余地がある。 我々の研究の主な貢献は、規則や制約の集合ではなく、ニューラルモデルで識別可能なエンドツーエンドとして音韻生成システムを実装することである。 従来の音韻学とは対照的に、私たちのモデルでは UF は離散弦ではなく $\mathbb{R}^d$ の連続ベクトルである。 その結果、UFは言語学者によって提案されるのではなく自動的に発見され、モデルは現実的な語彙のサイズまでスケールすることができる。 さらに、生成過程のいくつかのモードを比較し、以下を考察する:i)形態素と表面形態(SFs)の間に根底にある表現の存在または不在;ii)SFに関するUFの条件依存または独立。 5言語と28言語をカバーする2つのデータセットにおいて,各モードが有意な音韻列を推定する能力を評価した。 結果は、生成音韻学の2つのテネットであるvizと相関する。 UF と SF からの独立の必要性。 一般的に、生成音声学のニューラルネットワークは、UFとSFの両方を自動的に、そして大規模に学習する。

The goal of generative phonology, as formulated by Chomsky and Halle (1968), is to specify a formal system that explains the set of attested phonological strings in a language. Traditionally, a collection of rules (or constraints, in the case of optimality theory) and underlying forms (UF) are posited to work in tandem to generate phonological strings. However, the degree of abstraction of UFs with respect to their concrete realizations is contentious. As the main contribution of our work, we implement the phonological generative system as a neural model differentiable end-to-end, rather than as a set of rules or constraints. Contrary to traditional phonology, in our model, UFs are continuous vectors in $\mathbb{R}^d$, rather than discrete strings. As a consequence, UFs are discovered automatically rather than posited by linguists, and the model can scale to the size of a realistic vocabulary. Moreover, we compare several modes of the generative process, contemplating: i) the presence or absence of an underlying representation in between morphemes and surface forms (SFs); and ii) the conditional dependence or independence of UFs with respect to SFs. We evaluate the ability of each mode to predict attested phonological strings on 2 datasets covering 5 and 28 languages, respectively. The results corroborate two tenets of generative phonology, viz. the necessity for UFs and their independence from SFs. In general, our neural model of generative phonology learns both UFs and SFs automatically and on a large-scale.
翻訳日:2021-02-15 13:11:23 公開日:2021-02-12
# 感情タスクのための絵文字に基づく転写学習

Emoji-Based Transfer Learning for Sentiment Tasks ( http://arxiv.org/abs/2102.06423v1 )

ライセンス: Link先を確認
Susann Boy, Dana Ruiter, Dietrich Klakow(参考訳) ヘイトスピーチの検出や感情分析などの感情タスクは、特に英語以外の言語で実行される場合、しばしば低リソース化される。 本研究では,絵文字にエンコードされた感情情報を活用し,様々な感情課題のパフォーマンスを向上させる。 これは、絵文字ベースのソースタスクで学習されたパラメータを感情目標タスクに転送する転送学習アプローチを使って行われる。 転送の有効性を3つの条件、すなわち3つの条件で分析する。 i) 対象タスクの絵文字内容及びii) 対象タスクのラベル分布及びiii) 単言語的および多言語的に学習されたソースタスクの違い i.a. を見つけます。 ターゲットのタスクが高い絵文字コンテンツとバランスを取っていれば、転送は最も有益である。 単言語で学習されたソースタスクは、絵文字の文化的に特定の使用を考慮し、ベースライン上で最大F1 + 0.280を得るというメリットがある。

Sentiment tasks such as hate speech detection and sentiment analysis, especially when performed on languages other than English, are often low-resource. In this study, we exploit the emotional information encoded in emojis to enhance the performance on a variety of sentiment tasks. This is done using a transfer learning approach, where the parameters learned by an emoji-based source task are transferred to a sentiment target task. We analyse the efficacy of the transfer under three conditions, i.e. i) the emoji content and ii) label distribution of the target task as well as iii) the difference between monolingually and multilingually learned source tasks. We find i.a. that the transfer is most beneficial if the target task is balanced with high emoji content. Monolingually learned source tasks have the benefit of taking into account the culturally specific use of emojis and gain up to F1 +0.280 over the baseline.
翻訳日:2021-02-15 13:10:58 公開日:2021-02-12
# バイリンガル辞書を用いた機械翻訳における連続学習

Continuous Learning in Neural Machine Translation using Bilingual Dictionaries ( http://arxiv.org/abs/2102.06558v1 )

ライセンス: Link先を確認
Jan Niehues(参考訳) 近年のディープラーニングの進歩は機械翻訳の大幅な改善につながったが、ニューラルマシン翻訳は環境に継続的に適応できないことが多い。 人間や機械翻訳にとって、バイリンガル辞書は、新しい知識を継続的に統合するための有望な知識源である。 システムはワンショット学習を実行できると同時に、ソース言語とターゲット言語の形態をモデル化する必要があります。 本研究では,ニューラルマシン翻訳による新しいフレーズの連続学習能力を評価するための評価フレームワークを提案する。 ニューラルマシン翻訳のためのワンショット学習手法を異なる単語表現と統合し、バイリンガル辞書をうまく活用するためには双方に対処することが重要であることを示す。 両方の課題に対処することで、新しいまれな単語やフレーズを30%から70%に翻訳する能力を改善することができます。 正しい補題は90%以上も生成されます。

While recent advances in deep learning led to significant improvements in machine translation, neural machine translation is often still not able to continuously adapt to the environment. For humans, as well as for machine translation, bilingual dictionaries are a promising knowledge source to continuously integrate new knowledge. However, their exploitation poses several challenges: The system needs to be able to perform one-shot learning as well as model the morphology of source and target language. In this work, we proposed an evaluation framework to assess the ability of neural machine translation to continuously learn new phrases. We integrate one-shot learning methods for neural machine translation with different word representations and show that it is important to address both in order to successfully make use of bilingual dictionaries. By addressing both challenges we are able to improve the ability to translate new, rare words and phrases from 30% to up to 70%. The correct lemma is even generated by more than 90%.
翻訳日:2021-02-15 13:10:43 公開日:2021-02-12
# 言語固有エンコーダ・デコーダにおけるゼロショットニューラルマシン翻訳の改善

Improving Zero-shot Neural Machine Translation on Language-specific Encoders-Decoders ( http://arxiv.org/abs/2102.06578v1 )

ライセンス: Link先を確認
Junwei Liao, Yu Shi, Ming Gong, Linjun Shou, Hong Qu, Michael Zeng(参考訳) 近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。 ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ-デコーダは、非共有モジュール間で普遍的な表現を達成することを目指している。 非共有アーキテクチャは、特に共用語彙とモデルパラメータがサイズに制限されている場合、内部言語競合を緩和する利点がある。 しかし、ゼロショット翻訳における複数エンコーダとデコーダの使用性能は、ユニバーサルNMTより遅れている。 本研究では,言語固有エンコーダ-デコーダを用いたゼロショット翻訳について検討する。 言語固有層とインターリンガル層を区別し,非共有アーキテクチャと汎用NMTの一般化を提案する。 パラメータを選択的に共有し,クロスアテンションを適用することにより,表現の普遍性を最大化し,言語に依存しない情報の最適アライメントを実現する。 また,DAE(Denoising Auto-Encoding)の目標として,翻訳タスクをマルチタスクで共同トレーニングする手法も導入した。 2つの公開多言語並列データセットにおける実験により,提案モデルが汎用nmtおよび強力なpivotベースラインよりも競合的あるいは優れた結果が得られることを示した。 さらに,新たなモデルパラメータを更新すれば,トレーニングモデルに新たな言語を段階的に追加する実験を行った。 この小さな努力で、新たに追加された言語と既存の言語の間のゼロショット翻訳は、すべての言語をゼロからトレーニングしたモデルと同等の結果を得る。

Recently, universal neural machine translation (NMT) with shared encoder-decoder gained good performance on zero-shot translation. Unlike universal NMT, jointly trained language-specific encoders-decoders aim to achieve universal representation across non-shared modules, each of which is for a language or language family. The non-shared architecture has the advantage of mitigating internal language competition, especially when the shared vocabulary and model parameters are restricted in their size. However, the performance of using multiple encoders and decoders on zero-shot translation still lags behind universal NMT. In this work, we study zero-shot translation using language-specific encoders-decoders. We propose to generalize the non-shared architecture and universal NMT by differentiating the Transformer layers between language-specific and interlingua. By selectively sharing parameters and applying cross-attentions, we explore maximizing the representation universality and realizing the best alignment of language-agnostic information. We also introduce a denoising auto-encoding (DAE) objective to jointly train the model with the translation task in a multi-task manner. Experiments on two public multilingual parallel datasets show that our proposed model achieves a competitive or better results than universal NMT and strong pivot baseline. Moreover, we experiment incrementally adding new language to the trained model by only updating the new model parameters. With this little effort, the zero-shot translation between this newly added language and existing languages achieves a comparable result with the model trained jointly from scratch on all languages.
翻訳日:2021-02-15 13:10:29 公開日:2021-02-12
# ReRankMatch: セマンティック指向の類似性表現による半教師付き学習

ReRankMatch: Semi-Supervised Learning with Semantics-Oriented Similarity Representation ( http://arxiv.org/abs/2102.06328v1 )

ライセンス: Link先を確認
Trung Quang Tran, Mingu Kang, Daeyoung Kim(参考訳) 本稿では,最近提案されている半教師付き学習手法である rankingmatch への意味論的類似性表現の統合を提案する。 我々の手法はReRankMatchと呼ばれ、ラベル付きデータとラベルなしデータが重複しないカテゴリを共有する場合に対処することを目的としている。 ReRankMatchは、モデルが同じクラスに属する可能性のあるサンプルの同様の画像表現を生成することを奨励します。 我々は, CIFAR-10, CIFAR-100, SVHN, STL-10, Tiny ImageNet など,様々なデータセット上で評価を行った。 有望な結果(4000ラベルのCIFAR-10の4.21%エラー率、10000ラベルのCIFAR-100の22.32%エラー率、1000ラベルのSVHNの2.19%エラー率)を得る。

This paper proposes integrating semantics-oriented similarity representation into RankingMatch, a recently proposed semi-supervised learning method. Our method, dubbed ReRankMatch, aims to deal with the case in which labeled and unlabeled data share non-overlapping categories. ReRankMatch encourages the model to produce the similar image representations for the samples likely belonging to the same class. We evaluate our method on various datasets such as CIFAR-10, CIFAR-100, SVHN, STL-10, and Tiny ImageNet. We obtain promising results (4.21% error rate on CIFAR-10 with 4000 labels, 22.32% error rate on CIFAR-100 with 10000 labels, and 2.19% error rate on SVHN with 1000 labels) when the amount of labeled data is sufficient to learn semantics-oriented similarity representation.
翻訳日:2021-02-15 13:09:52 公開日:2021-02-12
# Densely Deformable Efficient Salient Object Detection Network

Densely Deformable Efficient Salient Object Detection Network ( http://arxiv.org/abs/2102.06407v1 )

ライセンス: Link先を確認
Tanveer Hussain, Saeed Anwar, Amin Ullah, Khan Muhammad, and Sung Wook Baik(参考訳) rgb-dデータを用いたsalient object detection (sod)ドメインは、近年、いくつかのモデルで適切な結果が得られた。 しかし、それらは一般化能力と集中的な計算複雑性を抑えている。 本稿では,変形可能な畳み込みの最適背景/地上分離能力に触発されて,Densely Deformable Network (DDNet) に導入し,効率的なSODを実現する。 密に変形可能な畳み込みから得られる塩分領域は、転置畳み込みを用いてさらに洗練され、塩分マップを最適に生成する。 22の競合技術に対する最近のSODデータセットを用いた定量および定性評価は,本手法の有効性と有効性を示している。 また,当社が作成したクロスデータ型監視sod(s-sod)を用いて,さまざまなシナリオに適用可能なトレーニングモデルの妥当性を確認する評価も行います。 結果は、現在のモデルは一般化ポテンシャルが限られており、この方向のさらなる研究が必要であることを示している。 私たちのコードと新しいデータセットはhttps://github.com/tanveer-hussain/EfficientSODで公開されます。

Salient Object Detection (SOD) domain using RGB-D data has lately emerged with some current models' adequately precise results. However, they have restrained generalization abilities and intensive computational complexity. In this paper, inspired by the best background/foreground separation abilities of deformable convolutions, we employ them in our Densely Deformable Network (DDNet) to achieve efficient SOD. The salient regions from densely deformable convolutions are further refined using transposed convolutions to optimally generate the saliency maps. Quantitative and qualitative evaluations using the recent SOD dataset against 22 competing techniques show our method's efficiency and effectiveness. We also offer evaluation using our own created cross-dataset, surveillance-SOD (S-SOD), to check the trained models' validity in terms of their applicability in diverse scenarios. The results indicate that the current models have limited generalization potentials, demanding further research in this direction. Our code and new dataset will be publicly available at https://github.com/tanveer-hussain/EfficientSOD
翻訳日:2021-02-15 13:09:31 公開日:2021-02-12
# インタラクティブセグメンテーションのためのマスクガイダンスによる反復トレーニングの復活

Reviving Iterative Training with Mask Guidance for Interactive Segmentation ( http://arxiv.org/abs/2102.06583v1 )

ライセンス: Link先を確認
Konstantin Sofiiuk, Ilia A. Petrov and Anton Konushin(参考訳) クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。 これらのメソッドはフィードフォワードアプローチよりもかなり計算コストが高く、推論中にネットワークをバックワードパスする必要があるため、通常はフォワードパスのみをサポートするモバイルフレームワークにデプロイすることは困難である。 本稿では,インタラクティブセグメンテーションのための様々な設計選択を広範囲に評価し,追加の最適化スキームを使わずに新たな最先端結果が得られることを示す。 そこで本研究では,前段からのセグメンテーションマスクを用いたクリック型インタラクティブセグメンテーションのための簡易フィードフォワードモデルを提案する。 完全に新しいオブジェクトをセグメント化できるだけでなく、外部マスクから始めて修正することもできる。 異なるデータセット上で訓練されたモデルのパフォーマンスを分析する場合、トレーニングデータセットの選択がインタラクティブセグメンテーションの品質に大きく影響することを観察します。 COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。 コードとトレーニングされたモデルはhttps://github.com/saic-vul/ritm_interactive_segmentationで入手できる。

Recent works on click-based interactive segmentation have demonstrated state-of-the-art results by using various inference-time optimization schemes. These methods are considerably more computationally expensive compared to feedforward approaches, as they require performing backward passes through a network during inference and are hard to deploy on mobile frameworks that usually support only forward passes. In this paper, we extensively evaluate various design choices for interactive segmentation and discover that new state-of-the-art results can be obtained without any additional optimization schemes. Thus, we propose a simple feedforward model for click-based interactive segmentation that employs the segmentation masks from previous steps. It allows not only to segment an entirely new object, but also to start with an external mask and correct it. When analyzing the performance of models trained on different datasets, we observe that the choice of a training dataset greatly impacts the quality of interactive segmentation. We find that the models trained on a combination of COCO and LVIS with diverse and high-quality annotations show performance superior to all existing models. The code and trained models are available at https://github.com/saic-vul/ritm_interactive_segmentation.
翻訳日:2021-02-15 13:09:13 公開日:2021-02-12
# マルチビュー・セルフスーパービジョンを用いた単一画像からの屋外逆レンダリング

Outdoor inverse rendering from a single image using multiview self-supervision ( http://arxiv.org/abs/2102.06591v1 )

ライセンス: Link先を確認
Ye Yu and William A. P. Smith(参考訳) 本論文では, 完全畳み込みニューラルネットワークを用いて, 単一非制御画像から形状, 反射率, 照明を回復するシーンレベルの逆レンダリングを行う方法を示す。 このネットワークは、RGB画像を入力として、アルベド、シャドウ、ノーマルマップを回帰し、最小二乗の球面調和照明係数を推定する。 ネットワークは、地上真理のない大規模なマルチビューおよびタイムラプス画像収集を用いて訓練されている。 微分可能なレンダラーを組み込むことで、ネットワークは自己スーパービジョンから学習できる。 問題は不適切であるため、追加の監督を導入する。 私たちの重要な洞察力は、豊富な照明変動を含む画像にオフラインマルチビューステレオ(MVS)を実行することです。 MVS のポーズと深度マップから、Samese のトレーニングで測光不変量の一貫した推定ができるように、重なり合うビュー間でプロジェクトを横断することができる。 MVS depthはまた、通常の地図推定のための直接粗い監督を提供する。 これはmvs監督を逆レンダリングの学習に利用する最初の試みであると考えています。 さらに,統計的自然照明を事前に学習する。 本研究では,逆レンダリング,正規地図推定,内在的画像分解ベンチマークの性能評価を行う。

In this paper we show how to perform scene-level inverse rendering to recover shape, reflectance and lighting from a single, uncontrolled image using a fully convolutional neural network. The network takes an RGB image as input, regresses albedo, shadow and normal maps from which we infer least squares optimal spherical harmonic lighting coefficients. Our network is trained using large uncontrolled multiview and timelapse image collections without ground truth. By incorporating a differentiable renderer, our network can learn from self-supervision. Since the problem is ill-posed we introduce additional supervision. Our key insight is to perform offline multiview stereo (MVS) on images containing rich illumination variation. From the MVS pose and depth maps, we can cross project between overlapping views such that Siamese training can be used to ensure consistent estimation of photometric invariants. MVS depth also provides direct coarse supervision for normal map estimation. We believe this is the first attempt to use MVS supervision for learning inverse rendering. In addition, we learn a statistical natural illumination prior. We evaluate performance on inverse rendering, normal map estimation and intrinsic image decomposition benchmarks.
翻訳日:2021-02-15 13:08:56 公開日:2021-02-12
# 確率的, 対逆的な線形帯における近接インスタンス・オプティマティとミニマックス・オプティマティクスを同時に実現する

Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously ( http://arxiv.org/abs/2102.05858v2 )

ライセンス: Link先を確認
Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang, Xiaojin Zhang(参考訳) 本研究では,異なる環境に自動的に適応する線形バンディットアルゴリズムを開発した。 新しい損失推定器をインスタンス最適化戦略を特徴付ける最適化問題に差し込むことで、私たちの最初のアルゴリズムは確率的環境でのインスタンス最適化の後悔をほぼ達成するだけでなく、さらに後悔の量である腐敗した環境で動作し、最先端の(Li et al.、2019)はインスタンス最適化も破損量への最適依存も達成しません。 さらに、このアルゴリズムを逆成分と慎重に設計したテストとを併用することにより、我々の第2のアルゴリズムは、完全に逆条件下での最小限の後悔を享受する。 最後に、すべての保証は高い確率で保持されますが、既存のインスタンス最適化保証は期待通りです。

In this work, we develop linear bandit algorithms that automatically adapt to different environments. By plugging a novel loss estimator into the optimization problem that characterizes the instance-optimal strategy, our first algorithm not only achieves nearly instance-optimal regret in stochastic environments, but also works in corrupted environments with additional regret being the amount of corruption, while the state-of-the-art (Li et al., 2019) achieves neither instance-optimality nor the optimal dependence on the corruption amount. Moreover, by equipping this algorithm with an adversarial component and carefully-designed testings, our second algorithm additionally enjoys minimax-optimal regret in completely adversarial environments, which is the first of this kind to our knowledge. Finally, all our guarantees hold with high probability, while existing instance-optimal guarantees only hold in expectation.
翻訳日:2021-02-15 13:08:13 公開日:2021-02-12
# バッテリーと共に踊る - モバイルデバイス上での実行時間再構成可能なトランスフォーマーの実現

Dancing along Battery: Enabling Transformer with Run-time Reconfigurability on Mobile Devices ( http://arxiv.org/abs/2102.06336v1 )

ライセンス: Link先を確認
Yuhong Song, Weiwen Jiang, Bingbing Li, Panjie Qi, Qingfeng Zhuge, Edwin Hsing-Mean Sha, Sakyasingha Dasgupta, Yiyu Shi, Caiwen Ding(参考訳) この研究では、ランタイム再構成性のためのpruningベースのAutoMLフレームワーク、すなわちRT3が提案されている。 これにより、Transformerベースの大規模自然言語処理(NLP)モデルをリソース制約のあるモバイルデバイス上で効率的に実行し、実行時に再構成(動的ハードウェア条件のモデルの変更)を行うことができる。 このような再構成性は、バッテリー駆動のモバイルデバイスの省エネの鍵であり、ハードウェア再構成のために動的電圧および周波数スケーリング(dvfs)技術が広く使われている。 本研究では,トランスフォーマーモデルのためのブロック構造プルーニング(bp)とパターンプルーニング(pp)のハイブリッドを創造的に検討し,まずハードウェアとソフトウェアの再構成を組み合わせることで,バッテリ駆動モバイルデバイスの省エネを図る。 RT3は、リソース制約のあるモバイルデバイスの第一段階の圧縮として効率的なBPを使用し、その後RT3は第一段階の最適化に基づいてシャーンケン検索空間をヒューリスティックに生成し、強化学習によりPPの多様な幅を持つ複数のパターン集合を検索し、DVFS(ハードウェア再構成)の利用可能な周波数レベルに対応する軽量なソフトウェア再構成をサポートする。 実行時には、RT3は45ms以内の軽量パターンセットを切り替えて、異なる周波数レベルのリアルタイム制約を保証できる。 さらに、RT3はトランスの1%以下の精度損失とDistilBERTの1.5%のスコアの低下で4倍以上のバッテリー寿命を延ばすことができます。

A pruning-based AutoML framework for run-time reconfigurability, namely RT3, is proposed in this work. This enables Transformer-based large Natural Language Processing (NLP) models to be efficiently executed on resource-constrained mobile devices and reconfigured (i.e., switching models for dynamic hardware conditions) at run-time. Such reconfigurability is the key to save energy for battery-powered mobile devices, which widely use dynamic voltage and frequency scaling (DVFS) technique for hardware reconfiguration to prolong battery life. In this work, we creatively explore a hybrid block-structured pruning (BP) and pattern pruning (PP) for Transformer-based models and first attempt to combine hardware and software reconfiguration to maximally save energy for battery-powered mobile devices. Specifically, RT3 integrates two-level optimizations: First, it utilizes an efficient BP as the first-step compression for resource-constrained mobile devices; then, RT3 heuristically generates a shrunken search space based on the first level optimization and searches multiple pattern sets with diverse sparsity for PP via reinforcement learning to support lightweight software reconfiguration, which corresponds to available frequency levels of DVFS (i.e., hardware reconfiguration). At run-time, RT3 can switch the lightweight pattern sets within 45ms to guarantee the required real-time constraint at different frequency levels. Results further show that RT3 can prolong battery life over 4x improvement with less than 1% accuracy loss for Transformer and 1.5% score decrease for DistilBERT.
翻訳日:2021-02-15 13:07:13 公開日:2021-02-12
# 混合信号ニューロモルフィックプロセッサのロバスト展開のためのスパイクニューラルネットワークのトレーニング

Supervised training of spiking neural networks for robust deployment on mixed-signal neuromorphic processors ( http://arxiv.org/abs/2102.06408v1 )

ライセンス: Link先を確認
Julian B\"uchel, Dmitrii Zendrikov, Sergio Solinas, Giacomo Indiveri, Dylan R. Muir(参考訳) 混合信号アナログ/デジタル電子回路は「神経工学」として知られるアプローチに従って、スパイキングニューロンやシナプスを非常に高いエネルギー効率でエミュレートすることができる。 しかし、アナログ回路はチップ内のトランジスタ間の製造のばらつきに敏感である("device mismatch")。 スパイキングニューラルネットワーク(SNN)の神経形態実装の場合、ミスマッチは同一構成ニューロンとシナプス間の効果的なパラメータの違いとして表現される。 したがって、各製造チップは時間定数やシナプス重みなどのパラメータの異なる分布を提供する。 追加のオンチップ学習またはキャリブレーション回路の領域と電力の高価なオーバーヘッドがなければ、デバイスミスマッチおよびその他のノイズソースは、事前に訓練されたニューラルネットワークチップの展開にとって重要な課題です。 ここでは、ミスマッチやその他の一般的なノイズ源に対する堅牢性を最大化することで、この課題に対処する教師付き学習アプローチを紹介します。 提案手法は,非線形制御理論から適応した局所学習則を用いて,事前学習した力学系を模倣して時間的分類タスクを実行する。 我々は,メモリの動作を成功させる2つのタスクにおいて,モデルの有効性を実証し,ネットワーク内に存在する様々なノイズや変動性に対する我々のアプローチの頑健さを計測する。 我々のアプローチは、SNNのトレーニングのためのいくつかの一般的な代替アプローチよりも堅牢であることを示す。 本手法は, デバイスごとのトレーニングや校正を必要とせず, 混合信号のニューロモルフィックハードウェア上で, トレーニング済みネットワークを堅牢に展開する方法を提供する。

Mixed-signal analog/digital electronic circuits can emulate spiking neurons and synapses with extremely high energy efficiency, following an approach known as "neuromorphic engineering". However, analog circuits are sensitive to variation in fabrication among transistors in a chip ("device mismatch"). In the case of neuromorphic implementation of Spiking Neural Networks (SNNs), mismatch is expressed as differences in effective parameters between identically-configured neurons and synapses. Each fabricated chip therefore provides a different distribution of parameters such as time constants or synaptic weights. Without the expensive overhead in terms of area and power of extra on-chip learning or calibration circuits, device mismatch and other noise sources represent a critical challenge for the deployment of pre-trained neural network chips. Here we present a supervised learning approach that addresses this challenge by maximizing robustness to mismatch and other common sources of noise. The proposed method trains (SNNs) to perform temporal classification tasks by mimicking a pre-trained dynamical system, using a local learning rule adapted from non-linear control theory. We demonstrate the functionality of our model on two tasks that require memory to perform successfully, and measure the robustness of our approach to several forms of noise and variability present in the network. We show that our approach is more robust than several common alternative approaches for training SNNs. Our method provides a viable way to robustly deploy pre-trained networks on mixed-signal neuromorphic hardware, without requiring per-device training or calibration.
翻訳日:2021-02-15 13:06:41 公開日:2021-02-12
# 同じコインの2つの側面:グラフ畳み込みニューラルネットワークにおけるヘテロフィアとオーバースムーシング

Two Sides of the Same Coin: Heterophily and Oversmoothing in Graph Convolutional Neural Networks ( http://arxiv.org/abs/2102.06462v1 )

ライセンス: Link先を確認
Yujun Yan, Milad Hashemi, Kevin Swersky, Yaoqing Yang, Danai Koutra(参考訳) ほとんどのグラフニューラルネットワーク(gnn)は、隣人が(重く)異なる特徴/クラスを持ち、複数の層を積み重ねる(余計な)グラフでは、パフォーマンスが悪い。 これら2つの無関係な問題が独立して研究されているが、ある問題を解くことが他の問題に利益をもたらすという実証的な証拠が近年ある。 この研究では、経験的な観察を超えて、ヘテロフィアとオーバースムーシングの接続を理論的に特徴付け、両者が区別不能なノード表現に繋がる。 メッセージ伝搬中のノード表現の変化をモデル化することにより、異なるクラスからのノードの表現を区別不能にする要因(例えば、度数、ヘテロフィリーレベル)を理論的に分析する。 分析では,(1)ヘテロフィアの高いノードと,その隣接ノードに対してヘテロフィアが低く,かつ低いノード(度差)が過疎化問題を引き起こし,(2)隣接ノード間の"負の"メッセージがヘテロフィアと過疎化の問題を切り離せることを強調する。 本研究の知見に基づき,署名メッセージと学習度補正を組み込むことにより,特徴量と隣接者間の度数の不一致に対処するモデルを設計した。 9つの実ネットワーク上での実験により,本モデルがヘテロフィリー下での最先端性能を実現し,ヘテロフィリー(ホモフィリー)の低い既存GNNに対してコンパティブルに動作可能であることを示す。 オーバースムーシングや複数のレイヤのメリットにも効果的に対処します。

Most graph neural networks (GNN) perform poorly in graphs where neighbors typically have different features/classes (heterophily) and when stacking multiple layers (oversmoothing). These two seemingly unrelated problems have been studied independently, but there is recent empirical evidence that solving one problem may benefit the other. In this work, going beyond empirical observations, we theoretically characterize the connections between heterophily and oversmoothing, both of which lead to indistinguishable node representations. By modeling the change in node representations during message propagation, we theoretically analyze the factors (e.g., degree, heterophily level) that make the representations of nodes from different classes indistinguishable. Our analysis highlights that (1) nodes with high heterophily and nodes with low heterophily and low degrees relative to their neighbors (degree discrepancy) trigger the oversmoothing problem, and (2) allowing "negative" messages between neighbors can decouple the heterophily and oversmoothing problems. Based on our insights, we design a model that addresses the discrepancy in features and degrees between neighbors by incorporating signed messages and learned degree corrections. Our experiments on 9 real networks show that our model achieves state-of-the-art performance under heterophily, and performs comparably to existing GNNs under low heterophily(homophily). It also effectively addresses oversmoothing and even benefits from multiple layers.
翻訳日:2021-02-15 13:06:15 公開日:2021-02-12
# ハードドライブの解釈可能な予測保守

Interpretable Predictive Maintenance for Hard Drives ( http://arxiv.org/abs/2102.06509v1 )

ライセンス: Link先を確認
Maxime Amram, Jack Dunn, Jeremy J. Toledano, Ying Daisy Zhuo(参考訳) 既存のデータ駆動予測保守のための機械学習アプローチは、通常、高い予測能力を持つが人間には理解できないブラックボックスである。 これは、人間がこれらのモデルを使用して根本的な障害メカニズムの洞察と理解を導き出す能力を制限し、将来のデータにうまく機能するためにそのようなシステムに配置できる自信の程度を制限します。 最近の機械学習の解釈アルゴリズムを用いて,データセンタのハードドライブ障害を予測するタスクを検討する。 これらの手法が短期および長期のドライブの健康に関する有意義な洞察を提供しつつ、高い予測性能を維持できることを実証する。 また、これらの分析は、履歴データが限られている場合でも有用な洞察を与え、データ収集が最近始まったばかりである状況でも有効であることを示す。

Existing machine learning approaches for data-driven predictive maintenance are usually black boxes that claim high predictive power yet cannot be understood by humans. This limits the ability of humans to use these models to derive insights and understanding of the underlying failure mechanisms, and also limits the degree of confidence that can be placed in such a system to perform well on future data. We consider the task of predicting hard drive failure in a data center using recent algorithms for interpretable machine learning. We demonstrate that these methods provide meaningful insights about short- and long-term drive health, while also maintaining high predictive performance. We also show that these analyses still deliver useful insights even when limited historical data is available, enabling their use in situations where data collection has only recently begun.
翻訳日:2021-02-15 13:05:43 公開日:2021-02-12
# オンライングラフ辞書学習

Online Graph Dictionary Learning ( http://arxiv.org/abs/2102.06555v1 )

ライセンス: Link先を確認
C\'edric Vincent-Cuaz, Titouan Vayer, R\'emi Flamary, Marco Corneli, Nicolas Courty(参考訳) 辞書学習は表現学習の鍵となるツールであり、データはほとんど基本的な要素の線形結合として説明できる。 しかし、グラフは通常異なるメトリック空間に属しているため、この分析はグラフ学習の文脈では説明できません。 このギャップを埋めるために、Gromov Wassersteinの発散をデータフィッティング用語として使用する新しいオンライングラフ辞書学習アプローチを提案します。 私たちの研究では、グラフはノードの対関係を通じてエンコードされ、グラフ原子の凸結合としてモデル化されます。 辞書要素は、潜在的に異なるノード数を持つ未登録グラフのデータセットで動作するオンライン確率アルゴリズムによって推定される。 私たちのアプローチはラベル付きグラフに自然に拡張され、埋め込み空間におけるGromov Wassersteinの高速近似として使用できる新しい上界によって完了されます。 グラフデータセットの教師なし埋め込みとオンライングラフ部分空間推定と追跡に対するアプローチの関心を示す数値的証拠を提供する。

Dictionary learning is a key tool for representation learning, that explains the data as linear combination of few basic elements. Yet, this analysis is not amenable in the context of graph learning, as graphs usually belong to different metric spaces. We fill this gap by proposing a new online Graph Dictionary Learning approach, which uses the Gromov Wasserstein divergence for the data fitting term. In our work, graphs are encoded through their nodes' pairwise relations and modeled as convex combination of graph atoms, i.e. dictionary elements, estimated thanks to an online stochastic algorithm, which operates on a dataset of unregistered graphs with potentially different number of nodes. Our approach naturally extends to labeled graphs, and is completed by a novel upper bound that can be used as a fast approximation of Gromov Wasserstein in the embedding space. We provide numerical evidences showing the interest of our approach for unsupervised embedding of graph datasets and for online graph subspace estimation and tracking.
翻訳日:2021-02-15 13:05:30 公開日:2021-02-12
# 有効なリアルタイム時系列異常検出を実現するには, どれくらいを振り返るべきか?

How Far Should We Look Back to Achieve Effective Real-Time Time-Series Anomaly Detection? ( http://arxiv.org/abs/2102.06560v1 )

ライセンス: Link先を確認
Ming-Chang Lee, Jia-Chun Lin, and Ernst Gunnar Gran(参考訳) 異常検出は、予期せぬ事象やデータの異常を識別するプロセスであり、システム監視、不正検出、医療、侵入検知など、さまざまな分野で適用されてきた。 人的介入やドメイン知識のない時系列に対して、リアルタイム、軽量、かつ積極的な異常検出を提供することは、人的労力を削減し、災害発生前に適切な対策を行うことができるため、非常に価値があります。 repad(real-time proactive anomaly detection algorithm)は,上記の機能をすべて備えた汎用的なアプローチである。 リアルタイムかつ軽量な検出を実現するため、RePADはLong Short-Term Memory (LSTM) を使用して、短期的な履歴データポイントに基づいて、各データポイントが異常かどうかを検出します。 しかし、異なる量の履歴データポイントがRePADのパフォーマンスにどの程度影響するかは不明である。 そこで本稿では,新しい検出精度尺度,時間効率,即応性,資源消費などをカバーする一連の性能指標を導入することで,リパッドにおけるさまざまな履歴データの影響について検討する。 実世界の時系列データセットに基づく実験実験を行い,様々なシナリオにおけるRePADの評価を行い,実験結果について考察した。

Anomaly detection is the process of identifying unexpected events or ab-normalities in data, and it has been applied in many different areas such as system monitoring, fraud detection, healthcare, intrusion detection, etc. Providing real-time, lightweight, and proactive anomaly detection for time series with neither human intervention nor domain knowledge could be highly valuable since it reduces human effort and enables appropriate countermeasures to be undertaken before a disastrous event occurs. To our knowledge, RePAD (Real-time Proactive Anomaly Detection algorithm) is a generic approach with all above-mentioned features. To achieve real-time and lightweight detection, RePAD utilizes Long Short-Term Memory (LSTM) to detect whether or not each upcoming data point is anomalous based on short-term historical data points. However, it is unclear that how different amounts of historical data points affect the performance of RePAD. Therefore, in this paper, we investigate the impact of different amounts of historical data on RePAD by introducing a set of performance metrics that cover novel detection accuracy measures, time efficiency, readiness, and resource consumption, etc. Empirical experiments based on real-world time series datasets are conducted to evaluate RePAD in different scenarios, and the experimental results are presented and discussed.
翻訳日:2021-02-15 13:05:14 公開日:2021-02-12
# Do-calculusは潜在変数モデルによる因果推論を可能にする

Do-calculus enables causal reasoning with latent variable models ( http://arxiv.org/abs/2102.06626v1 )

ライセンス: Link先を確認
Sara Mohammad-Taheri and Robert Ness and Jeremy Zucker and Olga Vitek(参考訳) 潜在変数モデル(LVM)は、トレーニング中に変数の一部が隠蔽される確率モデルである。 LVM の幅広いクラスは、有向非巡回的グラフィカル構造を形作る。 指示された構造は、データ生成プロセスの直感的な説明を示唆する。 例えば、潜在トピックモデルは、トピックがトークンの発生を引き起こすことを示唆している。 この直感的な因果解釈にもかかわらず、データに基づいて訓練された有向非巡回潜在変数モデルは一般に因果推論には不十分である。 本書では,学習後に提案される因果クエリにLVMが応答できることを示し,ドカルスルールに従って,観測変数からクエリを識別できることを仮定する。 因果推論は,確率的モデリングコミュニティで長く確立されてきた幅広いlvmクラスを強化し,いくつかのケーススタディでその効果を示す。 これには、原因と結果変数の間に潜伏した共同創設者と仲介者が存在する複数の原因を持つ機械学習モデル、前方または後方の基準を用いて識別可能な因果クエリを推定できない研究、2つの生物学的シグナル伝達経路間の未観測のクロストークをキャプチャするケーススタディ、複数の因果クエリを識別するCOVID-19エキスパートシステムが含まれる。

Latent variable models (LVMs) are probabilistic models where some of the variables are hidden during training. A broad class of LVMshave a directed acyclic graphical structure. The directed structure suggests an intuitive causal explanation of the data generating process. For example, a latent topic model suggests that topics cause the occurrence of a token. Despite this intuitive causal interpretation, a directed acyclic latent variable model trained on data is generally insufficient for causal reasoning, as the required model parameters may not be uniquely identified. In this manuscript we demonstrate that an LVM can answer any causal query posed post-training, provided that the query can be identified from the observed variables according to the do-calculus rules. We show that causal reasoning can enhance a broad class of LVM long established in the probabilistic modeling community, and demonstrate its effectiveness on several case studies. These include a machine learning model with multiple causes where there exists a set of latent confounders and a mediator between the causes and the outcome variable, a study where the identifiable causal query cannot be estimated using the front-door or back-door criterion, a case study that captures unobserved crosstalk between two biological signaling pathways, and a COVID-19 expert system that identifies multiple causal queries.
翻訳日:2021-02-15 13:04:51 公開日:2021-02-12
# DeepGLEAM:COVID-19予測のためのハイブリッドメカニカルとディープラーニングモデル

DeepGLEAM: an hybrid mechanistic and deep learning model for COVID-19 forecasting ( http://arxiv.org/abs/2102.06684v1 )

ライセンス: Link先を確認
Dongxia Wu, Liyao Gao, Xinyue Xiong, Matteo Chinazzi, Alessandro Vespignani, Yian Ma, Rose Yu(参考訳) 我々は、COVID-19予測のハイブリッドモデルであるDeepGLEAMを紹介する。 DeepGLEAMは、機械的確率シミュレーションモデルGLEAMとディープラーニングを組み合わせる。 ディープラーニングを使用して、GLEAMから修正項を学習することで、パフォーマンスが向上する。 さらに,様々な不確実性定量化手法を統合し,信頼区間を生成する。 私たちは、DeepGLEAMを現実世界のCOVID-19死亡予測タスクで実証します。

We introduce DeepGLEAM, a hybrid model for COVID-19 forecasting. DeepGLEAM combines a mechanistic stochastic simulation model GLEAM with deep learning. It uses deep learning to learn the correction terms from GLEAM, which leads to improved performance. We further integrate various uncertainty quantification methods to generate confidence intervals. We demonstrate DeepGLEAM on real-world COVID-19 mortality forecasting tasks.
翻訳日:2021-02-15 13:04:29 公開日:2021-02-12
# VARA-TTS: 非常に深いVAEに基づく非自動回帰テキスト-音声合成

VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep VAE with Residual Attention ( http://arxiv.org/abs/2102.06431v1 )

ライセンス: Link先を確認
Peng Liu, Yuewen Cao, Songxiang Liu, Na Hu, Guangzhi Li, Chao Weng, Dan Su(参考訳) 本稿では,残差注意機構を有する超深部変分オートエンコーダ(vdvae)を用いた非自己回帰型(非ar)テキスト・ツー・スパイチ(tts)モデルであるvara-ttsを提案する。 VDVAEとは異なる時間分解能を持つ階層的潜時変数は、残留注意モジュールのクエリとして使用される。 従来のアライメント層からの粗いグローバルアライメントを追加入力として活用することで、以下のアライメント層が洗練されたアライメントバージョンを作成できます。 これは、複数の注意層間のテキストと音響のアライメントを学ぶことの負担を償却し、堅牢性における単一の注意層の使用を上回っます。 粗い層の平均潜時変数を入力とし、推論時の音響フレーム数を決定する共同訓練された発声速度予測器により、発話レベル発声速度係数を算出する。 実験結果から,VARA-TTSはAR対応のTacotron 2に比べてわずかに劣るが,推定時の高次精度向上を実現し,音声品質の面では類似の非ARモデルであるBVAE-TTSよりも優れていた。

This paper proposes VARA-TTS, a non-autoregressive (non-AR) text-to-speech (TTS) model using a very deep Variational Autoencoder (VDVAE) with Residual Attention mechanism, which refines the textual-to-acoustic alignment layer-wisely. Hierarchical latent variables with different temporal resolutions from the VDVAE are used as queries for residual attention module. By leveraging the coarse global alignment from previous attention layer as an extra input, the following attention layer can produce a refined version of alignment. This amortizes the burden of learning the textual-to-acoustic alignment among multiple attention layers and outperforms the use of only a single attention layer in robustness. An utterance-level speaking speed factor is computed by a jointly-trained speaking speed predictor, which takes the mean-pooled latent variables of the coarsest layer as input, to determine number of acoustic frames at inference. Experimental results show that VARA-TTS achieves slightly inferior speech quality to an AR counterpart Tacotron 2 but an order-of-magnitude speed-up at inference; and outperforms an analogous non-AR model, BVAE-TTS, in terms of speech quality.
翻訳日:2021-02-15 13:04:03 公開日:2021-02-12
# 社会的エコシステムにおける責任あるaiへの分散的アプローチ

A Decentralized Approach Towards Responsible AI in Social Ecosystems ( http://arxiv.org/abs/2102.06362v1 )

ライセンス: Link先を確認
Wenjing Chu(参考訳) AI技術が完全な約束を果たすためには、責任あるAI行動をサポートし、無責任な使用を制限するために、効果的なメカニズムをAIシステムに設計する必要があります。 プライバシー保護、人間の自律性、堅牢性、および自動意思決定におけるバイアスと差別の防止の分野で。 本稿では,社会エコシステム内の関係者に対して,所望のAI行動を生成するための計算機能を提供するフレームワークを提案する。 この目的を達成するために,我々は,AIシステムをアーキテクチャレベルで分析し,(1)自律的アイデンティティを用いて人的ユーザを増強し,(2)規則を自動化し,社会機関内での慣行を採用する,という,AIシステムアーキテクチャのための2つの分散暗号機構を提案する。 次に、分散化手法を提案し、これらの機構を実現するために、分散化識別子(DID)と検証クレデンシャル(VC)に基づく重要な概念とメカニズムを概説する。 我々は、分散アプローチがコンピュータ科学と社会科学の両方の観点から、責任あるaiへの最も有望な道であると主張する。

For AI technology to fulfill its full promises, we must design effective mechanisms into the AI systems to support responsible AI behavior and curtail potential irresponsible use, e.g. in areas of privacy protection, human autonomy, robustness, and prevention of biases and discrimination in automated decision making. In this paper, we present a framework that provides computational facilities for parties in a social ecosystem to produce the desired responsible AI behaviors. To achieve this goal, we analyze AI systems at the architecture level and propose two decentralized cryptographic mechanisms for an AI system architecture: (1) using Autonomous Identity to empower human users, and (2) automating rules and adopting conventions within social institutions. We then propose a decentralized approach and outline the key concepts and mechanisms based on Decentralized Identifier (DID) and Verifiable Credentials (VC) for a general-purpose computational infrastructure to realize these mechanisms. We argue the case that a decentralized approach is the most promising path towards Responsible AI from both the computer science and social science perspectives.
翻訳日:2021-02-15 13:03:35 公開日:2021-02-12
# サブモジュラ関数の高速制約最大化のための適応サンプリング

Adaptive Sampling for Fast Constrained Maximization of Submodular Function ( http://arxiv.org/abs/2102.06486v1 )

ライセンス: Link先を確認
Francesco Quinzan and Vanja Dosko\v{c} and Andreas G\"obel and Tobias Friedrich(参考訳) データ要約のような大規模機械学習タスクは、サブモジュラリティを満たす関数を最大化することでアプローチすることができる。 これらの最適化問題は、しばしば基礎となるアプリケーションによって課される複雑な側制約を伴う。 本稿では,非単調部分モジュラー最大化に対する多対数適応性を持つアルゴリズムを一般制約下で開発する。 問題の適応的複雑性は、目的を達成するのに必要な逐次ラウンドの最小数である。 このアルゴリズムは、$p$-system側制約の下で非単調なサブモジュラ関数を最大化するのに適しており、評価オーラクル関数に対する多対数適応ラウンドと多項式クエリのみの後、この問題に対する$(p + O(\sqrt{p})$-近似を実現する。 さらに,提案アルゴリズムは,与えられた側制約が$p$-extendibleシステムである場合に,$(p + O(1))$-approximationを達成する。 このアルゴリズムは、適応性に関して、この問題に対する既知の任意の定数近似アルゴリズムよりも指数的なスピードアップをもたらす。 また、クエリの複雑さの観点から、以前の既知の結果と競合する。 我々は様々な実世界のアプリケーションで様々な実験を行う。 一般的なヒューリスティックと比較すると、アルゴリズムはこれらのインスタンスでより良いパフォーマンスを発揮します。

Several large-scale machine learning tasks, such as data summarization, can be approached by maximizing functions that satisfy submodularity. These optimization problems often involve complex side constraints, imposed by the underlying application. In this paper, we develop an algorithm with poly-logarithmic adaptivity for non-monotone submodular maximization under general side constraints. The adaptive complexity of a problem is the minimal number of sequential rounds required to achieve the objective. Our algorithm is suitable to maximize a non-monotone submodular function under a $p$-system side constraint, and it achieves a $(p + O(\sqrt{p}))$-approximation for this problem, after only poly-logarithmic adaptive rounds and polynomial queries to the valuation oracle function. Furthermore, our algorithm achieves a $(p + O(1))$-approximation when the given side constraint is a $p$-extendible system. This algorithm yields an exponential speed-up, with respect to the adaptivity, over any other known constant-factor approximation algorithm for this problem. It also competes with previous known results in terms of the query complexity. We perform various experiments on various real-world applications. We find that, in comparison with commonly used heuristics, our algorithm performs better on these instances.
翻訳日:2021-02-15 13:03:15 公開日:2021-02-12
# 特徴モデリングと構成におけるレコメンダシステムと機械学習の概要

An Overview of Recommender Systems and Machine Learning in Feature Modeling and Configuration ( http://arxiv.org/abs/2102.06634v1 )

ライセンス: Link先を確認
Alexander Felfernig and Viet-Man Le and Andrei Popescu and Mathias Uta and Thi Ngoc Trang Tran and M\"usl\"uum Atas(参考訳) レコメンダシステムは、書籍や映画のような単純な項目から金融サービス、通信機器、ソフトウェアシステムといったより複雑な項目まで、さまざまな分野の意思決定をサポートする。 この文脈では、例えば、類似ユーザーの好みを分析することに基づいて、推奨事項が決定される。 項目カタログで列挙できる単純な項目とは対照的に、すべての可能な構成の完全な列挙は実行不可能であり、重要なパフォーマンス問題を引き起こすため、複雑な項目は可変モデル(例えば特徴モデル)に基づいて表現されなければならない。 本稿では、機能モデリングと構成におけるレコメンダーシステムおよび機械学習技術の適用に関連する潜在的な新しい研究ラインの概要を示す。 本稿では,レコメンダシステムと機械学習の応用例を示し,今後の研究課題について考察する。

Recommender systems support decisions in various domains ranging from simple items such as books and movies to more complex items such as financial services, telecommunication equipment, and software systems. In this context, recommendations are determined, for example, on the basis of analyzing the preferences of similar users. In contrast to simple items which can be enumerated in an item catalog, complex items have to be represented on the basis of variability models (e.g., feature models) since a complete enumeration of all possible configurations is infeasible and would trigger significant performance issues. In this paper, we give an overview of a potential new line of research which is related to the application of recommender systems and machine learning techniques in feature modeling and configuration. In this context, we give examples of the application of recommender systems and machine learning and discuss future research issues.
翻訳日:2021-02-15 13:02:54 公開日:2021-02-12
# 大規模不一致・限定ラベル型COVID-19データを用いた不確実性認識半監視法

Uncertainty-Aware Semi-supervised Method using Large Unlabelled and Limited Labeled COVID-19 Data ( http://arxiv.org/abs/2102.06388v1 )

ライセンス: Link先を確認
Roohallah Alizadehsani, Danial Sharifrazi, Navid Hoseini Izadi, Javad Hassannataj Joloudari, Afshin Shoeibi, Juan M. Gorriz, Sadiq Hussain, Juan E. Arco, Zahra Alizadeh Sani, Fahime Khozeimeh, Abbas Khosravi, Saeid Nahavandi, Sheikh Mohammed Shariful Islam, U Rajendra Acharya(参考訳) 新型コロナウイルスは100万人以上が死亡し、急速に広がっています。 このウイルスは肺を標的とし、軽度または重度の呼吸困難を引き起こす。 肺のX線またはCT画像は、患者がCOVID-19に感染しているかどうかを明らかにすることができます。 多くの研究者が人工知能を使ってCOVID-19の検出を改善しようとしている。 本稿では,GAN(Generative Adversarial Networks)を用いて,SCLLD(Limited Labelled Data)を用いた半教師付き分類を行い,COVID-19を自動的に検出する手法を提案する。 我々のモチベーションは、ラベル付きデータを作成するのに時間がかかり、コストがかかるシナリオに対処できる学習方法を開発することである。 さらにソベルエッジ検出の適用により,提案手法の検出精度がさらに向上した。 GAN判別器出力は、本研究における分類に用いられる確率値である。 提案システムは,近江病院から収集した1万個のCTスキャンを用いて訓練する。 また,本システムは公開データセットを用いて検証を行う。 提案手法は、ガウス過程のような芸術監督手法の他の状態と比較される。 私たちの知る限りでは、新型コロナウイルスの半監視された検出方法が提示されたのはこれが初めてです。 本手法は,ラベル付きデータの不足により教師付き学習者が失敗する,限定されたラベル付きデータとラベルなしデータの混合から学習することができる。 半教師付きトレーニング手法は,ラベル付きトレーニングデータが不足する場合の畳み込みニューラルネットワーク(cnn)の教師付きトレーニングを有意に上回っている。 提案手法は,99.60%の精度,99.39%の感度,99.80%の特異性,69.87%の精度,94%の感度,46.40%の特異性を達成している。

The new coronavirus has caused more than 1 million deaths and continues to spread rapidly. This virus targets the lungs, causing respiratory distress which can be mild or severe. The X-ray or computed tomography (CT) images of lungs can reveal whether the patient is infected with COVID-19 or not. Many researchers are trying to improve COVID-19 detection using artificial intelligence. In this paper, relying on Generative Adversarial Networks (GAN), we propose a Semi-supervised Classification using Limited Labelled Data (SCLLD) for automated COVID-19 detection. Our motivation is to develop learning method which can cope with scenarios that preparing labelled data is time consuming or expensive. We further improved the detection accuracy of the proposed method by applying Sobel edge detection. The GAN discriminator output is a probability value which is used for classification in this work. The proposed system is trained using 10,000 CT scans collected from Omid hospital. Also, we validate our system using the public dataset. The proposed method is compared with other state of the art supervised methods such as Gaussian processes. To the best of our knowledge, this is the first time a COVID-19 semi-supervised detection method is presented. Our method is capable of learning from a mixture of limited labelled and unlabelled data where supervised learners fail due to lack of sufficient amount of labelled data. Our semi-supervised training method significantly outperforms the supervised training of Convolutional Neural Network (CNN) in case labelled training data is scarce. Our method has achieved an accuracy of 99.60%, sensitivity of 99.39%, and specificity of 99.80% where CNN (trained supervised) has achieved an accuracy of 69.87%, sensitivity of 94%, and specificity of 46.40%.
翻訳日:2021-02-15 13:02:13 公開日:2021-02-12
# フォトリアリズムシミュレーションにおける日常物体の衝突抑制の予測と参加

Predicting and Attending to Damaging Collisions for Placing Everyday Objects in Photo-Realistic Simulations ( http://arxiv.org/abs/2102.06507v1 )

ライセンス: Link先を確認
Aly Magassouba, Komei Sugiura, Angelica Nakayama, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, Hisashi Kawai(参考訳) 設置物は国内サービスロボット(DSR)の基本課題である。 したがって、要求されたタスクを達成するためには、配置運動の前に衝突リスクを推測することが不可欠です。 この問題は特に困難であり、オブジェクトが散らばった指定された領域に配置された場合に何が起こるかを予測する必要がある。 自由領域検出のための平面検出を用いたルールベースアプローチは, 性能不良であることを示す。 そこで我々は,マルチモーダルアテンションブランチと自己注意機構を備えたPonNetを開発し,RGBD画像に基づく衝突の予測を行う。 本手法は,衝突の危険を可視化することができるため,利用者が危険を理解できるため便利である。 そこで本研究では,特定の位置の12,000枚の写真実写画像と日常の生活オブジェクトとをホーム環境内に構築し,公開する。 実験結果から,本手法はベースライン法と比較して精度が向上した。

Placing objects is a fundamental task for domestic service robots (DSRs). Thus, inferring the collision-risk before a placing motion is crucial for achieving the requested task. This problem is particularly challenging because it is necessary to predict what happens if an object is placed in a cluttered designated area. We show that a rule-based approach that uses plane detection, to detect free areas, performs poorly. To address this, we develop PonNet, which has multimodal attention branches and a self-attention mechanism to predict damaging collisions, based on RGBD images. Our method can visualize the risk of damaging collisions, which is convenient because it enables the user to understand the risk. For this purpose, we build and publish an original dataset that contains 12,000 photo-realistic images of specific placing areas, with daily life objects, in home environments. The experimental results show that our approach improves accuracy compared with the baseline methods.
翻訳日:2021-02-15 13:01:51 公開日:2021-02-12
# 補間に基づく画像インペインティング手法の解析

Analysis of Interpolation based Image In-painting Approaches ( http://arxiv.org/abs/2102.06564v1 )

ライセンス: Link先を確認
Mustafa Zor, Erkan Bostanci, Mehmet Serdar Guzel, Erinc Karatas(参考訳) 補間および内部絵画はデジタル イメージで起こる望ましくない部分を除去するか、または欠陥のある部分を高めるのに使用されるイメージの内部絵画の基本的なアプローチの1つです。 本研究は,画像インペインティングにおける補間アルゴリズムを比較するために考案された。 Cubic, Kriging, Radial based function, High dimensional model representation approachを用いて文献でよく使われる標準画像の色とグレースケールのフォーマットで発生する誤差とノイズを補正し,PSNR (peak signal-to-noise ratio), SSIM (Structural SIMilarity), Mean Square Error (MSE) という標準画像比較基準を用いて比較した。 この結果から得られた結果によると、両者の方法の絶対的な優位性は観察されなかった。 しかし、クリギングとRBF補間は、大きな領域損失を伴う画像インペインティング問題の数値データと視覚評価の両方により良い結果をもたらします。

Interpolation and internal painting are one of the basic approaches in image internal painting, which is used to eliminate undesirable parts that occur in digital images or to enhance faulty parts. This study was designed to compare the interpolation algorithms used in image in-painting in the literature. Errors and noise generated on the colour and grayscale formats of some of the commonly used standard images in the literature were corrected by using Cubic, Kriging, Radial based function and High dimensional model representation approaches and the results were compared using standard image comparison criteria, namely, PSNR (peak signal-to-noise ratio), SSIM (Structural SIMilarity), Mean Square Error (MSE). According to the results obtained from the study, the absolute superiority of the methods against each other was not observed. However, Kriging and RBF interpolation give better results both for numerical data and visual evaluation for image in-painting problems with large area losses.
翻訳日:2021-02-15 13:01:35 公開日:2021-02-12
# コンフォーマーを用いたエンドツーエンドオーディオビジュアル音声認識

End-to-end Audio-visual Speech Recognition with Conformers ( http://arxiv.org/abs/2102.06657v1 )

ライセンス: Link先を確認
Pingchuan Ma, Stavros Petridis, Maja Pantic(参考訳) 本研究では,ResNet-18とConvolution-augmented transformer (Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。 特に、オーディオエンコーダとビジュアルエンコーダは、それぞれ生のピクセルとオーディオ波形から直接特徴を抽出することを学び、それらをコンフォーメータに供給し、その後多層パーセプトロン(mlp)を介して融合する。 モデルはctcと注意機構の組み合わせを用いて文字を認識することを学ぶ。 本研究では,文献に共通するプリコンピュートされた視覚機能を使用するのではなく,リカレントネットワークの代わりにコンフォーマーを使用すること,トランスフォーマーベースの言語モデルを使用することによって,モデルの性能が大幅に向上することを示した。 文レベルの音声認識のための最大の公開データセットであるLip Reading Sentences 2 (LRS2) と Lip Reading Sentences 3 (LRS3) について報告する。 その結果,提案モデルでは,音声のみ,視覚のみ,視聴覚実験で大きなマージンで最先端の性能を向上できることが示された。

In this work, we present a hybrid CTC/Attention model based on a ResNet-18 and Convolution-augmented transformer (Conformer), that can be trained in an end-to-end manner. In particular, the audio and visual encoders learn to extract features directly from raw pixels and audio waveforms, respectively, which are then fed to conformers and then fusion takes place via a Multi-Layer Perceptron (MLP). The model learns to recognise characters using a combination of CTC and an attention mechanism. We show that end-to-end training, instead of using pre-computed visual features which is common in the literature, the use of a conformer, instead of a recurrent network, and the use of a transformer-based language model, significantly improve the performance of our model. We present results on the largest publicly available datasets for sentence-level speech recognition, Lip Reading Sentences 2 (LRS2) and Lip Reading Sentences 3 (LRS3), respectively. The results show that our proposed models raise the state-of-the-art performance by a large margin in audio-only, visual-only, and audio-visual experiments.
翻訳日:2021-02-15 13:01:15 公開日:2021-02-12
# 暗黙的ユーザの関心に基づく目的地類似性

Destination similarity based on implicit user interest ( http://arxiv.org/abs/2102.06687v1 )

ライセンス: Link先を確認
Hongliu Cao, Eoin Thomas(参考訳) 旅行産業のデジタル化に伴い、利用者のオンライン行動を理解することがますます重要である。 しかし、オンライン旅行業界のデータは、余分なスパース、ユーザ履歴アクションの分散、ユーザの関心の迅速な変化、直接的あるいは間接的なフィードバックの欠如などにより、分析が難しい。 本研究では,ユーザの暗黙的関心度から目的地の類似度を測定するための新しい類似度法を提案する。 提案手法をレコメンダシステムにおける他の広く利用されている類似性対策と比較することにより,旅行データに有意な改善が得られた。 キーワード:目的地の類似性、旅行業界、レコメンデーションシステム、暗黙のユーザーの興味

With the digitization of travel industry, it is more and more important to understand users from their online behaviors. However, online travel industry data are more challenging to analyze due to extra sparseness, dispersed user history actions, fast change of user interest and lack of direct or indirect feedbacks. In this work, a new similarity method is proposed to measure the destination similarity in terms of implicit user interest. By comparing the proposed method to several other widely used similarity measures in recommender systems, the proposed method achieves a significant improvement on travel data. Key words: Destination similarity, Travel industry, Recommender System, Implicit user interest
翻訳日:2021-02-15 13:00:53 公開日:2021-02-12
# ストラグラーは災害ではない:遅延勾配を持つハイブリッドフェデレーション学習アルゴリズム

Stragglers Are Not Disaster: A Hybrid Federated Learning Algorithm with Delayed Gradients ( http://arxiv.org/abs/2102.06329v1 )

ライセンス: Link先を確認
Xingyu Li, Zhe Qu, Bo Tang, Zhuo Lu(参考訳) フェデレーション・ラーニング(federated learning, fl)は、多数の分散コンピューティングデバイスで合同モデルをトレーニングする、新しい機械学習フレームワークである。 既存の方法、例えばFederated Averaging(FedAvg)は、ジョイントモデルを同期的にトレーニングすることによって最適化保証を提供することができるが、通常、低コンピューティングパワーや通信帯域のIoTデバイス、特に異種最適化問題に悩まされる。 そこで本稿では,ストラグラーの影響を軽減するために,ハイブリッドフェデレーション学習(hfl)と呼ばれる新しいflアルゴリズムを提案する。 同期カーネルと非同期アップデートの2つの主要なコンポーネントで構成されている。 従来の同期FLメソッドとは異なり、HFLは非同期更新器を導入し、非同期および遅延ローカル重み付けをトラグラーから積極的に引き出す。 適応近似法であるAdaptive Delayed-SGD (AD-SGD) を提案し,遅延局所更新を結合モデルにマージする。 HFLの理論解析により、提案アルゴリズムの収束率は、凸と非凸の最適化問題に対して$\mathcal{O}(\frac{1}{t+\tau})$であることが示されている。

Federated learning (FL) is a new machine learning framework which trains a joint model across a large amount of decentralized computing devices. Existing methods, e.g., Federated Averaging (FedAvg), are able to provide an optimization guarantee by synchronously training the joint model, but usually suffer from stragglers, i.e., IoT devices with low computing power or communication bandwidth, especially on heterogeneous optimization problems. To mitigate the influence of stragglers, this paper presents a novel FL algorithm, namely Hybrid Federated Learning (HFL), to achieve a learning balance in efficiency and effectiveness. It consists of two major components: synchronous kernel and asynchronous updater. Unlike traditional synchronous FL methods, our HFL introduces the asynchronous updater which actively pulls unsynchronized and delayed local weights from stragglers. An adaptive approximation method, Adaptive Delayed-SGD (AD-SGD), is proposed to merge the delayed local updates into the joint model. The theoretical analysis of HFL shows that the convergence rate of the proposed algorithm is $\mathcal{O}(\frac{1}{t+\tau})$ for both convex and non-convex optimization problems.
翻訳日:2021-02-15 13:00:24 公開日:2021-02-12
# ニューラルネットワークのための動的精度アナログ計算

Dynamic Precision Analog Computing for Neural Networks ( http://arxiv.org/abs/2102.06365v1 )

ライセンス: Link先を確認
Sahaj Garg, Joe Lou, Anirudh Jain, Mitchell Nahmias(参考訳) アナログ電子および光コンピューティングは、低精度で操作を実行する場合のディープラーニングを加速するデジタルコンピューティングよりも大きなアドバンテージを示している。 本研究では,ノイズによって制限されるアナログ精度とディジタルビット精度の関係を導出する。 演算を繰り返し平均化することで、精度の異なるレベルをサポートするアナログコンピューティングアーキテクチャの拡張を提案し、ノイズの影響を低減します。 このようなアーキテクチャは、精度とエネルギー効率やスループットなどの他の望ましいパフォーマンス指標の間のプログラム可能なトレードオフを可能にする。 動的精度を利用するために,ネットワーク重みをトレーニングせずに事前学習モデルの各レイヤの精度を学習する手法を提案する。 本手法は, ショットノイズ, サーマルノイズ, ウェイトノイズなど, さまざまなノイズ源を考慮したアナログアーキテクチャ上で評価し, 動的精度を用いることでResnet50などのコンピュータビジョンモデルでは最大89%, BERTなどの自然言語処理モデルでは24%のエネルギー消費を低減できることを確認した。 1つの例では、ショットノイズ限定ホモダイン光ニューラルネットワークに動的精度を適用し、Resnet50では2.7 aJ/MAC、BERTでは1.6 aJ/MACの光エネルギー消費で<2%の精度で推論をシミュレートする。

Analog electronic and optical computing exhibit tremendous advantages over digital computing for accelerating deep learning when operations are executed at low precision. In this work, we derive a relationship between analog precision, which is limited by noise, and digital bit precision. We propose extending analog computing architectures to support varying levels of precision by repeating operations and averaging the result, decreasing the impact of noise. Such architectures enable programmable tradeoffs between precision and other desirable performance metrics such as energy efficiency or throughput. To utilize dynamic precision, we propose a method for learning the precision of each layer of a pre-trained model without retraining network weights. We evaluate this method on analog architectures subject to a variety of noise sources such as shot noise, thermal noise, and weight noise and find that employing dynamic precision reduces energy consumption by up to 89% for computer vision models such as Resnet50 and by 24% for natural language processing models such as BERT. In one example, we apply dynamic precision to a shot-noise limited homodyne optical neural network and simulate inference at an optical energy consumption of 2.7 aJ/MAC for Resnet50 and 1.6 aJ/MAC for BERT with <2% accuracy degradation.
翻訳日:2021-02-15 12:59:57 公開日:2021-02-12
# バンディットとナップサックの対称性:プライマリデュアルLPベースのアプローチ

The Symmetry between Bandits and Knapsacks: A Primal-Dual LP-based Approach ( http://arxiv.org/abs/2102.06385v1 )

ライセンス: Link先を確認
Xiaocheng Li, Chunlin Sun, Yinyu Ye(参考訳) 本稿では,knapsacks (BwK) 問題を用いた盗賊について検討し,問題依存の対数的後悔境界を実現する原始双対アルゴリズムを開発した。 BwK問題は、各アームの演奏に伴う資源消費をモデル化するためにマルチアーム・バンディット(MAB)問題を拡張しており、既存のBwK文献は主に漸近的に最適な分布のない後悔境界の導出に重点を置いている。 まず、BwK問題の基礎となるプライマリ線形およびデュアル線形プログラムを研究する。 この原始双対的な観点から、アームとクナプサックの対称性を発見し、BwK問題に対する準最適測度の新しい概念を提案する。 サブオプティリティ尺度は,アルゴリズムの後悔判定におけるナップサックの役割を強調し,二相アルゴリズムの設計を刺激する。 第1段階では、アルゴリズムは最適なアームと結合クナプサックを識別し、第2段階では適応的な手順で最適なアームを演奏することで結合クナプサックを排気する。 我々の後悔の上限は、提案された準最適測度であり、horizon $t$の長さの対数依存性と、$m$(腕の数)と$d$(ナップサックの数)の多項式依存性がある。 我々の知る限りでは、これは一般のBwK問題を解くための最初の問題依存対数的後悔である。

In this paper, we study the bandits with knapsacks (BwK) problem and develop a primal-dual based algorithm that achieves a problem-dependent logarithmic regret bound. The BwK problem extends the multi-arm bandit (MAB) problem to model the resource consumption associated with playing each arm, and the existing BwK literature has been mainly focused on deriving asymptotically optimal distribution-free regret bounds. We first study the primal and dual linear programs underlying the BwK problem. From this primal-dual perspective, we discover symmetry between arms and knapsacks, and then propose a new notion of sub-optimality measure for the BwK problem. The sub-optimality measure highlights the important role of knapsacks in determining algorithm regret and inspires the design of our two-phase algorithm. In the first phase, the algorithm identifies the optimal arms and the binding knapsacks, and in the second phase, it exhausts the binding knapsacks via playing the optimal arms through an adaptive procedure. Our regret upper bound involves the proposed sub-optimality measure and it has a logarithmic dependence on length of horizon $T$ and a polynomial dependence on $m$ (the numbers of arms) and $d$ (the number of knapsacks). To the best of our knowledge, this is the first problem-dependent logarithmic regret bound for solving the general BwK problem.
翻訳日:2021-02-15 12:59:33 公開日:2021-02-12
# スマートIoTサービスのモデル駆動エンジニアリングのためのデータ分析と機械学習方法、技術およびツール

Data Analytics and Machine Learning Methods, Techniques and Tool for Model-Driven Engineering of Smart IoT Services ( http://arxiv.org/abs/2102.06445v1 )

ライセンス: Link先を確認
Armin Moin(参考訳) この博士論文は、IoT(Internet of Things)とCPS(Smart Cyber-Physical Systems)のためのスマートサービスの開発を促進する新しいアプローチを提案する。 提案されたアプローチは、ソフトウェアエンジニアリングプロセスの抽象化と自動化、データ分析(DA)と機械学習(ML)のプラクティスを提供する。 これは統合的でシームレスな方法で実現される。 我々はThingMLと呼ばれるオープンソースモデリングツールを拡張して提案手法の実装と検証を行う。 ThingMLは、IoT/CPSドメインのためのコード生成を備えたドメイン固有言語およびモデリングツールである。 ThingMLも他のIoT/CPSモデリングツールも、モデリングレベルではDA/MLをサポートしていない。 したがって、博士論文の主な貢献として、TingMLのモデリング言語にDA/MLメソッドと技術に関する必要な構文と意味を付加する。 さらに、PythonとJavaのターゲットソフトウェアのソースコードの自動生成のために、いくつかのMLライブラリとフレームワークのAPIをサポートしています。 当社のアプローチは、プラットフォームに依存しない、プラットフォーム固有のモデルを可能にします。 さらに、自動ML(Automated ML)をバックグラウンドで(エキスパートモードで)提供し、モデルチェックの制約や設計時のヒントを通じて半自動DA/MLタスクの実行を支援する。 最後に,ネットワークセキュリティ,スマートエネルギーシステム,エネルギー交換市場という分野の3つのユースケースシナリオについて考察する。

This doctoral dissertation proposes a novel approach to enhance the development of smart services for the Internet of Things (IoT) and smart Cyber-Physical Systems (CPS). The proposed approach offers abstraction and automation to the software engineering processes, as well as the Data Analytics (DA) and Machine Learning (ML) practices. This is realized in an integrated and seamless manner. We implement and validate the proposed approach by extending an open source modeling tool, called ThingML. ThingML is a domain-specific language and modeling tool with code generation for the IoT/CPS domain. Neither ThingML nor any other IoT/CPS modeling tool supports DA/ML at the modeling level. Therefore, as the primary contribution of the doctoral dissertation, we add the necessary syntax and semantics concerning DA/ML methods and techniques to the modeling language of ThingML. Moreover, we support the APIs of several ML libraries and frameworks for the automated generation of the source code of the target software in Python and Java. Our approach enables platform-independent, as well as platform-specific models. Further, we assist in carrying out semiautomated DA/ML tasks by offering Automated ML (AutoML), in the background (in expert mode), and through model-checking constraints and hints at design-time. Finally, we consider three use case scenarios from the domains of network security, smart energy systems and energy exchange markets.
翻訳日:2021-02-15 12:59:06 公開日:2021-02-12
# 確率勾配クリッピングの安定性と収束:リプシッツ連続性と滑らか性を超えて

Stability and Convergence of Stochastic Gradient Clipping: Beyond Lipschitz Continuity and Smoothness ( http://arxiv.org/abs/2102.06489v1 )

ライセンス: Link先を確認
Vien V. Mai and Mikael Johansson(参考訳) 確率勾配アルゴリズムは、Lipschitz-continuousおよび/または有界勾配を持たない関数に適用すると、しばしば不安定である。 グラデーションクリッピングは、爆発するグラデーション問題になりやすい問題のトレーニングプロセスを安定させるためのシンプルで効果的な技術です。 広く普及しているにもかかわらず、勾配クリッピングヒューリスティックの収束特性は、特に確率的問題に対してよく理解されていない。 本稿では, 急速に成長する非滑らか凸関数に対するクリッピング確率(サブ)勾配法(SGD)の定性的および定量的収束結果について述べる。 本研究では, クリッピングがSGDの安定性を向上し, クリッピングされたSGDアルゴリズムが有限収束速度を多く享受することを示した。 また, sgdを具体例として含むクリップング法と運動量との収束を, 標準仮定下での弱凸問題に対して検討した。 新たなLyapunov解析により,提案手法が検討された問題のクラスに対して最もよく知られたレートを達成し,この体制においてもクリップド法の有効性を示すことを示した。 数値結果は我々の理論的発展を裏付ける。

Stochastic gradient algorithms are often unstable when applied to functions that do not have Lipschitz-continuous and/or bounded gradients. Gradient clipping is a simple and effective technique to stabilize the training process for problems that are prone to the exploding gradient problem. Despite its widespread popularity, the convergence properties of the gradient clipping heuristic are poorly understood, especially for stochastic problems. This paper establishes both qualitative and quantitative convergence results of the clipped stochastic (sub)gradient method (SGD) for non-smooth convex functions with rapidly growing subgradients. Our analyses show that clipping enhances the stability of SGD and that the clipped SGD algorithm enjoys finite convergence rates in many cases. We also study the convergence of a clipped method with momentum, which includes clipped SGD as a special case, for weakly convex problems under standard assumptions. With a novel Lyapunov analysis, we show that the proposed method achieves the best-known rate for the considered class of problems, demonstrating the effectiveness of clipped methods also in this regime. Numerical results confirm our theoretical developments.
翻訳日:2021-02-15 12:58:46 公開日:2021-02-12
# 検証された)機械学習に基づく計算可能性

A Computability Perspective on (Verified) Machine Learning ( http://arxiv.org/abs/2102.06585v1 )

ライセンス: Link先を確認
Tonicha Crook, Jay Morgan, Arno Pauly and Markus Roggenbach(参考訳) フォーマルな検証によって与えられる保証と機械学習の汎用性を組み合わせることが極めて望ましいという強いコンセンサスがある。 検証済み機械学習が正確に何を意味するべきかは、あまり明確ではない。 私たちはこの質問を(予想外か? 計算可能な分析の視点。 これにより、検証されたMLの根底にある計算タスクをモデルに依存しない方法で定義し、それらが原理計算可能であることを示す。

There is a strong consensus that combining the versatility of machine learning with the assurances given by formal verification is highly desirable. It is much less clear what verified machine learning should mean exactly. We consider this question from the (unexpected?) perspective of computable analysis. This allows us to define the computational tasks underlying verified ML in a model-agnostic way, and show that they are in principle computable.
翻訳日:2021-02-15 12:58:28 公開日:2021-02-12
# プログラム変換探索としてのニューラルアーキテクチャ探索

Neural Architecture Search as Program Transformation Exploration ( http://arxiv.org/abs/2102.06599v1 )

ライセンス: Link先を確認
Jack Turner, Elliot J. Crowley, Michael O'Boyle(参考訳) ディープニューラルネットワーク(DNN)のパフォーマンスを改善することは、コンパイラとニューラルアーキテクチャサーチ(NAS)コミュニティにとって重要である。 コンパイラはハードウェア並列性とメモリ階層を利用するためにプログラム変換を適用する。 しかし、合法性に関する懸念は、ニューラルネットワークの自然な堅牢性を利用できないことを意味する。 対照的に、NAS技術はネットワークをグループ化や畳み込みのボトルネック化といった操作によって変更し、DNNのレジリエンスを活用する。 本研究では,表現能力の概念に依存するプログラム変換として,そのようなニューラルアーキテクチャの操作を表現する。 これにより、既存の変換と統合最適化フレームワークに組み合わせることができる。 この統合により、既存のNAS操作を単純な変換の組み合わせとして表現できる。 重要なのは、新しいテンソル畳み込みの生成と探索を可能にすることです。 我々は、TVMで組み合わせたフレームワークのプロトタイプを作成し、異なるDNN間で最適化を見つけることができ、ほとんどのケースにおいて、推論タイムオーバー3$\times$を大幅に削減しました。 また、NAS検索時間を大幅に短縮します。 コードは~\href{https://github.com/jack-willturner/nas-as- programs-transformation-exploration}{this https url} で入手できる。

Improving the performance of deep neural networks (DNNs) is important to both the compiler and neural architecture search (NAS) communities. Compilers apply program transformations in order to exploit hardware parallelism and memory hierarchy. However, legality concerns mean they fail to exploit the natural robustness of neural networks. In contrast, NAS techniques mutate networks by operations such as the grouping or bottlenecking of convolutions, exploiting the resilience of DNNs. In this work, we express such neural architecture operations as program transformations whose legality depends on a notion of representational capacity. This allows them to be combined with existing transformations into a unified optimization framework. This unification allows us to express existing NAS operations as combinations of simpler transformations. Crucially, it allows us to generate and explore new tensor convolutions. We prototyped the combined framework in TVM and were able to find optimizations across different DNNs, that significantly reduce inference time - over 3$\times$ in the majority of cases. Furthermore, our scheme dramatically reduces NAS search time. Code is available at~\href{https://github.com/jack-willturner/nas-as-program-transformation-exploration}{this https url}.
翻訳日:2021-02-15 12:58:21 公開日:2021-02-12
# 緊急ブレーキデータを用いた交通インシデント予測モデル

A model for traffic incident prediction using emergency braking data ( http://arxiv.org/abs/2102.06674v1 )

ライセンス: Link先を確認
Alexander Reichenbach and J.-Emeterio Navarro-B(参考訳) 本稿では,交通事故予測モデルを提案する。 具体的には,道路交通事故予測におけるデータ不足の根本的な問題点を,事故ではなく緊急制動イベントのトレーニングによって解決する。 交通事故のリスク要因とそれに対応するデータカテゴリに基づいて、スパースデータと異なる機械学習モデルを前処理するさまざまな選択肢を評価する。 さらに,メルセデス・ベンツ車両の緊急ブレーキデータと気象,交通,道路データに基づいて,ドイツにおける交通事故予測モデルを実装したプロトタイプを提案する。 モデル評価と最適化を行った結果,人工的バランス(アンダーサンプリング)データに基づくランダム森林モデルは,元の不均衡データにおいて,最高分類精度85%であった。 最後に, より長期にわたるデータ収集から, より強力な分類システムの構築, 運転者の視覚的・認知的注意などの内的要因の追加など, 今後の課題について考察する。

This article presents a model for traffic incident prediction. Specifically, we address the fundamental problem of data scarcity in road traffic accident prediction by training our model on emergency braking events instead of accidents. Based on relevant risk factors for traffic accidents and corresponding data categories, we evaluate different options for preprocessing sparse data and different Machine Learning models. Furthermore, we present a prototype implementing a traffic incident prediction model for Germany based on emergency braking data from Mercedes-Benz vehicles as well as weather, traffic and road data, respectively. After model evaluation and optimisation, we found that a Random Forest model trained on artificially balanced (under-sampled) data provided the highest classification accuracy of 85% on the original imbalanced data. Finally, we present our conclusions and discuss further work; from gathering more data over a longer period of time to build stronger classification systems, to addition of internal factors such as the driver's visual and cognitive attention.
翻訳日:2021-02-15 12:58:04 公開日:2021-02-12
# 近縁・連成ランダムリシャッフル

Proximal and Federated Random Reshuffling ( http://arxiv.org/abs/2102.06704v1 )

ライセンス: Link先を確認
Konstantin Mishchenko and Ahmed Khaled and Peter Richt\'arik(参考訳) ランダムリシャッフル法(Random Reshuffling, RR)は、有限サム最小化法として人気があり理論上は基礎的な手法である。 新しいアルゴリズムとして、ProximalとFederated Random Reshuffing(ProxRRとFedRR)を提案する。 最初のアルゴリズムであるproxrrは、対象が(潜在的に非スムースな)凸正則化子と平均で$n$の滑らかな目的の和である複合凸有限サム最小化問題を解く。 2番目のアルゴリズムであるFedRRをProxRRの特別なケースとして取得し、均質または異質なデータによる分散問題の形式化に適用する。 アルゴリズムの収束特性を定数および減少ステップ数で検討し、近位および局所SGDよりも有意な利点を有することを示した。 特に,本手法は複雑度が優れており,ProxRRはエポックに1度だけ近位演算子を評価する。 近位演算子が計算にコストがかかると、この小さな差により、proxrrは各イテレーションで近位演算子を評価するアルゴリズムよりも最大で10ドル高速になる。 我々は、近位演算子が計算が困難であり、ProxRRが明確な利点を有する実用的な最適化タスクの例を与える。 最後に、実際のデータセットに関する実験で結果を裏付ける。

Random Reshuffling (RR), also known as Stochastic Gradient Descent (SGD) without replacement, is a popular and theoretically grounded method for finite-sum minimization. We propose two new algorithms: Proximal and Federated Random Reshuffing (ProxRR and FedRR). The first algorithm, ProxRR, solves composite convex finite-sum minimization problems in which the objective is the sum of a (potentially non-smooth) convex regularizer and an average of $n$ smooth objectives. We obtain the second algorithm, FedRR, as a special case of ProxRR applied to a reformulation of distributed problems with either homogeneous or heterogeneous data. We study the algorithms' convergence properties with constant and decreasing stepsizes, and show that they have considerable advantages over Proximal and Local SGD. In particular, our methods have superior complexities and ProxRR evaluates the proximal operator once per epoch only. When the proximal operator is expensive to compute, this small difference makes ProxRR up to $n$ times faster than algorithms that evaluate the proximal operator in every iteration. We give examples of practical optimization tasks where the proximal operator is difficult to compute and ProxRR has a clear advantage. Finally, we corroborate our results with experiments on real data sets.
翻訳日:2021-02-15 12:57:51 公開日:2021-02-12
# フェデレートサドル点最適化のための効率的なアルゴリズム

Efficient Algorithms for Federated Saddle Point Optimization ( http://arxiv.org/abs/2102.06333v1 )

ライセンス: Link先を確認
Charlie Hou, Kiran K. Thekumparampil, Giulia Fanti, Sewoong Oh(参考訳) 我々は,通信制約が主なボトルネックとなるフェデレーション設定において,凸凹型ミニマックス問題を考える。 クライアントが任意に異種である場合、シンプルなMinibatch Mirror-proxは最高のパフォーマンスを実現します。 クライアントが均質になるにつれて、クライアントで複数のローカルグラデーション更新を使用することで、Minibatch Mirror-proxの通信頻度が大幅に向上します。 我々のゴールは、任意の異種性(ログファクタまで)下でMinibatch Mirror-proxのパフォーマンスを回復しながら、クライアントの類似性の利点を活用できるアルゴリズムを設計することである。 我々は、この目標を達成する最初のフェデレーションミニマックス最適化アルゴリズムを与える。 第一の考え方は、(i)SCAFFOLD(凸最適化のためにクライアント間で分散還元を行うアルゴリズム)と(ii)Catalyst(目的の変更に基づく加速フレームワーク)を組み合わせて、クライアントのドリフトを増幅することなく収束を加速することである。 このアルゴリズムが我々の目標を達成することを証明し、理論を検証する実験を含む。

We consider strongly convex-concave minimax problems in the federated setting, where the communication constraint is the main bottleneck. When clients are arbitrarily heterogeneous, a simple Minibatch Mirror-prox achieves the best performance. As the clients become more homogeneous, using multiple local gradient updates at the clients significantly improves upon Minibatch Mirror-prox by communicating less frequently. Our goal is to design an algorithm that can harness the benefit of similarity in the clients while recovering the Minibatch Mirror-prox performance under arbitrary heterogeneity (up to log factors). We give the first federated minimax optimization algorithm that achieves this goal. The main idea is to combine (i) SCAFFOLD (an algorithm that performs variance reduction across clients for convex optimization) to erase the worst-case dependency on heterogeneity and (ii) Catalyst (a framework for acceleration based on modifying the objective) to accelerate convergence without amplifying client drift. We prove that this algorithm achieves our goal, and include experiments to validate the theory.
翻訳日:2021-02-15 12:57:10 公開日:2021-02-12
# 教師付き分類器を用いた音声強調のための変分オートエンコーダ

Guided Variational Autoencoder for Speech Enhancement With a Supervised Classifier ( http://arxiv.org/abs/2102.06454v1 )

ライセンス: Link先を確認
Guillaume Carbajal, Julius Richter, Timo Gerkmann(参考訳) 近年、変分オートエンコーダは音声信号よりも先に確率的に学習し、音声強調を行うのに使われている。 しかし、可変オートエンコーダはクリーンな音声でのみ訓練され、教師付きアプローチと比較してノイズの多い音声から音声信号を抽出する能力は限られている。 本稿では,雑音音声で個別に訓練された教師付き分類器を用いて,変分オートエンコーダの案内を行う。 推定ラベルは、音声信号(例えば)を記述する高レベルのカテゴリ変数である。 発話活動) 標準の変分オートエンコーダと比較して、よりインフォメーションな潜時分布を可能にする。 本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。 ラベルが潜伏分布をよりよく知らせ、分類器が優れた性能を発揮することを条件として、提案手法は標準変分オートエンコーダと従来のニューラルネットワークに基づく教師付きアプローチより優れている。

Recently, variational autoencoders have been successfully used to learn a probabilistic prior over speech signals, which is then used to perform speech enhancement. However, variational autoencoders are trained on clean speech only, which results in a limited ability of extracting the speech signal from noisy speech compared to supervised approaches. In this paper, we propose to guide the variational autoencoder with a supervised classifier separately trained on noisy speech. The estimated label is a high-level categorical variable describing the speech signal (e.g. speech activity) allowing for a more informed latent distribution compared to the standard variational autoencoder. We evaluate our method with different types of labels on real recordings of different noisy environments. Provided that the label better informs the latent distribution and that the classifier achieves good performance, the proposed approach outperforms the standard variational autoencoder and a conventional neural network-based supervised approach.
翻訳日:2021-02-15 12:56:53 公開日:2021-02-12
# 実空間における深層音場再構成:ISOBEL音場データセットの導入

Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL Sound Field Dataset ( http://arxiv.org/abs/2102.06455v1 )

ライセンス: Link先を確認
Miklas Str{\o}m Kristoffersen, Martin Bo M{\o}ller, Pablo Mart\'inez-Nuevo, Jan {\O}stergaard(参考訳) スピーカ応答の知識は,室内の位置に応じて聴取経験を変化させる室内に音響システムを設置する多くのアプリケーションにおいて有用である。 残響室にある音源に対する音場獲得は、部屋を覆うインパルス応答関数の集中的な測定や、より少ない測定を必要とする可能性のある再構成手法によって達成される。 本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。 ISOBELサウンドフィールドデータセットは公開されており、長方形の部屋で合成音場と実世界の音場のギャップを埋めることを目指しています。 さらに,超低音量マイクロホンを用いた近年の深層学習に基づく音場再構成法を考案し,u-netライクなニューラルネットワークアーキテクチャにおける音の大きさと位相応答のモデル化手法を提案する。 複素数値音場再構成は,150Hz未満の15マイクロホンを用いて,理想的な室内伝達関数に匹敵するコントラスト比のパーソナライズされた音域を実現するために,推定された室内伝達関数の精度が十分高いことを示す。

Knowledge of loudspeaker responses are useful in a number of applications, where a sound system is located inside a room that alters the listening experience depending on position within the room. Acquisition of sound fields for sound sources located in reverberant rooms can be achieved through labor intensive measurements of impulse response functions covering the room, or alternatively by means of reconstruction methods which can potentially require significantly fewer measurements. This paper extends evaluations of sound field reconstruction at low frequencies by introducing a dataset with measurements from four real rooms. The ISOBEL Sound Field dataset is publicly available, and aims to bridge the gap between synthetic and real-world sound fields in rectangular rooms. Moreover, the paper advances on a recent deep learning-based method for sound field reconstruction using a very low number of microphones, and proposes an approach for modeling both magnitude and phase response in a U-Net-like neural network architecture. The complex-valued sound field reconstruction demonstrates that the estimated room transfer functions are of high enough accuracy to allow for personalized sound zones with contrast ratios comparable to ideal room transfer functions using 15 microphones below 150 Hz.
翻訳日:2021-02-15 12:56:37 公開日:2021-02-12
# 話者ダイアリゼーションのためのコンテンツ対応話者埋め込み

Content-Aware Speaker Embeddings for Speaker Diarisation ( http://arxiv.org/abs/2102.06467v1 )

ライセンス: Link先を確認
G. Sun, D. Liu, C. Zhang, P. C. Woodland(参考訳) 最近の話者ダイアリゼーションシステムは、可変長音声セグメントを話者クラスタリングのための固定長ベクトル表現に変換することが多い。 本稿では, 話者分類器の入力を音響的特徴だけでなく, 音声, 文字, 単語の埋め込みを通じて, 対応する音声内容を含むように拡張する, 内容認識型話者埋め込み (CASE) 手法を提案する。 マルチタスクや対人訓練のような類似した情報を活用する代替手法と比較して、CASEは話者認識から自動音声認識(ASR)を分解し、話者特性と対応するコンテンツユニットとの相関をモデル化し、より表現力のある表現を導出する。 AMIミーティング転写データセットを用いた現実的な話者ダイアリゼーション設定による話者再クラスタリングのケース評価を行い、自動セグメンテーションに基づいてASRを行うことで内容情報を得る。 実験の結果、従来の方法に比べて話者誤差率が17.8%減少した。

Recent speaker diarisation systems often convert variable length speech segments into fixed-length vector representations for speaker clustering, which are known as speaker embeddings. In this paper, the content-aware speaker embeddings (CASE) approach is proposed, which extends the input of the speaker classifier to include not only acoustic features but also their corresponding speech content, via phone, character, and word embeddings. Compared to alternative methods that leverage similar information, such as multitask or adversarial training, CASE factorises automatic speech recognition (ASR) from speaker recognition to focus on modelling speaker characteristics and correlations with the corresponding content units to derive more expressive representations. CASE is evaluated for speaker re-clustering with a realistic speaker diarisation setup using the AMI meeting transcription dataset, where the content information is obtained by performing ASR based on an automatic segmentation. Experimental results showed that CASE achieved a 17.8% relative speaker error rate reduction over conventional methods.
翻訳日:2021-02-15 12:56:18 公開日:2021-02-12