このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210220となっている論文です。

PDF登録状況(公開日: 20210220)

TitleAuthorsAbstract論文公表日・翻訳日
# 非回転波近似を用いた光学応答

Optomechanically induced optical responses with non-rotating wave approximation ( http://arxiv.org/abs/2005.11871v2 )

ライセンス: Link先を確認
Xiao-Bo Yan(参考訳) スロー光伝播は量子光学において重要な現象である。 本稿では,従来の研究で無視された非回転波近似 (nrwa) の効果を考慮した簡易光力学系におけるスロー光の性質を理論的に検討する。 NRWA効果により、超低光は、特に未解決のサイドバンド状態において、光学的に誘起される透明性の窓で容易に達成できる。 理論的な結果から、時間遅延の上限は、最近の実験で \textit{several minutes} (mhz 線幅) が持続するメカニカルなリングダウン時間であることがわかった。 さらに, 完全光力学的に誘起される透過と吸収の興味深い現象をnrwa効果を用いて実験した。 この結果は、現代の光ネットワークにおける光伝送の制御に利用できると考えている。

Slow light propagation is an important phenomenon in quantum optics. Here, we theoretically study the properties of slow light in a simple optomechanical system considering an effect of non-rotating wave approximation (NRWA) that was ignored in previous related works. With the NRWA effect, the ultraslow light can be easily achieved at the window of optomechanically induced transparency, especially in unresolved sideband regime. From the theoretical results, we find the upper bound of the time delay is exactly the mechanical ringdown time which can last for \textit{several minutes} (mHz linewidth) in recent experiments. Additionally, the interesting phenomena of the perfect optomechanically induced transmission and absorption are studied in the system with the NRWA effect. We believe the results can be used to control optical transmission in modern optical networks.
翻訳日:2023-05-18 12:34:06 公開日:2021-02-20
# 効果的な声:オンラインコミュニティの出口と影響を超えて

Effective Voice: Beyond Exit and Affect in Online Communities ( http://arxiv.org/abs/2009.12470v2 )

ライセンス: Link先を確認
Seth Frey and Nathan Schneider(参考訳) オンラインコミュニティは、ユーザーの自己表現に十分な機会を提供するが、概して、平均的なユーザーがコミュニティポリシーを直接コントロールする手段を欠いている。 本稿では,制度的ガバナンスのメカニズムを定め,参加者の声をよりよく聞き取れるような戦略と手法のセットを特定することを目的とする。 アルベルト・H・ヒルシュマンによる制度生活における「外部」と「声」の区別に基づいて、より広範な感情的音声の実践とは対照的に、効果的な音声という2つの種類の参加を更に区別する。 効果的な音声は、透明なプロセスに従って結合効果をもたらす個人的または集団的な音声の形式である。 プラットフォーム開発者や研究者は、権威と説明責任、集団行動、コミュニティの進化のメカニズムを導入することで、この無視された形式の音声を探るかもしれない。

Online communities provide ample opportunities for user self-expression but generally lack the means for average users to exercise direct control over community policies. This paper sets out to identify a set of strategies and techniques through which the voices of participants might be better heard through defined mechanisms for institutional governance. Drawing on Albert O. Hirschman's distinction between "exit" and "voice" in institutional life, it introduces a further distinction between two kinds of participation: effective voice, as opposed to the far more widespread practices of affective voice. Effective voice is a form of individual or collective speech that brings about a binding effect according to transparent processes. Platform developers and researchers might explore this neglected form of voice by introducing mechanisms for authority and accountability, collective action, and community evolution.
翻訳日:2023-05-01 00:22:28 公開日:2021-02-20
# 時空量子アクション

Spacetime Quantum Actions ( http://arxiv.org/abs/2010.09136v2 )

ライセンス: Link先を確認
N. L. Diaz, J. M. Matera, R. Rossignoli(参考訳) テンソル積構造を時間に応用した拡張フォック空間における量子力学の定式化を提案する。 特定の理論の力学と一致するヒストリーの部分空間は、対応する古典作用の直接量子汎化によって定義される。 このような量子作用の対角化は、従来の量子力学の予測を復元し、全ての物理理論の間の拡張されたユニタリ同値を明らかにすることができる。 時間的および異なる理論間の量子相関とコヒーレント効果は、物理状態の豊かな時間的構造にエンコードされる厳密な意味を持つ。 現代的な相対論的スキームと経路積分の定式化との関係も現れる。

We propose a formulation of quantum mechanics in an extended Fock space in which a tensor product structure is applied to time. Subspaces of histories consistent with the dynamics of a particular theory are defined by a direct quantum generalization of the corresponding classical action. The diagonalization of such quantum actions enables us to recover the predictions of conventional quantum mechanics and reveals an extended unitary equivalence between all physical theories. Quantum correlations and coherent effects across time and between distinct theories acquire a rigorous meaning, which is encoded in the rich temporal structure of physical states. Connections with modern relativistic schemes and the path integral formulation also emerge.
翻訳日:2023-04-28 17:52:30 公開日:2021-02-20
# 量子計測による粒子物理学の可能性

Possible implications for particle physics by quantum measurement ( http://arxiv.org/abs/2102.10286v1 )

ライセンス: Link先を確認
Xiang Lv and Jun Jing(参考訳) 量子計測は、量子力学において基本的な役割を担っており、測定装置と研究対象との本質的な区別を曖昧にしている。 量子ゼノ効果と呼ばれる量子測定における魅力的な現象は、測定ハミルトンによって選択された特定の部分空間で観察することができる。 ここでは、トップダウンのZeno機構を粒子物理学に適用する。 実際、基本粒子の性質に関する別の知見を開拓するが、標準モデル(SM)に挑戦する意図はない。 統一的かつ単純な方法で、我々の有効モデルは、動的量子ゼノ効果の摂動理論を用いて、ニュートリノの小さな質量と振動の起源、電荷フェルミオンの質量の階層パターン、色閉じ込め、量子数の離散化をマージすることができる。 実効モデルにおける粒子固有状態間の遷移振幅を消失させる様々な条件下では、smを少し思い出させるような結果を探究することは注目すべきである。 (i)大角混合と小質量のニュートリノ振動はエネルギー-運動量保存から生じる。 (二)電気チャージされたフェルミオンは、電気チャージ保存による階層パターンで質量を保持する。 (iii)色閉じ込めとそれに伴う漸近的自由は、色彩帯電保存から導出することができる。 基礎粒子の基本的な性質についていくつかの予想をする。 (i)ニュートリノの総質量とほぼ無質量のニュートリノの存在(いかなる世代においても) (ii)新たに発見された電荷フェルミオンに対する量子数の離散化 (iii) 2つ以上の保存電荷を含む粒子に対する閉じ込めと関連する漸近自由。

In sharp contrast to its classical counterpart, quantum measurement plays a fundamental role in quantum mechanics and blurs the essential distinction between the measurement apparatus and the objects under investigation. An appealing phenomenon in quantum measurements, termed as quantum Zeno effect, can be observed in particular subspaces selected by measurement Hamiltonian. Here we apply the top-down Zeno mechanism to the particle physics. We indeed develop an alternative insight into the properties of fundamental particles, but not intend to challenge the Standard Model (SM). In a unified and simple manner, our effective model allows to merge the origin of neutrino's small mass and oscillations, the hierarchy pattern for masses of electric charged fermions, the color confinement, and the discretization of quantum numbers, using a perturbative theory for the dynamical quantum Zeno effect. Under various conditions for vanishing transition amplitudes among particle eigenstates in the effective model, it is remarkable to probe results that are somewhat reminiscent of SM, including: (i) neutrino oscillations with big-angle mixing and small masses emerge from the energy-momentum conservation, (ii) electrically-charged fermions hold masses in a hierarchy pattern due to the electric-charge conservation, (iii) color confinement and the associated asymptotic freedom can be deduced from the color-charge conservation. We make several anticipations about the basic properties for fundamental particles: (i) the total mass of neutrinos and the existence of a nearly massless neutrino (of any generation), (ii) the discretization in quantum numbers for the new-discovered electrically-charged fermions, (iii) the confinement and the associated asymptotic freedom for any particle containing more than two conserved charges.
翻訳日:2023-04-10 16:03:05 公開日:2021-02-20
# bb84量子鍵分布に対する攻撃に対する$\mathcal{pt}$-symmetric quantum state discrimination

$\mathcal{PT}$-Symmetric Quantum State Discrimination for Attack on BB84 Quantum Key Distribution ( http://arxiv.org/abs/2102.10228v1 )

ライセンス: Link先を確認
Yaroslav Balytskyi, Manohar Raavi, Anatoliy Pinchuk, and Sang-Yoon Chang(参考訳) 量子鍵分布(QKD)は、新しいセキュリティ特性を持つ量子力学/チャネルを用いて対称鍵分布を提供する。 QKDのセキュリティは、量子状態判別問題の難しさに依存している。 我々は、最近の$\mathcal{pt}$ symmetryの発展により、量子状態の識別問題を早め、したがってbb84 qkdスキームを攻撃できることを発見した。 bb84スキームのセキュリティを解析し、攻撃が以前のエルミート量子状態識別アプローチよりも盗聴成功率を著しく上昇させることを示した。 我々は、$\mathcal{PT}$-symmetric quantumchanicsによって提供される余分な自由度を利用したBB84 QKDプロトコルの攻撃方法の設計と解析を行う。

Quantum Key Distribution or QKD provides symmetric key distribution using the quantum mechanics/channels with new security properties. The security of QKD relies on the difficulty of the quantum state discrimination problem. We discover that the recent developments in $\mathcal{PT}$ symmetry can be used to expedite the quantum state discrimination problem and therefore to attack the BB84 QKD scheme. We analyze the security of the BB84 scheme and show that the attack significantly increases the eavesdropping success rate over the previous Hermitian quantum state discrimination approach. We design and analyze the approaches to attack BB84 QKD protocol exploiting an extra degree of freedom provided by the $\mathcal{PT}$-symmetric quantum mechanics.
翻訳日:2023-04-10 16:02:42 公開日:2021-02-20
# 光子励起と絡み合いに対する古典的不安定効果

Classical Instability Effects on Photon Excitations and Entanglement ( http://arxiv.org/abs/2102.10470v1 )

ライセンス: Link先を確認
Radouan Hab-arrih, Ahmed Jellal, Abdeldjalil Merdaci(参考訳) 2つの非共振時間依存結合振動子における光子励起数のschr\"{o}dingerダイナミクスと絡み合いについて検討した。 $ \pi-$ periodically pumped parameters を考慮し、適切な変換を用いることで、結合されたマイスナー発振子を得る。 その結果, 以下の2つの興味深い結果が得られた。 (i) 量子振動子の古典的アナログの古典的不安定性と光子励起 {averages $\left\langle n_{j}\right\rangle $} は強く相関する。 (ii)光子励起と絡み合いが連結されている。 これらの結果は、量子システムとその古典的な相互関係の光を遮ることができる。 また、実験が安価である古典的なシステムのみをエンジニアリングすることで、絡み合いを制御できる。

The Schr\"{o}dinger dynamics of photon excitation numbers together with entanglement in two non-resonant time-dependent coupled oscillators is investigated. By considering $ \pi-$periodically pumped parameters and using suitable transformations, we obtain the coupled Meissner oscillators. Consequently, our analytical study shows two interesting results, which can be summarized as follows. (i): Classical instability of classical analog of quantum oscillators and photon excitation {averages $\left\langle N_{j}\right\rangle $} are strongly correlated. (ii): Photon excitation's and entanglement are connected to each other. These results can be used to shed light on the link between quantum systems and their classical counterparts. Also it allow to control entanglement by engineering only classical systems where the experiments are less expensive.
翻訳日:2023-04-10 16:00:08 公開日:2021-02-20
# 資源理論的視点を用いた準備・測定シナリオの量子一般化文脈性の構築

Using a resource theoretic perspective to witness and engineer quantum generalized contextuality for prepare-and-measure scenarios ( http://arxiv.org/abs/2102.10469v1 )

ライセンス: Link先を確認
Rafael Wagner, Roberto D. Baldij\~ao, Alisson Tezzin and B\'arbara Amaral(参考訳) 一般文脈の資源理論フレームワークを,準備・測定シナリオの構造を解析するためのツールとして利用する。 このフレームワークは、量子的文脈性を示す証明を単純化し、実験的な実装の堅牢性に関する既知の議論を正すことができる。 ケーススタディでは、資源理論と測定シミュラビリティの関連性に気付くことによって、シナリオのクラスに対する非自明な非コンテキスト不等式に関連する量子的文脈性を目撃する。 また、より単純なシナリオから複雑なシナリオを構築することが可能な振る舞いを構成するためのルールを公開し、複雑なシナリオに対する非コンテキストポリトープ構造の説明を提供し、量子違反の発見を容易にする。 特に, 状態依存的クローニングシナリオは, 単純なシナリオから文脈性を引き継いでいることを示し, 非文脈性不等式に対して量子的文脈性に違反する複雑な準備・測定シナリオを考案する。 資源理論の抽象的な形式主義からコンテキスト性を理解することは、実践的なタスクに対する量子上古典的な利点を示すための潜在的に新しい枠組みである。

We use the resource theory framework of generalized contextuality as a tool for analyzing the structure of prepare-and-measure scenarios. We argue that this framework is capable of simplifying proofs for witnessing quantum contextuality and straightens known arguments regarding the robustness of experimental implementations thereof. As a case study, we witness quantum contextuality associated with any nontrivial noncontextuality inequality for a class of scenarios by noticing a connection between the resource theory and measurement simulability. We also expose a rule for composing behaviours that allows one to build complex scenarios from simpler ones, which provides an explanation of the non-contextual polytope structure for complex scenarios and facilitates finding possible quantum violations. In particular, we show that the state-dependent cloning scenario inherits contextuality from a simpler scenario, and we engineer a complex prepare-and-measure scenario that has quantum contextual violations for any noncontextuality inequality. Witnessing contextuality from the abstract formalism of resource theories represents a potential new framework for demonstrating quantum-over-classical advantages for practical tasks.
翻訳日:2023-04-10 15:59:57 公開日:2021-02-20
# モバイルアプリケーションにおけるレコメンデーション戦略の異種需要効果--計量モデルと機械学習機器からのエビデンス

Heterogeneous Demand Effects of Recommendation Strategies in a Mobile Application: Evidence from Econometric Models and Machine-Learning Instruments ( http://arxiv.org/abs/2102.10468v1 )

ライセンス: Link先を確認
Panagiotis Adamopoulos, Anindya Ghose, Alexander Tuzhilin(参考訳) 本稿では,モバイルチャネルにおける様々なレコメンデーション戦略の有効性と,個々の製品に対する消費者の実用性と需要レベルに与える影響について検討する。 様々な推奨方略に有意な効果差が認められた。 興味深いことに、推奨の代替案の社会的証明を直接埋め込む推奨戦略は、他の推奨よりも優れている。 さらに、所定の時間的多様性による社会的証明と高い意識のレベルを組み合わせた推奨策は、移動チャネルにさらに強い影響を与える。 さらに,アイテムやユーザ,コンテキストの設定における需要効果の多様性を検証し,上記の情報や説得メカニズムを実証的に検証し,豊富な洞察を得る。 また,機械学習を用いた内在性の有無における因果効果の推定も行う。 具体的には,ユーザ生成レビューのディープラーニングモデルに基づいて,製品差別化(分離)を捉えた新しい計量計測器を開発した。 以上の結果から,レコメンダシステムによる不均質な影響に関する現在の知識,関連文献における矛盾した先行結果の解消,ビジネス的意義が示唆された。

In this paper, we examine the effectiveness of various recommendation strategies in the mobile channel and their impact on consumers' utility and demand levels for individual products. We find significant differences in effectiveness among various recommendation strategies. Interestingly, recommendation strategies that directly embed social proofs for the recommended alternatives outperform other recommendations. Besides, recommendation strategies combining social proofs with higher levels of induced awareness due to the prescribed temporal diversity have an even stronger effect on the mobile channel. In addition, we examine the heterogeneity of the demand effect across items, users, and contextual settings, further verifying empirically the aforementioned information and persuasion mechanisms and generating rich insights. We also facilitate the estimation of causal effects in the presence of endogeneity using machine-learning methods. Specifically, we develop novel econometric instruments that capture product differentiation (isolation) based on deep-learning models of user-generated reviews. Our empirical findings extend the current knowledge regarding the heterogeneous impact of recommender systems, reconcile contradictory prior results in the related literature, and have significant business implications.
翻訳日:2023-04-10 15:59:36 公開日:2021-02-20
# 没入型バーチャルリアリティーを用いたイベントベースおよび時間ベースのプロスペクティブメモリの生態学的検証:遅延とタスクタイプが日々のプロスペクティブメモリに及ぼす影響

An ecologically valid examination of event-based and time-based prospective memory using immersive virtual reality: the effects of delay and task type on everyday prospective memory ( http://arxiv.org/abs/2102.10448v1 )

ライセンス: Link先を確認
Panagiotis Kourtesis, Simona Collina, Leonidas A.A. Doumas, and Sarah E. MacPherson(参考訳) 最近の研究は、イベントベースまたは時間ベースの予見記憶(PM)を実験室のタスクを用いて評価することに焦点を当てている。 しかし, 実験室作業におけるPM性能に関する知見は, 対応する自然主義実験と矛盾することが多い。 生態学的に有効な神経心理学的タスクは、日常的なタスクの複雑さと認知的要求に似ており、適切なレベルの実験的なコントロールを提供し、発見の一般化を日々のパフォーマンスに許す。 没入型仮想現実神経心理学電池であるVR-EAL(Virtual Reality Everyday Assessment Lab)は、日常のPM(焦点および非焦点イベントベース、時間ベース)を総合的に評価するために実装された。 PMの意図の符号化と開始までの遅延長とPMタスクの種類が日常のPMパフォーマンスに及ぼす影響について検討した。 その結果、pmタスクのタイプよりも遅延時間の長さが日々のpmパフォーマンスに与える影響が判明した。 遅延の長さの影響は、焦点、非焦点、時間に基づくタスクのパフォーマンスに差があり、pm cue焦点に比例していた(すなわち、意図された動作との意味関係)。 本研究は,機能と能力の区別,キュー属性の区別,生態学的妥当性の必要性など,方法論的考察も強調した。

Recent research has focused on assessing either event- or time-based prospective memory (PM) using laboratory tasks. Yet, the findings pertaining to PM performance on laboratory tasks are often inconsistent with the findings on corresponding naturalistic experiments. Ecologically valid neuropsychological tasks resemble the complexity and cognitive demands of everyday tasks, offer an adequate level of experimental control, and allow a generalisation of the findings to everyday performance. The Virtual Reality Everyday Assessment Lab (VR-EAL), an immersive virtual reality neuropsychological battery with enhanced ecological validity, was implemented to comprehensively assess everyday PM (i.e., focal and non-focal event-based, and time-based). The effects of the length of delay between encoding and initiating the PM intention and the type of PM task on everyday PM performance were examined. The results revealed that everyday PM performance was affected by the length of delay rather than the type of PM task. The effect of the length of delay differentially affected performance on the focal, non-focal, and time-based tasks and was proportional to the PM cue focality (i.e., semantic relationship with the intended action). This study also highlighted methodological considerations such as the differentiation between functioning and ability, distinction of cue attributes, and the necessity of ecological validity.
翻訳日:2023-04-10 15:58:44 公開日:2021-02-20
# 二次元量子ミラーにおける励起子相互作用からの非古典光

Nonclassical Light from Exciton Interactions in a Two-Dimensional Quantum Mirror ( http://arxiv.org/abs/2102.10350v1 )

ライセンス: Link先を確認
Valentin Walther, Lida Zhang, Susanne F. Yelin, Thomas Pohl(参考訳) 半導体単分子膜の励起子は、超高効率で共鳴光を反射できる集合共鳴を形成する。 本研究では,このような原子状薄い鏡の非線形光学特性を調査し,励起子間の有限次元相互作用が非古典光の発生に繋がることを示した。 光学的非線形性は、励起リドベルク状態における直接光子カップリングから励起子へ、あるいは有限距離相互作用を持つリドベルク励起子の共鳴2光子励起から生じる。 後者の場合、電磁誘導透過の条件を生じさせ、光子-光子相互作用の調整可能な動的時間スケールを持つ単光子スイッチングの効率的なメカニズムを提供する。 驚くべきことに、結果として生じる高次光子相関は2次元半導体における基底状態励起子で観測される非放射的デコヒーレンスよりも、リドバーグ状態デコヒーレンスによって事実上影響を受けない。 この不完全性に対する強固さは、個々の光子のレベルでの量子フォトニクスに対する有望な新しいアプローチを示唆している。

Excitons in a semiconductor monolayer form a collective resonance that can reflect resonant light with extraordinarily high efficiency. Here, we investigate the nonlinear optical properties of such atomistically thin mirrors and show that finite-range interactions between excitons can lead to the generation of highly non-classical light. We describe two scenarios, in which optical nonlinearities arise either from direct photon coupling to excitons in excited Rydberg states or from resonant two-photon excitation of Rydberg excitons with finite-range interactions. The latter case yields conditions of electromagnetically induced transparency and thereby provides an efficient mechanism for single-photon switching between high transmission and reflectance of the monolayer, with a tunable dynamical timescale of the emerging photon-photon interactions. Remarkably, it turns out that the resulting high degree of photon correlations remains virtually unaffected by Rydberg-state decoherence, in excess of non-radiative decoherence observed for ground-state excitons in two-dimensional semiconductors. This robustness to imperfections suggests a promising new approach to quantum photonics at the level of individual photons.
翻訳日:2023-04-10 15:57:48 公開日:2021-02-20
# サイバー攻撃に対する最適スマートグリッド保護のためのベイジアン敵対的マルチノードバンディット

Bayesian adversarial multi-node bandit for optimal smart grid protection against cyber attacks ( http://arxiv.org/abs/2104.02774v1 )

ライセンス: Link先を確認
Jianyu Xu, Bin Liu, Huadong Mo, Daoyi Dong(参考訳) スマートグリッドのサイバーセキュリティは、信頼性の高い現代電力とエネルギーシステムを開発する上で重要な問題の一つとなっている。 本稿では,スマートグリッドに対する変動制約を伴う非定常対向コストを導入し,比較的実用的なシナリオにおいて,サイバー攻撃に対するスマートグリッドの最適保護の問題を検討することを可能にする。 特に、逆コストを伴うベイズ多ノードバンディット(mnb)モデルを構築し、このモデルに対して新たな後悔関数を定義する。 この問題を解くためにトンプソン・ヘッジアルゴリズム(Thompson-Hedge algorithm)というアルゴリズムが提案され,提案アルゴリズムの性能は後悔関数の収束率の観点から証明されている。 実際のスマートグリッドシナリオに対するアルゴリズムの適用性を検証し,数値例を用いてアルゴリズムの性能を示す。

The cybersecurity of smart grids has become one of key problems in developing reliable modern power and energy systems. This paper introduces a non-stationary adversarial cost with a variation constraint for smart grids and enables us to investigate the problem of optimal smart grid protection against cyber attacks in a relatively practical scenario. In particular, a Bayesian multi-node bandit (MNB) model with adversarial costs is constructed and a new regret function is defined for this model. An algorithm called Thompson-Hedge algorithm is presented to solve the problem and the superior performance of the proposed algorithm is proven in terms of the convergence rate of the regret function. The applicability of the algorithm to real smart grid scenarios is verified and the performance of the algorithm is also demonstrated by numerical examples.
翻訳日:2023-04-10 15:50:10 公開日:2021-02-20
# 良質な国家的土地支配の実践としての将来のインフラ整備に向けた農村における流動のモデル化と人々のフローパターンの可視化

Modelling mobility and visualizing people's flow patterns in rural areas for future infrastructure development as a good transnational land-governance practice ( http://arxiv.org/abs/2103.01777v1 )

ライセンス: Link先を確認
Paula Botella, Pawe{\l} Gora, Martyna Sosnowska, Izabela Karsznia, Sara Carvajal Querol(参考訳) 本稿では,セネガルとギニアビッソーの国境で,カヤンガ-ゲバ川流域の自治体とNGOのインフラ開発を支援するために行われた,国境を越えたモビリティ研究,原産地移動モデリングと可視化について要約する。 国境地域を領域単位として考慮し、異なる国家的領土管理ツールを独自の国際的ツールに調和させることを目的として、国境管理開発計画(Pans PAGET)の策定のための参加マッピングを通じて収集されたデータに基づく。 移動量データが少ないにもかかわらず,検討対象地域を対象とした移動モデルの構築が可能であり,その後,国境を越える移動量を持たない2症例において,研究領域の原点決定行列の計算に使用された交通シミュレーションフレームワークに実装した。 モビリティ・パターンの違いを分析し,モビリティ・フローを可視化し,研究エリアにおける橋梁建設の潜在的影響について考察した。 我々の方法論は一般的であり、様々な分野の同様の研究に応用できる。 しかし、結果の質は利用可能なデータに依存する可能性がある。

This paper summarizes a cross-border mobility study, origin-destination mobility modelling and visualization, conducted in support of the infrastructure development efforts of local authorities and NGOs on the area over the Kayanga-Geba River, at the border between Senegal and Guinea Bissau. It builds on the data collected through participatory mapping for the elaboration of the Cross-Border Land Management and Development Plans (Plans PAGET) aiming to harmonize the different national territorial management tools into a unique transnational tool through the consideration of border areas as a territorial unity. Despite a small amount of available mobility data, we were able to build a mobility model for the considered area, and implemented it in the Traffic Simulation Framework, which was later used to calculate origin-destination matrices for the studied regions in two cases: with and without a cross-border mobility. We analyzed the differences in the mobility patterns and visualized the mobility flows, deliberating on what may be the potential impacts of building a bridge in the study area. Our methodology is general and can be applied in similar studies on different areas. However, the quality of results may depend on the available data.
翻訳日:2023-04-10 15:49:40 公開日:2021-02-20
# ブラインドmm波MIMOビームアライメントに基づく深部強化学習

Deep Reinforcement Learning based Blind mmWave MIMO Beam Alignment ( http://arxiv.org/abs/2001.09251v2 )

ライセンス: Link先を確認
Vishnu Raj, Nancy Nayak and Sheetal Kalyani(参考訳) 指向性ビームフォーミングはミリ波(mmWave)技術を用いたロバスト無線通信システムを実現する上で重要な要素である。 ブルートフォースによる空間探索によるビームアライメントは時間オーバーヘッドをもたらし、ロケーション支援ブラインドビームアライメントはシステムに追加のハードウェア要件を追加する。 本稿では,基地局が取得したユーザ機器のRF指紋に基づくブラインドビームアライメント手法を提案する。 提案システムでは,複数の移動体ユーザが深層強化学習を用いて,複数の基地局セル環境上でブラインドビームアライメントを行う。 本稿では,連続動作と離散動作の混在を処理し,モデルの学習にポリシ勾配法を用いる,新たなニューラルネットワークアーキテクチャを提案する。 その結果,提案手法は従来の手法の最大4倍のデータレートをオーバーヘッドなく実現できることがわかった。

Directional beamforming is a crucial component for realizing robust wireless communication systems using millimeter wave (mmWave) technology. Beam alignment using brute-force search of the space introduces time overhead while location aided blind beam alignment adds additional hardware requirements to the system. In this paper, we introduce a method for blind beam alignment based on the RF fingerprints of user equipment obtained by the base stations. The proposed system performs blind beam alignment on a multiple base station cellular environment with multiple mobile users using deep reinforcement learning. We present a novel neural network architecture that can handle a mix of both continuous and discrete actions and use policy gradient methods to train the model. Our results show that the proposed method can achieve a data rate of up to four times the traditional method without any overheads.
翻訳日:2023-01-07 00:24:38 公開日:2021-02-20
# turbo-aggregate:安全な連合学習における二次凝集障壁を破る

Turbo-Aggregate: Breaking the Quadratic Aggregation Barrier in Secure Federated Learning ( http://arxiv.org/abs/2002.04156v3 )

ライセンス: Link先を確認
Jinhyun So, Basak Guler, and A. Salman Avestimehr(参考訳) フェデレーション学習(Federated Learning)は、モバイルデバイス上のデータ上で機械学習モデルをトレーニングし、個々のユーザのプライバシを保護する分散フレームワークである。 多数のユーザへのフェデレーション学習のスケールアップにおける大きなボトルネックは、多数のユーザにわたってセキュアなモデルアグリゲーションのオーバーヘッドである。 特に、セキュアなモデルアグリゲーションのための最先端プロトコルのオーバーヘッドは、ユーザ数と2倍に増加する。 本稿では,Turbo-Aggregateという,ユーザが$O(N\log{N})$に対して,$O(N^2)$に対して,$O(N\log{N})$のセキュアアグリゲーションオーバヘッドを実現するネットワーク上で,ユーザドロップアウト率50\%$を許容する,最初のセキュアアグリゲーションフレームワークを提案する。 Turbo-Aggregateは、効率的なモデルアグリゲーションのための多群循環戦略を採用し、ユーザのプライバシを確保しながら、ユーザのドロップアウトを処理するために、アグリゲーション冗長を注入するための追加のシークレット共有と新しいコーディング技術を活用する。 我々は,Turbo-Aggregateがユーザ数でほぼ直線的に成長する総実行時間を実現し,最大40\times$の最先端プロトコルを最大$N=200$のユーザで高速化できることを実験的に実証した。 また, モデルサイズと帯域幅がターボアグリゲーションの性能に及ぼす影響を実証した。

Federated learning is a distributed framework for training machine learning models over the data residing at mobile devices, while protecting the privacy of individual users. A major bottleneck in scaling federated learning to a large number of users is the overhead of secure model aggregation across many users. In particular, the overhead of the state-of-the-art protocols for secure model aggregation grows quadratically with the number of users. In this paper, we propose the first secure aggregation framework, named Turbo-Aggregate, that in a network with $N$ users achieves a secure aggregation overhead of $O(N\log{N})$, as opposed to $O(N^2)$, while tolerating up to a user dropout rate of $50\%$. Turbo-Aggregate employs a multi-group circular strategy for efficient model aggregation, and leverages additive secret sharing and novel coding techniques for injecting aggregation redundancy in order to handle user dropouts while guaranteeing user privacy. We experimentally demonstrate that Turbo-Aggregate achieves a total running time that grows almost linear in the number of users, and provides up to $40\times$ speedup over the state-of-the-art protocols with up to $N=200$ users. Our experiments also demonstrate the impact of model size and bandwidth on the performance of Turbo-Aggregate.
翻訳日:2023-01-02 02:12:53 公開日:2021-02-20
# 運転シナリオにおけるシーン完全性を考慮したライダー深度補完

Scene Completeness-Aware Lidar Depth Completion for Driving Scenario ( http://arxiv.org/abs/2003.06945v3 )

ライセンス: Link先を確認
Cho-Ying Wu, Ulrich Neumann(参考訳) 本稿では,Scene Completeness-Aware Depth Completion (SCADC)を導入し,詳細なシーン構造と完全なシーン構造を持つ深度マップに生ライダースキャンを組み込む。 最近のlidarの奥行きは低いシーンにのみ焦点を合わせており、kittiのような既存のデータセットが上層部に基部を提供していないため、上層で不規則な推定を行う。 これらの地域は、通常、風景理解の少ない空や木であるため、重要ではないと考えられている。 しかし、大型トラックや積載車のようないくつかの運転シナリオでは、物体はシーンの上部まで伸びる可能性がある。 したがって、rgbdアルゴリズムでは構造化上シーン推定を伴う深度マップが重要である。 SCADCは、シーンの完全性に優れた相違をもたらすステレオ画像を採用するが、ライダーよりも一般的には正確ではない。 我々の知る限りでは、我々はスパース深度完了のシーン完全性に最初に焦点を当てている。 我々は,KITTIにおける深度推定精度とシーン完全性の両方についてSCADCを検証した。 さらに,シーン完全性を考慮したd入力を用いたアウトドアrgbdセマンティクスセグメンテーションを実験し,提案手法の有効性を検証した。

This paper introduces Scene Completeness-Aware Depth Completion (SCADC) to complete raw lidar scans into dense depth maps with fine and complete scene structures. Recent sparse depth completion for lidars only focuses on the lower scenes and produces irregular estimations on the upper because existing datasets, such as KITTI, do not provide groundtruth for upper areas. These areas are considered less important since they are usually sky or trees of less scene understanding interest. However, we argue that in several driving scenarios such as large trucks or cars with loads, objects could extend to the upper parts of scenes. Thus depth maps with structured upper scene estimation are important for RGBD algorithms. SCADC adopts stereo images that produce disparities with better scene completeness but are generally less precise than lidars, to help sparse lidar depth completion. To our knowledge, we are the first to focus on scene completeness of sparse depth completion. We validate our SCADC on both depth estimate precision and scene-completeness on KITTI. Moreover, we experiment on less-explored outdoor RGBD semantic segmentation with scene completeness-aware D-input to validate our method.
翻訳日:2022-12-23 09:14:33 公開日:2021-02-20
# すべての機能が等しくない: 予測プライバシを保存するための必須機能の発見

Not All Features Are Equal: Discovering Essential Features for Preserving Prediction Privacy ( http://arxiv.org/abs/2003.12154v2 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Mohammadkazem Taram, Ali Jalali, Ahmed Taha Elthakeb, Dean Tullsen, Hadi Esmaeilzadeh(参考訳) クラウドから機械学習サービスを受信する場合、プロバイダはすべての機能を受信する必要はない。 このサブセットを特定することが、この作業の重要な問題です。 この問題を,入力特徴空間において,プロバイダが使用する予測モデルの機能に関して,この部分集合を発見する勾配に基づく摂動最大化法として定式化する。 サブセットを特定した後、我々のフレームワークであるCloakは、別の勾配ベースの最適化プロセスを通じて検出されるユーティリティ保存定数値を用いて、残りの機能を抑圧します。 Cloakは必ずしも通常のサービス以上のサービスプロバイダとのコラボレーションを必要としておらず、サービスプロバイダのモデルへのブラックボックスアクセスのみのシナリオに適用可能であることを示す。 理論上、cloakの最適化は、送信されるデータとsifted表現の間の相互情報(mi)の上限を減少させることを保証している。 実験の結果、cloakは入力とsifted表現間の相互情報を85.01%削減し、実用性は無視できる(1.42%)。 さらに,Cloakは,非表現的特徴の学習と推論能力を大幅に低下させることを示した。

When receiving machine learning services from the cloud, the provider does not need to receive all features; in fact, only a subset of the features are necessary for the target prediction task. Discerning this subset is the key problem of this work. We formulate this problem as a gradient-based perturbation maximization method that discovers this subset in the input feature space with respect to the functionality of the prediction model used by the provider. After identifying the subset, our framework, Cloak, suppresses the rest of the features using utility-preserving constant values that are discovered through a separate gradient-based optimization process. We show that Cloak does not necessarily require collaboration from the service provider beyond its normal service, and can be applied in scenarios where we only have black-box access to the service provider's model. We theoretically guarantee that Cloak's optimizations reduce the upper bound of the Mutual Information (MI) between the data and the sifted representations that are sent out. Experimental results show that Cloak reduces the mutual information between the input and the sifted representations by 85.01% with only a negligible reduction in utility (1.42%). In addition, we show that Cloak greatly diminishes adversaries' ability to learn and infer non-conducive features.
翻訳日:2022-12-19 21:40:44 公開日:2021-02-20
# instagramにおけるマルチモーダル人気予測の限界について - 堅牢で効率的で説明可能な新しいベースライン

On the Limits to Multi-Modal Popularity Prediction on Instagram -- A New Robust, Efficient and Explainable Baseline ( http://arxiv.org/abs/2004.12482v2 )

ライセンス: Link先を確認
Christoffer Riis, Damian Konrad Kowalczyk, Lars Kai Hansen(参考訳) 私たちの世界人口は、Instagramのようなプラットフォーム上で視覚コンテンツを投稿し、自分自身を表現し、観客をエンゲージメントしようと試みている。 本稿ではinstagramでの人気予測について再検討する。 人口ベースの人気予測のための,頑健で効率的で説明可能なベースラインを提示し,高いランク付け性能を実現する。 視覚モーダルから抽出した情報を最大化するために,コンピュータビジョンにおける最新の手法を用いる。 トランスファー学習を用いて,概念やシーン,オブジェクトといった視覚意味論を抽出し,広範な説明可能なアブレーション研究において,新たなレベルの精査を可能にした。 機能選択を堅牢でスケーラブルなモデルに通知すると同時に,機能インタラクションを解説し,計算社会科学におけるさらなる探求のための新たな方向性を提供する。 われわれの最強モデルは、instagramにおける人口ベースの人気予測可能性の限界を知らせている。 モデルは直ちにソーシャルメディアの監視とインフルエンサー識別に適用できる。

Our global population contributes visual content on platforms like Instagram, attempting to express themselves and engage their audiences, at an unprecedented and increasing rate. In this paper, we revisit the popularity prediction on Instagram. We present a robust, efficient, and explainable baseline for population-based popularity prediction, achieving strong ranking performance. We employ the latest methods in computer vision to maximize the information extracted from the visual modality. We use transfer learning to extract visual semantics such as concepts, scenes, and objects, allowing a new level of scrutiny in an extensive, explainable ablation study. We inform feature selection towards a robust and scalable model, but also illustrate feature interactions, offering new directions for further inquiry in computational social science. Our strongest models inform a lower limit to population-based predictability of popularity on Instagram. The models are immediately applicable to social media monitoring and influencer identification.
翻訳日:2022-12-09 13:43:55 公開日:2021-02-20
# 待機回避群平均化による並列確率最適化における(グローバル)障壁の破断

Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging ( http://arxiv.org/abs/2005.00124v3 )

ライセンス: Link先を確認
Shigang Li, Tal Ben-Nun, Giorgi Nadiradze, Salvatore Di Girolamo, Nikoli Dryden, Dan Alistarh, Torsten Hoefler(参考訳) 大規模なディープラーニングは、コミュニケーション時間によって支配される。 サンプルをノードに分散することは、通常、最高のパフォーマンスをもたらすが、グローバル情報の拡散と、不均一なサンプル長にわたる負荷の不均衡のために、スケーリングの課題を提起する。 最先端の分散オプティマイザは問題を緩和するが、グローバルコミュニケーションのオプティマイザと同じ精度を達成するために、より多くのイテレーションを必要とする。 本稿では,wagma(wait-avoiding group model averaging) sgd(wait-avoiding stochastic optimizationr)を提案する。 重要な洞察は、平均化スキームへのアルゴリズム的変更とグループallreduce操作の使用の組み合わせである。 我々は、WAGMA-SGDの収束を証明し、Allreduce-SGDと同様の収束率を維持していることを示す。 評価のために、ImageNet上でResNet-50、機械翻訳用トランスフォーマー、大規模ナビゲーションのための深層強化学習を訓練する。 最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループット(強化学習用1,024GPUの2.1倍)を著しく改善し、最も高速なタイム・ツー・ソリューション(トランスフォーマーの最短トレーニング時間を用いた最高スコアなど)を達成する。

Deep learning at scale is dominated by communication time. Distributing samples across nodes usually yields the best performance, but poses scaling challenges due to global information dissemination and load imbalance across uneven sample lengths. State-of-the-art decentralized optimizers mitigate the problem, but require more iterations to achieve the same accuracy as their globally-communicating counterparts. We present Wait-Avoiding Group Model Averaging (WAGMA) SGD, a wait-avoiding stochastic optimizer that reduces global communication via subgroup weight exchange. The key insight is a combination of algorithmic changes to the averaging scheme and the use of a group allreduce operation. We prove the convergence of WAGMA-SGD, and empirically show that it retains convergence rates similar to Allreduce-SGD. For evaluation, we train ResNet-50 on ImageNet; Transformer for machine translation; and deep reinforcement learning for navigation at scale. Compared with state-of-the-art decentralized SGD variants, WAGMA-SGD significantly improves training throughput (e.g., 2.1x on 1,024 GPUs for reinforcement learning), and achieves the fastest time-to-solution (e.g., the highest score using the shortest training time for Transformer).
翻訳日:2022-12-08 05:47:11 公開日:2021-02-20
# 臨床質問応答のためのエンティティ強化ニューラルモデル

Entity-Enriched Neural Models for Clinical Question Answering ( http://arxiv.org/abs/2005.06587v2 )

ライセンス: Link先を確認
Bhanu Pratap Singh Rawat, Wei-Hung Weng, So Yeon Min, Preethi Raghavan, Peter Szolovits(参考訳) 電子カルテで質問応答を行うための最先端のニューラルモデルについて検討し,これまで見つからなかった(言い換えれば)質問をテスト時に一般化する能力を向上させる。 我々はこれを、解答スパン検出のメインタスクとともに補助タスクとして論理形式を予測することによって実現した。 予測された論理形式は、答えの根拠としても機能する。 さらに、ERNIEアーキテクチャを介して、これらのモデルに医療エンティティ情報も組み込む。 大規模なEmrQAデータセットでモデルをトレーニングし、マルチタスクのエンティティ強化モデルが、ベースラインのBERTモデルよりも約5%優れたパラフレーズ付き質問に一般化することを観察する。

We explore state-of-the-art neural models for question answering on electronic medical records and improve their ability to generalize better on previously unseen (paraphrased) questions at test time. We enable this by learning to predict logical forms as an auxiliary task along with the main task of answer span detection. The predicted logical forms also serve as a rationale for the answer. Further, we also incorporate medical entity information in these models via the ERNIE architecture. We train our models on the large-scale emrQA dataset and observe that our multi-task entity-enriched models generalize to paraphrased questions ~5% better than the baseline BERT model.
翻訳日:2022-12-03 09:56:55 公開日:2021-02-20
# 中毒攻撃に対するSVMの防御 - 硬度とDBSCANアプローチ

Defending SVMs against Poisoning Attacks: the Hardness and DBSCAN Approach ( http://arxiv.org/abs/2006.07757v5 )

ライセンス: Link先を確認
Hu Ding, Fan Yang, Jiawei Huang(参考訳) 敵対的機械学習は近年、多くの注目を集めている。 毒攻撃において、敵は少数の特殊工品サンプルを訓練データに注入し、決定境界を著しく逸脱させ、予期せぬ誤分類を引き起こす。 サポートベクターマシン(SVM)の重要性と普及度から,本論文では毒殺攻撃からSVMを守ることを検討する。 我々は、堅牢なSVMアルゴリズムとデータ衛生化の2つの防衛戦略について研究する。 これまでいくつかの堅牢なSVMアルゴリズムが提案されてきたが、そのほとんどは敵対的抵抗性の欠如、あるいはデータ分散や攻撃者の振る舞いに関する強い仮定に依存している。 さらに、その複雑さに関する研究は、まだかなり限られている。 我々は、私たちの知る限り、最も単純なハードマージンの1クラスSVMでさえ、外れ値問題のあるNP完全であり、P$=$NPでない限り完全なPTASを持っていないことを証明するために、私たちの知る限りでは初めてである。 特に,DBSCAN(密度に基づく外れ値除去法)の有効性を説明するために,データの本質的次元性(intrinsic dimensionality)に関するサンプル定理を2倍のメトリクスで提供する。 実験実験では,DBSCAN法や堅牢SVM法などいくつかの防衛法を比較し,本質的な次元とデータ密度がそれらの性能に与える影響について検討した。

Adversarial machine learning has attracted a great amount of attention in recent years. In a poisoning attack, the adversary can inject a small number of specially crafted samples into the training data which make the decision boundary severely deviate and cause unexpected misclassification. Due to the great importance and popular use of support vector machines (SVM), we consider defending SVM against poisoning attacks in this paper. We study two commonly used strategies for defending: designing robust SVM algorithms and data sanitization. Though several robust SVM algorithms have been proposed before, most of them either are in lack of adversarial-resilience, or rely on strong assumptions about the data distribution or the attacker's behavior. Moreover, the research on their complexities is still quite limited. We are the first, to the best of our knowledge, to prove that even the simplest hard-margin one-class SVM with outliers problem is NP-complete, and has no fully PTAS unless P$=$NP (that means it is hard to achieve an even approximate algorithm). For the data sanitization defense, we link it to the intrinsic dimensionality of data; in particular, we provide a sampling theorem in doubling metrics for explaining the effectiveness of DBSCAN (as a density-based outlier removal method) for defending against poisoning attacks. In our empirical experiments, we compare several defenses including the DBSCAN and robust SVM methods, and investigate the influences from the intrinsic dimensionality and data density to their performances.
翻訳日:2022-11-21 12:41:22 公開日:2021-02-20
# プライベートな中央値分割で高ユーティリティなランダムツリーが生まれる

Balance is key: Private median splits yield high-utility random trees ( http://arxiv.org/abs/2006.08795v2 )

ライセンス: Link先を確認
Shorya Consul, Sinead A. Williamson(参考訳) ランダム林はその多目的性のために分類と回帰の一般的な方法である。 しかし、ランダムフォレストをトレーニングするには複数のデータクエリが必要になるため、この柔軟性はユーザのプライバシの犠牲になる可能性がある。 これらのクエリのプライバタイズは通常、高コストで行われます。その理由の大部分は、小さなサブセットでクエリを民営化しているからです。 本稿では, 実・類型的共変量に適合する, 差分的回帰と分類のための新しい木に基づくアンサンブル手法であるDiPriMe林を提案する。 我々は、葉ノードのバランスを保った中央値の差分版を用いて分割を生成する。 低占有率の葉ノードを避けることで、葉ノードの十分な統計を民営化する際に高い信号対雑音比を避けることができる。 理論的かつ実証的に、結果のアルゴリズムは差分プライバシーを確保しつつ高い実用性を示すことを示す。

Random forests are a popular method for classification and regression due to their versatility. However, this flexibility can come at the cost of user privacy, since training random forests requires multiple data queries, often on small, identifiable subsets of the training data. Privatizing these queries typically comes at a high utility cost, in large part because we are privatizing queries on small subsets of the data, which are easily corrupted by added noise. In this paper, we propose DiPriMe forests, a novel tree-based ensemble method for differentially private regression and classification, which is appropriate for real or categorical covariates. We generate splits using a differentially private version of the median, which encourages balanced leaf nodes. By avoiding low occupancy leaf nodes, we avoid high signal-to-noise ratios when privatizing the leaf node sufficient statistics. We show theoretically and empirically that the resulting algorithm exhibits high utility, while ensuring differential privacy.
翻訳日:2022-11-21 03:34:44 公開日:2021-02-20
# スパイク-ニューロンネットワークにおけるフレキシブル相互作用の効率的な推論

Efficient Inference of Flexible Interaction in Spiking-neuron Networks ( http://arxiv.org/abs/2006.12845v2 )

ライセンス: Link先を確認
Feng Zhou, Yixuan Zhang, Jun Zhu(参考訳) ホークス過程は、神経スパイキング活動の時間依存性相互作用を分析する効果的な統計フレームワークを提供する。 多くの実際の応用で使われているが、古典的なホークス過程はニューロン間の阻害相互作用のモデリングができない。 代わりに、非線形ホークス過程は、興奮的または抑制的な相互作用を持つより柔軟な影響パターンを可能にする。 本稿では,3組の補助潜伏変数(P\'{o}lya-Gamma変数,潜伏マークポアソン過程,疎度変数)を拡張してガウス形式の関数接続重み付けを行い,解析的更新を伴う簡単な反復アルゴリズムを実現する。 その結果,効率的な予測最大化(EM)アルゴリズムが導出され,MAP推定値の最大値が得られる。 合成データと実データに対して,アルゴリズムの精度と効率性を示す。 実際の神経記録では,インタラクションの時間的ダイナミクスを推定し,神経スパイク列を基盤とする解釈可能な機能的接続性を明らかにする。

Hawkes process provides an effective statistical framework for analyzing the time-dependent interaction of neuronal spiking activities. Although utilized in many real applications, the classic Hawkes process is incapable of modelling inhibitory interactions among neurons. Instead, the nonlinear Hawkes process allows for a more flexible influence pattern with excitatory or inhibitory interactions. In this paper, three sets of auxiliary latent variables (P\'{o}lya-Gamma variables, latent marked Poisson processes and sparsity variables) are augmented to make functional connection weights in a Gaussian form, which allows for a simple iterative algorithm with analytical updates. As a result, an efficient expectation-maximization (EM) algorithm is derived to obtain the maximum a posteriori (MAP) estimate. We demonstrate the accuracy and efficiency performance of our algorithm on synthetic and real data. For real neural recordings, we show our algorithm can estimate the temporal dynamics of interaction and reveal the interpretable functional connectivity underlying neural spike trains.
翻訳日:2022-11-17 21:58:03 公開日:2021-02-20
# 深層強化学習における一般化のための自動データ拡張

Automatic Data Augmentation for Generalization in Deep Reinforcement Learning ( http://arxiv.org/abs/2006.12862v2 )

ライセンス: Link先を確認
Roberta Raileanu, Max Goldstein, Denis Yarats, Ilya Kostrikov, Rob Fergus(参考訳) deep reinforcement learning (rl)エージェントは、意味的に類似した環境の多くのインスタンスでトレーニングされた場合でも、未認識のシナリオに一般化できないことが多い。 近年,RL剤の試料効率と一般化が向上することが示されている。 しかし、異なるタスクは異なる種類のデータ拡張の恩恵を受ける傾向がある。 本稿では,適切な拡張を自動検出するための3つのアプローチを比較する。 これらはポリシーと値関数の2つの新しい正規化用語と組み合わされ、特定のアクター-批判アルゴリズムで理論的にデータ拡張を利用するのに必要である。 提案手法は16のプロシージャ生成環境からなるProcgenベンチマークを用いて評価し,通常のRLアルゴリズムと比較してテスト性能が約40%向上したことを示す。 我々のエージェントは、RLの一般化を改善するために特別に設計された他のベースラインよりも優れている。 さらに,エージェントがエージェントに影響を与えない環境の変化に対してより堅牢なポリシや表現を学習できることも示します。 私たちの実装はhttps://github.com/rraileanu/auto-dracで利用可能です。

Deep reinforcement learning (RL) agents often fail to generalize to unseen scenarios, even when they are trained on many instances of semantically similar environments. Data augmentation has recently been shown to improve the sample efficiency and generalization of RL agents. However, different tasks tend to benefit from different kinds of data augmentation. In this paper, we compare three approaches for automatically finding an appropriate augmentation. These are combined with two novel regularization terms for the policy and value function, required to make the use of data augmentation theoretically sound for certain actor-critic algorithms. We evaluate our methods on the Procgen benchmark which consists of 16 procedurally-generated environments and show that it improves test performance by ~40% relative to standard RL algorithms. Our agent outperforms other baselines specifically designed to improve generalization in RL. In addition, we show that our agent learns policies and representations that are more robust to changes in the environment that do not affect the agent, such as the background. Our implementation is available at https://github.com/rraileanu/auto-drac.
翻訳日:2022-11-17 21:50:11 公開日:2021-02-20
# 超完全順序-3テンソル分解、ブラインドデコンボリューションおよびガウス混合モデル

Overcomplete order-3 tensor decomposition, blind deconvolution and Gaussian mixture models ( http://arxiv.org/abs/2007.08133v2 )

ライセンス: Link先を確認
Haolin Chen, Luis Rademacher(参考訳) 我々は,ジェンリッヒのアルゴリズムに基づくテンソル分解のための新しいアルゴリズムを提案し,新しいアルゴリズムのアイデアをブラインドデコンボリューションとガウス混合モデルに適用する。 我々の最初の貢献は、ある対称超完全位数-3テンソルを分解する単純で効率的なアルゴリズムであり、すなわち、$T = \sum_{i=1}^n a_i \otimes a_i \otimes a_i$ ここでは$a_i$sは線形独立ではない。 第2の貢献は、パラメータを効率的に推定できるガウス混合モデルの族を拡張するために、テンソル分解アルゴリズムの上に構築されている。 これらのアイデアは、より一般的なブラインドデコンボリューションの枠組みで示され、それらは同一だが非常に一般的な分布の混合モデルに適用され、有限 6 番目のモーメントを持つすべての中心対称分布を含む。

We propose a new algorithm for tensor decomposition, based on Jennrich's algorithm, and apply our new algorithmic ideas to blind deconvolution and Gaussian mixture models. Our first contribution is a simple and efficient algorithm to decompose certain symmetric overcomplete order-3 tensors, that is, three dimensional arrays of the form $T = \sum_{i=1}^n a_i \otimes a_i \otimes a_i$ where the $a_i$s are not linearly independent.Our algorithm comes with a detailed robustness analysis. Our second contribution builds on top of our tensor decomposition algorithm to expand the family of Gaussian mixture models whose parameters can be estimated efficiently. These ideas are also presented in a more general framework of blind deconvolution that makes them applicable to mixture models of identical but very general distributions, including all centrally symmetric distributions with finite 6th moment.
翻訳日:2022-11-09 22:03:51 公開日:2021-02-20
# ビザンチン耐性セキュアフェデレート学習

Byzantine-Resilient Secure Federated Learning ( http://arxiv.org/abs/2007.11115v2 )

ライセンス: Link先を確認
Jinhyun So, Basak Guler, A. Salman Avestimehr(参考訳) secure federated learningは、モバイルユーザが収集した大量のデータをトレーニングすることで、マシンラーニングモデルを改善するための、プライバシ保護フレームワークである。 これは反復的なプロセスによって実現され、各イテレーションでユーザーはローカルデータセットを使用してグローバルモデルを更新する。 各ユーザはランダムキーを通じてローカルモデルをマスクし、マスキングされたモデルを中央サーバに集約して、次のイテレーションでグローバルモデルを計算します。 ローカルモデルがランダムなマスクで保護されているため、サーバは真の値を監視できない。 これは、ローカルモデルやデータセットを変更してグローバルモデルを操作できる敵(ビザンチン)ユーザに対する、モデルのレジリエンスに対する大きな課題を示している。 本稿では、この課題に取り組むために、セキュアな連合学習のための最初のシングルサーバbyzantine-resilient secure aggregation framework(brea)を提案する。 BREAは、Byzantine-Resilience、プライバシー、収束を同時に保証するための統合確率量子化、検証可能な外れ値検出、安全なモデル集約アプローチに基づいている。 ネットワークサイズ,ユーザドロップアウト,プライバシ保護の観点から,理論的収束とプライバシ保証を提供し,基本的なトレードオフを特徴付ける。 本実験は,ビザンチンユーザの存在下での収束を実証し,従来の連合学習ベンチマークと同等の精度を示す。

Secure federated learning is a privacy-preserving framework to improve machine learning models by training over large volumes of data collected by mobile users. This is achieved through an iterative process where, at each iteration, users update a global model using their local datasets. Each user then masks its local model via random keys, and the masked models are aggregated at a central server to compute the global model for the next iteration. As the local models are protected by random masks, the server cannot observe their true values. This presents a major challenge for the resilience of the model against adversarial (Byzantine) users, who can manipulate the global model by modifying their local models or datasets. Towards addressing this challenge, this paper presents the first single-server Byzantine-resilient secure aggregation framework (BREA) for secure federated learning. BREA is based on an integrated stochastic quantization, verifiable outlier detection, and secure model aggregation approach to guarantee Byzantine-resilience, privacy, and convergence simultaneously. We provide theoretical convergence and privacy guarantees and characterize the fundamental trade-offs in terms of the network size, user dropouts, and privacy protection. Our experiments demonstrate convergence in the presence of Byzantine users, and comparable accuracy to conventional federated learning benchmarks.
翻訳日:2022-11-08 04:28:54 公開日:2021-02-20
# Sparse-View と Limited-Angle 4D CT に対する Multi-Slice Fusion の使用経験

Multi-Slice Fusion for Sparse-View and Limited-Angle 4D CT Reconstruction ( http://arxiv.org/abs/2008.01567v3 )

ライセンス: Link先を確認
Soumendu Majee, Thilo Balke, Craig A.J. Kemp, Gregery T. Buzzard, Charles A. Bouman(参考訳) 空間、時間、その他の独立したパラメータといった4次元以上の逆問題の重要性が高まっている。 最新の4D再構成手法は, モデルベース反復再構成(MBIR)を用いるが, 先行モデルの品質に大きく依存する。 近年、プラグ・アンド・プレイ(pnp)法は最先端の先行モデルを最先端のデノイジングアルゴリズムを用いて組み込む効果的な方法であることが示されている。 しかし、bm4dやdeep convolutional neural networks (cnns)のような最先端のデノイザは、主に2dや3dイメージで利用可能であり、アルゴリズムの複雑さと効果的なトレーニングの困難さのため、それらを高次元に拡張することは困難である。 本稿では,複数の低次元デノイザの融合に基づく,新しい4次元再構成アルゴリズムであるmulti-slice fusionを提案する。 提案手法では,複数の低次元モデルを統合するためのフレームワークとして,プラグアンドプレイの拡張であるマルチエージェントコンセンサス均衡(mace)を用いる。 取得時に動的に移動する試料の非破壊的評価(NDE)のための4次元コーンビームX線CT再構成に本手法を適用した。 分散異種クラスタ上でのマルチスライス融合を実装し,大規模な4次元ボリュームを適切な時間で再構成し,アルゴリズム固有の並列化性を示す。 そこで本研究では,sparse-view および limited-angle ct データのシミュレーションおよび実実験を行い,マルチスライス融合が従来の手法と比較し,再現性を大幅に向上できることを示す。

Inverse problems spanning four or more dimensions such as space, time and other independent parameters have become increasingly important. State-of-the-art 4D reconstruction methods use model based iterative reconstruction (MBIR), but depend critically on the quality of the prior modeling. Recently, plug-and-play (PnP) methods have been shown to be an effective way to incorporate advanced prior models using state-of-the-art denoising algorithms. However, state-of-the-art denoisers such as BM4D and deep convolutional neural networks (CNNs) are primarily available for 2D or 3D images and extending them to higher dimensions is difficult due to algorithmic complexity and the increased difficulty of effective training. In this paper, we present multi-slice fusion, a novel algorithm for 4D reconstruction, based on the fusion of multiple low-dimensional denoisers. Our approach uses multi-agent consensus equilibrium (MACE), an extension of plug-and-play, as a framework for integrating the multiple lower-dimensional models. We apply our method to 4D cone-beam X-ray CT reconstruction for non destructive evaluation (NDE) of samples that are dynamically moving during acquisition. We implement multi-slice fusion on distributed, heterogeneous clusters in order to reconstruct large 4D volumes in reasonable time and demonstrate the inherent parallelizable nature of the algorithm. We present simulated and real experimental results on sparse-view and limited-angle CT data to demonstrate that multi-slice fusion can substantially improve the quality of reconstructions relative to traditional methods, while also being practical to implement and train.
翻訳日:2022-11-04 01:03:27 公開日:2021-02-20
# 自動小惑星検出のためのUmbrellaソフトウェアスイート

The Umbrella software suite for automated asteroid detection ( http://arxiv.org/abs/2008.04724v2 )

ライセンス: Link先を確認
Malin Stanescu, Ovidiu Vaduvescu(参考訳) 小惑星検出, 検証, 識別, 報告のためのUmbrellaソフトウェアスイートを提案する。 umbrellaの現在のコアは、alent2と呼ばれるオープンソースのモジュラーライブラリで、処理パイプラインのすべてのステップのためのアルゴリズムとインターフェースを含み、かすかなトレイルのための新しい検出アルゴリズムを含んでいる。 このライブラリに基づいて、我々は、デスクトッププログラム(vianearby)とwebサーバ(webrella)の両方としてアクセス可能な検出パイプラインを実装しました。 本稿では, 利用可能なインターフェースとアルゴリズムに着目したライブラリについて述べるとともに, 小惑星検出ベンチマークとして, EURONEAR プロジェクトでよく計算されたフィールドにデスクトップ版を用いて得られた結果について述べる。

We present the Umbrella software suite for asteroid detection, validation, identification and reporting. The current core of Umbrella is an open-source modular library, called Umbrella2, that includes algorithms and interfaces for all steps of the processing pipeline, including a novel detection algorithm for faint trails. Building on the library, we have also implemented a detection pipeline accessible both as a desktop program (ViaNearby) and via a web server (Webrella), which we have successfully used in near real-time data reduction of a few asteroid surveys on the Wide Field Camera of the Isaac Newton Telescope. In this paper we describe the library, focusing on the interfaces and algorithms available, and we present the results obtained with the desktop version on a set of well-curated fields used by the EURONEAR project as an asteroid detection benchmark.
翻訳日:2022-10-31 12:20:34 公開日:2021-02-20
# DTI-SNNFRA:共有隣人による薬物・標的相互作用予測とファジィ・ルー近似

DTI-SNNFRA: Drug-Target interaction prediction by shared nearest neighbors and fuzzy-rough approximation ( http://arxiv.org/abs/2009.10766v3 )

ライセンス: Link先を確認
Sk Mazharul Islam, Sk Md Mosaddek Hossain, and Sumanta Ray(参考訳) 再生可能な薬物のシリカ内予測は、脱ネボ薬の発見をスクラッチから補う効果的な薬物発見戦略である。 開発時間の短縮、コストの削減、重篤な副作用の欠如は、薬物再配置の使用の大きな利点である。 最新のAI(AI)アプローチは、スループットと正確性の観点から、薬物の再利用を劇的に促進している。 しかし、薬物の増加に伴い、標的とその膨大な相互作用は、直接分類モデルへの入力として適さない不均衡なデータを生成する。 本稿では,共有近接近傍 (snn) とファジィロー近似 (fra) に基づく薬物・標的相互作用予測フレームワーク dti-snnfra を提案する。 サンプリング技術を使って、利用可能な薬物、標的、そして数百万の相互作用をカバーする広大な検索スペースを減らしている。 DTI-SNNFRAは、まずSNNを使用し、次に探索空間をサンプリングするために分割クラスタリングを行う。 次に、第1段階で得られた薬物と標的間の全ての可能な相互作用対から、負サンプルのアンダーサンプリングに対するファジィロー近似の程度と適切な次数閾値選択を計算する。 最後に、正および選択された負のサンプルを用いて分類を行う。 AUC (Area under ROC Curve), Geometric Mean, F1 Scoreを用いてDTI-SNNFRAの有効性を検討した。 ROC-AUCの予測スコアは0.95と非常に良好である。 予測された薬物標的相互作用は、既存の薬物標的データベース(コネクティビティマップ(cmap))を介して検証される。

In-silico prediction of repurposable drugs is an effective drug discovery strategy that supplements de-nevo drug discovery from scratch. Reduced development time, less cost and absence of severe side effects are significant advantages of using drug repositioning. Most recent and most advanced artificial intelligence (AI) approaches have boosted drug repurposing in terms of throughput and accuracy enormously. However, with the growing number of drugs, targets and their massive interactions produce imbalanced data which may not be suitable as input to the classification model directly. Here, we have proposed DTI-SNNFRA, a framework for predicting drug-target interaction (DTI), based on shared nearest neighbour (SNN) and fuzzy-rough approximation (FRA). It uses sampling techniques to collectively reduce the vast search space covering the available drugs, targets and millions of interactions between them. DTI-SNNFRA operates in two stages: first, it uses SNN followed by a partitioning clustering for sampling the search space. Next, it computes the degree of fuzzy-rough approximations and proper degree threshold selection for the negative samples' undersampling from all possible interaction pairs between drugs and targets obtained in the first stage. Finally, classification is performed using the positive and selected negative samples. We have evaluated the efficacy of DTI-SNNFRA using AUC (Area under ROC Curve), Geometric Mean, and F1 Score. The model performs exceptionally well with a high prediction score of 0.95 for ROC-AUC. The predicted drug-target interactions are validated through an existing drug-target database (Connectivity Map (Cmap)).
翻訳日:2022-10-15 23:29:27 公開日:2021-02-20
# 大規模非線形モデルの線型性について : 接核が定数である時期と理由

On the linearity of large non-linear models: when and why the tangent kernel is constant ( http://arxiv.org/abs/2010.01092v3 )

ライセンス: Link先を確認
Chaoyue Liu, Libin Zhu, Mikhail Belkin(参考訳) この研究の目的は、幅が無限に近づくにつれて、あるニューラルネットワークの線形性への遷移という驚くべき現象に光を当てることである。 ネットワーク幅の関数としてのネットワークのヘッセン行列のノルムのスケーリング特性から,モデルの線形性,および(神経)接接核(ntk)の定数への遷移が導かれることを示した。 本稿では,ニューラルネットワークの標準クラスに適用可能なヘッセンスケーリングを通じて,タンジェントカーネルの一貫性を理解するための一般的なフレームワークを提案する。 我々の分析は、広く受け入れられている「怠慢な訓練」とは異なる、一定の接するカーネルの現象に関する新しい視点を提供する。 さらに、線形性への遷移は広範ニューラルネットワークの一般的な性質ではなく、ネットワークの最後の層が非線形である場合に保たないことを示す。 勾配降下による最適化を成功させる必要もない。

The goal of this work is to shed light on the remarkable phenomenon of transition to linearity of certain neural networks as their width approaches infinity. We show that the transition to linearity of the model and, equivalently, constancy of the (neural) tangent kernel (NTK) result from the scaling properties of the norm of the Hessian matrix of the network as a function of the network width. We present a general framework for understanding the constancy of the tangent kernel via Hessian scaling applicable to the standard classes of neural networks. Our analysis provides a new perspective on the phenomenon of constant tangent kernel, which is different from the widely accepted "lazy training". Furthermore, we show that the transition to linearity is not a general property of wide neural networks and does not hold when the last layer of the network is non-linear. It is also not necessary for successful optimization by gradient descent.
翻訳日:2022-10-12 00:49:10 公開日:2021-02-20
# Turbo Transformers: トランスフォーマーモデルのための効率的なGPUサービングシステム

TurboTransformers: An Efficient GPU Serving System For Transformer Models ( http://arxiv.org/abs/2010.05680v4 )

ライセンス: Link先を確認
Jiarui Fang, Yang Yu, Chengduo Zhao, Jie Zhou(参考訳) この変換器は近年のNature Language Processing(NLP)分野における最も重要なアルゴリズム革新である。 リカレントニューラルネットワーク(recurrent neural network, rnn)モデルとは異なり、トランスフォーマーはシーケンス長の次元を並列に処理できるため、長いシーケンスでの精度が向上する。 しかし、GPUを備えたデータセンターにおけるオンラインサービスのための効率的なデプロイは容易ではない。 まず、トランス構造によって導入されたより多くの計算により、サービスのレイテンシとスループットの制約を満たすことがより困難になる。 第二に、NLPタスクは可変長の文を取る。 入力次元のばらつきは、効率的なメモリ管理と最適化に深刻な問題をもたらす。 本稿では,TurboTransformersと呼ばれるトランスフォーマーサービスシステムを設計し,上記の課題を解決するためのコンピューティングランタイムとサービスフレームワークで構成される。 3つの革新的な特徴は、他の類似作品と際立っている。 BLASルーチン以外の主要なホットスポットであるSoftmaxやLayerNormといったGPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムが提案されている。 メモリフットプリントとアロケーション/フリー効率のバランスを良くするメモリ割り当てアルゴリズムは、可変長入力状況のために設計されている。 動的プログラミングを用いた新しいバッチスケジューラを備えたサービングフレームワークは、可変長要求の最適なスループットを達成する。 このシステムは、GPUプラットフォームのパフォーマンスを提供する最先端のトランスフォーマーモデルを実現し、数行のコードでPyTorchコードにシームレスに統合することができる。

The transformer is the most critical algorithm innovation of the Nature Language Processing (NLP) field in recent years. Unlike the Recurrent Neural Network (RNN) models, Transformers can process on dimensions of sequence lengths in parallel, therefore leading to better accuracy on long sequences. However, efficient deployments of them for online services in data centers equipped with GPUs are not easy. First, more computation introduced by transformer structures makes it more challenging to meet the latency and throughput constraints of serving. Second, NLP tasks take in sentences of variable length. The variability of input dimensions brings a severe problem to efficient memory management and serving optimization. This paper designed a transformer serving system called TurboTransformers, which consists of a computing runtime and a serving framework to solve the above challenges. Three innovative features make it stand out from other similar works. An efficient parallel algorithm is proposed for GPU-based batch reduction operations, like Softmax and LayerNorm, major hot spots besides BLAS routines. A memory allocation algorithm, which better balances the memory footprint and allocation/free efficiency, is designed for variable-length input situations. A serving framework equipped with a new batch scheduler using dynamic programming achieves the optimal throughput on variable-length requests. The system can achieve the state-of-the-art transformer model serving performance on GPU platforms and can be seamlessly integrated into your PyTorch code with a few lines of code.
翻訳日:2022-10-09 05:06:23 公開日:2021-02-20
# MLコンパイラのための転送可能なグラフ最適化

Transferable Graph Optimizers for ML Compilers ( http://arxiv.org/abs/2010.12438v2 )

ライセンス: Link先を確認
Yanqi Zhou, Sudip Roy, Amirali Abdolrashidi, Daniel Wong, Peter Ma, Qiumin Xu, Hanxiao Liu, Phitchaya Mangpo Phothilimthana, Shen Wang, Anna Goldie, Azalia Mirhoseini, and James Laudon(参考訳) 機械学習(ML)フレームワーク用のほとんどのコンパイラは、効率的なマシンコードを生成するために多くの相関最適化問題を解く必要がある。 現在のMLコンパイラは、これらの最適化問題を一度に解くためにヒューリスティックスベースのアルゴリズムに依存している。 しかし、このアプローチはメンテナンスが難しいだけでなく、特に新しいモデルアーキテクチャにおいて、サブ最適化ソリューションにつながることが多い。 既存の学習ベースのアプローチはサンプル非効率であり、単一の最適化問題に取り組み、目に見えないグラフに一般化せず、実際にデプロイすることは不可能である。 これらの制約に対処するために,インダクティブグラフニューラルネットワーク上でスケーラブルな逐次注意機構に基づく計算グラフ最適化(go)のためのエンドツーエンドで転送可能な深層強化学習手法を提案する。 goは個々のノードではなく、グラフ全体の決定を自己回帰的に生成し、以前の方法に比べて検索を劇的にスピードアップする。 さらに,依存するグラフ最適化タスクを共同で最適化するリカレントアテンションレイヤを提案し,tensorflowのデフォルト最適化と比較して,3つのグラフ最適化タスクにおける33%~60%の高速化を示す。 inception-v3、transformer-xl、wavenetを含む80,000のノードからなる多様な代表グラフでは、実際のシステムで評価されたデバイス配置タスクにおいて、人間のエキスパートよりも平均21%改善され、以前の状態よりも18%改善されている。

Most compilers for machine learning (ML) frameworks need to solve many correlated optimization problems to generate efficient machine code. Current ML compilers rely on heuristics based algorithms to solve these optimization problems one at a time. However, this approach is not only hard to maintain but often leads to sub-optimal solutions especially for newer model architectures. Existing learning based approaches in the literature are sample inefficient, tackle a single optimization problem, and do not generalize to unseen graphs making them infeasible to be deployed in practice. To address these limitations, we propose an end-to-end, transferable deep reinforcement learning method for computational graph optimization (GO), based on a scalable sequential attention mechanism over an inductive graph neural network. GO generates decisions on the entire graph rather than on each individual node autoregressively, drastically speeding up the search compared to prior methods. Moreover, we propose recurrent attention layers to jointly optimize dependent graph optimization tasks and demonstrate 33%-60% speedup on three graph optimization tasks compared to TensorFlow default optimization. On a diverse set of representative graphs consisting of up to 80,000 nodes, including Inception-v3, Transformer-XL, and WaveNet, GO achieves on average 21% improvement over human experts and 18% improvement over the prior state of the art with 15x faster convergence, on a device placement task evaluated in real systems.
翻訳日:2022-10-05 01:03:02 公開日:2021-02-20
# エンドツーエンド音声攻撃に対する集団防衛GAN

Class-Conditional Defense GAN Against End-to-End Speech Attacks ( http://arxiv.org/abs/2010.11352v2 )

ライセンス: Link先を確認
Mohammad Esmaeilpour, Patrick Cardinal, Alessandro Lameiras Koerich(参考訳) 本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵攻撃に対する新たな防御手法を提案する。 従来の防衛手法とは異なり、提案手法は、潜在的な逆摂動を取り除くことを目的とした入力信号の自動符号化のような低レベル変換を直接採用しない。 その代わり、与えられたテスト入力とジェネレータネットワーク間の相対和音距離調整を最小化することにより、クラス条件付き生成逆ネットワークに対する最適な入力ベクトルを求める。 そして、合成した分光図から1D信号を再構成し、与えられた入力信号から得られた原相情報を再構成する。 したがって、この再構成は信号に余分なノイズを与えず、実験結果によれば、単語誤り率と文レベルの認識精度の両方において、従来の防御アルゴリズムを大きく上回っている。

In this paper we propose a novel defense approach against end-to-end adversarial attacks developed to fool advanced speech-to-text systems such as DeepSpeech and Lingvo. Unlike conventional defense approaches, the proposed approach does not directly employ low-level transformations such as autoencoding a given input signal aiming at removing potential adversarial perturbation. Instead of that, we find an optimal input vector for a class conditional generative adversarial network through minimizing the relative chordal distance adjustment between a given test input and the generator network. Then, we reconstruct the 1D signal from the synthesized spectrogram and the original phase information derived from the given input signal. Hence, this reconstruction does not add any extra noise to the signal and according to our experimental results, our defense-GAN considerably outperforms conventional defense algorithms both in terms of word error rate and sentence level recognition accuracy.
翻訳日:2022-10-04 06:22:38 公開日:2021-02-20
# 3DおよびALSルーフクラウドの形状分類と検索のための点変換器

Point Transformer for Shape Classification and Retrieval of 3D and ALS Roof PointClouds ( http://arxiv.org/abs/2011.03921v2 )

ライセンス: Link先を確認
Dimple A Shajahan, Mukund Varma T and Ramanathan Muthuganapathy(参考訳) ディープラーニング手法の成功は、リモートセンシングのアプリケーションによる3Dポイントクラウド処理タスクに大きなブレークスルーをもたらした。 既存の方法は、一様入力分布を仮定して長距離依存を学習できないため、いくつかの制限のある畳み込みを利用する。 近年の研究では,これらの手法と併用することで性能が向上している。 注意層が畳み込みを完全に置き換えられるか? 本稿では,リッチ・ポイント・クラウド表現を導出するための完全注意モデル - {\displaystyle {\em Point Transformer} を提案する。 モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。 モデルのロバスト性をテストするために、大規模な実験を行い、実際のデータセット上での有効性を分析する。 提案手法は, ルーフ3dデータセットにおける他の最先端モデルよりも優れており, モデルnet40ベンチマークにおいて, 高いロバスト性を示す。 さらに、他の手法と比較して、モデルは非常にメモリと空間効率が高い。

The success of deep learning methods led to significant breakthroughs in 3-D point cloud processing tasks with applications in remote sensing. Existing methods utilize convolutions that have some limitations, as they assume a uniform input distribution and cannot learn long-range dependencies. Recent works have shown that adding attention in conjunction with these methods improves performance. This raises a question: can attention layers completely replace convolutions? This paper proposes a fully attentional model - {\em Point Transformer}, for deriving a rich point cloud representation. The model's shape classification and retrieval performance are evaluated on a large-scale urban dataset - RoofN3D and a standard benchmark dataset ModelNet40. Extensive experiments are conducted to test the model's robustness to unseen point corruptions for analyzing its effectiveness on real datasets. The proposed method outperforms other state-of-the-art models in the RoofN3D dataset, gives competitive results in the ModelNet40 benchmark, and showcases high robustness to various unseen point corruptions. Furthermore, the model is highly memory and space efficient when compared to other methods.
翻訳日:2022-09-28 08:38:58 公開日:2021-02-20
# ラベル・ノイズ表現学習の過去・現在・未来

A Survey of Label-noise Representation Learning: Past, Present and Future ( http://arxiv.org/abs/2011.04406v2 )

ライセンス: Link先を確認
Bo Han, Quanming Yao, Tongliang Liu, Gang Niu, Ivor W. Tsang, James T. Kwok and Masashi Sugiyama(参考訳) 古典的な機械学習は、トレーニングデータのラベルがクリーンな分布からサンプリングされていることを暗黙的に仮定する。 しかし、統計的学習に基づく手法では、これらのノイズラベルでディープラーニングモデルを堅牢に訓練することはできない。 そのため,雑音ラベル付き深層モデルのロバストトレーニングのためのラベルノイズ表現学習(lnrl)手法の設計が急務である。 lnrlを十分に理解するために,調査研究を行う。 まず,機械学習の観点からLNRLの形式的定義を明らかにする。 そして,学習理論と経験的研究のレンズを通して,ノイズラベルが深層モデルの性能に与える影響を明らかにする。 理論的ガイダンスに基づいて,異なるLNRL法を3つの方向に分類する。 この統一分類法の下では、異なるカテゴリーの長所と短所について徹底的に議論する。 より重要なことは、新しい方向を引き起こすロバストなlnrlの本質的なコンポーネントをまとめることです。 最後に、新しいデータセット、インスタンス依存型LNRL、敵型LNRLなど、LNRL内での可能な研究方向を提案する。 また, 特徴音, 選好音, ドメイン音, 類似音, グラフ音, デモンストレーション音など, lnrl 以外の潜在的方向も想定する。

Classical machine learning implicitly assumes that labels of the training data are sampled from a clean distribution, which can be too restrictive for real-world scenarios. However, statistical-learning-based methods may not train deep learning models robustly with these noisy labels. Therefore, it is urgent to design Label-Noise Representation Learning (LNRL) methods for robustly training deep models with noisy labels. To fully understand LNRL, we conduct a survey study. We first clarify a formal definition for LNRL from the perspective of machine learning. Then, via the lens of learning theory and empirical study, we figure out why noisy labels affect deep models' performance. Based on the theoretical guidance, we categorize different LNRL methods into three directions. Under this unified taxonomy, we provide a thorough discussion of the pros and cons of different categories. More importantly, we summarize the essential components of robust LNRL, which can spark new directions. Lastly, we propose possible research directions within LNRL, such as new datasets, instance-dependent LNRL, and adversarial LNRL. We also envision potential directions beyond LNRL, such as learning with feature-noise, preference-noise, domain-noise, similarity-noise, graph-noise and demonstration-noise.
翻訳日:2022-09-28 01:44:33 公開日:2021-02-20
# 深層強化学習エージェントにおける問合せ型行動空間対応策

Query-based Targeted Action-Space Adversarial Policies on Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2011.07114v2 )

ライセンス: Link先を確認
Xian Yeow Lee, Yasaman Esfandiari, Kai Liang Tan, Soumik Sarkar(参考訳) コンピュータ資源の進歩はサイバー物理システム(CPS)の複雑さを増す結果となった。 CPSの複雑さが発展するにつれて、従来の制御方法から、これらのシステムの制御のための深層強化学習法(DRL)へと焦点が移った。 これは、従来の制御のために複雑なCPSの正確なモデルを得るのが難しいためである。 しかし、DRLを安全に運用するには、あらゆる角度からの悪意ある攻撃に対するDRLベースのコントローラ(政治)の弱点を調べることが不可欠である。 本研究では,制御器の出力を乱す,動作空間領域の標的攻撃(CPS文学におけるアクティベーション攻撃)について検討する。 敵目標に対して最適な摂動を生成するクエリベースのブラックボックス攻撃モデルが,強化学習問題として定式化できることを示す。 したがって、従来のDRL法を用いて、このような逆ポリシーを訓練することができる。 実験の結果,名目政策のアウトプットを観察する敵政策は,名目政策のインプットとアウトプットを観察する敵政策よりも強い攻撃を発生させることがわかった。 さらなる分析により、アクション空間の境界で頻繁に出力される名目ポリシーは、adversarial policyに対して自然により強固であることが明らかになった。 最後に,移動学習を用いた対人訓練を用いて,名目政策に頑健な動作を誘導し,標的攻撃の成功率を50%減少させる手法を提案する。

Advances in computing resources have resulted in the increasing complexity of cyber-physical systems (CPS). As the complexity of CPS evolved, the focus has shifted from traditional control methods to deep reinforcement learning-based (DRL) methods for control of these systems. This is due to the difficulty of obtaining accurate models of complex CPS for traditional control. However, to securely deploy DRL in production, it is essential to examine the weaknesses of DRL-based controllers (policies) towards malicious attacks from all angles. In this work, we investigate targeted attacks in the action-space domain, also commonly known as actuation attacks in CPS literature, which perturbs the outputs of a controller. We show that a query-based black-box attack model that generates optimal perturbations with respect to an adversarial goal can be formulated as another reinforcement learning problem. Thus, such an adversarial policy can be trained using conventional DRL methods. Experimental results showed that adversarial policies that only observe the nominal policy's output generate stronger attacks than adversarial policies that observe the nominal policy's input and output. Further analysis reveals that nominal policies whose outputs are frequently at the boundaries of the action space are naturally more robust towards adversarial policies. Lastly, we propose the use of adversarial training with transfer learning to induce robust behaviors into the nominal policy, which decreases the rate of successful targeted attacks by 50%.
翻訳日:2022-09-26 00:45:50 公開日:2021-02-20
# FoolHD:高知覚障害による話者識別

FoolHD: Fooling speaker identification by Highly imperceptible adversarial Disturbances ( http://arxiv.org/abs/2011.08483v2 )

ライセンス: Link先を確認
Ali Shahin Shamsabadi, Francisco Sep\'ulveda Teixeira, Alberto Abad, Bhiksha Raj, Andrea Cavallaro, Isabel Trancoso(参考訳) 話者識別モデルは、誤分類を引き起こす入力信号の敵対的摂動に対して慎重に設計されている。 本研究では,話者識別モデルに対する知覚不能な摂動を生成する,ホワイトボックス・ステガノグラフィにインスパイアされた敵対的攻撃を提案する。 我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、元のオーディオファイル内の対向的摂動を発生・隠蔽するために、多目的損失関数を用いて訓練されている。 話者識別性能の阻害に加え、この多目的損失は、元の音声ファイルから抽出したMFCC特徴ベクトルと逆音声ファイルとのフレームワイドな類似性を通して、人間の知覚に寄与する。 本稿では,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いたFoolHDの有効性を,精度,成功率,非受容性の観点から検証した。 以上の結果から,FoolHDは,話者識別モデルとターゲット設定の誤認において,それぞれ99.6%,99.2%の成功率を達成し,認識不能な音声ファイル(平均PSSQは4.30以上)を生成することがわかった。

Speaker identification models are vulnerable to carefully designed adversarial perturbations of their input signals that induce misclassification. In this work, we propose a white-box steganography-inspired adversarial attack that generates imperceptible adversarial perturbations against a speaker identification model. Our approach, FoolHD, uses a Gated Convolutional Autoencoder that operates in the DCT domain and is trained with a multi-objective loss function, in order to generate and conceal the adversarial perturbation within the original audio files. In addition to hindering speaker identification performance, this multi-objective loss accounts for human perception through a frame-wise cosine similarity between MFCC feature vectors extracted from the original and adversarial audio files. We validate the effectiveness of FoolHD with a 250-speaker identification x-vector network, trained using VoxCeleb, in terms of accuracy, success rate, and imperceptibility. Our results show that FoolHD generates highly imperceptible adversarial audio files (average PESQ scores above 4.30), while achieving a success rate of 99.6% and 99.2% in misleading the speaker identification model, for untargeted and targeted settings, respectively.
翻訳日:2022-09-24 17:57:58 公開日:2021-02-20
# 深層学習とグローバルワークスペース理論

Deep Learning and the Global Workspace Theory ( http://arxiv.org/abs/2012.10390v2 )

ライセンス: Link先を確認
Rufin VanRullen and Ryota Kanai(参考訳) 近年のディープラーニングの進歩により、人工知能(AI)は多くの感覚、知覚、言語、認知のタスクにおいて、人間レベルのパフォーマンスに近いものになった。 しかし、新しい脳にインスパイアされた認知アーキテクチャの必要性は高まっている。 グローバルワークスペース理論(global workspace theory)は、特殊モジュールのネットワーク間で情報を統合・配布し、より高レベルの認知と認識を作り出す大規模システムを指す。 深層学習技術を用いて,この理論の明示的な実装を考えるのは時期尚早である。 本稿では,複数の潜在空間(異なるタスク,異なる感覚入力および/またはモダリティを訓練したニューラルネットワーク)間の教師なしのニューラル翻訳に基づいて,ユニークなグローバル潜在空間(glw)を作成するロードマップを提案する。 glwの機能的利点と神経科学的な影響について検討する。

Recent advances in deep learning have allowed Artificial Intelligence (AI) to reach near human-level performance in many sensory, perceptual, linguistic or cognitive tasks. There is a growing need, however, for novel, brain-inspired cognitive architectures. The Global Workspace theory refers to a large-scale system integrating and distributing information among networks of specialized modules to create higher-level forms of cognition and awareness. We argue that the time is ripe to consider explicit implementations of this theory using deep learning techniques. We propose a roadmap based on unsupervised neural translation between multiple latent spaces (neural networks trained for distinct tasks, on distinct sensory inputs and/or modalities) to create a unique, amodal global latent workspace (GLW). Potential functional advantages of GLW are reviewed, along with neuroscientific implications.
翻訳日:2021-05-22 20:35:35 公開日:2021-02-20
# CNNとCPPNを併用した3次元超音波による新生児脳室の自動分離と位置学習

Automatic Segmentation and Location Learning of Neonatal Cerebral Ventricles in 3D Ultrasound Data Combining CNN and CPPN ( http://arxiv.org/abs/2012.03014v2 )

ライセンス: Link先を確認
Matthieu Martin, Bruno Sciolla, Micha\"el Sdika, Philippe Qu\'etin, Philippe Delachartre(参考訳) 早期の新生児は、脳室系(cvs)の拡張である心室大動脈瘤に苦しむ可能性が高い。 この状態は生命を脅かす水頭症に発展し、将来の神経発達障害と相関する。 そのため、医師によって検出・監視されなければならない。 臨床ルーティングでは, 2次元超音波(us)画像を用いて手作業による2次元計測を行い, cvs体積を推定するが, 3次元情報の活用が困難である。 この問題を解決する方法は、3DUSデータのための自動CVSセグメンテーションアルゴリズムを開発することである。 本稿では,2次元および3次元畳み込みニューラルネットワーク(cnn)の可能性を調査し,この複雑な課題を解決し,合成パターン生成ネットワーク(cppn)を用いてcnnがcvs位置を学習できるようにする。 我々のデータベースは、妊娠数週間で35.8 pm 1.6$で21の事前のネノネートで収集された25の3DUS巻で構成されていた。 CPPNはCVS位置を符号化することができ、レイヤーが少ない場合にCNNの精度を高めることができる。 Diceが0.893 \pm 0.008$、$0.886 \pm 0.004$がそれぞれ(IOV = $0.898 \pm 0.008$)、ボリュームエラーが0.45 \pm 0.42$ cm$^3$と$0.36 \pm 0.24$ cm$^3$である(IOV = $0.41 \pm 0.05$ cm^3$)。 Diceが0.797 \pm 0.041$対0.776 \pm 0.038$(IOV = $0.816 \pm 0.009$)、ボリュームエラーが0.35 \pm 0.29$ cm^3$対$0.35 \pm 0.24$ cm^3$(IOV = $0.2 \pm 0.11$ cm^3$)である。 サイズ320 \times 320 \times 320$の最良のセグメンテーションタイムは、2D CNNが3.5 \pm 0.2$ sで取得した。

Preterm neonates are highly likely to suffer from ventriculomegaly, a dilation of the Cerebral Ventricular System (CVS). This condition can develop into life-threatening hydrocephalus and is correlated with future neuro-developmental impairments. Consequently, it must be detected and monitored by physicians. In clinical routing, manual 2D measurements are performed on 2D ultrasound (US) images to estimate the CVS volume but this practice is imprecise due to the unavailability of 3D information. A way to tackle this problem would be to develop automatic CVS segmentation algorithms for 3D US data. In this paper, we investigate the potential of 2D and 3D Convolutional Neural Networks (CNN) to solve this complex task and propose to use Compositional Pattern Producing Network (CPPN) to enable the CNNs to learn CVS location. Our database was composed of 25 3D US volumes collected on 21 preterm nenonates at the age of $35.8 \pm 1.6$ gestational weeks. We found that the CPPN enables to encode CVS location, which increases the accuracy of the CNNs when they have few layers. Accuracy of the 2D and 3D CNNs reached intraobserver variability (IOV) in the case of dilated ventricles with Dice of $0.893 \pm 0.008$ and $0.886 \pm 0.004$ respectively (IOV = $0.898 \pm 0.008$) and with volume errors of $0.45 \pm 0.42$ cm$^3$ and $0.36 \pm 0.24$ cm$^3$ respectively (IOV = $0.41 \pm 0.05$ cm$^3$). 3D CNNs were more accurate than 2D CNNs in the case of normal ventricles with Dice of $0.797 \pm 0.041$ against $0.776 \pm 0.038$ (IOV = $0.816 \pm 0.009$) and volume errors of $0.35 \pm 0.29$ cm$^3$ against $0.35 \pm 0.24$ cm$^3$ (IOV = $0.2 \pm 0.11$ cm$^3$). The best segmentation time of volumes of size $320 \times 320 \times 320$ was obtained by a 2D CNN in $3.5 \pm 0.2$ s.
翻訳日:2021-05-22 12:01:43 公開日:2021-02-20
# TEM ImageNetトレーニングライブラリとAtomSegNetによる原子分割・局所化・分解・超解像処理のための深層学習モデル

TEMImageNet Training Library and AtomSegNet Deep-Learning Models for High-Precision Atom Segmentation, Localization, Denoising, and Super-Resolution Processing of Atomic-Resolution Images ( http://arxiv.org/abs/2012.09093v2 )

ライセンス: Link先を確認
Ruoqian Lin, Rui Zhang, Chunyang Wang, Xiao-Qing Yang, Huolin L. Xin(参考訳) 原子分割, 局所化, ノイズ低減, STEM(Atom- resolution scan transmission electron microscopy)画像の高精度, 堅牢性は難しい課題である。 しきい値検出、エッジ検出、クラスタリングなどのいくつかの従来のアルゴリズムは、予め定義されたシーンで適切な性能を達成することができるが、背景からの干渉が強く予測不可能な場合には失敗する傾向がある。 特に、原子分解能stem画像では、記録された画像の厚さのばらつきが大きい場合、すべての原子列を分割または検出できるほど頑健なアルゴリズムは存在しない。 本稿では,実験画像のロバストかつ高精度なアトムセグメンテーション,局所化,雑音除去,超解像処理を行うための学習ライブラリと深層学習手法の開発について報告する。 シミュレーション画像をトレーニングデータセットとして用いながら、ディープラーニングモデルは実験的なSTEM画像に適応し、挑戦的なコントラスト条件における原子検出と局所化の優れた性能を示し、精度は最先端の2次元ガウス適合法より一貫して優れている。 さらに一歩進めて、私たちはディープラーニングモデルをグラフィカルユーザインターフェースを備えたデスクトップアプリにデプロイし、アプリは無償でオープンソースです。 また、トレーニングデータの閲覧とダウンロードを容易にするTEM ImageNetプロジェクトウェブサイトも構築しました。

Atom segmentation and localization, noise reduction and deblurring of atomic-resolution scanning transmission electron microscopy (STEM) images with high precision and robustness is a challenging task. Although several conventional algorithms, such has thresholding, edge detection and clustering, can achieve reasonable performance in some predefined sceneries, they tend to fail when interferences from the background are strong and unpredictable. Particularly, for atomic-resolution STEM images, so far there is no well-established algorithm that is robust enough to segment or detect all atomic columns when there is large thickness variation in a recorded image. Herein, we report the development of a training library and a deep learning method that can perform robust and precise atom segmentation, localization, denoising, and super-resolution processing of experimental images. Despite using simulated images as training datasets, the deep-learning model can self-adapt to experimental STEM images and shows outstanding performance in atom detection and localization in challenging contrast conditions and the precision consistently outperforms the state-of-the-art two-dimensional Gaussian fit method. Taking a step further, we have deployed our deep-learning models to a desktop app with a graphical user interface and the app is free and open-source. We have also built a TEM ImageNet project website for easy browsing and downloading of the training data.
翻訳日:2021-05-03 03:07:02 公開日:2021-02-20
# (参考訳) 最適深層アクティブ学習アルゴリズムの挙動理解に向けて

Towards Understanding the Behaviors of Optimal Deep Active Learning Algorithms ( http://arxiv.org/abs/2101.00977v2 )

ライセンス: CC BY 4.0
Yilun Zhou, Adithya Renduchintala, Xian Li, Sida Wang, Yashar Mehdad, Asish Ghoshal(参考訳) アクティブラーニング(AL)アルゴリズムは、データ選択プロセスを導くため、少ないデータでより良いパフォーマンスを達成することができる。 多くのアルゴリズムが提案されているが、最適なALアルゴリズムがどのようなものかはほとんど研究されていない。 本稿では,この最適オラクルを探索し,複数のタスクに対して解析するシミュレーションアニールアルゴリズムを提案する。 我々は、この神託の行動に関する質的で定量的な洞察を示し、それらを様々なヒューリスティクスの行動と比較し、対比する。 さらに、私たちは特定の洞察を使って、一貫してヒューリスティックスを改善することができます。 今後のアクティブラーニング研究によりよい情報を提供できることを願っています。 コードはhttps://github.com/yilunzhou/optimal-active-learningで入手できる。

Active learning (AL) algorithms may achieve better performance with fewer data because the model guides the data selection process. While many algorithms have been proposed, there is little study on what the optimal AL algorithm looks like, which would help researchers understand where their models fall short and iterate on the design. In this paper, we present a simulated annealing algorithm to search for this optimal oracle and analyze it for several tasks. We present qualitative and quantitative insights into the behaviors of this oracle, comparing and contrasting them with those of various heuristics. Moreover, we are able to consistently improve the heuristics using one particular insight. We hope that our findings can better inform future active learning research. The code is available at https://github.com/YilunZhou/optimal-active-learning.
翻訳日:2021-04-18 21:41:19 公開日:2021-02-20
# (参考訳) 条件付きGANによる高次元非線形最適化

Augmenting High-dimensional Nonlinear Optimization with Conditional GANs ( http://arxiv.org/abs/2103.04748v1 )

ライセンス: CC BY 4.0
Pouya Rezazadeh Kalehbasti and Michael D. Lepech(参考訳) 多くの数理最適化アルゴリズムは、次元の呪いによる高次元非線形最適化問題の解空間を十分に探すことができない。 本稿では,高次元問題における性能向上のための最適化アルゴリズムを補完する生成モデルを提案する。 この方法を示すために、遺伝的アルゴリズム(ga)が生成する311次元非凸多目的混合整数非線形最適化の解を補うために条件付き生成逆逆ネットワーク(c-gan)が用いられる。 C-GANは、完全に連結された3つの層を持つ2つのネットワークから構成され、GAによって生成される解に基づいて訓練され、その後、所望のラベルのセット(すなわち、目的関数値)が与えられる。 提案手法の有効性を評価するために6つの実験を行った。 生成された相補解は、最適性と多様性の観点から元の解と比較される。 生成モデルは、目的関数が最大100%、超体積が元の解よりも最大100%高い解を生成する。 これらの結果から,C-GANは単純なトレーニングアプローチと単純なアーキテクチャさえあれば,高次元非線形最適化問題に対する最適化アルゴリズムによる解の多様性と最適性を向上させることができることがわかった。

Many mathematical optimization algorithms fail to sufficiently explore the solution space of high-dimensional nonlinear optimization problems due to the curse of dimensionality. This paper proposes generative models as a complement to optimization algorithms to improve performance in problems with high dimensionality. To demonstrate this method, a conditional generative adversarial network (C-GAN) is used to augment the solutions produced by a genetic algorithm (GA) for a 311-dimensional nonconvex multi-objective mixed-integer nonlinear optimization. The C-GAN, composed of two networks with three fully connected hidden layers, is trained on solutions generated by the GA, and then given sets of desired labels (i.e., objective function values), generates complementary solutions corresponding to those labels. Six experiments are conducted to evaluate the capabilities of the proposed method. The generated complementary solutions are compared to the original solutions in terms of optimality and diversity. The generative model generates solutions with objective functions up to 100% better, and with hypervolumes up to 100% higher, than the original solutions. These findings show that a C-GAN with even a simple training approach and simple architecture can highly improve the diversity and optimality of solutions found by an optimization algorithm for a high-dimensional nonlinear optimization problem.
翻訳日:2021-04-05 10:26:34 公開日:2021-02-20
# (参考訳) バイオメディカルドメインのための知識ベース強化単語埋め込み

Knowledge-Base Enriched Word Embeddings for Biomedical Domain ( http://arxiv.org/abs/2103.00479v1 )

ライセンス: CC BY 4.0
Kishlay Jha(参考訳) 単語の埋め込みは、自然言語テキストの意味的および構文的規則性を捉えるのに適しており、その結果、これらの表現は様々な下流コンテンツ分析タスクにおいて有用であることがわかった。 一般に、これらの単語埋め込み技術は、局所的な文脈情報に基づく単語の分散表現を導出する。 しかし、そのようなアプローチは知識ベースに存在する大量の明示的な情報を無視している。 これは問題であり、ドメイン特化語のような局所的な文脈が不十分な単語の表現不足につながる可能性がある。 さらに、これらのドメイン固有の単語の存在が比較的高いバイオメディシンのようなドメインでは、この問題が顕著になる。 この目的に向けて,本研究では,利用可能なコーパスとドメイン知識の情報を共同で活用し,知識ベースの組込みを生成するバイオメディカルドメインのための新たな単語組込みモデルを提案する。 既存のアプローチとは異なり、提案手法は単純だが、ドメインリソースで利用可能な正確な知識を正しく捉えることに長けている。 生体医学的概念の類似性と関連性タスクの実験結果は,提案手法の有効性を検証する。

Word embeddings have been shown adept at capturing the semantic and syntactic regularities of the natural language text, as a result of which these representations have found their utility in a wide variety of downstream content analysis tasks. Commonly, these word embedding techniques derive the distributed representation of words based on the local context information. However, such approaches ignore the rich amount of explicit information present in knowledge-bases. This is problematic, as it might lead to poor representation for words with insufficient local context such as domain specific words. Furthermore, the problem becomes pronounced in domain such as bio-medicine where the presence of these domain specific words are relatively high. Towards this end, in this project, we propose a new word embedding based model for biomedical domain that jointly leverages the information from available corpora and domain knowledge in order to generate knowledge-base powered embeddings. Unlike existing approaches, the proposed methodology is simple but adept at capturing the precise knowledge available in domain resources in an accurate way. Experimental results on biomedical concept similarity and relatedness task validates the effectiveness of the proposed approach.
翻訳日:2021-04-05 10:15:25 公開日:2021-02-20
# (参考訳) PySensors: スパースセンサー配置のためのPythonパッケージ

PySensors: A Python Package for Sparse Sensor Placement ( http://arxiv.org/abs/2102.13476v1 )

ライセンス: CC BY 4.0
Brian M. de Silva, Krithika Manohar, Emily Clark, Bingni W. Brunton, Steven L. Brunton, J. Nathan Kutz(参考訳) PySensorsは、分類および再構築タスクのためのスパースなセンサーセットを選択および配置するためのPythonパッケージである。 具体的には、pysensorsはデータ駆動スパースセンサ配置最適化(sspor)とスパースセンサ配置最適化(sspoc)のためのアルゴリズムを実装している。 本研究では,スパースセンサ最適化のための数学的アルゴリズムと理論の簡単な記述と,PySensorsで実装された機能の概要とデモ(コード例を含む)について述べる。 また、ユーザへの実用的なアドバイスや、PySensorsの潜在的な拡張のリストも含んでいます。 ソフトウェアはhttps://github.com/dynamicslab/pysensorsで入手できる。

PySensors is a Python package for selecting and placing a sparse set of sensors for classification and reconstruction tasks. Specifically, PySensors implements algorithms for data-driven sparse sensor placement optimization for reconstruction (SSPOR) and sparse sensor placement optimization for classification (SSPOC). In this work we provide a brief description of the mathematical algorithms and theory for sparse sensor optimization, along with an overview and demonstration of the features implemented in PySensors (with code examples). We also include practical advice for user and a list of potential extensions to PySensors. Software is available at https://github.com/dynamicslab/pysensors.
翻訳日:2021-04-05 10:08:58 公開日:2021-02-20
# (参考訳) エネルギー分散のためのnilmアルゴリズムの包括的考察

A Comprehensive Review on the NILM Algorithms for Energy Disaggregation ( http://arxiv.org/abs/2102.12578v1 )

ライセンス: CC BY 4.0
Akriti Verma, Adnan Anwar(参考訳) 都市化に伴う住宅構造の変化と、世界中の高層建築物の建設による成長により、エンドユース家電の省エネと管理がリアルタイムに求められるようになった。 このシフトは、建物の総消費電力から家電固有の消費電力を推定できるスマートメーターと共に行われた。 非侵入負荷モニタリング(NILM)またはエネルギー分散は、集合レベルで測定された家庭用エネルギーを構成機器に分離することを目的としている。 長年にわたり、信号処理と機械学習アルゴリズムが組み合わさってこれを実現してきた。 エネルギーの分散、非侵入的な負荷モニタリング、家庭用エネルギー管理、家電の分類に関する驚くべき研究と出版が行われてきた。 再現可能なベンチマークアルゴリズムであるNILMTKというAPIが存在する。 ディープニューラルネットワークアーキテクチャや家庭用エネルギー分散のためのビッグデータアプローチなど、エネルギー分散を行う他の多くのアプローチが適応されている。 本稿では,効果的なnilmシステムフレームワークに関する調査を行い,ベンチマークアルゴリズムの性能を包括的に評価する。 本稿では,3つの公開データセットに対する適用範囲とアルゴリズム性能の有効性についても概説する。

The housing structures have changed with urbanization and the growth due to the construction of high-rise buildings all around the world requires end-use appliance energy conservation and management in real-time. This shift also came along with smart-meters which enabled the estimation of appliance-specific power consumption from the buildings aggregate power consumption reading. Non-intrusive load monitoring (NILM) or energy disaggregation is aimed at separating the household energy measured at the aggregate level into constituent appliances. Over the years, signal processing and machine learning algorithms have been combined to achieve this. Incredible research and publications have been conducted on energy disaggregation, non-intrusive load monitoring, home energy management and appliance classification. There exists an API, NILMTK, a reproducible benchmark algorithm for the same. Many other approaches to perform energy disaggregation has been adapted such as deep neural network architectures and big data approach for household energy disaggregation. This paper provides a survey of the effective NILM system frameworks and reviews the performance of the benchmark algorithms in a comprehensive manner. This paper also summarizes the wide application scope and the effectiveness of the algorithmic performance on three publicly available data sets.
翻訳日:2021-04-05 09:57:06 公開日:2021-02-20
# 余剰畳み込みを伴う注目の進化

Evolving Attention with Residual Convolutions ( http://arxiv.org/abs/2102.12895v1 )

ライセンス: Link先を確認
Yujing Wang, Yaming Yang, Jiangang Bai, Mingliang Zhang, Jing Bai, Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong(参考訳) Transformerは自然言語処理のユビキタスモデルであり、コンピュータビジョンにおいて広く注目を集めている。 入力トークン間の依存関係をエンコードするトランスモデルには,アテンションマップが不可欠である。 しかし、それらは各層で独立して学習され、時には正確なパターンを捉えることができない。 本稿では, 変圧器の性能向上のために, 進化的注意に基づく新しい汎用機構を提案する。 一方、異なる層におけるアテンションマップは共通の知識を共有しており、従って前層のアテンションマップは、残差接続を通じて、後続層のアテンションを指示することができる。 一方、低レベルおよび高レベルの注意は抽象化のレベルによって異なるため、注意マップの進化過程をモデル化するために畳み込み層を採用する。 提案手法は, 画像分類, 自然言語理解, 機械翻訳など, 各種タスクの最先端モデルに対して, 大幅な性能向上を実現する。

Transformer is a ubiquitous model for natural language processing and has attracted wide attentions in computer vision. The attention maps are indispensable for a transformer model to encode the dependencies among input tokens. However, they are learned independently in each layer and sometimes fail to capture precise patterns. In this paper, we propose a novel and generic mechanism based on evolving attention to improve the performance of transformers. On one hand, the attention maps in different layers share common knowledge, thus the ones in preceding layers can instruct the attention in succeeding layers through residual connections. On the other hand, low-level and high-level attentions vary in the level of abstraction, so we adopt convolutional layers to model the evolutionary process of attention maps. The proposed evolving attention mechanism achieves significant performance improvement over various state-of-the-art models for multiple tasks, including image classification, natural language understanding and machine translation.
翻訳日:2021-04-05 00:44:16 公開日:2021-02-20
# BERTを用いた赤信号待ち時間予測

Predicting times of waiting on red signals using BERT ( http://arxiv.org/abs/2102.12896v1 )

ライセンス: Link先を確認
Witold Szejgis, Anna Warno, Pawe{\l} Gora(参考訳) 本稿では,BERTモデルを用いた道路交通シミュレーションの結果の近似手法を提案する。 実験は、Traffic Simulation Frameworkソフトウェアを用いて、現実的な道路ネットワーク上で実行されるデータセット上で実施された。 bertベースのモデルは、他の4種類の機械学習モデル(lightgbm、完全連結ニューラルネットワーク、2種類のグラフニューラルネットワーク)と比較され、考慮されたすべてのメトリクスで最高の結果を得た。

We present a method for approximating outcomes of road traffic simulations using BERT-based models, which may find applications in, e.g., optimizing traffic signal settings, especially with the presence of autonomous and connected vehicles. The experiments were conducted on a dataset generated using the Traffic Simulation Framework software runs on a realistic road network. The BERT-based models were compared with 4 other types of machine learning models (LightGBM, fully connected neural networks and 2 types of graph neural networks) and gave the best results in terms of all the considered metrics.
翻訳日:2021-04-05 00:44:01 公開日:2021-02-20
# 知識工学 混合整数線形プログラミング:制約型

Knowledge engineering mixed-integer linear programming: constraint typology ( http://arxiv.org/abs/2102.12574v1 )

ライセンス: Link先を確認
Vicky Mak-Hau and John Yearwood and William Moran(参考訳) 本稿では,混合整数線形計画milpの制約タイプ論について検討する。 MILPは、現実のスケジューリング、ルーティング、計画、リソース割り当て、タイムタブル最適化問題、製造業、農業、防衛、医療、医療、エネルギー、金融、輸送といった産業分野に最適化されたビジネスソリューションを提供するための一般的な数学的プログラミング手法である。 多くの現実的なコンビニアル最適化の問題が発見され、解決され、まだ発見され、定式化されていないが、MILPの構成要素である制約の種類は比較的小さい。 そこで本研究では,MILPのオントロジーに基づいて構築された最適化モデル木を,組換えビジネス最適化問題に基づいて,エンドユーザーからMILPモデルを引き出すための自動システムのためのガイダンスとして用いることを提案する。

In this paper, we investigate the constraint typology of mixed-integer linear programming MILP formulations. MILP is a commonly used mathematical programming technique for modelling and solving real-life scheduling, routing, planning, resource allocation, timetabling optimization problems, providing optimized business solutions for industry sectors such as: manufacturing, agriculture, defence, healthcare, medicine, energy, finance, and transportation. Despite the numerous real-life Combinatorial Optimization Problems found and solved, and millions yet to be discovered and formulated, the number of types of constraints, the building blocks of a MILP, is relatively much smaller. In the search of a suitable machine readable knowledge representation for MILPs, we propose an optimization modelling tree built based upon an MILP ontology that can be used as a guidance for automated systems to elicit an MILP model from end-users on their combinatorial business optimization problems.
翻訳日:2021-04-05 00:43:44 公開日:2021-02-20
# Info-Evo:進化的プログラム学習のガイドに情報幾何学を使う

Info-Evo: Using Information Geometry to Guide Evolutionary Program Learning ( http://arxiv.org/abs/2103.04747v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 非パラメトリックフィッシャー情報を用いた自然勾配探索を用いて進化学習アルゴリズムへの継続的な指導を行い、進化過程が自然勾配に従って「最短経路」として識別される方向を優先的に移動する新しい最適化戦略であるinfo-evoについて述べる。 MOSESプログラム学習フレームワークにInfo-Evoを統合する戦略など、このアプローチのプログラム自動学習への適用に関するいくつかの具体的な内容がレビューされている。

A novel optimization strategy, Info-Evo, is described, in which natural gradient search using nonparametric Fisher information is used to provide ongoing guidance to an evolutionary learning algorithm, so that the evolutionary process preferentially moves in the directions identified as "shortest paths" according to the natural gradient. Some specifics regarding the application of this approach to automated program learning are reviewed, including a strategy for integrating Info-Evo into the MOSES program learning framework.
翻訳日:2021-04-05 00:43:27 公開日:2021-02-20
# (参考訳) 因果無名歩行による時間ネットワークにおける帰納的表現学習

Inductive Representation Learning in Temporal Networks via Causal Anonymous Walks ( http://arxiv.org/abs/2101.05974v2 )

ライセンス: CC BY 4.0
Yanbang Wang, Yen-Yu Chang, Yunyu Liu, Jure Leskovec, Pan Li(参考訳) テンポラルネットワークは多くの現実世界の動的システムの抽象化として機能する。 これらのネットワークは通常、ソーシャルネットワークにおいて普遍的な三進法のような特定の法則に従って進化する。 時間的ネットワークの帰納的表現学習は、そのような法則を捉えることができ、さらに同じ法則に従うが訓練段階では認識されていないシステムに適用できるべきである。 この領域の以前の作業はネットワークノードのアイデンティティかリッチエッジ属性に依存しており、典型的にはこれらの法則を抽出できない。 本稿では,時間的ネットワークを誘導的に表現するCausal Anonymous Walks (CAWs)を提案する。 CAWは時間的ランダムウォークによって抽出され、時間的選択とそれらのモチーフのカウントを回避しつつ、時間的ネットワークモチーフの自動検索として機能する。 CAWは、ノードのアイデンティティをサンプルウォークのセットに基づいてノードのヒット数に置き換える新しい匿名化戦略を採用し、メソッドを誘導し、同時にモチーフ間の相関を確立する。 さらに、cawsを符号化するニューラルネットワークモデルcaw-nを提案し、オンライントレーニングと推論をサポートするために、一定のメモリと時間コストのcawサンプリング戦略と組み合わせる。 CAW-Nは、6つの実時間ネットワーク上のリンクを予測し、インダクティブ環境で平均15%のAUCゲインで従来のSOTA手法を均一に上回ります。 caw-nは、トランスダクティブ設定の6つのネットワークのうち5つで以前の方法よりも優れている。

Temporal networks serve as abstractions of many real-world dynamic systems. These networks typically evolve according to certain laws, such as the law of triadic closure, which is universal in social networks. Inductive representation learning of temporal networks should be able to capture such laws and further be applied to systems that follow the same laws but have not been unseen during the training stage. Previous works in this area depend on either network node identities or rich edge attributes and typically fail to extract these laws. Here, we propose Causal Anonymous Walks (CAWs) to inductively represent a temporal network. CAWs are extracted by temporal random walks and work as automatic retrieval of temporal network motifs to represent network dynamics while avoiding the time-consuming selection and counting of those motifs. CAWs adopt a novel anonymization strategy that replaces node identities with the hitting counts of the nodes based on a set of sampled walks to keep the method inductive, and simultaneously establish the correlation between motifs. We further propose a neural-network model CAW-N to encode CAWs, and pair it with a CAW sampling strategy with constant memory and time cost to support online training and inference. CAW-N is evaluated to predict links over 6 real temporal networks and uniformly outperforms previous SOTA methods by averaged 15% AUC gain in the inductive setting. CAW-N also outperforms previous methods in 5 out of the 6 networks in the transductive setting.
翻訳日:2021-03-28 21:43:20 公開日:2021-02-20
# 自動変調と無線信号分類のためのマルチタスク学習手法

Multi-task Learning Approach for Automatic Modulation and Wireless Signal Classification ( http://arxiv.org/abs/2101.10254v2 )

ライセンス: Link先を確認
Anu Jagannath, Jithin Jagannath(参考訳) 無線信号認識は、スペクトルモニタリング、スペクトル管理、安全な通信においてますます重要になりつつある。 その結果、新たな第5世代(5G)や、5G通信、モノのインターネットネットワークなど、重要な実現要因となるでしょう。 無線信号認識における最先端の研究は、多くの場合、システムが動作するための不十分な情報である単一のタスクにのみ焦点を合わせています。 本研究では、無線通信分野で初めて、マルチタスク学習(MTL)フレームワークと連動した深層ニューラルネットワークの可能性を利用して、変調と信号分類のタスクを同時に学習する。 提案したMTLアーキテクチャは,2つのタスク間の相互関係から,分類精度の向上と,軽量ニューラルネットワークモデルによる学習効率の向上に有効である。 また、電磁スペクトルにおけるレーダや通信信号等の異種無線信号の問題についても考察する。 そこで,提案したMTLモデルが,より軽量なアーキテクチャを維持しながら,同時に2つの信号特性評価タスクを実行しながら,最先端の単一タスク学習分類器を上回っていることを示す。 最後に、レーダーと複数のラベルとの通信信号で構成される唯一の既知のオープン異種無線信号データセットをリリースします。

Wireless signal recognition is becoming increasingly more significant for spectrum monitoring, spectrum management, and secure communications. Consequently, it will become a key enabler with the emerging fifth-generation (5G) and beyond 5G communications, Internet of Things networks, among others. State-of-the-art studies in wireless signal recognition have only focused on a single task which in many cases is insufficient information for a system to act on. In this work, for the first time in the wireless communication domain, we exploit the potential of deep neural networks in conjunction with multi-task learning (MTL) framework to simultaneously learn modulation and signal classification tasks. The proposed MTL architecture benefits from the mutual relation between the two tasks in improving the classification accuracy as well as the learning efficiency with a lightweight neural network model. Additionally, we consider the problem of heterogeneous wireless signals such as radar and communication signals in the electromagnetic spectrum. Accordingly, we have shown how the proposed MTL model outperforms several state-of-the-art single-task learning classifiers while maintaining a lighter architecture and performing two signal characterization tasks simultaneously. Finally, we also release the only known open heterogeneous wireless signals dataset that comprises of radar and communication signals with multiple labels.
翻訳日:2021-03-14 18:57:29 公開日:2021-02-20
# シーン分類のためのディープラーニング:調査

Deep Learning for Scene Classification: A Survey ( http://arxiv.org/abs/2101.10531v2 )

ライセンス: Link先を確認
Delu Zeng, Minyu Liao, Mohammad Tavakolian, Yulan Guo, Bolei Zhou, Dewen Hu, Matti Pietik\"ainen, Li Liu(参考訳) シーンの分類は、画像全体を解釈することで、事前に定義されたシーンカテゴリの1つに分類することを目的としており、コンピュータビジョンにおける長年の、基本的で挑戦的な問題である。 多様な実世界のシーンの密集サンプリングを構成する大規模データセットの台頭と、大規模生データから直接強力な特徴表現を学習するディープラーニング技術のルネッサンスは、シーン表現と分類の分野において顕著な進歩をもたらしている。 本研究の目的は,深層学習を用いたシーン分類における最近の成果を包括的に調査することである。 この調査には、課題、ベンチマークデータセット、分類学、レビューされた方法の定量的パフォーマンス比較など、シーン分類のさまざまな側面をカバーする200以上の主要な出版物が含まれています。 これまでの成果を振り返って、本論文では有望な研究機会のリストもまとめています。

Scene classification, aiming at classifying a scene image to one of the predefined scene categories by comprehending the entire image, is a longstanding, fundamental and challenging problem in computer vision. The rise of large-scale datasets, which constitute the corresponding dense sampling of diverse real-world scenes, and the renaissance of deep learning techniques, which learn powerful feature representations directly from big raw data, have been bringing remarkable progress in the field of scene representation and classification. To help researchers master needed advances in this field, the goal of this paper is to provide a comprehensive survey of recent achievements in scene classification using deep learning. More than 200 major publications are included in this survey covering different aspects of scene classification, including challenges, benchmark datasets, taxonomy, and quantitative performance comparisons of the reviewed methods. In retrospect of what has been achieved so far, this paper is also concluded with a list of promising research opportunities.
翻訳日:2021-03-13 19:55:24 公開日:2021-02-20
# (参考訳) 話者検証のための学習可能なMFCC

Learnable MFCCs for Speaker Verification ( http://arxiv.org/abs/2102.10322v1 )

ライセンス: CC BY 4.0
Xuechen Liu and Md Sahidullah and Tomi Kinnunen(参考訳) 深層ニューラルネットワーク(DNN)を用いた自動話者検証のための学習可能なMFCCフロントエンドアーキテクチャを提案する。 当社のアーキテクチャは、MFCCベースの機能のシンプルさと解釈性を保ち、モデルが柔軟にデータに適応できるようにします。 実際には、標準MFCC抽出器の4つの線形変換(ウィンドウリング、離散フーリエ変換(DFT)、メルフィルタバンク、離散コサイン変換(DCT))のデータ駆動バージョンを定式化する。 その結果、静的 MFCC による等誤差率 (EER) の観点で6.7\% (VoxCeleb1) と9.7\% (SITW) の相対的な改善に到達したが、追加のチューニングは行わなかった。

We propose a learnable mel-frequency cepstral coefficient (MFCC) frontend architecture for deep neural network (DNN) based automatic speaker verification. Our architecture retains the simplicity and interpretability of MFCC-based features while allowing the model to be adapted to data flexibly. In practice, we formulate data-driven versions of the four linear transforms of a standard MFCC extractor -- windowing, discrete Fourier transform (DFT), mel filterbank and discrete cosine transform (DCT). Results reported reach up to 6.7\% (VoxCeleb1) and 9.7\% (SITW) relative improvement in term of equal error rate (EER) from static MFCCs, without additional tuning effort.
翻訳日:2021-02-24 20:34:41 公開日:2021-02-20
# (参考訳) MHDeep:身体領域と深部ニューラルネットワークに基づくメンタルヘルス障害検出システム

MHDeep: Mental Health Disorder Detection System based on Body-Area and Deep Neural Networks ( http://arxiv.org/abs/2102.10435v1 )

ライセンス: CC BY 4.0
Shayan Hassantabar, Joe Zhang, Hongxu Yin, and Niraj K. Jha(参考訳) メンタルヘルス問題は世界中の何百万人もの人々の生活の質に影響を与える。 しかし、メンタルヘルス障害の診断は、しばしば患者の行動パターンに関する自己報告に依存する困難な問題である。 そのため,精神疾患の診断には新たな方策が必要である。 最近のボディエリアネットワークの導入は、スマートウォッチやスマートフォンに埋め込まれた多数の正確なセンサーとディープニューラルネットワーク(DNN)で構成される。 しかしながら、WMSとDNNに基づく疾患診断とエッジデバイスへの展開は、依然として困難な問題である。 この目的のために、市販のWMSと効率的なDNNモデルを用いて、schizoaffective、Major depressive、bipolarの3つの重要なメンタルヘルス障害を診断するMHDeepというフレームワークを提案する。 MHDeepは、スマートウォッチとスマートフォンに組み込まれたセンサーから得られる8種類のデータを使用する。 利用可能なデータが少ないため、MHDeepは合成データ生成モジュールを使用して、同じ確率分布から引き出された合成データを用いて実データを拡張する。 合成データセットを使用して、DNNモデルを事前にトレーニングするため、ウェイトを優先します。 トレーニングプロセス中にアーキテクチャと重みの両方を学ぶために、成長と創発的なDNN合成アプローチを使用します。 74人の個人から収集したデータでトレーニングしたMHDeepモデルを評価するために、3つの異なるデータパーティションを使用します。 データインスタンスレベルと患者レベルの評価を行います。 MHDeepの平均テスト精度は90.4%、87.3%、82.4%で、健康なインスタンスと、schizoaffective disorder(英語版)、Major depressive disorder(英語版)、bipolar disorder(英語版)のインスタンスを分類する。 患者レベルでは、MHDeep DNNは3つのメンタルヘルス障害に対してそれぞれ100%、100%、90.0%の精度を達成する。

Mental health problems impact quality of life of millions of people around the world. However, diagnosis of mental health disorders is a challenging problem that often relies on self-reporting by patients about their behavioral patterns. Therefore, there is a need for new strategies for diagnosis of mental health problems. The recent introduction of body-area networks consisting of a plethora of accurate sensors embedded in smartwatches and smartphones and deep neural networks (DNNs) points towards a possible solution. However, disease diagnosis based on WMSs and DNNs, and their deployment on edge devices, remains a challenging problem. To this end, we propose a framework called MHDeep that utilizes commercially available WMSs and efficient DNN models to diagnose three important mental health disorders: schizoaffective, major depressive, and bipolar. MHDeep uses eight different categories of data obtained from sensors integrated in a smartwatch and smartphone. Due to limited available data, MHDeep uses a synthetic data generation module to augment real data with synthetic data drawn from the same probability distribution. We use the synthetic dataset to pre-train the DNN models, thus imposing a prior on the weights. We use a grow-and-prune DNN synthesis approach to learn both the architecture and weights during the training process. We use three different data partitions to evaluate the MHDeep models trained with data collected from 74 individuals. We conduct data instance level and patient level evaluations. MHDeep achieves an average test accuracy of 90.4%, 87.3%, and 82.4%, respectively, for classifications between healthy instances and schizoaffective disorder instances, major depressive disorder instances, and bipolar disorder instances. At the patient level, MHDeep DNNs achieve an accuracy of 100%, 100%, and 90.0% for the three mental health disorders, respectively.
翻訳日:2021-02-24 20:23:55 公開日:2021-02-20
# (参考訳) 確率的シナプスを用いたニューラルネットワークによる脳様学習と推論

Neural Sampling Machine with Stochastic Synapse allows Brain-like Learning and Inference ( http://arxiv.org/abs/2102.10477v1 )

ライセンス: CC BY 4.0
Sourav Dutta, Georgios Detorakis, Abhishek Khanna, Benjamin Grisafe, Emre Neftci and Suman Datta(参考訳) 多くの実世界のミッションクリティカルなアプリケーションは、ノイズの多いデータから連続的なオンライン学習と、信頼度の高いリアルタイム意思決定を必要とする。 確率的モデルと確率的ニューラルネットワークは、データの不確実性を明示的に処理し、適応的な学習を可能にする。 本稿では,ニューラルサンプリング・マヒネという,ベイズ近似推論のためのシナプス接続における確率性を生かした,新しい確率的NNを実装したハードウェアファブリックを提案する。 創発物質や装置の原子レベルで生じる固有非線形性と確率を利用して、生物学的シナプスの分子レベルで起こるシナプス確率を捉えることができる。 強誘電体電界効果トランジスタを用いたアナログウエイトセルと2端子の確率的セレクタ素子を組み合わせることで,in-silico hybrid stochastic synapseを実験的に実証した。 このような確率シナプスは、計算インメモリのための確立されたクロスバーアレイアーキテクチャ内に組み込むことができる。 実験により, 絶縁体と金属状態の間のセレクタ素子の固有の確率的切替は, 学習と推論の両方においてFeFETの伝導状態をサンプリングするNSMのシナプス内に乗算的確率的ノイズをもたらすことを示した。 我々は,NSMの確率論的シナプスによって導入された,オフラインのバッチ正規化を伴わずに連続的なオンライン学習を実現する健全な自動重み正規化機能を強調するために,ネットワークレベルのシミュレーションを行う。 また,推論モード中に確率的シナプスによって導入されたベイズ的参照能力を示し,データの不確実性を説明する。 標準画像分類タスク98.25%の精度と回転試料におけるデータ不確かさの推定について報告する。

Many real-world mission-critical applications require continual online learning from noisy data and real-time decision making with a defined confidence level. Probabilistic models and stochastic neural networks can explicitly handle uncertainty in data and allow adaptive learning-on-the-fly, but their implementation in a low-power substrate remains a challenge. Here, we introduce a novel hardware fabric that implements a new class of stochastic NN called Neural-Sampling-Machine that exploits stochasticity in synaptic connections for approximate Bayesian inference. Harnessing the inherent non-linearities and stochasticity occurring at the atomic level in emerging materials and devices allows us to capture the synaptic stochasticity occurring at the molecular level in biological synapses. We experimentally demonstrate in-silico hybrid stochastic synapse by pairing a ferroelectric field-effect transistor -based analog weight cell with a two-terminal stochastic selector element. Such a stochastic synapse can be integrated within the well-established crossbar array architecture for compute-in-memory. We experimentally show that the inherent stochastic switching of the selector element between the insulator and metallic state introduces a multiplicative stochastic noise within the synapses of NSM that samples the conductance states of the FeFET, both during learning and inference. We perform network-level simulations to highlight the salient automatic weight normalization feature introduced by the stochastic synapses of the NSM that paves the way for continual online learning without any offline Batch Normalization. We also showcase the Bayesian inferencing capability introduced by the stochastic synapse during inference mode, thus accounting for uncertainty in data. We report 98.25%accuracy on standard image classification task as well as estimation of data uncertainty in rotated samples.
翻訳日:2021-02-24 20:03:52 公開日:2021-02-20
# (参考訳) 隠れ変数を持つ因果グラフィカルモデルにおける最適調整セットに必要な十分条件

Necessary and sufficient conditions for optimal adjustment sets in causal graphical models with hidden variables ( http://arxiv.org/abs/2102.10324v1 )

ライセンス: CC BY 4.0
Jakob Runge(参考訳) 隠れ変数および条件変数を持つグラフィカルモデルにおける総因果効果を推定するために最適な有効バックドア調整セットを選択する問題に対処する。 以前の研究では、最適性は他の調整集合と比較して最小の漸近分散を達成し、隠れた変数を持たない場合の最適集合のグラフィカルな基準を特定した。 隠れた変数の場合、現在十分なグラフィカルな基準と対応する構成アルゴリズムが存在する。 ここでの最適性は、原因、効果、調整セット、条件付き変数の相互情報に基づく情報理論的アプローチによって特徴づけられる。 このキャラクタリゼーションにより、本論文の主な貢献を導出することができる:最適な調整集合が存在するための必要十分十分なグラフィカルな基準とそれを構成するアルゴリズムである。 結果は、分散が特定の情報理論分解を認めている推定値のクラスに対して有効である。

The problem of selecting optimal valid backdoor adjustment sets to estimate total causal effects in graphical models with hidden and conditioned variables is addressed. Previous work has defined optimality as achieving the smallest asymptotic variance compared to other adjustment sets and identified a graphical criterion for an optimal set for the case without hidden variables. For the case with hidden variables currently a sufficient graphical criterion and a corresponding construction algorithm exists. Here optimality is characterized by an information-theoretic approach based on the mutual informations among cause, effect, adjustment set, and conditioned variables. This characterization allows to derive the main contributions of this paper: A necessary and sufficient graphical criterion for the existence of an optimal adjustment set and an algorithm to construct it. The results are valid for a class of estimators whose variance admits a certain information-theoretic decomposition.
翻訳日:2021-02-24 17:03:18 公開日:2021-02-20
# (参考訳) 不利用可能なトランジットフィード仕様: 繰り返しニューラルネットワークで利用可能に

Unavailable Transit Feed Specification: Making it Available with Recurrent Neural Networks ( http://arxiv.org/abs/2102.10323v1 )

ライセンス: CC BY 4.0
Ludovico Iovino, Phuong T. Nguyen, Amleto Di Salle, Francesco Gallo, Michele Flammini(参考訳) ヨーロッパにおける公共交通機関の研究は、ヨーロッパ人がcaでバスを使用していることを示唆している。 全公共交通機関の56%を占める。 このような割合に影響を与える重要な要因の1つは、一般に公共交通機関の需要が高まり、それを使うのを拒むことが、その品質である。 エンドユーザは、情報の提供、すなわち、トランジットと提供されたサービスの詳細へのアクセスなど、さまざまな観点から品質を知覚することができる。 本稿では,データマイニングと機械学習技術を活用した革新的な手法を用いて,公共交通機関に関する利用できないデータの利用を目標とする。 特に、GPSの痕跡を採掘することで、公共交通機関の完全なトランジットグラフを再構築することができる。 このアプローチは、L'Aquila市(イタリア)のローカルバスシステムから収集された実際のデータセットで正常に検証されました。 実験の結果,提案手法と実装フレームワークはともに効率的かつ効率的であることを示し,デプロイの準備が整った。

Studies on public transportation in Europe suggest that European inhabitants use buses in ca. 56% of all public transport travels. One of the critical factors affecting such a percentage and more, in general, the demand for public transport services, with an increasing reluctance to use them, is their quality. End-users can perceive quality from various perspectives, including the availability of information, i.e., the access to details about the transit and the provided services. The approach proposed in this paper, using innovative methodologies resorting on data mining and machine learning techniques, aims to make available the unavailable data about public transport. In particular, by mining GPS traces, we manage to reconstruct the complete transit graph of public transport. The approach has been successfully validated on a real dataset collected from the local bus system of the city of L'Aquila (Italy). The experimental results demonstrate that the proposed approach and implemented framework are both effective and efficient, thus being ready for deployment.
翻訳日:2021-02-24 12:41:01 公開日:2021-02-20
# (参考訳) Dynamics-Awareモデルを用いた物理推論

Physical Reasoning Using Dynamics-Aware Models ( http://arxiv.org/abs/2102.10336v1 )

ライセンス: CC BY 4.0
Eltayeb Ahmed, Anton Bakhtin, Laurens van der Maaten, Rohit Girdhar(参考訳) 物理分析タスクを解決する一般的なアプローチは、例のタスクで値学習者をトレーニングすることです。 このようなアプローチの限界は、環境のロールアウトの最終状態に割り当てられた報酬値のみからオブジェクトのダイナミクスを学ぶ必要があることである。 本研究の目的は、オブジェクトのダイナミクスに関する追加の監視信号で報酬値を増大させることによって、この制限に対処することである。 具体的には、2つの対象物の軌道間の距離測度を定義し、2つの環境ロールアウトの類似性を特徴付けるためにこの距離測度を使用し、正しい報酬の予測に加えて、この測度に従ってロールアウトを正しくランク付けするモデルを訓練します。 実証的に、このアプローチは物理推論のためのPHYREベンチマークの大幅なパフォーマンス改善につながることが分かりました。

A common approach to solving physical-reasoning tasks is to train a value learner on example tasks. A limitation of such an approach is it requires learning about object dynamics solely from reward values assigned to the final state of a rollout of the environment. This study aims to address this limitation by augmenting the reward value with additional supervisory signals about object dynamics. Specifically,we define a distance measure between the trajectory of two target objects, and use this distance measure to characterize the similarity of two environment rollouts.We train the model to correctly rank rollouts according to this measure in addition to predicting the correct reward. Empirically, we find that this approach leads to substantial performance improvements on the PHYRE benchmark for physical reasoning: our approach obtains a new state-of-the-art on that benchmark.
翻訳日:2021-02-24 12:20:56 公開日:2021-02-20
# (参考訳) 等価モデルに対する厳密一般化のメリット

Provably Strict Generalisation Benefit for Equivariant Models ( http://arxiv.org/abs/2102.10333v1 )

ライセンス: CC BY 4.0
Bryn Elesedy and Sheheryar Zaidi(参考訳) 不変/等価であるモデルのエンジニアリングは一般化を改善すると広く信じられている。 このアプローチの人気は高まっているが、一般化の利点の正確な特徴付けが欠けている。 線形モデルの最も単純な場合を考えることで、対象分布がコンパクト群に対して不変/同変であるとき、不変/同変モデルの一般化における最初の証明可能な非零改善を提供する。 さらに, 一般化, 訓練例数, 集団行動の性質との間には興味深い関係があることを明らかにした。 その結果、平均作用素の下での関数空間の構造を観測し、特徴平均化の結果とともに独立な関心事となる。

It is widely believed that engineering a model to be invariant/equivariant improves generalisation. Despite the growing popularity of this approach, a precise characterisation of the generalisation benefit is lacking. By considering the simplest case of linear models, this paper provides the first provably non-zero improvement in generalisation for invariant/equivariant models when the target distribution is invariant/equivariant with respect to a compact group. Moreover, our work reveals an interesting relationship between generalisation, the number of training examples and properties of the group action. Our results rest on an observation of the structure of function spaces under averaging operators which, along with its consequences for feature averaging, may be of independent interest.
翻訳日:2021-02-24 10:47:32 公開日:2021-02-20
# (参考訳) SSFG:グラフ畳み込みネットワークの正規化のための確率的スケーリング機能と勾配

SSFG: Stochastically Scaling Features and Gradients for Regularizing Graph Convolution Networks ( http://arxiv.org/abs/2102.10338v1 )

ライセンス: CC BY 4.0
Haimin Zhang, Min Xu(参考訳) グラフ畳み込みネットワークは、様々なグラフベースのタスクにうまく適用されている。 典型的なグラフ畳み込み層では、ノードの特徴は近傍情報を集約することで計算される。 繰り返しグラフの畳み込みを適用すると、過剰な問題、すなわちノードの特徴が同様の値に収束する。 これは、グラフ学習が過剰に適合する主な理由の1つであり、モデルがテストデータにうまく一般化せず、トレーニングデータに適合する結果となる。 本稿では,この問題に対処する確率正規化手法を提案する。 本手法では、訓練手順における確率分布から抽出した因子により、特徴と勾配(SSFG)を確率的にスケールする。 機能レベルで確率的スケーリングを適用することは、全体的なパフォーマンスを改善するための勾配レベルでのスケーリングと相補的であることを示す。 ReLUと併用すると,この手法は確率的ReLUと見なすことができる。 グラフベースのタスクの7つのベンチマークデータセット上で,SSFG正規化手法を実験的に検証した。 広範な実験結果から,本手法がベースライングラフネットワーク全体の性能を効果的に改善できることが示された。

Graph convolutional networks have been successfully applied in various graph-based tasks. In a typical graph convolutional layer, node features are computed by aggregating neighborhood information. Repeatedly applying graph convolutions can cause the oversmoothing issue, i.e., node features converge to similar values. This is one of the major reasons that cause overfitting in graph learning, resulting in the model fitting well to training data while not generalizing well on test data. In this paper, we present a stochastic regularization method to address this issue. In our method, we stochastically scale features and gradients (SSFG) by a factor sampled from a probability distribution in the training procedure. We show that applying stochastic scaling at the feature level is complementary to that at the gradient level in improving the overall performance. When used together with ReLU, our method can be seen as a stochastic ReLU. We experimentally validate our SSFG regularization method on seven benchmark datasets for different graph-based tasks. Extensive experimental results demonstrate that our method effectively improves the overall performance of the baseline graph networks.
翻訳日:2021-02-24 09:26:25 公開日:2021-02-20
# (参考訳) BSQ:Mixed-Precision Neural Network Quantizationのためのビットレベルスパーシティの探索

BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network Quantization ( http://arxiv.org/abs/2102.10462v1 )

ライセンス: CC BY 4.0
Huanrui Yang, Lin Duan, Yiran Chen, Hai Li(参考訳) 混合精度量子化はディープニューラルネットワークの性能と圧縮速度の最適なトレードオフを実現できる可能性があり、広く研究されている。 しかし、正確な量子化スキームを決定する体系的な方法が欠けている。 従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。 これらのアプローチは最適量子化スキームを効率的に導くことはできない。 本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。 我々は、各ビットの量子化重みを独立な訓練可能な変数と考え、微分可能なビットスパーシティ正規化器を導入する。 BSQは、重み要素のグループ間で全ゼロビットを誘導し、動的精度の低減を実現し、元のモデルの混合精度量子化スキームをもたらす。 1つのグラデーションベースの最適化プロセスで完全な混合精度空間を探索し、1つのハイパーパラメータだけでパフォーマンスと圧縮をトレードオフできます。 BSQは、CIFAR-10とImageNetデータセット上の様々なモデルアーキテクチャにおいて、以前の手法と比較して高い精度と高いビット削減を実現する。

Mixed-precision quantization can potentially achieve the optimal tradeoff between performance and compression rate of deep neural networks, and thus, have been widely investigated. However, it lacks a systematic method to determine the exact quantization scheme. Previous methods either examine only a small manually-designed search space or utilize a cumbersome neural architecture search to explore the vast search space. These approaches cannot lead to an optimal quantization scheme efficiently. This work proposes bit-level sparsity quantization (BSQ) to tackle the mixed-precision quantization from a new angle of inducing bit-level sparsity. We consider each bit of quantized weights as an independent trainable variable and introduce a differentiable bit-sparsity regularizer. BSQ can induce all-zero bits across a group of weight elements and realize the dynamic precision reduction, leading to a mixed-precision quantization scheme of the original model. Our method enables the exploration of the full mixed-precision space with a single gradient-based optimization process, with only one hyperparameter to tradeoff the performance and compression. BSQ achieves both higher accuracy and higher bit reduction on various model architectures on the CIFAR-10 and ImageNet datasets comparing to previous methods.
翻訳日:2021-02-24 09:02:46 公開日:2021-02-20
# (参考訳) GIST:大規模グラフ畳み込みネットワークのための分散トレーニング

GIST: Distributed Training for Large-Scale Graph Convolutional Networks ( http://arxiv.org/abs/2102.10424v1 )

ライセンス: CC BY 4.0
Cameron R. Wolfe, Jingkang Yang, Arindam Chowdhury, Chen Dun, Artun Bayer, Santiago Segarra, Anastasios Kyrillidis(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ上の機械学習のためのゴーツーソリューションですが、そのトレーニングは、グラフのサイズとモデルパラメータの数の両方の観点からスケールするのが非常に困難です。 これらの制限は、ディープラーニング研究における実験のスケール(データサイズとモデルサイズ)の増加とは対照的です。 本研究では,大規模グラフ上で広帯域(過パラメータ化)GCNの効率的なトレーニングを可能にする,新しい分散手法であるGISTを提案する。 GISTはハイブリッド層とグラフサンプリング手法であり、グローバルモデルを複数の小さなサブGCNに分割し、複数のGPU間で独立して並列に訓練する。 この分散フレームワークはモデルのパフォーマンスを改善し、ウォールクロックのトレーニング時間を大幅に短縮します。 GISTは、グラフ機械学習とディープラーニングの既存のギャップを埋めることを目的として、大規模なGCN実験を可能にすることを目指している。

The graph convolutional network (GCN) is a go-to solution for machine learning on graphs, but its training is notoriously difficult to scale in terms of both the size of the graph and the number of model parameters. These limitations are in stark contrast to the increasing scale (in data size and model size) of experiments in deep learning research. In this work, we propose GIST, a novel distributed approach that enables efficient training of wide (overparameterized) GCNs on large graphs. GIST is a hybrid layer and graph sampling method, which disjointly partitions the global model into several, smaller sub-GCNs that are independently trained across multiple GPUs in parallel. This distributed framework improves model performance and significantly decreases wall-clock training time. GIST seeks to enable large-scale GCN experimentation with the goal of bridging the existing gap in scale between graph machine learning and deep learning.
翻訳日:2021-02-24 07:55:18 公開日:2021-02-20
# (参考訳) 強化学習における環境設計の重要性 : ロボット環境に関する研究

Importance of Environment Design in Reinforcement Learning: A Study of a Robotic Environment ( http://arxiv.org/abs/2102.10447v1 )

ライセンス: CC BY 4.0
M\'onika Farsang and Luca Szegletes(参考訳) 特定の環境の深い理解は強化学習(RL)において重要である。 この課題に対処するために,マルコフ決定プロセス(MDP)フレームワークをモデルとした移動ロボットアシスタントの意思決定プロセスについて検討した。 MDPの最適状態-作用結合は非線形ベルマン最適方程式で計算される。 この方程式系はWolfram Mathematicaの計算力によって比較的容易に解くことができ、そこで得られる最適作用値の結果は最適政策を指し示す。 他のRLアルゴリズムとは異なり、この手法は最適挙動を近似せず、正確な明確な解を提供し、我々の研究に強力な基礎を与える。 これにより、RLの行動選択メカニズムを理解するための新しい洞察を提供します。 ロボット環境の分析では, 異なる最適方針を導くような, まったく同じスキーマ上で, 様々な小さな修正を提示する。 最後に、効率的なRLアルゴリズムを構築すること以外に、環境の適切な設計だけが望ましい結果を保証することを強調する。

An in-depth understanding of the particular environment is crucial in reinforcement learning (RL). To address this challenge, the decision-making process of a mobile collaborative robotic assistant modeled by the Markov decision process (MDP) framework is studied in this paper. The optimal state-action combinations of the MDP are calculated with the non-linear Bellman optimality equations. This system of equations can be solved with relative ease by the computational power of Wolfram Mathematica, where the obtained optimal action-values results point to the optimal policy. Unlike other RL algorithms, this methodology does not approximate the optimal behavior, it provides the exact, explicit solution, which provides a strong foundation for our study. With this, we offer new insights into understanding the action selection mechanisms in RL. During the analysis of the robotic environment, we present various small modifications on the very same schema that lead to different optimal policies. Finally, we emphasize that beyond building efficient RL algorithms, only the proper design of the environment can ensure the desired results.
翻訳日:2021-02-24 07:34:16 公開日:2021-02-20
# (参考訳) 近位政策最適化における減衰クリッピング範囲

Decaying Clipping Range in Proximal Policy Optimization ( http://arxiv.org/abs/2102.10456v1 )

ライセンス: CC BY 4.0
M\'onika Farsang and Luca Szegletes(参考訳) PPO(Proximal Policy Optimization)は、強化学習において最も広く使用されているアルゴリズムの1つです。 その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。 この研究の目的は、新しいシンプルで効果的な代替手段を提供することです。 そこで本研究では,訓練中,直線的かつ指数関数的に縮小するクリップング範囲アプローチを提案する。 これらにより、学習フェーズの終わりに、始めにより高い探索とより強い制限を提供したいと考えています。 我々は,いくつかの古典的制御と機関車ロボット環境における性能について検討した。 分析の結果,多くの強化学習タスクにおいて,達成した報酬に影響を与え,一定のクリッピング法に代わる有効な方法であることが判明した。

Proximal Policy Optimization (PPO) is among the most widely used algorithms in reinforcement learning, which achieves state-of-the-art performance in many challenging problems. The keys to its success are the reliable policy updates through the clipping mechanism and the multiple epochs of minibatch updates. The aim of this research is to give new simple but effective alternatives to the former. For this, we propose linearly and exponentially decaying clipping range approaches throughout the training. With these, we would like to provide higher exploration at the beginning and stronger restrictions at the end of the learning phase. We investigate their performance in several classical control and locomotive robotic environments. During the analysis, we found that they influence the achieved rewards and are effective alternatives to the constant clipping method in many reinforcement learning tasks.
翻訳日:2021-02-24 07:26:48 公開日:2021-02-20
# (参考訳) 重尾勾配の近位政策最適化について

On Proximal Policy Optimization's Heavy-tailed Gradients ( http://arxiv.org/abs/2102.10264v1 )

ライセンス: CC BY 4.0
Saurabh Garg, Joshua Zhanson, Emilio Parisotto, Adarsh Prasad, J. Zico Kolter, Sivaraman Balakrishnan, Zachary C. Lipton, Ruslan Salakhutdinov and Pradeep Ravikumar(参考訳) 現代のポリシーグラデーションアルゴリズム、特にPPO(Proximal Policy Optimization)は、学習を成功させるために、損失クリッピングと勾配クリッピングを含むヒューリスティックの武器に依存しています。 これらのヒューリスティックはロバストな統計学の手法を想起させるもので、通常、外向きの「重み付き」("heavy-tailed")レジームの推定に用いられる。 本稿では、PPOサーロゲート報酬関数の勾配の重尾特性を特徴づける詳細な実証的研究について述べる。 本研究では,特にアクターネットワークにおいて,エージェントの行動方針が行動方針から逸脱するにつれて,エージェントの行動方針が変化していくにつれて,その勾配が顕著に高くなることを示す。 さらなる検査は、観察された重尾の主な原因として、代理報酬の確率比と利点を暗示する。 次に,勾配の重み付き性質によって生じる問題を強調する。 この光では、標準的なPPOクリッピングヒューリスティックの効果を研究し、これらのトリックが主に勾配の重尾を相殺するのに役立つことを実証する。 そこで,3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。 ハイパーパラメータチューニングは少ないが,MuJoCo連続制御タスクのバッテリ上でのPPO(すべてのヒューリスティックを有効化)の性能にマッチする。

Modern policy gradient algorithms, notably Proximal Policy Optimization (PPO), rely on an arsenal of heuristics, including loss clipping and gradient clipping, to ensure successful learning. These heuristics are reminiscent of techniques from robust statistics, commonly used for estimation in outlier-rich ("heavy-tailed") regimes. In this paper, we present a detailed empirical study to characterize the heavy-tailed nature of the gradients of the PPO surrogate reward function. We demonstrate that the gradients, especially for the actor network, exhibit pronounced heavy-tailedness and that it increases as the agent's policy diverges from the behavioral policy (i.e., as the agent goes further off policy). Further examination implicates the likelihood ratios and advantages in the surrogate reward as the main sources of the observed heavy-tailedness. We then highlight issues arising due to the heavy-tailed nature of the gradients. In this light, we study the effects of the standard PPO clipping heuristics, demonstrating that these tricks primarily serve to offset heavy-tailedness in gradients. Thus motivated, we propose incorporating GMOM, a high-dimensional robust estimator, into PPO as a substitute for three clipping tricks. Despite requiring less hyperparameter tuning, our method matches the performance of PPO (with all heuristics enabled) on a battery of MuJoCo continuous control tasks.
翻訳日:2021-02-24 06:37:04 公開日:2021-02-20
# (参考訳) gmlight:幾何分布近似による照明推定

GMLight: Lighting Estimation via Geometric Distribution Approximation ( http://arxiv.org/abs/2102.10244v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Changgong Zhang, Shijian Lu, Ling Shao, Feiying Ma, Xuansong Xie(参考訳) 単一の画像からの照明推定は、コンピュータビジョンとコンピュータグラフィックスにおいて不可欠かつ困難な作業です。 既存の作業では、代表的な照明パラメータを回帰したり、照明マップを直接生成することで照明を推定する。 しかし、これらの手法はしばしば精度や一般化に欠ける。 本稿では,レグレッションネットワークを用いた照明推定フレームワークであるgemetry mover's light (gmlight) と,効率的な照明推定のための生成プロジェクタを提案する。 幾何学的な光の分布、光強度、周囲条件、および補助深さの点から照明シーンをパラメータ化し、純粋な回帰タスクとして推定します。 地中移動子の距離にインスパイアされて、光分布パラメータの正確な回帰を導くために、新しい幾何学的移動子の損失を設計する。 推定照明パラメータを用いて、生成プロジェクタはパノラマ照明マップを現実的な外観と周波数で合成する。 幅広い実験により、GMLightは正確な照明推定と3Dオブジェクト挿入のためのリライトにおける優れた忠実度を実現します。

Lighting estimation from a single image is an essential yet challenging task in computer vision and computer graphics. Existing works estimate lighting by regressing representative illumination parameters or generating illumination maps directly. However, these methods often suffer from poor accuracy and generalization. This paper presents Geometric Mover's Light (GMLight), a lighting estimation framework that employs a regression network and a generative projector for effective illumination estimation. We parameterize illumination scenes in terms of the geometric light distribution, light intensity, ambient term, and auxiliary depth, and estimate them as a pure regression task. Inspired by the earth mover's distance, we design a novel geometric mover's loss to guide the accurate regression of light distribution parameters. With the estimated lighting parameters, the generative projector synthesizes panoramic illumination maps with realistic appearance and frequency. Extensive experiments show that GMLight achieves accurate illumination estimation and superior fidelity in relighting for 3D object insertion.
翻訳日:2021-02-24 05:04:34 公開日:2021-02-20
# (参考訳) 概念的物体検出

Concealed Object Detection ( http://arxiv.org/abs/2102.10274v1 )

ライセンス: CC BY 4.0
Deng-Ping Fan, Ge-Peng Ji, Ming-Ming Cheng, Ling Shao(参考訳) 本研究では,その背景に「完全に」埋め込まれた物体を識別することを目的とした,隠れ物体検出(cod)に関する最初の体系的研究を行う。 隠された目的と背景間の高い本質的な類似性は従来の目的の検出/区分よりはるかに困難にします。 このタスクをよりよく理解するために、78のオブジェクトカテゴリから、隠蔽されたオブジェクトをカバーする1万の画像からなる大規模なデータセットCOD10Kを収集します。 さらに、オブジェクトカテゴリ、オブジェクトバウンダリ、チャレンジング属性、オブジェクトレベルのラベル、インスタンスレベルのアノテーションなど、豊富なアノテーションを提供します。 COD10Kは、これまでで最大のCODデータセットであり、最もリッチなアノテーションにより、包括的な隠蔽オブジェクト理解を可能にし、検出、セグメンテーション、分類などの他の視覚タスクの進行にも使用できます。 動物が野生で狩猟する方法に動機づけられて、我々はまた、検索識別ネットワーク(SINet)と呼ばれるCODのためのシンプルで強力なベースラインを設計します。 sinetは、すべてのデータセットで12の最先端ベースラインを上回っており、codにおける今後の研究の触媒となるような、堅牢で一般的なアーキテクチャになっている。 最後に、いくつかの興味深い発見を提供し、潜在的なアプリケーションと今後の方向性を強調します。 この新分野の研究をきっかけに、私たちのコード、データセット、オンラインデモがプロジェクトページで公開されています。

We present the first systematic study on concealed object detection (COD), which aims to identify objects that are "perfectly" embedded in their background. The high intrinsic similarities between the concealed objects and their background make COD far more challenging than traditional object detection/segmentation. To better understand this task, we collect a large-scale dataset, called COD10K, which consists of 10,000 images covering concealed objects in diverse real-world scenarios from 78 object categories. Further, we provide rich annotations including object categories, object boundaries, challenging attributes, object-level labels, and instance-level annotations. Our COD10K is the largest COD dataset to date, with the richest annotations, which enables comprehensive concealed object understanding and can even be used to help progress several other vision tasks, such as detection, segmentation, classification, etc. Motivated by how animals hunt in the wild, we also design a simple but strong baseline for COD, termed the Search Identification Network (SINet). Without any bells and whistles, SINet outperforms 12 cutting-edge baselines on all datasets tested, making them robust, general architectures that could serve as catalysts for future research in COD. Finally, we provide some interesting findings and highlight several potential applications and future directions. To spark research in this new field, our code, dataset, and online demo are available on our project page: http://mmcheng.net/cod.
翻訳日:2021-02-24 04:47:28 公開日:2021-02-20
# (参考訳) EMDS-5:複数画像解析タスクのための環境微生物画像データセット第5版

EMDS-5: Environmental Microorganism Image Dataset Fifth Version for Multiple Image Analysis Tasks ( http://arxiv.org/abs/2102.10370v1 )

ライセンス: CC BY 4.0
Zihan Li, Chen Li, Yudong Yao, Jinghua Zhang, Md Mamunur Rahaman, Hao Xu, Frank Kulwa, Bolin Lu, Xuemin Zhu, Tao Jiang(参考訳) 環境微生物データセット第5版(EMDS-5)は、オリジナルの環境微生物(EM)画像と2組の地上真実(GT)画像を含む顕微鏡画像データセットです。 GT画像セットは、単目的GT画像セットと多目的GT画像セットとを含む。 EMDS-5データセットには21種類のEMがあり、それぞれが20個のオリジナルEMイメージ、20個のシングルオブジェクトGTイメージ、20個のマルチオブジェクトGTイメージを含んでいる。 EMDS-5は、画像前処理、画像分割、特徴抽出、画像分類、画像検索機能を評価することができる。 emds-5の有効性を証明するために,各関数に対して最も代表的なアルゴリズムと価格指標を選択し,その評価を行った。 画像前処理関数は、画像デノイジングと画像エッジ検出の2つの部分を含む。 Image Denoisingは9種類のフィルタを使って、それぞれ13種類のノイズを識別する。 エッジ検出の面では、画像のエッジを検出するために6つのエッジ検出オペレータが使用され、ノイズ比と平均構造類似性に対するピーク信号の2つの評価指標が評価に使用されます。 画像セグメンテーションは、単目的画像セグメンテーションと多目的画像セグメンテーションを含む。 K平均とU-netは多目的セグメンテーションに使用され、EMDS-5の画像から9つの特徴を抽出し、Support Vector Machine分類器を用いてテストする。 画像分類に関して、異なる分類器をテストするためにVGG16機能を選択する。 テクスチャ特徴検索とディープラーニング特徴検索の2つのタイプの検索手法をテストする。 これら2つのディープラーニングネットワークの最終層を特徴ベクトルとして選択する。 検索評価指標として平均精度を用いた。

Environmental Microorganism Data Set Fifth Version (EMDS-5) is a microscopic image dataset including original Environmental Microorganism (EM) images and two sets of Ground Truth (GT) images. The GT image sets include a single-object GT image set and a multi-object GT image set. The EMDS-5 dataset has 21 types of EMs, each of which contains 20 original EM images, 20 single-object GT images and 20 multi-object GT images. EMDS-5 can realize to evaluate image preprocessing, image segmentation, feature extraction, image classification and image retrieval functions. In order to prove the effectiveness of EMDS-5, for each function, we select the most representative algorithms and price indicators for testing and evaluation. The image preprocessing functions contain two parts: image denoising and image edge detection. Image denoising uses nine kinds of filters to denoise 13 kinds of noises, respectively. In the aspect of edge detection, six edge detection operators are used to detect the edges of the images, and two evaluation indicators, peak-signal to noise ratio and mean structural similarity, are used for evaluation. Image segmentation includes single-object image segmentation and multi-object image segmentation. Six methods are used for single-object image segmentation, while k-means and U-net are used for multi-object segmentation.We extract nine features from the images in EMDS-5 and use the Support Vector Machine classifier for testing. In terms of image classification, we select the VGG16 feature to test different classifiers. We test two types of retrieval approaches: texture feature retrieval and deep learning feature retrieval. We select the last layer of features of these two deep learning networks as feature vectors. We use mean average precision as the evaluation index for retrieval.
翻訳日:2021-02-24 03:56:35 公開日:2021-02-20
# (参考訳) pet画像とct画像の併用による頭頸部原発腫瘍の自動切除法の検討

Squeeze-and-Excitation Normalization for Automated Delineation of Head and Neck Primary Tumors in Combined PET and CT Images ( http://arxiv.org/abs/2102.10446v1 )

ライセンス: CC BY 4.0
Andrei Iantsen, Dimitris Visvikis, Mathieu Hatt(参考訳) 医用画像分割のための堅牢で正確な完全自動化手法の開発は,臨床および放射線医学研究において重要である。 本研究では、MICCAI 2020 Head and Neck Tumor segmentation Challenge (HECKTOR) の文脈において、ポジトロン放射トモグラフィ/計算トモグラフィ(PET/CT)画像を組み合わせることで、ヘッドアンドネック(H&N)プライマリ腫瘍セグメンテーション(H&N)の自動アプローチに貢献した。 残層を持つU-Netアーキテクチャを設計し,Squeeze-and-Excitation Normalizationを補足した。 提案手法は,異なるセンターで実施したクロスバリデーション (dsc 0.745, precision 0.760, recall 0.789) とテストセット (dsc 0.759, precision 0.833, recall 0.740) において,21チーム中21チームがヘクターチャレンジで優勝した。 PyTorchとトレーニングされたモデルに基づく完全な実装はhttps://github.com/iantsen/hecktorで公開されている。

Development of robust and accurate fully automated methods for medical image segmentation is crucial in clinical practice and radiomics studies. In this work, we contributed an automated approach for Head and Neck (H&N) primary tumor segmentation in combined positron emission tomography / computed tomography (PET/CT) images in the context of the MICCAI 2020 Head and Neck Tumor segmentation challenge (HECKTOR). Our model was designed on the U-Net architecture with residual layers and supplemented with Squeeze-and-Excitation Normalization. The described method achieved competitive results in cross-validation (DSC 0.745, precision 0.760, recall 0.789) performed on different centers, as well as on the test set (DSC 0.759, precision 0.833, recall 0.740) that allowed us to win first prize in the HECKTOR challenge among 21 participating teams. The full implementation based on PyTorch and the trained models are available at https://github.com/iantsen/hecktor
翻訳日:2021-02-24 03:44:25 公開日:2021-02-20
# (参考訳) テディ・セイデンフェルトが提唱した独立概念について

On a notion of independence proposed by Teddy Seidenfeld ( http://arxiv.org/abs/2102.10342v1 )

ライセンス: CC BY 4.0
Jasper De Bock and Gert de Cooman(参考訳) テディ・サイデンフェルド(teddy seidenfeld)は、二項選好モデルは不確定性や不確定性の多くの重要な側面に対処できるほど強力ではないと長い間主張してきた。 いわゆる望ましい選択肢集合の研究に着手し、他の場所では、不確実性の下で、汎用的、二項的、非バイナリ的、意思決定を扱うためのエレガントで強力なアプローチを提供してきた、と彼は主張している。 このアプローチは、最初にセイデンフェルトによって提案された、(凸)バイナリの選好に基づくいくつかの特定の決定方法論の批判の例で、無関係(および独立)の興味深い概念を探求するためにここに使用します。 このような無関係や独立性評価を行うことの結果は、非常に強く、いわゆる混合選択関数やe-許容性(e-acmissibility)を決定スキームとして用いるために使われる可能性がある。

Teddy Seidenfeld has been arguing for quite a long time that binary preference models are not powerful enough to deal with a number of crucial aspects of imprecision and indeterminacy in uncertain inference and decision making. It is at his insistence that we initiated our study of so-called sets of desirable option sets, which we have argued elsewhere provides an elegant and powerful approach to dealing with general, binary as well as non-binary, decision-making under uncertainty. We use this approach here to explore an interesting notion of irrelevance (and independence), first suggested by Seidenfeld in an example intended as a criticism of a number of specific decision methodologies based on (convex) binary preferences. We show that the consequences of making such an irrelevance or independence assessment are very strong, and might be used to argue for the use of so-called mixing choice functions, and E-admissibility as the resulting decision scheme.
翻訳日:2021-02-23 20:48:10 公開日:2021-02-20
# (参考訳) 教育可能な会話エージェントを目指して

Towards Teachable Conversational Agents ( http://arxiv.org/abs/2102.10387v1 )

ライセンス: CC BY 4.0
Nalin Chhibber, Edith Law(参考訳) 対話型機械学習システムを構築する従来のプロセスは、機械教師が1人以上の人間教師によって訓練される教師と教師の相互作用シナリオと見なすことができます。 本研究では,人間-教師と対話型機械学習者とのインタラクションを,対話型インタフェースを用いて検討する。 具体的には、学習可能なAIエージェントが会話インタラクションを通じて人間-教師から確実に学習できるかどうか、そしてこの学習が従来の教師付き学習アルゴリズムとどのように比較できるかを検討する。 その結果,対話型エージェントの概念を検証し,対話型インタラクションから学習しようとする機械学習システムの開発に関連する要因を明らかにする。

The traditional process of building interactive machine learning systems can be viewed as a teacher-learner interaction scenario where the machine-learners are trained by one or more human-teachers. In this work, we explore the idea of using a conversational interface to investigate the interaction between human-teachers and interactive machine-learners. Specifically, we examine whether teachable AI agents can reliably learn from human-teachers through conversational interactions, and how this learning compare with traditional supervised learning algorithms. Results validate the concept of teachable conversational agents and highlight the factors relevant for the development of machine learning systems that intend to learn from conversational interactions.
翻訳日:2021-02-23 20:47:10 公開日:2021-02-20
# (参考訳) インスタンス転送学習による汎用性とロバストな過渡安定性評価

Versatile and Robust Transient Stability Assessment via Instance Transfer Learning ( http://arxiv.org/abs/2102.10296v1 )

ライセンス: CC BY 4.0
Seyedali Meghdadi, Guido Tack, Ariel Liebman, Nicolas Langren\'e, Christoph Bergmeir(参考訳) 本稿では,N-1前過渡安定性評価を支援するために,パワーシステムダイナミクスの知識を取り入れたデータ駆動アルゴリズムを用いた新たなデータ収集手法を提案する。 ネットワークの障害位置から他の部分への障害効果の伝播に関するドメイン知識は、システムの安定性を決定する支配的な条件を認識するために活用される。 そこで我々は,不安定領域に関する重要な情報を提供する断層影響領域という新しい概念を紹介した。 この情報は拡張データセットに埋め込まれ、インスタンス転送学習フレームワークを使用してアンサンブルモデルをトレーニングする。 IEEE 39-busシステムにおけるテスト結果から,従来は見つからなかった運用シナリオの安定性を正確に予測し,不安定なインスタンスの誤予測のリスクを低減できることを確認した。

To support N-1 pre-fault transient stability assessment, this paper introduces a new data collection method in a data-driven algorithm incorporating the knowledge of power system dynamics. The domain knowledge on how the disturbance effect will propagate from the fault location to the rest of the network is leveraged to recognise the dominant conditions that determine the stability of a system. Accordingly, we introduce a new concept called Fault-Affected Area, which provides crucial information regarding the unstable region of operation. This information is embedded in an augmented dataset to train an ensemble model using an instance transfer learning framework. The test results on the IEEE 39-bus system verify that this model can accurately predict the stability of previously unseen operational scenarios while reducing the risk of false prediction of unstable instances compared to standard approaches.
翻訳日:2021-02-23 19:27:11 公開日:2021-02-20
# (参考訳) 歌声音声認識における音源特徴の活用

The Use of Voice Source Features for Sung Speech Recognition ( http://arxiv.org/abs/2102.10376v1 )

ライセンス: CC BY 4.0
Gerardo Roa Dabike, Jon Barker(参考訳) 本稿では, 発声音源の特徴(ピッチ, シャッター, ジッタなど)が, 自動発声音声認識の性能を向上させることができるかどうかを問う。 まず, 歌唱音声コーパス (nus-48e) を用いて, ピッチ範囲, 音節長, ビブラート, ジッター, シマーなど, 歌唱音声の特徴の違いを示す。 次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行い,アート音響モデルの状況と,各種音源パラメータを用いた従来の特徴の強化を行った。 実験は、DSing1 (15.1時間)、DSing3 (44.7時間)、DSing30 (149.1時間)の3つの標準訓練セットで実施されている。 発声度と組み合わせることで、DSing1のトレーニングではWERが38.1%から36.7%に大幅に減少するが、より多彩なDSing3とDSing30のトレーニングでは統計的に有意ではない。 音声品質特性は認識性能を改善しなかったが、音声/無声音素対の区別の改善に寄与することが分析によって示唆された。

In this paper, we ask whether vocal source features (pitch, shimmer, jitter, etc) can improve the performance of automatic sung speech recognition, arguing that conclusions previously drawn from spoken speech studies may not be valid in the sung speech domain. We first use a parallel singing/speaking corpus (NUS-48E) to illustrate differences in sung vs spoken voicing characteristics including pitch range, syllables duration, vibrato, jitter and shimmer. We then use this analysis to inform speech recognition experiments on the sung speech DSing corpus, using a state of the art acoustic model and augmenting conventional features with various voice source parameters. Experiments are run with three standard (increasingly large) training sets, DSing1 (15.1 hours), DSing3 (44.7 hours) and DSing30 (149.1 hours). Pitch combined with degree of voicing produces a significant decrease in WER from 38.1% to 36.7% when training with DSing1 however smaller decreases in WER observed when training with the larger more varied DSing3 and DSing30 sets were not seen to be statistically significant. Voicing quality characteristics did not improve recognition performance although analysis suggests that they do contribute to an improved discrimination between voiced/unvoiced phoneme pairs.
翻訳日:2021-02-23 19:19:18 公開日:2021-02-20
# (参考訳) WaNet -- 受け入れ難いワープベースのバックドア攻撃

WaNet -- Imperceptible Warping-based Backdoor Attack ( http://arxiv.org/abs/2102.10369v1 )

ライセンス: CC BY 4.0
Anh Nguyen, Anh Tran(参考訳) ディープラーニングの繁栄と事前訓練されたネットワークの使用の広範な実践により、バックドア攻撃は近年多くの研究の関心を引くセキュリティの脅威となっています。 サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。 しかし、既存のバックドア攻撃はすべてノイズの摂動トリガーに基づいており、人間に顕著です。 本稿では,ワーピングに基づくトリガーの使用を提案する。 提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。 このようなモデルをマシンディフェンダーによって検出不能にするために, ``noise mode" と呼ばれる新しいトレーニングモードを提案する。 訓練されたネットワークは、MNIST、CIFAR-10、GTSRB、CelebAといった標準分類データセットの最先端の防衛手法を攻撃および回避することに成功している。 行動分析により,我々のバックドアはネットワーク検査に透過的であり,この新たな攻撃機構の効率性がさらに証明された。

With the thriving of deep learning and the widespread practice of using pre-trained networks, backdoor attacks have become an increasing security threat drawing many research interests in recent years. A third-party model can be poisoned in training to work well in normal conditions but behave maliciously when a trigger pattern appears. However, the existing backdoor attacks are all built on noise perturbation triggers, making them noticeable to humans. In this paper, we instead propose using warping-based triggers. The proposed backdoor outperforms the previous methods in a human inspection test by a wide margin, proving its stealthiness. To make such models undetectable by machine defenders, we propose a novel training mode, called the ``noise mode. The trained networks successfully attack and bypass the state-of-the-art defense methods on standard classification datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. Behavior analyses show that our backdoors are transparent to network inspection, further proving this novel attack mechanism's efficiency.
翻訳日:2021-02-23 18:45:47 公開日:2021-02-20
# (参考訳) CrowdsensingとFederated Learning: プライバシー保護されたモバイルCrowdsensingシステム

When Crowdsensing Meets Federated Learning: Privacy-Preserving Mobile Crowdsensing System ( http://arxiv.org/abs/2102.10109v1 )

ライセンス: CC BY 4.0
Bowen Zhao, Ximeng Liu, Wei-neng Chen(参考訳) モバイルクラウドセンシング(MCS)は、スケーラビリティ、デプロイメントコストの低減、分散特性を備えた、新たなセンシングデータ収集パターンである。 従来のMCSシステムはプライバシーの懸念と公正な報酬分配に苦しんでいます。 さらに、既存のプライバシー保護MCSソリューションは、通常、データ処理ではなく、データ収集のプライバシー保護に焦点を当てています。 本稿では,MLSの課題に対処するため,フェデレートラーニング(FL)をMCSに統合し,プライバシ保護型MCSシステムである「textsc{CrowdFL}」を提案する。 具体的には、プライバシーを保護するために、参加者は連合学習を通じてローカルにセンシングデータを処理し、暗号化されたトレーニングモデルのみをアップロードする。 特に,平均暗号化トレーニングモデルに対して,プライバシ保存型フェデレーション平均化アルゴリズムを提案する。 落下した参加者を抑える際の計算および通信オーバーヘッドを低減するため、廃棄・再送戦略を設計する。 さらに、プライバシー保護の投稿価格インセンティブメカニズムが設計されており、プライバシー保護とデータ評価のジレンマを打破しようとします。 実用MCSアプリケーションの理論的解析と実験的評価により,提案した‘textsc{CrowdFL}’は,参加者のプライバシを効果的に保護し,有効かつ効果的であることを示す。

Mobile crowdsensing (MCS) is an emerging sensing data collection pattern with scalability, low deployment cost, and distributed characteristics. Traditional MCS systems suffer from privacy concerns and fair reward distribution. Moreover, existing privacy-preserving MCS solutions usually focus on the privacy protection of data collection rather than that of data processing. To tackle faced problems of MCS, in this paper, we integrate federated learning (FL) into MCS and propose a privacy-preserving MCS system, called \textsc{CrowdFL}. Specifically, in order to protect privacy, participants locally process sensing data via federated learning and only upload encrypted training models. Particularly, a privacy-preserving federated averaging algorithm is proposed to average encrypted training models. To reduce computation and communication overhead of restraining dropped participants, discard and retransmission strategies are designed. Besides, a privacy-preserving posted pricing incentive mechanism is designed, which tries to break the dilemma of privacy protection and data evaluation. Theoretical analysis and experimental evaluation on a practical MCS application demonstrate the proposed \textsc{CrowdFL} can effectively protect participants privacy and is feasible and efficient.
翻訳日:2021-02-23 18:07:53 公開日:2021-02-20
# (参考訳) 分子コンフォメーション生成のための学習神経生成ダイナミクス

Learning Neural Generative Dynamics for Molecular Conformation Generation ( http://arxiv.org/abs/2102.10240v1 )

ライセンス: CC BY 4.0
Minkai Xu, Shitong Luo, Yoshua Bengio, Jian Peng, Jian Tang(参考訳) 分子配座を生成する方法(\textit{i.e。 }、分子グラフからの3D構造)。 分子動力学のような従来の方法、計算的に高価なシミュレーションによるサンプルのコンフォーメーション。 近年,大量のコンフォーメーションデータのトレーニングによって,機械学習の手法は大きな可能性を秘めている。 コンフォーメーションの複雑な分布を捉えるための限られたモデル能力と、原子間の長距離依存性のモデリングが困難であることから、課題が生じます。 本論文では,近年の深層生成モデルの発展に触発されて,分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。 本研究では,フローベースモデルとエネルギーベースモデルの両方の利点を組み合わせた手法を提案する。(1)マルチモーダルコンフォーメーション分布を推定する高いモデル容量,(2)観測空間内の原子間の複雑な長距離依存性を明示的に把握する。 分子コンフォメーションサンプリングのための既存の生成モデルよりも大幅に改善され、コンフォメーション生成や距離モデリングタスクを含むいくつかのベンチマークにおいて提案手法の優れた性能を示す。

We study how to generate molecule conformations (\textit{i.e.}, 3D structures) from a molecular graph. Traditional methods, such as molecular dynamics, sample conformations via computationally expensive simulations. Recently, machine learning methods have shown great potential by training on a large collection of conformation data. Challenges arise from the limited model capacity for capturing complex distributions of conformations and the difficulty in modeling long-range dependencies between atoms. Inspired by the recent progress in deep generative models, in this paper, we propose a novel probabilistic framework to generate valid and diverse conformations given a molecular graph. We propose a method combining the advantages of both flow-based and energy-based models, enjoying: (1) a high model capacity to estimate the multimodal conformation distribution; (2) explicitly capturing the complex long-range dependencies between atoms in the observation space. Extensive experiments demonstrate the superior performance of the proposed method on several benchmarks, including conformation generation and distance modeling tasks, with a significant improvement over existing generative models for molecular conformation sampling.
翻訳日:2021-02-23 17:07:16 公開日:2021-02-20
# (参考訳) すべてが相対的: 最適輸送による公平性を理解する

Everything is Relative: Understanding Fairness with Optimal Transport ( http://arxiv.org/abs/2102.10349v1 )

ライセンス: CC BY 4.0
Kweku Kwegyir-Aggrey, Rebecca Santorella, Sarah M. Brown(参考訳) 自動意思決定システムにおける差別を研究するために、学者は公正性の定義をいくつか提案し、それぞれが異なる公正な理想を表現している。 これらの定義は、検出された不公平の構造を説明するのではなく、システムが公平または不公平であるため、どの概念を採用するかについて複雑な決定を下す必要があり、実際には使用が困難であることが多い。 ペアの成果を互いに比較することにより,バイアスとその構造を解釈可能かつ定量に探索する,公平性に対する最適なトランスポートベースアプローチを提案する。 本研究では, 最適な輸送地図を用いて, 個人, サブグループ, グループ公平性を検討する。 我々のフレームワークは、アルゴリズムによる差別のよく知られた例を復元し、他の指標が失敗したときの不公平さを検知し、レコメンデーションの機会を探ることができる。

To study discrimination in automated decision-making systems, scholars have proposed several definitions of fairness, each expressing a different fair ideal. These definitions require practitioners to make complex decisions regarding which notion to employ and are often difficult to use in practice since they make a binary judgement a system is fair or unfair instead of explaining the structure of the detected unfairness. We present an optimal transport-based approach to fairness that offers an interpretable and quantifiable exploration of bias and its structure by comparing a pair of outcomes to one another. In this work, we use the optimal transport map to examine individual, subgroup, and group fairness. Our framework is able to recover well known examples of algorithmic discrimination, detect unfairness when other metrics fail, and explore recourse opportunities.
翻訳日:2021-02-23 16:38:28 公開日:2021-02-20
# (参考訳) ヘロンのトレーニング方法

How To Train Your HERON ( http://arxiv.org/abs/2102.10357v1 )

ライセンス: CC BY 4.0
Antoine Richard, Stephanie Aravecchia, Thomas Schillaci, Matthieu Geist, Cedric Pradalier(参考訳) 本稿では、Deep Reinforcement Learning(Deep RL)とDomain Randomizationを適用し、2Dレーザースキャナーのみに依存する自然環境でのナビゲーションタスクを解決する。 シミュレーションでモデルベースのRLエージェントを訓練し、湖岸や河川岸を追従し、ゼロショット設定で本物の無人サーフェス車両に適用します。 私たちは、エージェントが現実世界で訓練されていないにもかかわらず、そのタスクを成功裏に達成し、ロボットの環境とダイナミクスの変化に適応できることを示しています。 最後に、RLエージェントがステートアウェアなModel-Predictive-Controllerよりも堅牢で高速で正確であることを示します。

In this paper we apply Deep Reinforcement Learning (Deep RL) and Domain Randomization to solve a navigation task in a natural environment relying solely on a 2D laser scanner. We train a model-based RL agent in simulation to follow lake and river shores and apply it on a real Unmanned Surface Vehicle in a zero-shot setup. We demonstrate that even though the agent has not been trained in the real world, it can fulfill its task successfully and adapt to changes in the robot's environment and dynamics. Finally, we show that the RL agent is more robust, faster, and more accurate than a state-aware Model-Predictive-Controller.
翻訳日:2021-02-23 16:23:21 公開日:2021-02-20
# VisualGPT:事前学習による視覚入力と言語知識のバランスによるデータ効率のよい画像キャプション

VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining ( http://arxiv.org/abs/2102.10407v1 )

ライセンス: Link先を確認
Jun Chen, Han Guo, Kai Yi, Boyang Li, Mohamed Elhoseiny(参考訳) 本稿では,画像キャプションのデータ効率を改善することを目的とする。 大規模学習言語モデル(LM)の言語知識を活用した,データ効率の高い画像キャプションモデルであるVisualGPTを提案する。 画像における視覚情報の利用とプリトレーニングから得られた以前の言語知識のバランスをとることが重要な課題であり、少量のインドメイントレーニングデータにプリトレーニングされたLMを言語デコーダとして迅速に適応する新しい自己回復型エンコーダデコーダ注意メカニズムを設計しました。 pro-posed self-rerecting activation unitはスパースアクティベーションを生成するが、勾配がゼロになることはない。 MSCOCOとコンセプチュアルキャプションの0.1%、0.5%、1%でトレーニングすると、提案されたモデルVisualGPTは強力なイメージキャプションベースラインを超えます。 VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを超え、また、各システムコンポーネントの有用性を定量化する一連のアブレーション研究を行っています。 私たちの知る限りでは、ユニモーダルデータで事前トレーニングされたlmを利用することで、画像キャプションのデータ効率を向上させる最初の作業です。 コードはhttps://github.com/Vision-CAIR/VisualGPTで入手できます。

In this paper, we aim to improve the data efficiency of image captioning. We propose VisualGPT, a data-efficient image captioning model that leverages the linguistic knowledge from a large pretrained language model (LM). A crucial challenge is to balance between the use of visual information in the image and prior linguistic knowledge acquired from pretraining.We designed a novel self-resurrecting encoder-decoder attention mechanism to quickly adapt the pretrained LM as the language decoder on a small amount of in-domain training data. The pro-posed self-resurrecting activation unit produces sparse activations but is not susceptible to zero gradients. When trained on 0.1%, 0.5% and 1% of MSCOCO and Conceptual Captions, the proposed model, VisualGPT, surpasses strong image captioning baselines. VisualGPT outperforms the best baseline model by up to 10.8% CIDEr on MS COCO and up to 5.4% CIDEr on Conceptual Captions.We also perform a series of ablation studies to quantify the utility of each system component. To the best of our knowledge, this is the first work that improves data efficiency of image captioning by utilizing LM pretrained on unimodal data. Our code is available at: https://github.com/Vision-CAIR/VisualGPT.
翻訳日:2021-02-23 15:29:32 公開日:2021-02-20
# 対話システムの自動評価に向けて:モデルフリーのオフポリシ評価手法

Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach ( http://arxiv.org/abs/2102.10242v1 )

ライセンス: Link先を確認
Haoming Jiang, Bo Dai, Mengjiao Yang, Wei Wei, Tuo Zhao(参考訳) 対話環境下での対話システムの信頼性の高い自動評価は長らく遅れてきました。 対話システムを評価するための理想的な環境、別名チューリングテストは、通常大規模な実験のために手頃な価格である人間の相互作用を含む必要があります。 研究者は、言語生成タスクやいくつかのモデルに基づく強化学習手法(例えば、自己評価)にメトリクス(例えば、パープレキシティ、BLEU)を自動評価に利用しようとしたが、これらの手法は実際の人間の評価と非常に弱い相関しか示さなかった。 このようなギャップを埋めるために,強化学習におけるオフポリシー評価の最近の進歩に基づいて,人間評価スコアを推定するフレームワークenigmaを提案する。 ENIGMAは、事前に収集された少数の経験データのみを必要とするため、評価中にターゲットポリシーとの人間の相互作用を含まず、自動評価が可能です。 さらに重要なのは、ENIGMAは、複雑な対話環境や人間の振る舞いをモデル化することの技術的困難を著しく軽減する経験データ収集の行動ポリシーに無関係である(第2節の細部を参照)。 実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。

Reliable automatic evaluation of dialogue systems under an interactive environment has long been overdue. An ideal environment for evaluating dialog systems, also known as the Turing test, needs to involve human interaction, which is usually not affordable for large-scale experiments. Though researchers have attempted to use metrics (e.g., perplexity, BLEU) in language generation tasks or some model-based reinforcement learning methods (e.g., self-play evaluation) for automatic evaluation, these methods only show a very weak correlation with the actual human evaluation in practice. To bridge such a gap, we propose a new framework named ENIGMA for estimating human evaluation scores based on recent advances of off-policy evaluation in reinforcement learning. ENIGMA only requires a handful of pre-collected experience data, and therefore does not involve human interaction with the target policy during the evaluation, making automatic evaluations feasible. More importantly, ENIGMA is model-free and agnostic to the behavior policies for collecting the experience data (see details in Section 2), which significantly alleviates the technical difficulties of modeling complex dialogue environments and human behaviors. Our experiments show that ENIGMA significantly outperforms existing methods in terms of correlation with human evaluation scores.
翻訳日:2021-02-23 15:29:05 公開日:2021-02-20
# インド語の効率的なテキスト分類のための注意アンサンブルアプローチ

An Attention Ensemble Approach for Efficient Text Classification of Indian Languages ( http://arxiv.org/abs/2102.10275v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Amey Hengle, Rutuja Udyawar(参考訳) 最近の複雑な注意に基づくディープラーニングアーキテクチャの台頭は、英語における様々な下流のNLPタスクで並外れた結果をもたらしました。 しかし、このような資源制約と形態学的に豊かなインド言語の研究は比較的限られたものとなっている。 本稿では,Devanagariスクリプトベースのインドの言語であるMarathiにおける短文文書の粗粒度の技術的ドメイン識別に焦点を当てた,TechDOfication 2020 subtask-1fに対するSPPU\_AKAHのソリューションを提供する。 大規模なデータセットを用いて、畳み込みニューラルネットワークによって生成された中間文表現と双方向の長期メモリを有能に組み合わせたハイブリッドCNN-BiLSTMアテンションアンサンブルモデルを提案し、効率的なテキスト分類を実現します。 実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57\%,f1スコア0.8875の検証精度が得られた。 さらに、このソリューションは、このサブタスクの最良のシステム提案となり、テスト精度が64.26\%、f1-scoreが0.0157となり、他のチームのパフォーマンスと共有タスクのオーガナイザによって与えられたベースラインシステムを超えた。

The recent surge of complex attention-based deep learning architectures has led to extraordinary results in various downstream NLP tasks in the English language. However, such research for resource-constrained and morphologically rich Indian vernacular languages has been relatively limited. This paper proffers team SPPU\_AKAH's solution for the TechDOfication 2020 subtask-1f: which focuses on the coarse-grained technical domain identification of short text documents in Marathi, a Devanagari script-based Indian language. Availing the large dataset at hand, a hybrid CNN-BiLSTM attention ensemble model is proposed that competently combines the intermediate sentence representations generated by the convolutional neural network and the bidirectional long short-term memory, leading to efficient text classification. Experimental results show that the proposed model outperforms various baseline machine learning and deep learning models in the given task, giving the best validation accuracy of 89.57\% and f1-score of 0.8875. Furthermore, the solution resulted in the best system submission for this subtask, giving a test accuracy of 64.26\% and f1-score of 0.6157, transcending the performances of other teams as well as the baseline system given by the organizers of the shared task.
翻訳日:2021-02-23 15:28:26 公開日:2021-02-20
# 因果政策の勾配

Causal Policy Gradients ( http://arxiv.org/abs/2102.10362v1 )

ライセンス: Link先を確認
Thomas Spooner, Nelson Vadori, Sumitra Ganesh(参考訳) ポリシー勾配法は複雑なタスクを解決できるが、アクション空間や客観的な多重性の次元が大きくなると失敗することが多い。 これは、スコアベースの勾配推定器のばらつきが目標数と2次的にスケールするためである。 本稿では,新たな行動目標影響ネットワークで符号化された独立構造を利用する因果ベースラインを提案する。 主要な最先端のアルゴリズムを分析するための共通のフレームワークを提供する因果的政策勾配(CPG)は、伝統的な政策勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。 提案した推定値の分析を行い、ばらつきの改善が保証される条件を特定します。 CPGのアルゴリズム的側面についても論じられ、最適政策因数分解、その複雑さ、非常に大きな並行タスクに効率的にスケールするための条件付けの使用などが議論されている。 このアルゴリズムの2つの変種の性能上の利点は,大規模バンディットとコンカレント在庫管理の問題で実証された。

Policy gradient methods can solve complex tasks but often fail when the dimensionality of the action-space or objective multiplicity grow very large. This occurs, in part, because the variance on score-based gradient estimators scales quadratically with the number of targets. In this paper, we propose a causal baseline which exploits independence structure encoded in a novel action-target influence network. Causal policy gradients (CPGs), which follow, provide a common framework for analysing key state-of-the-art algorithms, are shown to generalise traditional policy gradients, and yield a principled way of incorporating prior knowledge of a problem domain's generative processes. We provide an analysis of the proposed estimator and identify the conditions under which variance is guaranteed to improve. The algorithmic aspects of CPGs are also discussed, including optimal policy factorisations, their complexity, and the use of conditioning to efficiently scale to extremely large, concurrent tasks. The performance advantages for two variants of the algorithm are demonstrated on large-scale bandit and concurrent inventory management problems.
翻訳日:2021-02-23 15:27:27 公開日:2021-02-20
# モデル診断メタラーニングにおける高速対比ロバストネス適応について

On Fast Adversarial Robustness Adaptation in Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2102.10454v1 )

ライセンス: Link先を確認
Ren Wang, Kaidi Xu, Sijia Liu, Pin-Yu Chen, Tsui-Wei Weng, Chuang Gan, Meng Wang(参考訳) モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。 モデルパラメータ(メタモデルと呼ぶ)のメタ初期化を学習し、少量のラベル付きトレーニングデータを使用して新しいタスクに迅速に適応することができます。 メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。 一般化に加えて、敵の例(攻撃)を守るメタモデルにもロバスト性が望まれる。 本研究は,MAMLが2段階(微調整とメタ更新)の学習手順を採用することを踏まえ,まず,WHENに頑健な正規化を取り入れるべきであることを考察する。 メタ更新段階のロバスト化は,タスク固有の微調整段階に適合するロバスト性を実現するのに十分であることを示す。 また、ニューロンの活性化マップの解釈可能性を調べることにより、獲得したロバスト性適応をさらに正当化する。 さらに、MAMLで効率的に設計できる堅牢な正規化について検討します。 本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。 特に、我々は初めて、補助コントラスト学習タスクがMMLの敵対的堅牢性を高めることができることを示しています。 最後に,頑健な数発学習における提案手法の有効性を実証するために,広範な実験を行った。

Model-agnostic meta-learning (MAML) has emerged as one of the most successful meta-learning techniques in few-shot learning. It enables us to learn a meta-initialization} of model parameters (that we call meta-model) to rapidly adapt to new tasks using a small amount of labeled training data. Despite the generalization power of the meta-model, it remains elusive that how adversarial robustness can be maintained by MAML in few-shot learning. In addition to generalization, robustness is also desired for a meta-model to defend adversarial examples (attacks). Toward promoting adversarial robustness in MAML, we first study WHEN a robustness-promoting regularization should be incorporated, given the fact that MAML adopts a bi-level (fine-tuning vs. meta-update) learning procedure. We show that robustifying the meta-update stage is sufficient to make robustness adapted to the task-specific fine-tuning stage even if the latter uses a standard training protocol. We also make additional justification on the acquired robustness adaptation by peering into the interpretability of neurons' activation maps. Furthermore, we investigate HOW robust regularization can efficiently be designed in MAML. We propose a general but easily-optimized robustness-regularized meta-learning framework, which allows the use of unlabeled data augmentation, fast adversarial attack generation, and computationally-light fine-tuning. In particular, we for the first time show that the auxiliary contrastive learning task can enhance the adversarial robustness of MAML. Finally, extensive experiments are conducted to demonstrate the effectiveness of our proposed methods in robust few-shot learning.
翻訳日:2021-02-23 15:26:11 公開日:2021-02-20
# ドキュメント・レベル関係抽出のための心的依存のモデル化

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction ( http://arxiv.org/abs/2102.10249v1 )

ライセンス: Link先を確認
Benfeng Xu, Quan Wang, Yajuan Lyu, Yong Zhu, Zhendong Mao(参考訳) 関係抽出タスクの必須要素としての実体は、特定の構造を示す。 本研究では,言及対間の特異な依存性のような構造を定式化する。 次に,これらの構造的依存関係を標準自己保持機構と全符号化段階に組み込んだSSANを提案する。 具体的には,注意の流れを適応的に定式化するために,各自着型ビルディングブロック内に2つの代替変換モジュールを設計し,注意バイアスを生成する。 本実験では,提案された実体構造の有用性およびSSANの有効性を示す。 競争ベースラインを大きく上回り、3つの人気のある文書レベルの関係抽出データセットで新たな最先端結果を達成する。 さらに,エンティティ構造がモデルをどのように導くかを示すために,アブレーションと可視化を提供する。 コードは公開されています。

Entities, as the essential elements in relation extraction tasks, exhibit certain structure. In this work, we formulate such structure as distinctive dependencies between mention pairs. We then propose SSAN, which incorporates these structural dependencies within the standard self-attention mechanism and throughout the overall encoding stage. Specifically, we design two alternative transformation modules inside each self-attention building block to produce attentive biases so as to adaptively regularize its attention flow. Our experiments demonstrate the usefulness of the proposed entity structure and the effectiveness of SSAN. It significantly outperforms competitive baselines, achieving new state-of-the-art results on three popular document-level relation extraction datasets. We further provide ablation and visualization to show how the entity structure guides the model for better relation extraction. Our code is publicly available.
翻訳日:2021-02-23 15:23:45 公開日:2021-02-20
# NUBOT: ローマ・ウルドゥー語でセマンティックなインテント応答を生成するためのRASAフレームワークを組み込んだ知識グラフ

NUBOT: Embedded Knowledge Graph With RASA Framework for Generating Semantic Intents Responses in Roman Urdu ( http://arxiv.org/abs/2102.10410v1 )

ライセンス: Link先を確認
Johar Shabbir, Muhammad Umair Arshad, Waseem Shahzad(参考訳) 人間の言語の理解は、意図と実体を特定することによって定量化される。 ラベル付き情報に依存する分類手法は、言語理解の理解によく用いられるが、高い広義の教師付きデータセットを生成するのに非常に時間がかかり、面倒なプロセスである。 本稿では,対応するローマ・ウルドゥ非構造化データの正確なインテントの生成と,このコーパスをrasa nluモジュールに統合してインテント分類を行う。 RASA Frameworkにナレッジグラフを組み込んで、チャットボット通信のセマンティックベースの自然言語メカニズムのダイアログ履歴を維持します。 既存の言語システムとセマンティック技術を組み合わせた研究結果を比較します。 インテント生成の最小精度は64%であり、応答生成部では最小精度は82.1%、最大精度は96.7%である。 すべてのスコアは、かつて要約された各インテントのログ精度、リコール、f1測度を指します。 さらに、どの意図があいまいにアプローチによって認識されるかを表す混乱行列を作成する。

The understanding of the human language is quantified by identifying intents and entities. Even though classification methods that rely on labeled information are often used for the comprehension of language understanding, it is incredibly time consuming and tedious process to generate high propensity supervised datasets. In this paper, we present the generation of accurate intents for the corresponding Roman Urdu unstructured data and integrate this corpus in RASA NLU module for intent classification. We embed knowledge graph with RASA Framework to maintain the dialog history for semantic based natural language mechanism for chatbot communication. We compare results of our work with existing linguistic systems combined with semantic technologies. Minimum accuracy of intents generation is 64 percent of confidence and in the response generation part minimum accuracy is 82.1 percent and maximum accuracy gain is 96.7 percent. All the scores refers to log precision, recall, and f1 measure for each intents once summarized for all. Furthermore, it creates a confusion matrix represents that which intents are ambiguously recognized by approach.
翻訳日:2021-02-23 15:23:31 公開日:2021-02-20
# 小児のMycoplasma Pneumoniae pneumoniaの人工知能による迅速かつ効率的な診断

Artificial Intelligence Enhanced Rapid and Efficient Diagnosis of Mycoplasma Pneumoniae Pneumonia in Children Patients ( http://arxiv.org/abs/2102.10284v1 )

ライセンス: Link先を確認
Chenglin Pan, Kuan Yan, Xiao Liu, Yanjie Chen, Yanyan Luo, Xiaoming Li, Zhenguo Nie, Xinjun Liu(参考訳) 人工知能の手法は、病気の診断と管理において潜在的に強力なツールになりつつある。 本研究では, 小児患者において, ロジスティック回帰(LR), 決定木(DT), グラジエントブースト決定木(GBDT), サポートベクターマシン(SVM), 多層パーセプトロン(MLP)を機械学習モデルとして利用し, マイコプラズマ肺炎(MPP)を迅速に診断した。 mppデータセットに前処理手順を適用して分類処理を行った。 最も効率的な結果はGBDTによって得られる。 93.7%の精度で最高の性能を提供します。 標準の生の機能重み付けとは対照的に、特徴の重要性は特徴の基本的な相関構造を考慮に入れます。 GBDTの最も重要な特徴は、0.5925のスコアを持つ「肺浸潤範囲」であり、「cough」(0.0953)と「pleural effusion」(0.0492)が続く。 データセットとトレーニングモデルの完全な実装をhttps://github.com/zhenguonie/2021_ai4mppで公開しています。

Artificial intelligence methods have been increasingly turning into a potentially powerful tool in the diagnosis and management of diseases. In this study, we utilized logistic regression (LR), decision tree (DT), gradient boosted decision tree (GBDT), support vector machine (SVM), and multilayer perceptron (MLP) as machine learning models to rapidly diagnose the mycoplasma pneumoniae pneumonia (MPP) in children patients. The classification task was carried out after applying the preprocessing procedure to the MPP dataset. The most efficient results are obtained by GBDT. It provides the best performance with an accuracy of 93.7%. In contrast to standard raw feature weighting, the feature importance takes the underlying correlation structure of the features into account. The most crucial feature of GBDT is the "pulmonary infiltrates range" with a score of 0.5925, followed by "cough" (0.0953) and "pleural effusion" (0.0492). We publicly share our full implementation with the dataset and trained models at https://github.com/zhenguonie/2021_AI4MPP.
翻訳日:2021-02-23 15:19:41 公開日:2021-02-20
# 強化学習における一般化の価値と政策の分離

Decoupling Value and Policy for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2102.10330v1 )

ライセンス: Link先を確認
Roberta Raileanu, Rob Fergus(参考訳) 標準深層強化学習アルゴリズムは、ポリシーと値関数の共有表現を使用する。 しかし, 最適方針を学習するよりも, 価値関数を正確に推定するためには, より多くの情報が必要である。 したがって、ポリシーと値関数に対する共有表現の使用は、過度に適合する可能性がある。 この問題を解決するために、IDAACを作成するために結合された2つのアプローチを提案します。 まず、IDAACはポリシーと値関数の最適化を分離し、個別のネットワークを使ってモデル化する。 第二に、環境のタスク関連プロパティに不変であるように表現を奨励する補助損失を導入する。 IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。 さらに、IDAACは、環境の基本的な状態を変えない観察の美的変化に対してより堅牢な表現、価値予測、ポリシーを学びます。

Standard deep reinforcement learning algorithms use a shared representation for the policy and value function. However, we argue that more information is needed to accurately estimate the value function than to learn the optimal policy. Consequently, the use of a shared representation for the policy and value function can lead to overfitting. To alleviate this problem, we propose two approaches which are combined to create IDAAC: Invariant Decoupled Advantage Actor-Critic. First, IDAAC decouples the optimization of the policy and value function, using separate networks to model them. Second, it introduces an auxiliary loss which encourages the representation to be invariant to task-irrelevant properties of the environment. IDAAC shows good generalization to unseen environments, achieving a new state-of-the-art on the Procgen benchmark and outperforming popular methods on DeepMind Control tasks with distractors. Moreover, IDAAC learns representations, value predictions, and policies that are more robust to aesthetic changes in the observations that do not change the underlying state of the environment.
翻訳日:2021-02-23 15:19:21 公開日:2021-02-20
# CDA: コスト効率の高いコンテンツベースの多言語Webドキュメントアグリゲーナ

CDA: a Cost Efficient Content-based Multilingual Web Document Aligner ( http://arxiv.org/abs/2102.10246v1 )

ライセンス: Link先を確認
Thuy Vu and Alessandro Moschitti(参考訳) 産業レベルで動作する機械翻訳(mt)システムの並列学習データを作成する際に,コンテンツに基づく多言語web文書のアライメントを効率的に行うためのcda(content-based document alignment approach)を提案する。 CDAは2つのステップで機能する: (i) Webドメインのドキュメントを共有多言語空間に投影し、 (ii) それらの表現の類似性に基づいてそれらを整列する。 我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。 CDAは、多言語空間で動作しながら、WMT-16バイリンガル文書アライメント共有タスクベンチマークにおける最先端システムに匹敵する性能を達成する。 さらに、28の言語と数百万のドキュメントを含む産業環境でcdaの堅牢性を調べるために、2つのwebスケールデータセットを作成しました。 実験によれば、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。

We introduce a Content-based Document Alignment approach (CDA), an efficient method to align multilingual web documents based on content in creating parallel training data for machine translation (MT) systems operating at the industrial level. CDA works in two steps: (i) projecting documents of a web domain to a shared multilingual space; then (ii) aligning them based on the similarity of their representations in such space. We leverage lexical translation models to build vector representations using TF-IDF. CDA achieves performance comparable with state-of-the-art systems in the WMT-16 Bilingual Document Alignment Shared Task benchmark while operating in multilingual space. Besides, we created two web-scale datasets to examine the robustness of CDA in an industrial setting involving up to 28 languages and millions of documents. The experiments show that CDA is robust, cost-effective, and is significantly superior in (i) processing large and noisy web data and (ii) scaling to new and low-resourced languages.
翻訳日:2021-02-23 15:17:30 公開日:2021-02-20
# 多変量時系列分類のための弾性類似性尺度

Elastic Similarity Measures for Multivariate Time Series Classification ( http://arxiv.org/abs/2102.10231v1 )

ライセンス: Link先を確認
Ahmed Shifaz, Charlotte Pelletier, Francois Petitjean, Geoffrey I. Webb(参考訳) 弾性類似度測定は、時系列データで動作するように特別に設計された類似度測定のクラスです。 2つの時系列の類似性をスコアすると、タイムスタンプに一致しない点を並べることができる。 これは時系列データの時間軸におけるミスアライメントや、変化と異なるペースで進行する類似のプロセスに補償することができる。 弾性類似度測定は、時系列データを使用する際に、分類、クラスタリング、外れ値検出などの機械学習タスクで広く使用される。 様々な単変量弾性類似度尺度に関する数多くの研究がある。 しかし、よく知られたDynamic Time Warping(DTW)の多変量バージョンを除いて、多変量ケースの他の類似度尺度を一般化する作業は不足している。 本稿では,多変量 DTW における2つの既存の戦略,すなわち Independent と Dependent DTW を,いくつかの一般的な弾性類似度尺度に適応する。 東アングリア大学(uea)の多変量アーカイブ(multivariate archive)の23のデータセットを用いて、各指標が少なくとも1つのデータセットで他のすべての指標よりも優れており、すべての尺度の従属バージョンが独立した尺度よりも正確であるか、あるいはその逆であることを示す。 後者の発見は、これらの違いがデータの基本的な特性から生じることを示唆している。 また,このような最寄りの分類器のアンサンブルが,他の最先端の多変量時系列分類器と高い競合性を示す。

Elastic similarity measures are a class of similarity measures specifically designed to work with time series data. When scoring the similarity between two time series, they allow points that do not correspond in timestamps to be aligned. This can compensate for misalignments in the time axis of time series data, and for similar processes that proceed at variable and differing paces. Elastic similarity measures are widely used in machine learning tasks such as classification, clustering and outlier detection when using time series data. There is a multitude of research on various univariate elastic similarity measures. However, except for multivariate versions of the well known Dynamic Time Warping (DTW) there is a lack of work to generalise other similarity measures for multivariate cases. This paper adapts two existing strategies used in multivariate DTW, namely, Independent and Dependent DTW, to several commonly used elastic similarity measures. Using 23 datasets from the University of East Anglia (UEA) multivariate archive, for nearest neighbour classification, we demonstrate that each measure outperforms all others on at least one dataset and that there are datasets for which either the dependent versions of all measures are more accurate than their independent counterparts or vice versa. This latter finding suggests that these differences arise from a fundamental property of the data. We also show that an ensemble of such nearest neighbour classifiers is highly competitive with other state-of-the-art multivariate time series classifiers.
翻訳日:2021-02-23 15:16:14 公開日:2021-02-20
# Rademacher複雑性によるグラフ畳み込みニューラルネットワークの一般化境界

Generalization bounds for graph convolutional neural networks via Rademacher complexity ( http://arxiv.org/abs/2102.10234v1 )

ライセンス: Link先を確認
Shaogao Lv(参考訳) 本論文では,単一の隠れ層を持つGCNモデルに対して,Rademacherの複雑性の高い上限を提供することにより,グラフ畳み込みネットワーク(GCN)のサンプル複雑性を検討する。 正則性条件下では、これらの複雑性境界はグラフ畳み込みフィルタの最大固有値とグラフの次数分布に明示的に依存する。 繰り返しますが、GCNが派生した上界の最適性を示すために、Rademacherの複雑さの低い境界を提供します。 代表的な例として,グラフ畳み込みフィルタをグラフ分布として設計する際の結果の影響について考察する。

This paper aims at studying the sample complexity of graph convolutional networks (GCNs), by providing tight upper bounds of Rademacher complexity for GCN models with a single hidden layer. Under regularity conditions, theses derived complexity bounds explicitly depend on the largest eigenvalue of graph convolution filter and the degree distribution of the graph. Again, we provide a lower bound of Rademacher complexity for GCNs to show optimality of our derived upper bounds. Taking two commonly used examples as representatives, we discuss the implications of our results in designing graph convolution filters an graph distribution.
翻訳日:2021-02-23 15:15:52 公開日:2021-02-20
# ntreeclus: カテゴリ系列をクラスタリングするツリーベースのシーケンスエンコーダ

nTreeClus: a Tree-based Sequence Encoder for Clustering Categorical Series ( http://arxiv.org/abs/2102.10252v1 )

ライセンス: Link先を確認
Hadi Jahanshahi and Mustafa Gokce Baydogan(参考訳) 多様な領域におけるカテゴリ/シーケンスデータの圧倒的存在は、シーケンスマイニングの重要性を強調している。 シーケンスの困難な性質は、(dis)類似性をよりよく理解するより正確で高速なアプローチを見つけるために、研究を続ける必要性を証明している。 本稿では,nTreeClusというクラスタリングシーケンスデータに対するモデルに基づく新しいアプローチを提案する。 提案手法では,木に基づく学習者,k-mer,自動回帰モデルを分類時系列に展開し,分類系列の数値表現を新たに行う。 この新しい表現を採用することで、分類的時系列に固有のパターンを考慮し、シーケンスをクラスタ化する。 したがって、モデルはパラメータに堅牢性を示した。 異なるシミュレートシナリオの下で、nTreeClusは、それぞれ10.7%と2.7%の様々な内部および外部クラスタ検証メトリクスのベースラインメソッドを改善した。 合成および実際のデータセット、タンパク質配列、カテゴリー時系列を用いた経験的評価は、nTreeClusが最先端のアルゴリズムよりも競合的あるいは優れていることを示した。

The overwhelming presence of categorical/sequential data in diverse domains emphasizes the importance of sequence mining. The challenging nature of sequences proves the need for continuing research to find a more accurate and faster approach providing a better understanding of their (dis)similarities. This paper proposes a new Model-based approach for clustering sequence data, namely nTreeClus. The proposed method deploys Tree-based Learners, k-mers, and autoregressive models for categorical time series, culminating with a novel numerical representation of the categorical sequences. Adopting this new representation, we cluster sequences, considering the inherent patterns in categorical time series. Accordingly, the model showed robustness to its parameter. Under different simulated scenarios, nTreeClus improved the baseline methods for various internal and external cluster validation metrics for up to 10.7% and 2.7%, respectively. The empirical evaluation using synthetic and real datasets, protein sequences, and categorical time series showed that nTreeClus is competitive or superior to most state-of-the-art algorithms.
翻訳日:2021-02-23 15:15:40 公開日:2021-02-20
# Retrain or not retrain: Conformal test martingales for change-point detection

Retrain or not retrain: Conformal test martingales for change-point detection ( http://arxiv.org/abs/2102.10439v1 )

ライセンス: Link先を確認
Vladimir Vovk, Ivan Petej, Ilia Nouretdinov, Ernst Ahlberg, Lars Carlsson, and Alex Gammerman(参考訳) 我々は,データ分布とアルゴリズムの再学習が必要なタイミングを検出するためのスキームを設定することで,予測アルゴリズムの学習過程を補うことを主張する。 私たちの提案するスキームは、交換可能なマーチンゲール、すなわちデータの交換可能な分配の下でマーチンゲールであるプロセスに基づいています。 本手法は, 共形予測に基づく手法が一般的であり, 現代の予測アルゴリズムでも適用可能である。 その妥当性は保証されており,本稿ではその効率性を探るための第一歩を踏み出す。

We argue for supplementing the process of training a prediction algorithm by setting up a scheme for detecting the moment when the distribution of the data changes and the algorithm needs to be retrained. Our proposed schemes are based on exchangeability martingales, i.e., processes that are martingales under any exchangeable distribution for the data. Our method, based on conformal prediction, is general and can be applied on top of any modern prediction algorithm. Its validity is guaranteed, and in this paper we make first steps in exploring its efficiency.
翻訳日:2021-02-23 15:15:23 公開日:2021-02-20
# GroupifyVAE:グループベースの定義からVAEベースのUnsupervised Representation Disentanglementへ

GroupifyVAE: from Group-based Definition to VAE-based Unsupervised Representation Disentanglement ( http://arxiv.org/abs/2102.10303v1 )

ライセンス: Link先を確認
Tao Yang, Xuanchi Ren, Yuwang Wang, Wenjun Zeng, Nanning Zheng, Pengju Ren(参考訳) 最先端のVAEベースの非監視表現解束法の鍵となるアイデアは、潜在変数分布の総相関を最小化することである。 しかし、他の誘導バイアスを導入しないと、VAEベースの非監視的束縛は達成できないことが証明されている。 本稿では,グループ理論に基づく定義から導かれる制約を非確率的帰納的バイアスとして活用し,vaeに基づく教師なし不連続性に対処する。 より具体的には、n番目の二面体群(正規多角形の置換群)に触発され、その定義の特定の形式を提案し、その2つの等価な条件を証明した:同型と「置換の定数」である。 さらに, 2 つの群制約(交換可能性に対する abel 制約と巡回性の順序制約)に基づく同型の実装も提供する。 次に、これらを、グループ理論に基づく定義からギャップを埋めるために、VAEベースのモデルに組み込むことができる自己指導型トレーニング損失に変換する。 提案手法の有効性を検証するために,5つのデータセット上で,vaeベースモデルが最も目立つ1800モデルをトレーニングした。 元のモデルと比較して、Groupidied VAEは一貫して小さなばらつきでより良い平均性能を達成し、意味のある寸法を制御可能にします。

The key idea of the state-of-the-art VAE-based unsupervised representation disentanglement methods is to minimize the total correlation of the latent variable distributions. However, it has been proved that VAE-based unsupervised disentanglement can not be achieved without introducing other inductive bias. In this paper, we address VAE-based unsupervised disentanglement by leveraging the constraints derived from the Group Theory based definition as the non-probabilistic inductive bias. More specifically, inspired by the nth dihedral group (the permutation group for regular polygons), we propose a specific form of the definition and prove its two equivalent conditions: isomorphism and "the constancy of permutations". We further provide an implementation of isomorphism based on two Group constraints: the Abel constraint for the exchangeability and Order constraint for the cyclicity. We then convert them into a self-supervised training loss that can be incorporated into VAE-based models to bridge their gaps from the Group Theory based definition. We train 1800 models covering the most prominent VAE-based models on five datasets to verify the effectiveness of our method. Compared to the original models, the Groupidied VAEs consistently achieve better mean performance with smaller variances, and make meaningful dimensions controllable.
翻訳日:2021-02-23 15:13:54 公開日:2021-02-20
# ニューラルネットワークサブスペースの学習

Learning Neural Network Subspaces ( http://arxiv.org/abs/2102.10472v1 )

ライセンス: Link先を確認
Mitchell Wortsman, Maxwell Horton, Carlos Guestrin, Ali Farhadi, Mohammad Rastegari(参考訳) 近年の観察により、ニューラルネットワーク最適化の展望の理解が深まり、(1)多様な解を含む高精度経路の存在、(2)性能向上のためのより広いミニマの存在が明らかになった。 様々な経路を観察する従来の方法は、複数の訓練を必要とする。 対照的に、私たちはプロパティ(1)と(2)の両方を単一の方法と単一のトレーニング実行で活用することを目指しています。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 これらのニューラルネットワークサブスペースは、アンサンブル可能な多様なソリューションを含み、トレーニングコストなしで独立してトレーニングされたネットワークのアンサンブルパフォーマンスにアプローチする。 さらに、サブスペースミドルポイントを使用することで、精度、キャリブレーション、ロバスト性が向上し、Stochastic Weight Averagingよりも優れる。

Recent observations have advanced our understanding of the neural network optimization landscape, revealing the existence of (1) paths of high accuracy containing diverse solutions and (2) wider minima offering improved performance. Previous methods observing diverse paths require multiple training runs. In contrast we aim to leverage both property (1) and (2) with a single method and in a single training run. With a similar computational cost as training one model, we learn lines, curves, and simplexes of high-accuracy neural networks. These neural network subspaces contain diverse solutions that can be ensembled, approaching the ensemble performance of independently trained networks without the training cost. Moreover, using the subspace midpoint boosts accuracy, calibration, and robustness to label noise, outperforming Stochastic Weight Averaging.
翻訳日:2021-02-23 15:13:31 公開日:2021-02-20
# Trumpets:推論と逆問題のためのインジェクティブフロー

Trumpets: Injective Flows for Inference and Inverse Problems ( http://arxiv.org/abs/2102.10461v1 )

ライセンス: Link先を確認
Konik Kothari, AmirEhsan Khorashadizadeh, Maarten de Hoop, Ivan Dokmani\'c(参考訳) 非可逆正規化フローを一般化するTrumpetsと呼ばれる注射生成モデルを提案する。 提案する生成器は低次元の潜在空間から徐々に次元を増加させる。 我々は,トランペットを標準流よりも桁違いに訓練でき,同等あるいは優れた音質のサンプルが得られることを実証する。 最大可能性に基づくトレーニングや発電機の高速で正確な逆流など、標準フローの利点の多くを保持しています。 トランペットは射出性があり、高速な逆数を持つため、下流のベイズ推論に効果的に使用できる。 ここでは, 圧縮計測による画像再構成の文脈において, 最大後部推定にTrumpetプレジデントを用い, 再現品質と速度の点で, 競争ベースラインを上回った。 そこで我々は,低次元潜在空間を生かして,Trumpetを用いた後部評価と不確実性定量化の効率的な方法を提案する。

We propose injective generative models called Trumpets that generalize invertible normalizing flows. The proposed generators progressively increase dimension from a low-dimensional latent space. We demonstrate that Trumpets can be trained orders of magnitudes faster than standard flows while yielding samples of comparable or better quality. They retain many of the advantages of the standard flows such as training based on maximum likelihood and a fast, exact inverse of the generator. Since Trumpets are injective and have fast inverses, they can be effectively used for downstream Bayesian inference. To wit, we use Trumpet priors for maximum a posteriori estimation in the context of image reconstruction from compressive measurements, outperforming competitive baselines in terms of reconstruction quality and speed. We then propose an efficient method for posterior characterization and uncertainty quantification with Trumpets by taking advantage of the low-dimensional latent space.
翻訳日:2021-02-23 15:11:56 公開日:2021-02-20
# 特徴量に基づく動的価格設定における対数回帰

Logarithmic Regret in Feature-based Dynamic Pricing ( http://arxiv.org/abs/2102.10221v1 )

ライセンス: Link先を確認
Jianyu Xu and Yu-xiang Wang (Computer Science Department, UC Santa Barbara)(参考訳) 機能ベースの動的価格設定は、デジタルマーケティング、オンライン販売、不動産など、高度に差別化された製品の価格設定のモデルとして人気が高まっている。 この問題は、オンライン学習の問題として公式に研究され(Cohen et al., 2016; Javanmard & Nazerzadeh, 2019)、売り手は、最高の -- "万能" -- に対して小さな後悔をしながらも、その機能に基づいた一連のT$製品に対して、すぐに価格を提示する必要がある。 この問題を再検討し,確率的特徴設定と敵対的特徴設定のための2つのアルゴリズム(emlpとonsp)を提供し,両者に対して最適な$o(d\log{t})$ regretboundsを証明する。 比較すると、最良の既存の結果は $O\left(\min\left\{\frac{1}{\lambda_{\min}^2}\log{T}, \sqrt{T}\right\}\right)$ と $O(T^{2/3})$ であり、$\lambda_{\min}$ は $\mathbb{E}[xx^T]$ の最小固有値であり、$0$ に任意に近づくことができる。 また、より一般的な設定では、$\Omega(\sqrt{T})$ information-theoretic lower bound を証明し、"knowing-the-demand-curve" が機能ベースの動的価格を指数関数的に改善することを示した。

Feature-based dynamic pricing is an increasingly popular model of setting prices for highly differentiated products with applications in digital marketing, online sales, real estate and so on. The problem was formally studied as an online learning problem (Cohen et al., 2016; Javanmard & Nazerzadeh, 2019) where a seller needs to propose prices on the fly for a sequence of $T$ products based on their features $x$ while having a small regret relative to the best -- "omniscient" -- pricing strategy she could have come up with in hindsight. We revisit this problem and provide two algorithms (EMLP and ONSP) for stochastic and adversarial feature settings, respectively, and prove the optimal $O(d\log{T})$ regret bounds for both. In comparison, the best existing results are $O\left(\min\left\{\frac{1}{\lambda_{\min}^2}\log{T}, \sqrt{T}\right\}\right)$ and $O(T^{2/3})$ respectively, with $\lambda_{\min}$ being the smallest eigenvalue of $\mathbb{E}[xx^T]$ that could be arbitrarily close to $0$. We also prove an $\Omega(\sqrt{T})$ information-theoretic lower bound for a slightly more general setting, which demonstrates that "knowing-the-demand-curve" leads to an exponential improvement in feature-based dynamic pricing.
翻訳日:2021-02-23 15:10:51 公開日:2021-02-20
# ALMA: クラスタリング混合多層ネットワークのための交代最小化アルゴリズム

ALMA: Alternating Minimization Algorithm for Clustering Mixture Multilayer Network ( http://arxiv.org/abs/2102.10226v1 )

ライセンス: Link先を確認
Xing Fan, Marianna Pensky, Feng Yu, Teng Zhang(参考訳) 本論文では,Mixture Multilayer Stochastic Block Model (MMLSBM) について検討し,各グループのネットワークには異なるStochastic Block Model が設けられている。 目標は、多層ネットワークを同様のレイヤのクラスタに分割し、それらのレイヤ内のコミュニティを特定することだ。 Jing et al。 (2020)はMMLSBMを導入し、正規化テンソル分解に基づくクラスタリング手法TWISTを開発した。 本論文では, 層分割の同時回復を目的とした交互最小化アルゴリズム (ALMA) と, 異なる層間の接続確率の行列を推定する手法を提案する。 TWISTと比較して、ALMAは理論上も数値上も高い精度を達成する。

The paper considers a Mixture Multilayer Stochastic Block Model (MMLSBM), where layers can be partitioned into groups of similar networks, and networks in each group are equipped with a distinct Stochastic Block Model. The goal is to partition the multilayer network into clusters of similar layers, and to identify communities in those layers. Jing et al. (2020) introduced the MMLSBM and developed a clustering methodology, TWIST, based on regularized tensor decomposition. The present paper proposes a different technique, an alternating minimization algorithm (ALMA), that aims at simultaneous recovery of the layer partition, together with estimation of the matrices of connection probabilities of the distinct layers. Compared to TWIST, ALMA achieves higher accuracy both theoretically and numerically.
翻訳日:2021-02-23 15:10:19 公開日:2021-02-20
# 多クラス分類問題に対する階層の誘導

Inducing a hierarchy for multi-class classification problems ( http://arxiv.org/abs/2102.10263v1 )

ライセンス: Link先を確認
Hayden S. Helm, Weiwei Yang, Sujeeth Bharadwaj, Kate Lytvynets, Oriana Riva, Christopher White, Ali Geisa, Carey E. Priebe(参考訳) 分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。 残念ながら、分類データセットの大部分は、階層構造と古典的なフラット分類器を事前に装備していない。 本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。 メソッドのクラスは、条件分布を最初にクラスタリングし、次に誘導階層を持つ階層型分類器を使用する構造に従う。 原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。

In applications where categorical labels follow a natural hierarchy, classification methods that exploit the label structure often outperform those that do not. Un-fortunately, the majority of classification datasets do not come pre-equipped with a hierarchical structure and classical flat classifiers must be employed. In this paper, we investigate a class of methods that induce a hierarchy that can similarly improve classification performance over flat classifiers. The class of methods follows the structure of first clustering the conditional distributions and subsequently using a hierarchical classifier with the induced hierarchy. We demonstrate the effectiveness of the class of methods both for discovering a latent hierarchy and for improving accuracy in principled simulation settings and three real data applications.
翻訳日:2021-02-23 15:10:08 公開日:2021-02-20
# 深いガウスニューラルネットのための大幅機能的漸近

Large-width functional asymptotics for deep Gaussian neural networks ( http://arxiv.org/abs/2102.10307v1 )

ライセンス: Link先を確認
Daniele Bracale, Stefano Favaro, Sandra Fortini, Stefano Peluchetti(参考訳) 本稿では,重みとバイアスが独立かつガウス分布に等しく分布する完全連結型フィードフォワード深層ニューラルネットワークについて検討する。 以前の結果(Matthews et al., 2018a;b; Yang, 2019)を拡張するために、関数空間の視点を採用している。 ニューラルネットワークを入力空間 $\mathbb{r}^i$ 上の無限次元ランダム要素として捉える。 i) 入力空間上の連続ガウス過程を定義する: $\mathbb{R}^I$; ii) 再スケールした重みを持つネットワークは、大幅極限における連続ガウス過程に弱収束する; iii) 制限ガウス過程は、ほぼ確実に局所的に$\gamma$-H\"older連続経路を持ち、$0 < \gamma <1$である。 この結果は, 関数空間における弱収束性を確立することにより, 無限大の深層ニューラルネットワークとガウス過程の相互作用に関する最近の理論的研究に寄与する。

In this paper, we consider fully connected feed-forward deep neural networks where weights and biases are independent and identically distributed according to Gaussian distributions. Extending previous results (Matthews et al., 2018a;b; Yang, 2019) we adopt a function-space perspective, i.e. we look at neural networks as infinite-dimensional random elements on the input space $\mathbb{R}^I$. Under suitable assumptions on the activation function we show that: i) a network defines a continuous Gaussian process on the input space $\mathbb{R}^I$; ii) a network with re-scaled weights converges weakly to a continuous Gaussian process in the large-width limit; iii) the limiting Gaussian process has almost surely locally $\gamma$-H\"older continuous paths, for $0 < \gamma <1$. Our results contribute to recent theoretical studies on the interplay between infinitely wide deep neural networks and Gaussian processes by establishing weak convergence in function-space with respect to a stronger metric.
翻訳日:2021-02-23 15:09:59 公開日:2021-02-20
# Webからの自動トレーニングデータ選択による機械翻訳のカスタマイズ

Machine Translation Customization via Automatic Training Data Selection from the Web ( http://arxiv.org/abs/2102.10243v1 )

ライセンス: Link先を確認
Thuy Vu and Alessandro Moschitti(参考訳) 特に産業環境向けに設計された機械翻訳(MT)システムは、Webから派生した一般的な並列データで訓練されます。 したがって、それらのスタイルは一般に、多くのドメインの平均から来る単語/構造分布によって駆動される。 対照的に、mtの顧客は翻訳を自分のドメインに特化したいと考えており、テキストサンプルを提供するのが一般的である。 対象の顧客データに類似したデータを選択して神経翻訳モデルを訓練することにより、特定のドメインでMTシステムをカスタマイズするアプローチについて説明します。 ユーザが提供するモノリンガルなターゲットデータを用いて文書分類器を構築し,Webクローリングデータから並列トレーニングデータを選択する。 最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。 我々は、WMT-18翻訳タスクから、最新のMTシステムとの比較を可能にするベンチマークで、我々のアプローチを検証した。 その結果、データが少なくて小さいモデルを使用して、私たちのモデルはトップシステムよりも優れています。

Machine translation (MT) systems, especially when designed for an industrial setting, are trained with general parallel data derived from the Web. Thus, their style is typically driven by word/structure distribution coming from the average of many domains. In contrast, MT customers want translations to be specialized to their domain, for which they are typically able to provide text samples. We describe an approach for customizing MT systems on specific domains by selecting data similar to the target customer data to train neural translation models. We build document classifiers using monolingual target data, e.g., provided by the customers to select parallel training data from Web crawled data. Finally, we train MT models on our automatically selected data, obtaining a system specialized to the target domain. We tested our approach on the benchmark from WMT-18 Translation Task for News domains enabling comparisons with state-of-the-art MT systems. The results show that our models outperform the top systems while using less data and smaller models.
翻訳日:2021-02-23 15:06:12 公開日:2021-02-20
# 自動翻訳データによる多言語回答文の再評価

Multilingual Answer Sentence Reranking via Automatically Translated Data ( http://arxiv.org/abs/2102.10250v1 )

ライセンス: Link先を確認
Thuy Vu and Alessandro Moschitti(参考訳) 本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。 主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。 i) 対象言語に翻訳されたAS2のトレーニングデータは、その言語のためのトランスフォーマーベースモデルを効果的に微調整することができる; (ii) 複数言語での回答をランク付けするのに十分な1つの多言語トランスフォーマーモデル; (iii) 混合言語質問/回答ペアは、入力質問が1つの言語にある任意の言語から答えを選択するために、微調整モデルに使用できる。 これは多言語QAシステムの複雑さと技術的要求を著しく低減する。 実験では, 現状の英語モデルに関して, わずか3%の減少率を示し, 上述の知見を検証した。

We present a study on the design of multilingual Answer Sentence Selection (AS2) models, which are a core component of modern Question Answering (QA) systems. The main idea is to transfer data, created from one resource rich language, e.g., English, to other languages, less rich in terms of resources. The main findings of this paper are: (i) the training data for AS2 translated into a target language can be used to effectively fine-tune a Transformer-based model for that language; (ii) one multilingual Transformer model it is enough to rank answers in multiple languages; and (iii) mixed-language question/answer pairs can be used to fine-tune models to select answers from any language, where the input question is just in one language. This highly reduces the complexity and technical requirement of a multilingual QA system. Our experiments validate the findings above, showing a modest drop, at most 3%, with respect to the state-of-the-art English model.
翻訳日:2021-02-23 15:05:57 公開日:2021-02-20
# スキャンドファイナンシャル文書画像からの表検出と表データ抽出のためのディープ構造化機能ネットワーク

Deep Structured Feature Networks for Table Detection and Tabular Data Extraction from Scanned Financial Document Images ( http://arxiv.org/abs/2102.10287v1 )

ライセンス: Link先を確認
Siwen Luo, Mengting Wu, Yiwen Gong, Wanying Zhou, Josiah Poon(参考訳) pdf文書の自動テーブル検出は大きな成功を収めているが、検出されたテーブル領域の整合性とノイズ問題のために、表データ抽出は依然として困難である。 正確なデータ抽出は金融分野で極めて重要である。 このことから着想を得た本研究の目的は,財務用pdf文書からテーブルの自動検出と表データ抽出を提案することである。 本稿では,各ページ画像に特徴ピラミッドネットワーク(fpn)を付加した高速なr-cnnモデルによるテーブル領域の検出,光学的文字認識(ocr)に基づく複合レイアウトセグメンテーション手法によるコンテンツと構造抽出,テーブルヘッダ分離のための正規表現規則の定式化という,3つの主要なプロセスからなる手法を提案する。 表型データ抽出機能には、高度にスケーラブルなルールベースのフィルタリングと再構成機能が組み込まれている。 実験用のテーブル領域を備えた新たなFinancial Documentsデータセットをアノテートする。 提案したデータセットから,検出モデルの卓越したテーブル検出性能を得た。 本論文の主な貢献は,テーブル領域アノテーションを用いた財務文書データセットの提案,優れた検出モデル,pdfファイルからの表データ抽出のための規則に基づくレイアウト分割手法である。

Automatic table detection in PDF documents has achieved a great success but tabular data extraction are still challenging due to the integrity and noise issues in detected table areas. The accurate data extraction is extremely crucial in finance area. Inspired by this, the aim of this research is proposing an automated table detection and tabular data extraction from financial PDF documents. We proposed a method that consists of three main processes, which are detecting table areas with a Faster R-CNN (Region-based Convolutional Neural Network) model with Feature Pyramid Network (FPN) on each page image, extracting contents and structures by a compounded layout segmentation technique based on optical character recognition (OCR) and formulating regular expression rules for table header separation. The tabular data extraction feature is embedded with rule-based filtering and restructuring functions that are highly scalable. We annotate a new Financial Documents dataset with table regions for the experiment. The excellent table detection performance of the detection model is obtained from our customized dataset. The main contributions of this paper are proposing the Financial Documents dataset with table-area annotations, the superior detection model and the rule-based layout segmentation technique for the tabular data extraction from PDF files.
翻訳日:2021-02-23 15:05:37 公開日:2021-02-20
# クラスディスカッションにおける文脈引数成分分類

Contextual Argument Component Classification for Class Discussions ( http://arxiv.org/abs/2102.10290v1 )

ライセンス: Link先を確認
Luca Lugini, Diane Litman(参考訳) argument mining system はしばしば文脈情報、すなわち、文脈情報を考える。 引数成分の識別、分類、および関係抽出などのタスクを達成するために訓練されたとき、議論対話ユニット外の情報。 しかし、先行研究は文脈認識モデルにおける異なる文脈特性の有用性を慎重に分析していない。 本研究では,2種類の文脈情報(局所会話コンテキストと話者コンテキスト)を,マルチパーティの教室ディスカッションにおける引数コンポーネントを分類するための計算モデルに組み込む方法を示す。 いずれのコンテキストタイプもパフォーマンスを改善することができるが、改善はコンテキストサイズと位置に依存している。

Argument mining systems often consider contextual information, i.e. information outside of an argumentative discourse unit, when trained to accomplish tasks such as argument component identification, classification, and relation extraction. However, prior work has not carefully analyzed the utility of different contextual properties in context-aware models. In this work, we show how two different types of contextual information, local discourse context and speaker context, can be incorporated into a computational model for classifying argument components in multi-party classroom discussions. We find that both context types can improve performance, although the improvements are dependent on context size and position.
翻訳日:2021-02-23 15:05:14 公開日:2021-02-20
# ディスカッショントラッカ : 高等学校における生徒の協調的議論に関する教師の学習支援

Discussion Tracker: Supporting Teacher Learning about Students' Collaborative Argumentation in High School Classrooms ( http://arxiv.org/abs/2102.10293v1 )

ライセンス: Link先を確認
Luca Lugini, Christopher Olshefski, Ravneet Singh, Diane Litman, Amanda Godley(参考訳) 協力的な議論は、多くのK-12教師が開発に苦労する高度なスキルです。 そこで我々は,議論の移動,具体性,コラボレーションを分類する新しいアルゴリズムに基づく教室ディスカッション分析システムであるディスカッショントラッカーを開発した。 教室の配置の結果、教師は分析が役に立ち、下位の分類器は中程度から実質的な人間との合意で機能することがわかった。

Teaching collaborative argumentation is an advanced skill that many K-12 teachers struggle to develop. To address this, we have developed Discussion Tracker, a classroom discussion analytics system based on novel algorithms for classifying argument moves, specificity, and collaboration. Results from a classroom deployment indicate that teachers found the analytics useful, and that the underlying classifiers perform with moderate to substantial agreement with humans.
翻訳日:2021-02-23 15:05:04 公開日:2021-02-20
# 機械翻訳におけるコンテキストの使用の理解と強化

Understanding and Enhancing the Use of Context for Machine Translation ( http://arxiv.org/abs/2102.10437v1 )

ライセンス: Link先を確認
Marzieh Fadaee(参考訳) 言語の意味を理解し推論するには、ニューラルネットワークは複雑なニュアンスを学ぶ必要がある。 データから独特の言語現象を発見するのは容易ではない。 例えば、語彙の曖昧さは、学習が難しい言語の基本的な特徴である。 さらに顕著に、まれで目に見えない語彙単位の意味を推測することは、ニューラルネットワークでは困難である。 意味はしばしば文脈から決定される。 文脈では、使用する特定の単語が読み手によって知られていない場合でも、言語は意味を伝えることができる。 この学習プロセスをモデル化するには、システムはコンテキストのいくつかのインスタンスから学習し、見当たらないケースにうまく一般化する必要がある。 トレーニングデータが不足している場合には、学習プロセスが妨げられる。 十分なデータであっても、語彙分布の長い尾の学習パターンは困難である。 本論文では,ニューラルモデルにおけるコンテキストの特定の可能性の理解と,それらから利益を得るための拡張モデルの設計に焦点をあてる。 我々は、より一般的な言語理解問題の重要な例として機械翻訳に焦点を当てている。 ソース言語からターゲット言語へ翻訳するには、与えられたコンテキストにおける構成要素の意味を理解し、ターゲット言語で同じ意味を持つ構成要素を生成する必要があります。 このタスクは、言語のニュアンスを捉える価値と、少数の観察から一般化の必要性を強調します。 この論文で私たちが研究する主な問題は、ニューラルネットワーク翻訳モデルがデータから何を学習するか、そしてこの学習を強化するためにより集中したコンテキストをいかに考案できるかである。 NLP分野を進めるためには、コンテキストの役割と学習モデルに対するデータの影響をより深く検討することが不可欠です。 さらに、現在のニューラルネットワークの脆弱性を強調し、より堅牢なモデルの設計に関する洞察を提供する。

To understand and infer meaning in language, neural models have to learn complicated nuances. Discovering distinctive linguistic phenomena from data is not an easy task. For instance, lexical ambiguity is a fundamental feature of language which is challenging to learn. Even more prominently, inferring the meaning of rare and unseen lexical units is difficult with neural networks. Meaning is often determined from context. With context, languages allow meaning to be conveyed even when the specific words used are not known by the reader. To model this learning process, a system has to learn from a few instances in context and be able to generalize well to unseen cases. The learning process is hindered when training data is scarce for a task. Even with sufficient data, learning patterns for the long tail of the lexical distribution is challenging. In this thesis, we focus on understanding certain potentials of contexts in neural models and design augmentation models to benefit from them. We focus on machine translation as an important instance of the more general language understanding problem. To translate from a source language to a target language, a neural model has to understand the meaning of constituents in the provided context and generate constituents with the same meanings in the target language. This task accentuates the value of capturing nuances of language and the necessity of generalization from few observations. The main problem we study in this thesis is what neural machine translation models learn from data and how we can devise more focused contexts to enhance this learning. Looking more in-depth into the role of context and the impact of data on learning models is essential to advance the NLP field. Moreover, it helps highlight the vulnerabilities of current neural networks and provides insights into designing more robust models.
翻訳日:2021-02-23 15:04:55 公開日:2021-02-20
# ゲームメカニックアライメント理論と発見

Game Mechanic Alignment Theory and Discovery ( http://arxiv.org/abs/2102.10247v1 )

ライセンス: Link先を確認
Michael Cerny Green, Ahmed Khalifa, Philip Bontrager, Rodrigo Canaan and Julian Togelius(参考訳) 環境報酬のレンズと内在的プレイヤーモチベーションを用いてゲーム力学を組織化する方法として,ゲーム機械アライメント理論という新しい概念を提案する。 プレイヤーと環境の影響を遠ざけることで、メカニックは特定のプレイスタイルやプレイヤーのチュートリアルを調整できる自動チュートリアル生成システムでの使用のためによりよく識別される。 この理論をいくつかの有名なゲームに応用し、デザイナーのメリットを実証し、メカニックアライメントの推定方法の方法論を説明し、この方法論をGVGAIフレームワークの複数のゲームに適用します。 この推定が本質的/外因的報酬をいかに効果的に獲得するか、チュートリアル生成のための重要なメカニックディスカバリー方法の代替として私たちの理論を使用できるかについて論じる。

We present a new concept called Game Mechanic Alignment theory as a way to organize game mechanics through the lens of environmental rewards and intrinsic player motivations. By disentangling player and environmental influences, mechanics may be better identified for use in an automated tutorial generation system, which could tailor tutorials for a particular playstyle or player. Within, we apply this theory to several well-known games to demonstrate how designers can benefit from it, we describe a methodology for how to estimate mechanic alignment, and we apply this methodology on multiple games in the GVGAI framework. We discuss how effectively this estimation captures intrinsic/extrinsic rewards and how our theory could be used as an alternative to critical mechanic discovery methods for tutorial generation.
翻訳日:2021-02-23 15:03:36 公開日:2021-02-20
# スケーラブル画像分類のためのハードアテンション

Hard-Attention for Scalable Image Classification ( http://arxiv.org/abs/2102.10212v1 )

ライセンス: Link先を確認
Athanasios Papadopoulos, Pawe{\l} Korus, Nasir Memon(参考訳) ディープニューラルネットワーク(DNN)は通常、特定の入力解像度(例えば、)に最適化される。 224 \times 224$ px) と高解像度(衛星や医療画像など)の入力への採用は、過度の計算とメモリオーバーヘッドにつながるため、依然として困難であり、かなりのエンジニアリング作業(ストリーミングなど)が必要になる。 マルチスケールハードアテンションは,この問題に対して有効な解決法であることを示す。 TNetは、画像ピラミッドをトップダウンで横断し、途中で最も有益な地域だけを訪問する新しいアーキテクチャを提案します。 当社のモデルは、強力なハードアテンションベースラインと比較し、ImageNet上でのリソースと精度のトレードオフを改善する。 さらに、896 \times 896 $ pxまでのサイズの衛星画像(fMoWデータセット)に対するモデルの有効性を検証します。 さらに、我々のハードアテンションメカニズムは、推論以上のコストなしで、ある程度の解釈可能性で予測を保証する。 また,バウンディングボックスを使わずに画像レベルラベルのみを使用して,高分解能コンテンツのごく一部しか利用できないため,データ取得やアノテーションコストの削減も可能であることを示した。

Deep neural networks (DNNs) are typically optimized for a specific input resolution (e.g. $224 \times 224$ px) and their adoption to inputs of higher resolution (e.g., satellite or medical images) remains challenging, as it leads to excessive computation and memory overhead, and may require substantial engineering effort (e.g., streaming). We show that multi-scale hard-attention can be an effective solution to this problem. We propose a novel architecture, TNet, which traverses an image pyramid in a top-down fashion, visiting only the most informative regions along the way. We compare our model against strong hard-attention baselines, achieving a better trade-off between resources and accuracy on ImageNet. We further verify the efficacy of our model on satellite images (fMoW dataset) of size up to $896 \times 896$ px. In addition, our hard-attention mechanism guarantees predictions with a degree of interpretability, without extra cost beyond inference. We also show that we can reduce data acquisition and annotation cost, since our model attends only to a fraction of the highest resolution content, while using only image-level labels without bounding boxes.
翻訳日:2021-02-23 15:01:32 公開日:2021-02-20
# ニューラルアーキテクチャトランスフォーマによる精度とコンパクト化に向けて

Towards Accurate and Compact Architectures via Neural Architecture Transformer ( http://arxiv.org/abs/2102.10301v1 )

ライセンス: Link先を確認
Yong Guo, Yin Zheng, Mingkui Tan, Qi Chen, Zhipeng Li, Jian Chen, Peilin Zhao, Junzhou Huang(参考訳) 効率的なアーキテクチャを設計することは、ディープニューラルネットワークの成功の鍵となる要素のひとつだ。 既存のディープアーキテクチャは、いくつかのneural architecture search (nas)メソッドによって手動で設計または自動的に検索される。 しかし、よく設計された/検索されたアーキテクチャでさえ、多くの無意味または冗長なモジュール/操作を含む可能性がある。 したがって、計算コストを増すことなく性能を向上させるために、アーキテクチャ内の操作を最適化する必要がある。 この目的のために我々は、最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案し、冗長な演算をスキップやヌル接続などのより効率的な演算に置き換えようとしている。 NATは少数の遷移しか考慮しないので、検索/遷移スペースが限られていることに注意してください。 その結果、このような小さな探索空間は、アーキテクチャ最適化の性能を損なう可能性がある。 この問題に対処するために、アーキテクチャ最適化の性能向上のために、候補遷移の集合をさらに拡大するNeural Architecture Transformer++ (NAT++) 手法を提案する。 具体的には、より効率的な型(畳み込み->分離可能な畳み込み)やより小さなカーネルサイズ(例えば5x5->3x3)を持つように、有効なトランジションを得るための2段階のトランジションルールを提案する。 異なる操作は異なる有効な遷移を持つ可能性があることに注意。 さらに、無効な遷移を省略するBinary-Masked Softmax(BMSoftmax)層を提案する。 いくつかのベンチマークデータセットに関する広範な実験は、変換されたアーキテクチャが元のアーキテクチャと既存のメソッドによって最適化されたアーキテクチャの両方を大幅に上回ることを示している。

Designing effective architectures is one of the key factors behind the success of deep neural networks. Existing deep architectures are either manually designed or automatically searched by some Neural Architecture Search (NAS) methods. However, even a well-designed/searched architecture may still contain many nonsignificant or redundant modules/operations. Thus, it is necessary to optimize the operations inside an architecture to improve the performance without introducing extra computational cost. To this end, we have proposed a Neural Architecture Transformer (NAT) method which casts the optimization problem into a Markov Decision Process (MDP) and seeks to replace the redundant operations with more efficient operations, such as skip or null connection. Note that NAT only considers a small number of possible transitions and thus comes with a limited search/transition space. As a result, such a small search space may hamper the performance of architecture optimization. To address this issue, we propose a Neural Architecture Transformer++ (NAT++) method which further enlarges the set of candidate transitions to improve the performance of architecture optimization. Specifically, we present a two-level transition rule to obtain valid transitions, i.e., allowing operations to have more efficient types (e.g., convolution->separable convolution) or smaller kernel sizes (e.g., 5x5->3x3). Note that different operations may have different valid transitions. We further propose a Binary-Masked Softmax (BMSoftmax) layer to omit the possible invalid transitions. Extensive experiments on several benchmark datasets show that the transformed architecture significantly outperforms both its original counterpart and the architectures optimized by existing methods.
翻訳日:2021-02-23 15:01:14 公開日:2021-02-20
# マルチスクリプト識別のためのディープニューラルネットワークの知識蒸留の探索

Exploring Knowledge Distillation of a Deep Neural Network for Multi-Script identification ( http://arxiv.org/abs/2102.10335v1 )

ライセンス: Link先を確認
Shuvayan Ghosh Dastidar, Kalpita Dutta, Nibaran Das, Mahantapas Kundu and Mita Nasipuri(参考訳) 多言語スクリプト識別は、シーンテキスト画像に複雑な背景を持つ異なる言語からなる難しいタスクである。 現在の研究シナリオによると、深層ニューラルネットワークは教師モデルとして採用され、教師モデルの予測を利用してより小さな学生ネットワークを訓練する。 このプロセスはダークナレッジ転送と呼ばれます。 学生ネットワークを単純なアーキテクチャで直接訓練することで得られた最終的な成果が達成できない多くの領域で成功している。 本論文では, 短時間メモリ (LSTM) と CNN ベースのアシスタントモデルを用いたダークナレッジ転送手法と, 教師モデルとしての様々なディープニューラルネットワークを, CNN ベースの学生ネットワークを用いて, 自然シーンのテキスト画像からのマルチスクリプト識別の領域で検討する。 異なる教師モデルのパフォーマンスと,その知識を学生ネットワークに伝達する能力について検討する。 小規模な学生ネットワークのサイズは限られているが,本手法はよく知られたスクリプト識別データセットCVSI-2015において良好な結果が得られる。

Multi-lingual script identification is a difficult task consisting of different language with complex backgrounds in scene text images. According to the current research scenario, deep neural networks are employed as teacher models to train a smaller student network by utilizing the teacher model's predictions. This process is known as dark knowledge transfer. It has been quite successful in many domains where the final result obtained is unachievable through directly training the student network with a simple architecture. In this paper, we explore dark knowledge transfer approach using long short-term memory(LSTM) and CNN based assistant model and various deep neural networks as the teacher model, with a simple CNN based student network, in this domain of multi-script identification from natural scene text images. We explore the performance of different teacher models and their ability to transfer knowledge to a student network. Although the small student network's limited size, our approach obtains satisfactory results on a well-known script identification dataset CVSI-2015.
翻訳日:2021-02-23 15:00:50 公開日:2021-02-20
# 画像分割のためのニューラルネットワークのクラスアンバランスによるオーバーフィッティング解析

Analyzing Overfitting under Class Imbalance in Neural Networks for Image Segmentation ( http://arxiv.org/abs/2102.10365v1 )

ライセンス: Link先を確認
Zeju Li, Konstantinos Kamnitsas, Ben Glocker(参考訳) クラス不均衡は偏りのない正確な予測モデルを開発する上で課題となる。 特に、イメージセグメンテーションニューラルネットワークは、トレーニングセットでしばしば過小評価される小さな構造から得られた前景のサンプルに過度に適合し、一般化が不十分になる可能性がある。 本研究では,ネットワークの動作を検査することにより,クラス不均衡下でのオーバーフィッティング問題に対する新たな知見を提供する。 限られたデータと強いクラス不均衡によるトレーニングでは、テスト時にロジットアクティベーションの分布が決定境界を越えてシフトする可能性があるが、よく表現されたクラスのサンプルは影響を受けない。 このバイアスは、小さな構造の体系的なアンダーセグメンテーションにつながる。 この現象は、さまざまなデータベース、タスク、ネットワークアーキテクチャで一貫して観測される。 この問題に対処するために,本研究では,人気の損失関数の非対称な新しい変種と,非表示クラスのロジットシフトに対応するために明示的に設計された,大きなマージン損失,焦点損失,敵対的トレーニング,ミックスアップ,データ拡張を含む正則化手法を導入する。 いくつかの挑戦的なセグメンテーションタスクで広範な実験が行われます。 その結果,提案する目的関数の修正は,ベースラインや代替手法と比較して,セグメント化精度が著しく向上する可能性が示唆された。

Class imbalance poses a challenge for developing unbiased, accurate predictive models. In particular, in image segmentation neural networks may overfit to the foreground samples from small structures, which are often heavily under-represented in the training set, leading to poor generalization. In this study, we provide new insights on the problem of overfitting under class imbalance by inspecting the network behavior. We find empirically that when training with limited data and strong class imbalance, at test time the distribution of logit activations may shift across the decision boundary, while samples of the well-represented class seem unaffected. This bias leads to a systematic under-segmentation of small structures. This phenomenon is consistently observed for different databases, tasks and network architectures. To tackle this problem, we introduce new asymmetric variants of popular loss functions and regularization techniques including a large margin loss, focal loss, adversarial training, mixup and data augmentation, which are explicitly designed to counter logit shift of the under-represented classes. Extensive experiments are conducted on several challenging segmentation tasks. Our results demonstrate that the proposed modifications to the objective function can lead to significantly improved segmentation accuracy compared to baselines and alternative approaches.
翻訳日:2021-02-23 15:00:34 公開日:2021-02-20
# CellTrack R-CNN:顕微鏡画像のセルセグメンテーションと追跡のための新しいエンドツーエンドディープニューラルネットワーク

CellTrack R-CNN: A Novel End-To-End Deep Neural Network for Cell Segmentation and Tracking in Microscopy Images ( http://arxiv.org/abs/2102.10377v1 )

ライセンス: Link先を確認
Yuqian Chen, Yang Song, Chaoyi Zhang, Fan Zhang, Lauren O'Donnell, Wojciech Chrzanowski, Weidong Cai(参考訳) 顕微鏡画像における細胞セグメンテーションと追跡は、生物学と医学の新しい発見に非常に重要である。 本研究では,セルセグメンテーションとセルトラッキングを,現在のインスタンスセグメンテーションパイプラインでセル検出とセグメンテーションを行い,Siamese Networkとパイプラインを統合することでセルトラッキングを実現する,統一されたエンドツーエンドのディープラーニングベースのフレームワークに結合する新しいアプローチを提案する。 また、ネットワークに空間情報を取り入れ、空間予測と視覚予測を融合させ、トラッキング性能を向上させます。 提案手法は,DeepCellベンチマークデータセットを用いて評価した。 単純かつ効率的であるにもかかわらず,本手法はセルセグメンテーションとセル追跡アキュラシーの両面で最先端アルゴリズムよりも優れている。

Cell segmentation and tracking in microscopy images are of great significance to new discoveries in biology and medicine. In this study, we propose a novel approach to combine cell segmentation and cell tracking into a unified end-to-end deep learning based framework, where cell detection and segmentation are performed with a current instance segmentation pipeline and cell tracking is implemented by integrating Siamese Network with the pipeline. Besides, tracking performance is improved by incorporating spatial information into the network and fusing spatial and visual prediction. Our approach was evaluated on the DeepCell benchmark dataset. Despite being simple and efficient, our method outperforms state-of-the-art algorithms in terms of both cell segmentation and cell tracking accuracies.
翻訳日:2021-02-23 15:00:13 公開日:2021-02-20
# 行動認識のためのマルチトランスフォーメーション分類による自己監督学習

Self-Supervised Learning via multi-Transformation Classification for Action Recognition ( http://arxiv.org/abs/2102.10378v1 )

ライセンス: Link先を確認
Duc Quang Vu, Ngan T.H.Le and Jia-Ching Wang(参考訳) 自己監視されたタスクは、アノテーションが利用できない場合に下流のタスクで使用できる有用な表現を構築するために利用されている。 本稿では,マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を提案し,人間の行動を効率的に分類する。 さまざまな変換に関する自己監督学習は、よりリッチなコンテキスト情報を提供するだけでなく、視覚表現を変換に対してより堅牢にします。 ビデオの時空間的表現は、7つの異なる変換を分類することで自己監督的に学習される。 回転、クリップ反転、置換、分割、結合変換、カラースイッチ、フレーム交換、ノイズ追加。 まず、7つの異なる動画変換をビデオクリップに適用する。 次に、3次元畳み込みニューラルネットワークを用いてクリップの特徴を抽出し、これらの特徴を処理して擬似ラベルを分類する。 学習したモデルを事前学習されたモデルとして使用し、下流のタスクで人間の行動を認識するために微調整します。 C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。 実験結果は、提案されたフレームワークが他のSOTA自己監視アクション認識アプローチよりも優れていることを示した。 コードは公開される予定だ。

Self-supervised tasks have been utilized to build useful representations that can be used in downstream tasks when the annotation is unavailable. In this paper, we introduce a self-supervised video representation learning method based on the multi-transformation classification to efficiently classify human actions. Self-supervised learning on various transformations not only provides richer contextual information but also enables the visual representation more robust to the transforms. The spatio-temporal representation of the video is learned in a self-supervised manner by classifying seven different transformations i.e. rotation, clip inversion, permutation, split, join transformation, color switch, frame replacement, noise addition. First, seven different video transformations are applied to video clips. Then the 3D convolutional neural networks are utilized to extract features for clips and these features are processed to classify the pseudo-labels. We use the learned models in pretext tasks as the pre-trained models and fine-tune them to recognize human actions in the downstream task. We have conducted the experiments on UCF101 and HMDB51 datasets together with C3D and 3D Resnet-18 as backbone networks. The experimental results have shown that our proposed framework is outperformed other SOTA self-supervised action recognition approaches. The code will be made publicly available.
翻訳日:2021-02-23 14:59:58 公開日:2021-02-20
# カリキュラム学習による教師なし医用画像アライメント

Unsupervised Medical Image Alignment with Curriculum Learning ( http://arxiv.org/abs/2102.10438v1 )

ライセンス: Link先を確認
Mihail Burduja, Radu Tudor Ionescu(参考訳) 変形可能な3次元医用画像登録作業において、畳み込みニューラルネットワークを訓練するための異なるカリキュラム学習方法を検討する。 我々の知識を最大限に活用するため,我々は,第1訓練段階における簡単なトレーニングセットアップから始めて,カリキュラム学習を用いて医用画像登録モデルをトレーニングし,徐々にセットアップの複雑さを高めることで,パフォーマンスの向上を試みている。 一方、カリキュラムのドロップアウトとスムージングによるカリキュラムの2つの既存のカリキュラム学習アプローチを検討します。 一方,本論文では,初回から故意にぼやけた画像を使い,後回しの訓練段階に徐々にシャープな画像に移行していくという,新鮮で簡単なカリキュラム作成手法を提案する。 基礎となる最先端のディープラーニングモデルを用いた実験により,カリキュラム学習が従来の学習よりも優れた結果をもたらすことを示す。

We explore different curriculum learning methods for training convolutional neural networks on the task of deformable pairwise 3D medical image registration. To the best of our knowledge, we are the first to attempt to improve performance by training medical image registration models using curriculum learning, starting from an easy training setup in the first training stages, and gradually increasing the complexity of the setup. On the one hand, we consider two existing curriculum learning approaches, namely curriculum dropout and curriculum by smoothing. On the other hand, we propose a novel and simple strategy to achieve curriculum, namely to use purposely blurred images at the beginning, then gradually transit to sharper images in the later training stages. Our experiments with an underlying state-of-the-art deep learning model show that curriculum learning can lead to superior results compared to conventional training.
翻訳日:2021-02-23 14:59:40 公開日:2021-02-20
# リンク予測のための永続性ホモロジー:インタラクティブな視点

Persistence Homology for Link Prediction: An Interactive View ( http://arxiv.org/abs/2102.10255v1 )

ライセンス: Link先を確認
Zuoyu Yan, Tengfei Ma, Liangcai Gao, Zhi Tang, Chao Chen(参考訳) リンク予測は、グラフ構造データにとって重要な学習タスクです。 本稿では,2つのノード間の相互作用を特徴付ける新しいトポロジカルアプローチを提案する。 我々の位相的特徴は、拡張永続ホモロジーに基づき、ノードを接続するマルチホップパスに関する豊富な構造情報を符号化する。 そこで本研究では,様々なベンチマークにおける最先端技術を上回るグラフニューラルネットワーク手法を提案する。 別の貢献として、グラフの拡張持続図をより効率的に計算する新しいアルゴリズムを提案する。 このアルゴリズムは、グラフ学習タスクの他の多くのトポロジカルな方法を加速するために一般的に適用することができる。

Link prediction is an important learning task for graph-structured data. In this paper, we propose a novel topological approach to characterize interactions between two nodes. Our topological feature, based on the extended persistence homology, encodes rich structural information regarding the multi-hop paths connecting nodes. Based on this feature, we propose a graph neural network method that outperforms state-of-the-arts on different benchmarks. As another contribution, we propose a novel algorithm to more efficiently compute the extended persistent diagrams for graphs. This algorithm can be generally applied to accelerate many other topological methods for graph learning tasks.
翻訳日:2021-02-23 14:53:29 公開日:2021-02-20
# タスク推論を用いたメタラーニングダイナミクス予測

Meta-Learning Dynamics Forecasting Using Task Inference ( http://arxiv.org/abs/2102.10271v1 )

ライセンス: Link先を確認
Rui Wang, Robin Walters, Rose Yu(参考訳) 一般化と闘うダイナミクス予測のための現在のディープラーニングモデル。 それらは特定のドメイン内でのみ予測でき、異なるパラメータ、外部力、境界条件を持つシステムに適用されると失敗する。 本稿では,異なるタスクを持つ異なるサブドメインに分割することで,異種ドメインをまたがる汎用化を可能にする,dyadと呼ばれるモデルベースのメタ学習手法を提案する。 DyAdには、ドメイン全体の共有ダイナミクスを学習する予測ネットワークと、タスクのパラメータを推論するエンコーダの2つの部分がある。 エンコーダは、適応インスタンス正規化と境界条件専用に設計された新しい層であるadapadを用いて、推論時間中に予測ネットワークを適応させる。 エンコーダはまた、異なるタスクを区別し、追加のドメイン知識を組み込むのに役立つ弱い監視信号を使用することもできる。 我々のモデルは、乱流と実世界の海洋データ予測のタスクにおいて、様々な最先端のアプローチより優れています。

Current deep learning models for dynamics forecasting struggle with generalization. They can only forecast in a specific domain and fail when applied to systems with different parameters, external forces, or boundary conditions. We propose a model-based meta-learning method called DyAd which can generalize across heterogeneous domains by partitioning them into separate subdomains, each with a different task. DyAd has two parts: a prediction network which learns the shared dynamics of the entire domain, and an encoder that infers the parameters of the task. The encoder adapts the prediction network during inference time using adaptive instance normalization and a new layer, AdaPad, specifically designed for boundary conditions. The encoder can also use any weak supervision signals that can help distinguish different tasks, allowing the incorporation of additional domain knowledge. Our model outperforms a variety of state-of-the-art approaches on both turbulent flow and real-world ocean data forecasting tasks.
翻訳日:2021-02-23 14:53:20 公開日:2021-02-20
# キャリブレーションと領域外一般化について

On Calibration and Out-of-domain Generalization ( http://arxiv.org/abs/2102.10395v1 )

ライセンス: Link先を確認
Yoav Wald, Amir Feder, Daniel Greenfeld, Uri Shalit(参考訳) ドメイン外(OOD)一般化は機械学習モデルにとって重要な課題である。 これを解決するために、多くの新しい手法が提案され、しばしば特定の不変性を持つ学習モデルに焦点を当てている。 本研究では、OOD性能とモデルキャリブレーションのリンクを描き、複数のドメインにわたるキャリブレーションは、OOD一般化の改善につながる不変表現の特別なケースと見なすことができると主張している。 具体的には,マルチドメインキャリブレーションを実現するモデルにスプリアス相関がないことを単純化した。 これにより、分類器のOOD性能の測定可能なサロゲートとしてマルチドメインキャリブレーションを提案する。 校正の重要な実用上の利点は、分類器の校正に有効なツールが多数存在することである。 これらのツールは、マルチドメイン設定に簡単に適用および適応できることを示します。 最近提案されたWILDS OODベンチマークの5つのデータセットを使用して、バリデーションセットで複数のドメインにまたがるモデルを再調整するだけで、目に見えないテストドメインのパフォーマンスが大幅に向上することを示した。 キャリブレーションとOOD一般化のこの興味深い関係は、実用的な観点から有望であり、理論的観点からさらに研究する価値があると考えています。

Out-of-domain (OOD) generalization is a significant challenge for machine learning models. To overcome it, many novel techniques have been proposed, often focused on learning models with certain invariance properties. In this work, we draw a link between OOD performance and model calibration, arguing that calibration across multiple domains can be viewed as a special case of an invariant representation leading to better OOD generalization. Specifically, we prove in a simplified setting that models which achieve multi-domain calibration are free of spurious correlations. This leads us to propose multi-domain calibration as a measurable surrogate for the OOD performance of a classifier. An important practical benefit of calibration is that there are many effective tools for calibrating classifiers. We show that these tools are easy to apply and adapt for a multi-domain setting. Using five datasets from the recently proposed WILDS OOD benchmark we demonstrate that simply re-calibrating models across multiple domains in a validation set leads to significantly improved performance on unseen test domains. We believe this intriguing connection between calibration and OOD generalization is promising from a practical point of view and deserves further research from a theoretical point of view.
翻訳日:2021-02-23 14:53:04 公開日:2021-02-20
# GLAM:グラフニューラルネットワークのためのラベル付きノードへの親和性モデルによるグラフ学習

GLAM: Graph Learning by Modeling Affinity to Labeled Nodes for Graph Neural Networks ( http://arxiv.org/abs/2102.10403v1 )

ライセンス: Link先を確認
Vijay Lingam, Arun Iyer, Rahul Ragesh(参考訳) グラフニューラルネットワークは、半教師付き分類タスクにおいて優れたパフォーマンスを示した。 しかし、実際には利用できないグラフへのアクセスを前提としている。 グラフがない場合、与えられたデータからk-Nearest Neighbor (kNN)グラフを構築することで、他の半教師付き手法よりもGNNを使用する場合の改善が示されている。 本稿では,利用可能なグラフがない場合の半教師付きグラフ学習手法を提案する。 教師なしkNNグラフと教師付きラベル親和性グラフの凸結合としてグラフを学習する。 ラベル親和性グラフは、ラベル付きノードとの全てのノードのラベル親和性を直接キャプチャする。 この親和性測定は、指標が特徴空間の近さを測定するkNNグラフと対比する。 私たちの実験では、このアプローチは最先端のグラフ学習手法よりもシンプルで(最大1.5%)、トレーニングが(最大70倍)簡単で、パフォーマンスが向上することを示唆している。 また、個々のコンポーネントの重要性を強調し、最先端の手法と対比するため、いくつかの実験も行います。

Graph Neural Networks have shown excellent performance on semi-supervised classification tasks. However, they assume access to a graph that may not be often available in practice. In the absence of any graph, constructing k-Nearest Neighbor (kNN) graphs from the given data have shown to give improvements when used with GNNs over other semi-supervised methods. This paper proposes a semi-supervised graph learning method for cases when there are no graphs available. This method learns a graph as a convex combination of the unsupervised kNN graph and a supervised label-affinity graph. The label-affinity graph directly captures all the nodes' label-affinity with the labeled nodes, i.e., how likely a node has the same label as the labeled nodes. This affinity measure contrasts with the kNN graph where the metric measures closeness in the feature space. Our experiments suggest that this approach gives close to or better performance (up to 1.5%), while being simpler and faster (up to 70x) to train, than state-of-the-art graph learning methods. We also conduct several experiments to highlight the importance of individual components and contrast them with state-of-the-art methods.
翻訳日:2021-02-23 14:52:44 公開日:2021-02-20
# Interventional Sum-Product Networks: Tractable Probabilistic Modelsによる因果推論

Interventional Sum-Product Networks: Causal Inference with Tractable Probabilistic Models ( http://arxiv.org/abs/2102.10440v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami, Athresh Karanam, Sriraam Natarajan and Kristian Kersting(参考訳) 確率モデルは因果関係を研究する上で重要なツールであるが、推論の難しさに苦しむ。 トラクタブル因果モデルへの一歩として,ゲート関数(例えばニューラルネットワーク)によってオーバーパラメータ化される総積ネットワーク(SPN)を用いて介入分布を学習する問題を検討する。 任意に介入した因果グラフを入力とし、パールのdo-operatorを効果的に仮定すると、ゲート関数はSPNのパラメータを予測する。 結果として生じる介入SPNは、個人の健康をテーマとした構造因果モデルによって動機づけられ、図示される。 3つのベンチマークデータセットと合成健康データセットに関する経験的評価は、介入SPNがモデリングにおいて表現力があり、介入に適応するのに柔軟であることを明確に示しています。

While probabilistic models are an important tool for studying causality, doing so suffers from the intractability of inference. As a step towards tractable causal models, we consider the problem of learning interventional distributions using sum-product net-works (SPNs) that are over-parameterized by gate functions, e.g., neural networks. Providing an arbitrarily intervened causal graph as input, effectively subsuming Pearl's do-operator, the gate function predicts the parameters of the SPN. The resulting interventional SPNs are motivated and illustrated by a structural causal model themed around personal health. Our empirical evaluation on three benchmark data sets as well as a synthetic health data set clearly demonstrates that interventional SPNs indeed are both expressive in modelling and flexible in adapting to the interventions.
翻訳日:2021-02-23 14:52:23 公開日:2021-02-20
# 定騒音変動下における確率勾配の収束速度

Convergence Rates of Stochastic Gradient Descent under Infinite Noise Variance ( http://arxiv.org/abs/2102.10346v1 )

ライセンス: Link先を確認
Hongjian Wang, Mert G\"urb\"uzbalaban, Lingjiong Zhu, Umut \c{S}im\c{s}ekli, Murat A. Erdogdu(参考訳) 最近の研究は、さまざまなシナリオで確率勾配降下(SGD)で重い尾が出現できることを示す経験的および理論的証拠の両方を提供してきました。 このような重い尾は、ばらつきを伴う反復を引き起こす可能性があり、2階モーメントの存在に依存する従来の収束解析技術の使用を妨げる。 本稿では,SGDの収束保証を,強い凸対象のクラスに対して,潜在的に無限に分散した状態依存かつ重み付きノイズの下で提供する。 ある種の$p\in [1,2)$ に対して、ノイズの p$-th モーメントが存在する場合、最初に「$p$-positive (semi-)definiteness)」と呼ばれるヘッシアン上の条件を特定し、正の半定義行列 (p=2$) と非負の対角成分 (p=1$) を持つ対角支配行列の間の興味深い補間をもたらす。 この条件の下で、我々は$L^p$でグローバル最適への距離の収束率を提供します。 さらに,多変量 $\alpha$-stable 確率ベクトルに適度にスケールした polyak-ruppert averaging が弱収束することを示す一般化中心極限定理を提案する。 この結果から,SGD は無限にばらつきのある重み付き雑音下であっても,損失関数やアルゴリズム自体の変更を必要とせず,大域的最適度に収束可能であることが示唆された。 重み付きデータに基づく線形回帰や一般化線形モデルといった応用における結果の意義を実証する。

Recent studies have provided both empirical and theoretical evidence illustrating that heavy tails can emerge in stochastic gradient descent (SGD) in various scenarios. Such heavy tails potentially result in iterates with diverging variance, which hinders the use of conventional convergence analysis techniques that rely on the existence of the second-order moments. In this paper, we provide convergence guarantees for SGD under a state-dependent and heavy-tailed noise with a potentially infinite variance, for a class of strongly convex objectives. In the case where the $p$-th moment of the noise exists for some $p\in [1,2)$, we first identify a condition on the Hessian, coined '$p$-positive (semi-)definiteness', that leads to an interesting interpolation between positive semi-definite matrices ($p=2$) and diagonally dominant matrices with non-negative diagonal entries ($p=1$). Under this condition, we then provide a convergence rate for the distance to the global optimum in $L^p$. Furthermore, we provide a generalized central limit theorem, which shows that the properly scaled Polyak-Ruppert averaging converges weakly to a multivariate $\alpha$-stable random vector. Our results indicate that even under heavy-tailed noise with infinite variance, SGD can converge to the global optimum without necessitating any modification neither to the loss function or to the algorithm itself, as typically required in robust statistics. We demonstrate the implications of our results to applications such as linear regression and generalized linear models subject to heavy-tailed data.
翻訳日:2021-02-23 14:45:36 公開日:2021-02-20
# エンドツーエンドニューラルネットワークによる3次元貯留層シミュレーションと適応

End-to-end neural network approach to 3D reservoir simulation and adaptation ( http://arxiv.org/abs/2102.10304v1 )

ライセンス: Link先を確認
E. Illarionov, P. Temirchev, D. Voloskov, R. Kostoev, M. Simonov, D. Pissarenko, D. Orlov and D. Koroteev(参考訳) 貯水池のシミュレーションと適応(歴史マッチングとしても知られる)は、通常別の問題と見なされる。 モデルセットは初期地質パラメータが全て知られていると仮定して前方シミュレーション問題の解を求めるが、他のモデルセットは固定前方シミュレーションモデルの下で地質パラメータを調整して生産データに適合させる。 これにより、貯水池の技術者と新しい効率的な計算手法の開発に多くの困難が生じる。 貯留層シミュレーションと適応問題に対する統一的なアプローチを提示する。 単一のニューラルネットワークモデルにより、3D貯水池モデルの初期の地質パラメータからダイナミックな状態変数へ、井戸の生産率と後方勾配の伝播をモデル入力や変数へ転送することができる。 モデルフィッティングと地質パラメータの適応は、同じニューラルネットワークモデルの特定の部分に対する最適化問題になります。 標準勾配に基づく最適化スキームは最適解を見つけるのに利用できる。 実世界の油田モデルと過去の生産率を用いて,提案手法が精度の高い貯水池シミュレーションと履歴マッチングを提供することを示す。

Reservoir simulation and adaptation (also known as history matching) are typically considered as separate problems. While a set of models are aimed at the solution of the forward simulation problem assuming all initial geological parameters are known, the other set of models adjust geological parameters under the fixed forward simulation model to fit production data. This results in many difficulties for both reservoir engineers and developers of new efficient computation schemes. We present a unified approach to reservoir simulation and adaptation problems. A single neural network model allows a forward pass from initial geological parameters of the 3D reservoir model through dynamic state variables to well's production rates and backward gradient propagation to any model inputs and variables. The model fitting and geological parameters adaptation both become the optimization problem over specific parts of the same neural network model. Standard gradient-based optimization schemes can be used to find the optimal solution. Using real-world oilfield model and historical production rates we demonstrate that the suggested approach provides accurate reservoir simulation and history matching with a benefit of several orders of magnitude simulation speed-up.
翻訳日:2021-02-23 14:42:20 公開日:2021-02-20
# Going Farがアタックトランスファービリティを向上するが、そうはならない

Going Far Boosts Attack Transferability, but Do Not Do It ( http://arxiv.org/abs/2102.10343v1 )

ライセンス: Link先を確認
Sizhe Chen, Qinghua Tao, Zhixing Ye, Xiaolin Huang(参考訳) ディープニューラルネットワーク(Deep Neural Networks、DNN)は、人間の目の元のものと知覚不能な違いを持つ敵の例(AE)によって容易にだまされ得る。 また、AEは1つの代理DNNを攻撃しないため、他のブラックボックスDNNも騙す傾向にある。 既存の研究によると、特定の最適化アルゴリズムを攻撃に適用することで転送性が向上するが、根本的な理由は十分に研究されていない。 本稿では,7つの最適化アルゴリズム,4つのサロゲート,9つのブラックボックスモデルに関する包括的な実験を行い,攻撃伝達性に対する最適化の影響を検討する。 3つの観点からの徹底的な経験的分析を通して、最適化アルゴリズムからのAEsの様々な転送性は、元のサンプルから対応するRoot Mean Square Error(RMSE)と強く関連していることがわかった。 このような理由で、RMSEが減少するまで攻撃することで高転送性にアプローチするだけで、LArge RMSE攻撃(LARA)を提案します。 LARAは転送可能性を大幅に20%改善するが、DNNの脆弱性を悪用するには不十分であり、この論文で広く使われている$\ell_\infty$boundとRMSEの両方で全ての攻撃の強度を測定するべきであるという自然な衝動を招き、転送可能性のトリッキーな向上を回避することができる。

Deep Neural Networks (DNNs) could be easily fooled by Adversarial Examples (AEs) with an imperceptible difference to original ones in human eyes. Also, the AEs from attacking one surrogate DNN tend to cheat other black-box DNNs as well, i.e., the attack transferability. Existing works reveal that adopting certain optimization algorithms in attack improves transferability, but the underlying reasons have not been thoroughly studied. In this paper, we investigate the impacts of optimization on attack transferability by comprehensive experiments concerning 7 optimization algorithms, 4 surrogates, and 9 black-box models. Through the thorough empirical analysis from three perspectives, we surprisingly find that the varied transferability of AEs from optimization algorithms is strongly related to the corresponding Root Mean Square Error (RMSE) from their original samples. On such a basis, one could simply approach high transferability by attacking until RMSE decreases, which motives us to propose a LArge RMSE Attack (LARA). Although LARA significantly improves transferability by 20%, it is insufficient to exploit the vulnerability of DNNs, leading to a natural urge that the strength of all attacks should be measured by both the widely used $\ell_\infty$ bound and the RMSE addressed in this paper, so that tricky enhancement of transferability would be avoided.
翻訳日:2021-02-23 14:42:03 公開日:2021-02-20
# 3次元非線形フォトニック結晶における量子ホログラムの逆設計

Inverse Design of Quantum Holograms in Three-Dimensional Nonlinear Photonic Crystals ( http://arxiv.org/abs/2102.10344v1 )

ライセンス: Link先を確認
Eyal Rozenberg, Aviv Karnieli, Ofir Yesharim, Sivan Trajtenberg-Mills, Daniel Freedman, Alex M. Bronstein and Ady Arie(参考訳) 構造フォトンペア間の所望の量子相関を生成するために,3次元非線形フォトニック結晶とポンプビームを設計するための体系的アプローチを提案する。 私たちのモデルは完全に微分可能で、正確で効率的な学習と新しいデザインの発見を可能にします。

We introduce a systematic approach for designing 3D nonlinear photonic crystals and pump beams for generating desired quantum correlations between structured photon-pairs. Our model is fully differentiable, allowing accurate and efficient learning and discovery of novel designs.
翻訳日:2021-02-23 14:41:38 公開日:2021-02-20
# セルフリー大規模MIMOネットワークにおけるディープラーニングに基づく電力制御

Deep Learning-based Power Control for Cell-Free Massive MIMO Networks ( http://arxiv.org/abs/2102.10366v1 )

ライセンス: Link先を確認
Nuwanthika Rajapaksha, K. B. Shashika Manosha, Nandana Rajatheva, Matti Latva-aho(参考訳) セルレス大規模マルチインプットマルチアウトプット(MIMO)システムにおいて,最大ユーザフェアネス問題を解決するためのディープラーニング(DL)ベースの電力制御アルゴリズムを提案する。 セルフリーの大規模MIMOアップリンクセットアップにおける最大分レート最適化問題を策定し、ユーザー電力配分を最適化して最小ユーザーレートを最大化します。 数学的最適化理論を用いて問題をモデル化し、反復アルゴリズムで解く代わりに、提案手法はDLを用いている。 具体的には、ディープニューラルネットワーク(DNN)をモデル化し、教師なしの方法でトレーニングし、最小ユーザ率を最大化する最適なユーザパワー割り当てを学習する。 この新しい教師なし学習に基づくアプローチは、これまで教師なし学習技術のようにモデルトレーニング中に知っておくべき最適なパワー割り当てを必要としないため、よりシンプルで柔軟なモデルトレーニングステージを持つ。 数値計算の結果,提案手法は400倍の高速化と最適化に基づくアルゴリズムに匹敵する性能向上を実現した。 オンライン学習の段階も導入され、4~6倍高速な処理でほぼ最適性能が得られる。

A deep learning (DL)-based power control algorithm that solves the max-min user fairness problem in a cell-free massive multiple-input multiple-output (MIMO) system is proposed. Max-min rate optimization problem in a cell-free massive MIMO uplink setup is formulated, where user power allocations are optimized in order to maximize the minimum user rate. Instead of modeling the problem using mathematical optimization theory, and solving it with iterative algorithms, our proposed solution approach is using DL. Specifically, we model a deep neural network (DNN) and train it in an unsupervised manner to learn the optimum user power allocations which maximize the minimum user rate. This novel unsupervised learning-based approach does not require optimal power allocations to be known during model training as in previously used supervised learning techniques, hence it has a simpler and flexible model training stage. Numerical results show that the proposed DNN achieves a performance-complexity trade-off with around 400 times faster implementation and comparable performance to the optimization-based algorithm. An online learning stage is also introduced, which results in near-optimal performance with 4-6 times faster processing.
翻訳日:2021-02-23 14:41:32 公開日:2021-02-20
# 畳み込みニューラルネットワークのためのエッジTPU加速器の評価

An Evaluation of Edge TPU Accelerators for Convolutional Neural Networks ( http://arxiv.org/abs/2102.10423v1 )

ライセンス: Link先を確認
Amir Yazdanbakhsh, Kiran Seshadri, Berkin Akin, James Laudon, Ravi Narayanaswami(参考訳) edge tpusは低消費電力のエッジデバイスのためのアクセラレータのドメインであり、コーラルやpixelなどのgoogle製品で広く使われている。 本稿では、まずエッジTPUの主要なマイクロアーキテクチャの詳細について議論する。 次に,エッジtpusの3つのクラスを広範囲に評価し,google製品に現在デプロイされている,あるいは製品パイプラインである,さまざまなコンピューティングエコシステムをカバーする。 この広範な研究に基づいて、Edge TPUの研究クラスに関する重要で解釈可能なマイクロアーキテクチャの洞察について議論します。 主に,異なる構造を持つ畳み込みニューラルネットワークにおけるエッジtpu加速器の性能について論じる。 最後に,高精度学習型機械学習モデルの開発に取り組み,待ち時間やエネルギー消費といった加速器の性能指標を推定する。 これらの学習モデルは、サイクル正確なシミュレーターの代替として、アクセラレーターの評価を(ミリ秒の順序で)大幅に高速化し、高速なハードウエア/ソフトウェア共同設計のエキサイティングな機会を確立する。

Edge TPUs are a domain of accelerators for low-power, edge devices and are widely used in various Google products such as Coral and Pixel devices. In this paper, we first discuss the major microarchitectural details of Edge TPUs. Then, we extensively evaluate three classes of Edge TPUs, covering different computing ecosystems, that are either currently deployed in Google products or are the product pipeline, across 423K unique convolutional neural networks. Building upon this extensive study, we discuss critical and interpretable microarchitectural insights about the studied classes of Edge TPUs. Mainly, we discuss how Edge TPU accelerators perform across convolutional neural networks with different structures. Finally, we present our ongoing efforts in developing high-accuracy learned machine learning models to estimate the major performance metrics of accelerators such as latency and energy consumption. These learned models enable significantly faster (in the order of milliseconds) evaluations of accelerators as an alternative to time-consuming cycle-accurate simulators and establish an exciting opportunity for rapid hard-ware/software co-design.
翻訳日:2021-02-23 14:41:13 公開日:2021-02-20
# 非干渉フェルミオン分布の効率的な学習

Efficient Learning of Non-Interacting Fermion Distributions ( http://arxiv.org/abs/2102.10458v1 )

ライセンス: Link先を確認
Scott Aaronson and Sabee Grewal(参考訳) 我々は、非相互作用フェルミオン状態の分布を計算ベースで回復する効率的な古典的アルゴリズムを与える。 相互作用しないフェルミオンと$m$モードのシステムの場合、$O(m^2 n^4 \log(m/\delta)/ \varepsilon^4)$サンプルと$O(m^4 n^4 \log(m/\delta)/ \varepsilon^4)$時間で、全変動距離$\varepsilon$の元の分布を学ぶのに十分である。 本アルゴリズムは,1モードと2モードの相関を経験的に推定し,分布全体の簡潔な記述を効率的に再構成する。

We give an efficient classical algorithm that recovers the distribution of a non-interacting fermion state over the computational basis. For a system of $n$ non-interacting fermions and $m$ modes, we show that $O(m^2 n^4 \log(m/\delta)/ \varepsilon^4)$ samples and $O(m^4 n^4 \log(m/\delta)/ \varepsilon^4)$ time are sufficient to learn the original distribution to total variation distance $\varepsilon$ with probability $1 - \delta$. Our algorithm empirically estimates the one- and two-mode correlations and uses them to reconstruct a succinct description of the entire distribution efficiently.
翻訳日:2021-02-23 14:40:53 公開日:2021-02-20
# 次世代システムにおけるシングルユーザ対話型ビームアライメントについて:ディープラーニングの視点から

On Single-User Interactive Beam Alignment in Next Generation Systems: A Deep Learning Viewpoint ( http://arxiv.org/abs/2102.10229v1 )

ライセンス: Link先を確認
Abbas Khalili and Sundeep Rangan and Elza Erkip(参考訳) ミリ波やテラヘルツなどの高周波での通信は、高い経路損失と強い影に悩まされ、信頼できるデータ伝送のためにビームフォーミングが必要です。 一方、高周波ではチャンネルは狭く、いくつかの空間クラスターで構成されています。 したがって、ビームアライメント(ba)戦略は、これらのチャネルクラスタの方向を見つけ、データ伝送に使用するビームの幅を調整するために使用される。 本研究では,チャネルが1つの支配的クラスタを持つ単一ユーザアップリンクシナリオを検討する。 ユーザが一定期間にわたって一連のbaパケットを送信すると仮定される。 一方、ベースステーション(bs)は異なるプローブビームを使用して異なる角度領域をスキャンする。 BS測定はノイズが多いため、確率1のユーザの到着角度(AoA)を含む狭いビームを見つけることはできません。 従って、BSは、割り当てられたビームの期待ビーム幅を最小化しつつ、ユーザのAoAを含むユーザに対して所定のエラー確率で狭ビームを割り当てる。 このノイズの少ないba問題の難解性から,この問題をディープニューラルネットワーク(dnn)のエンドツーエンド最適化として提案し,異なる損失関数の影響について検討した。 提案したDNNベースBAは、高SNRにおいて、ノイズのないときやすべてのSNRに対して、最適BAに近い性能を達成し、最先端性能を上回ることが観察された。

Communication in high frequencies such as millimeter wave and terahertz suffer from high path-loss and intense shadowing which necessitates beamforming for reliable data transmission. On the other hand, at high frequencies the channels are sparse and consist of few spatial clusters. Therefore, beam alignment (BA) strategies are used to find the direction of these channel clusters and adjust the width of the beam used for data transmission. In this work, a single-user uplink scenario where the channel has one dominant cluster is considered. It is assumed that the user transmits a set of BA packets over a fixed duration. Meanwhile, the base-station (BS) uses different probing beams to scan different angular regions. Since the BS measurements are noisy, it is not possible to find a narrow beam that includes the angle of arrival (AoA) of the user with probability one. Therefore, the BS allocates a narrow beam to the user which includes the AoA of the user with a predetermined error probability while minimizing the expected beamwidth of the allocated beam. Due to intractability of this noisy BA problem, here this problem is posed as an end-to-end optimization of a deep neural network (DNN) and effects of different loss functions are discussed and investigated. It is observed that the proposed DNN based BA, at high SNRs, achieves a performance close to that of the optimal BA when there is no-noise and for all SNRs, outperforms state-of-the-art.
翻訳日:2021-02-23 14:35:04 公開日:2021-02-20
# nasaトランジット系外惑星サーベイ衛星(tess)データにおけるトランジット系外惑星候補の機械学習による自動同定

Automated identification of transiting exoplanet candidates in NASA Transiting Exoplanets Survey Satellite (TESS) data with machine learning methods ( http://arxiv.org/abs/2102.10326v1 )

ライセンス: Link先を確認
Leon Ofman, Amir Averbuch, Adi Shliselberg, Idan Benaun, David Segev, Aron Rissman(参考訳) 機械学習(ML)手法を用いた新しい人工知能(AI)技術は、ThetaRay, Inc.によって開発されたいくつかのアルゴリズムを組み合わせて、NASAのトランジット太陽系外惑星探査衛星(TESS)データセットに適用され、外惑星候補を特定する。 AI/ML ThetaRayシステムは、最初にケプラー外惑星データで訓練され、TESSデータに適用する前に確認された外惑星で検証されます。 さまざまな観測パラメータに基づく既存および新機能は、半監視および非監視の機械学習技術を用いてAI/ML分析に構築され、使用されます。 宇宙望遠鏡のミクルスキアーカイブから得られたTESSミッションによって生成される10,803光曲線のしきい値交差イベント(TCE)へのThetaRayシステムの適用により、39の新しい太陽系外惑星候補(EPC)ターゲットを発見しました。 この研究は、EPCの迅速な自動分類のための大規模な天体物理データセットへの複数のAI/MLベースの方法論の組み合わせの成功した適用を初めて実証する。

A novel artificial intelligence (AI) technique that uses machine learning (ML) methodologies combines several algorithms, which were developed by ThetaRay, Inc., is applied to NASA's Transiting Exoplanets Survey Satellite (TESS) dataset to identify exoplanetary candidates. The AI/ML ThetaRay system is trained initially with Kepler exoplanetary data and validated with confirmed exoplanets before its application to TESS data. Existing and new features of the data, based on various observational parameters, are constructed and used in the AI/ML analysis by employing semi-supervised and unsupervised machine learning techniques. By the application of ThetaRay system to 10,803 light curves of threshold crossing events (TCEs) produced by the TESS mission, obtained from the Mikulski Archive for Space Telescopes, we uncover 39 new exoplanetary candidates (EPC) targets. This study demonstrates for the first time the successful application of combined multiple AI/ML-based methodologies to a large astrophysical dataset for rapid automated classification of EPCs.
翻訳日:2021-02-23 14:34:43 公開日:2021-02-20
# (参考訳) vision-aided 6g wireless communications: blockage predictionとproactive handoff

Vision-Aided 6G Wireless Communications: Blockage Prediction and Proactive Handoff ( http://arxiv.org/abs/2102.09527v2 )

ライセンス: CC BY 4.0
Gouranga Charan, Muhammad Alrabeiah, and Ahmed Alkhateeb(参考訳) 遮断に対する感度は、高周波(5Gミリ波と6Gサブテラヘルツ)無線ネットワークにとって重要な課題です。 これらのネットワークは主にLOSリンクに依存しているため、突然のリンクブロックはネットワークの信頼性を脅かす。 さらに、LOSリンクがブロックされた場合、ネットワークは通常、ユーザを別のLOSベースステーションに渡す必要がある。 信頼性とレイテンシの課題に取り組む有望な方法は、無線ネットワークのプロアクションを可能にすることだ。 proactionは基本的に、ネットワークがブロック、特に動的ブロックを予測し、事前にユーザのハンドオフを開始することができる。 本論文では,基地局に設置されたRGBカメラの映像データを活用した無線ネットワークにおけるプロアクションを実現するための完全な機械学習フレームワークを提案する。 そこで本論文では,バイモーダルマシンラーニングを用いた視覚支援型無線通信ソリューションを提案し,アクティブブロッキング予測とユーザハンドオフを行う。 このソリューションの基礎は、視覚的および無線的データから受信する閉塞を予測する方法を学ぶディープラーニングアルゴリズムです。 このアルゴリズムの予測は無線ネットワークによって積極的にハンドオフ決定を開始し、不要な遅延を回避するために使用される。 このアルゴリズムは、ViWiデータ生成フレームワークを用いて生成されたビジョンワイヤレスデータセットに基づいて開発されている。 異なるカメラを持つ2つの基地局での実験結果は、アルゴリズムが正確に入ってくるブロックを90ドル以上正確に検出できることを示している。 このような閉塞予測能力は、プロアクティブハンドオフの精度に直接反映され、これはまた$87\%$に近づきます。 これは将来の無線ネットワークにおいて高い信頼性と低レイテンシを実現する、有望な方向を強調している。

The sensitivity to blockages is a key challenge for the high-frequency (5G millimeter wave and 6G sub-terahertz) wireless networks. Since these networks mainly rely on line-of-sight (LOS) links, sudden link blockages highly threaten the reliability of the networks. Further, when the LOS link is blocked, the network typically needs to hand off the user to another LOS basestation, which may incur critical time latency, especially if a search over a large codebook of narrow beams is needed. A promising way to tackle the reliability and latency challenges lies in enabling proaction in wireless networks. Proaction basically allows the network to anticipate blockages, especially dynamic blockages, and initiate user hand-off beforehand. This paper presents a complete machine learning framework for enabling proaction in wireless networks relying on visual data captured, for example, by RGB cameras deployed at the base stations. In particular, the paper proposes a vision-aided wireless communication solution that utilizes bimodal machine learning to perform proactive blockage prediction and user hand-off. The bedrock of this solution is a deep learning algorithm that learns from visual and wireless data how to predict incoming blockages. The predictions of this algorithm are used by the wireless network to proactively initiate hand-off decisions and avoid any unnecessary latency. The algorithm is developed on a vision-wireless dataset generated using the ViWi data-generation framework. Experimental results on two basestations with different cameras indicate that the algorithm is capable of accurately detecting incoming blockages more than $\sim 90\%$ of the time. Such blockage prediction ability is directly reflected in the accuracy of proactive hand-off, which also approaches $87\%$. This highlights a promising direction for enabling high reliability and low latency in future wireless networks.
翻訳日:2021-02-23 12:56:02 公開日:2021-02-20
# クロックワーク変動オートエンコーダ

Clockwork Variational Autoencoders ( http://arxiv.org/abs/2102.09532v2 )

ライセンス: Link先を確認
Vaibhav Saxena, Jimmy Ba, Danijar Hafner(参考訳) ディープラーニングにより、アルゴリズムは現実的な画像を生成することができる。 しかし、長いビデオシーケンスを正確に予測するには、長期的な依存関係を理解する必要がある。 既存のビデオ予測モデルはシャープな画像を生成するのに成功するが、未来まで正確に予測できない傾向にある。 Clockwork VAE (CW-VAE) は遅延列の階層構造を利用したビデオ予測モデルであり、高いレベルが遅い間隔でダクトされる。 CW-VAEは、最大1000フレームのシーケンスを持つ4つの多様なビデオ予測データセットにおいて、階層的遅延と時間的抽象化の両方の利点を示す。 さらに,長期ビデオ予測のためのMinecraftベンチマークを提案する。 我々はcw-vaeに関する洞察を得るためにいくつかの実験を行い、より遅いレベルがビデオでよりゆっくり変化するオブジェクトを表現することを学び、より速いレベルがより速いオブジェクトを表すことを学ぶ。

Deep learning has enabled algorithms to generate realistic images. However, accurately predicting long video sequences requires understanding long-term dependencies and remains an open challenge. While existing video prediction models succeed at generating sharp images, they tend to fail at accurately predicting far into the future. We introduce the Clockwork VAE (CW-VAE), a video prediction model that leverages a hierarchy of latent sequences, where higher levels tick at slower intervals. We demonstrate the benefits of both hierarchical latents and temporal abstraction on 4 diverse video prediction datasets with sequences of up to 1000 frames, where CW-VAE outperforms top video prediction models. Additionally, we propose a Minecraft benchmark for long-term video prediction. We conduct several experiments to gain insights into CW-VAE and confirm that slower levels learn to represent objects that change more slowly in the video, and faster levels learn to represent faster objects.
翻訳日:2021-02-23 11:33:43 公開日:2021-02-20